本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长


+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

使用 Requests-HTML (Requests-HTML, Python) 抓取 <h4> 下的文本

发布于2023-06-15 20:54     阅读(463)     评论(0)     点赞(13)     收藏(0)


我正在尝试提取 cpu 的套接字类型,如下图所示我已经确定套接字类型位于<h4>Socket 标题下,如下所示。

到目前为止,我已经能够抓取.spec.block并找到所有<h4>'s嵌套在里面的东西。但是我无法获取每个标题下的文字

这是我的代码

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://au.pcpartpicker.com/product/' + jLF48d)
about = r.html.find('.specs.block')[0]
about = about.find('h4')

print(about.text)

这打印

 [ <Element 'h4' >, <Element 'h4' >, <Element 'h4' >, <Element 'h4' >,
 <Element 'h4' >, <Element 'h4' >, <Element 'h4' >, <Element 'h4' >,
 <Element 'h4' >, <Element 'h4' >, <Element 'h4' >]

但是,当我将打印语句更改为:

print(about.text)

我收到以下错误:

AttributeError:“列表”对象没有属性“文本”

更新:

print(about[0].text)

此代码打印:

制造商 AMD 这是第一个标题和文本,但我需要第 4 个

知道我可以使用什么代码来达到预期的结果吗?

如果您需要更多信息,请告诉我。


解决方案


替换:print(about[0].text)

print(about[3].text)

正如我上面问题中的代码所见,为我解决了问题!




所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:http://www.qianduanheidong.com/blog/article/528874/dd1b571dab1c6442086b/

来源:前端黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

13 0
收藏该文
已收藏

评论内容:(最多支持255个字符)