在实际scrapy项目中，使用xpath，是始终使用框架自带的xpath还是也会根据情况，使用etree.HTML重新实例化呢?

发布于
2019-02-20

由于爬取目标网站时，get数据返回的是一个json格式的结构，要对子字段中的html字符串进行xpath解析，这时不能使用response.xpath（或者说是有别的方式，我不知道..），而是对response.text的下面的子字段进行解析，此时只能重新实例化xpath，想问下这个在实际项目中算是正确的处理方式吗？

python 网页爬虫 scrapy

阅读 3.6k

2 个回答

✓ 已被采纳

一般来说, scrapy 自带的 xpath 和 css 选择器已经足够, 不需要其他的 html/xhtml 解析器了, 例如 etree 或 bs4.

对于 json 内容, 可以直接调用 json.loads() 进行解析, 如

js = json.loads(response.body_as_unicode())
js['xxx']

将来 scrapy 也可能会自带 .json() 方法(与 requests 库类似).

参考

https://docs.scrapy.org/en/la...
https://github.com/scrapy/scr...

dodopy

2.4k1218

发布于
2019-02-20

更新于
2019-02-20

json获取的html片段可以用scrapy.selector下的Selector构造实例, 用xpath和css选择器解析

>>> from scrapy.selector import Selector
>>> body = '<html><body><span>good</span></body></html>'
>>> Selector(text=body).xpath('//span/text()').get()
'good'

还可以使用BeautifulSoup, lxml, pyquery等库搭配使用.

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

在实际scrapy项目中，使用xpath，是始终使用框架自带的xpath还是也会根据情况，使用etree.HTML重新实例化呢?

参考

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

在实际scrapy项目中，使用xpath，是始终使用框架自带的xpath还是也会根据情况，使用etree.HTML重新实例化呢?

参考

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？