为什么Beautifulsoup解析出来的文本比真实网页文本少?

图片描述

图片描述

图一是用Beautifulsoup直接解析出来的soup(没有经过筛选)
图二是真实网页的代码
各种解析器我都试过了,还是没能解决解析缩水的问题。

阅读 4.6k
4 个回答

估计Ajax动态加载的,看network是否有Ajax请求
或者使用selenium phantomjs 抓取

js动态加载的吧

bs只是用来解析html/xml代码。
在你获取网页内容时没获取到js动态加载的内容(比如document.write啥的),用什么解析器都一样。
可以试下一些动态爬虫工具,常见的有selenium,
还有dryscrape,我个人比较喜欢ghost.py

动态网页的话是搞不定的

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题