图一是用Beautifulsoup直接解析出来的soup(没有经过筛选)
图二是真实网页的代码
各种解析器我都试过了,还是没能解决解析缩水的问题。
图一是用Beautifulsoup直接解析出来的soup(没有经过筛选)
图二是真实网页的代码
各种解析器我都试过了,还是没能解决解析缩水的问题。
bs只是用来解析html/xml代码。
在你获取网页内容时没获取到js动态加载的内容(比如document.write啥的),用什么解析器都一样。
可以试下一些动态爬虫工具,常见的有selenium
,
还有dryscrape
,我个人比较喜欢ghost.py
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
估计Ajax动态加载的,看
network
是否有Ajax
请求或者使用
selenium phantomjs
抓取