图一是用Beautifulsoup直接解析出来的soup(没有经过筛选)
图二是真实网页的代码
各种解析器我都试过了,还是没能解决解析缩水的问题。
图一是用Beautifulsoup直接解析出来的soup(没有经过筛选)
图二是真实网页的代码
各种解析器我都试过了,还是没能解决解析缩水的问题。
bs只是用来解析html/xml代码。
在你获取网页内容时没获取到js动态加载的内容(比如document.write啥的),用什么解析器都一样。
可以试下一些动态爬虫工具,常见的有selenium
,
还有dryscrape
,我个人比较喜欢ghost.py
4 回答4.5k 阅读✓ 已解决
1 回答3.3k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
估计Ajax动态加载的,看
network
是否有Ajax
请求或者使用
selenium phantomjs
抓取