对知乎某问题的答案进行爬冲,其每个答案的源码包含在<div class='List-item'>里面,有多个div标签,但我只能爬取到前两个的div标签,请教一下这是为什么?
这是网页源码部分
这是爬取的代码
这是输出的结果
请知道的大神指点一二,谢谢!
对知乎某问题的答案进行爬冲,其每个答案的源码包含在<div class='List-item'>里面,有多个div标签,但我只能爬取到前两个的div标签,请教一下这是为什么?
这是网页源码部分
这是爬取的代码
这是输出的结果
请知道的大神指点一二,谢谢!
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答979 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
从你上面的截图来看,应该是点击了下面的 查看全部xxx个回答,页面通过 ajax 请求拿到了新的数据。
程序去下载的网页的时候只会拿到最原始的页面,默认只有两个 List-item , 你可以通过网络请求把页面下载下来,在编辑器中打开,看看里面的 div 的个数。