0

对知乎某问题的答案进行爬冲,其每个答案的源码包含在<div class='List-item'>里面,有多个div标签,但我只能爬取到前两个的div标签,请教一下这是为什么?
这是网页源码部分

这是爬取的代码

这是输出的结果

请知道的大神指点一二,谢谢!

查看全部 6 个回答

0

建议关闭浏览器javascript功能然后查看源代码。

推荐答案

0

已采纳

从你上面的截图来看,应该是点击了下面的 查看全部xxx个回答,页面通过 ajax 请求拿到了新的数据。
程序去下载的网页的时候只会拿到最原始的页面,默认只有两个 List-item , 你可以通过网络请求把页面下载下来,在编辑器中打开,看看里面的 div 的个数。