网络爬虫,需要抓取的内容不在源代码中,网页中点击右键另存为可以看到需要抓取的内容。

diuxie
  • 1
新手上路,请多包涵

F12,network/XHR,中显示的各个URL,对应的response也看不到我要的内容。

初始网址是:http://www.sangpi.com/,
我需要的信息就会出现在下方。
image.png
image.png

但是在XHR中的所有URL中,找不到我想要的内容。
在网页源代码中,没有显示完整。如下图,要提取的内容为下划线部分。
image.png

回复
阅读 600
2 个回答

我怀疑你在骗我们点击啊。你贴的地址和你的网页没关系。

你这个语法看上去 angular 的。前端这点东西,不是写死的,就是ajax,如果你说ajax一定没有,那么肯定在js文件里面

简单点,直接headless抓算了.

npm i puppeteer

const puppeteer = require('puppeteer')

async function main() {
  const browser = await puppeteer.launch({ headless: true})
  const page = await browser.newPage()
  // 这里可以加个延时,等到页面渲染完
  await page.goto('https://xxx.com')
  // 直接拿到dom,爱咋样咋样
  const el = await page.$('#xxx')
}
你知道吗?

宣传栏