前段时间写个爬虫玩,
要实时爬取从三个主要门进入卢浮宫所需要的时间, (就是下图的那几个"5min")]
我本以为是个十分简单的 p 元素,
结果,
结果,
结果是个canvas元素,
我: ?????
爬了这么些时间,
第一次碰见爬这玩意的,
用某度搜了N久,
无果,
求大佬指点,
爬取网址:神奇的卢浮宫
附上其Xpath:
/html/body/div[1]/div[2]/div[2]/canvas
前段时间写个爬虫玩,
要实时爬取从三个主要门进入卢浮宫所需要的时间, (就是下图的那几个"5min")]
我本以为是个十分简单的 p 元素,
结果,
结果,
结果是个canvas元素,
我: ?????
爬了这么些时间,
第一次碰见爬这玩意的,
用某度搜了N久,
无果,
求大佬指点,
爬取网址:神奇的卢浮宫
附上其Xpath:
/html/body/div[1]/div[2]/div[2]/canvas
splash
Phantompy
https://github.com/dhamaniasa...
像你说的这种需求,需要你了解一些前端知识,去获取到canvas中显示的5min的数据来源(比如ajax或服务端渲染把原始数据写在网页中)
10 回答11.2k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.7k 阅读✓ 已解决
3 回答4.8k 阅读✓ 已解决
3 回答1.9k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
无头浏览器+截图吧 这种方案应该是可以的
编辑一下
看了一下
这是他的状态访问API 用的JSONP token来自于你那一个Canvas父元素元素上的data-token。
想看这请求的具体内容自己去网络面板看吧