用python如何爬取网页的canvas元素(据说可以保存为图片再爬取)

前段时间写个爬虫玩,
要实时爬取从三个主要门进入卢浮宫所需要的时间, (就是下图的那几个"5min")
clipboard.png]
我本以为是个十分简单的 p 元素,
结果,
结果,
结果是个canvas元素,
我: ?????
爬了这么些时间,
第一次碰见爬这玩意的,
用某度搜了N久,
无果,
求大佬指点,
爬取网址:神奇的卢浮宫
附上其Xpath:

/html/body/div[1]/div[2]/div[2]/canvas
阅读 16.2k
2 个回答

无头浏览器+截图吧 这种方案应该是可以的

编辑一下

看了一下

https://webapi.affluences.com/api/waitingTime?token=5aFsg49pHOEQBH&callback=callback_8&uuid=5b17d545-a61a-496d-8d43-b6593f03e213

这是他的状态访问API 用的JSONP token来自于你那一个Canvas父元素元素上的data-token。

想看这请求的具体内容自己去网络面板看吧

splash
Phantompy
https://github.com/dhamaniasa...


像你说的这种需求,需要你了解一些前端知识,去获取到canvas中显示的5min的数据来源(比如ajax或服务端渲染把原始数据写在网页中)

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题