Python爬虫看到这个Javascript，如何从中找到我需要的URL？

Question

Python爬虫看到这个Javascript，如何从中找到我需要的URL？

20147

发布于
2017-03-23

更新于
2017-03-23

想下载http://www.manhuatai.com/doupocangqiong/191.html里面的图片。
看到这个，因为不会javascript，所以不懂imgpath的value那串E&3G&F7&:7&:8&F8&B1&C5&F9&9C&9E&F8&B:&C:&3G2:2&F9&BG&:ETN&3G是什么意思，其中有几话我发现是直接http://mhpic.zymk.cn/comic/+value+页数+.jpg-mht.middle就能得到图片的url，但是还有很多都不能这样来获取。

<script>var mh_info={imgpath:"E&3G&F7&:7&:8&F8&B1&C5&F9&9C&9E&F8&B:&C:&3G2:2&F9&BG&:ETN&3G",startimg:1,totalimg:21,mhid:"doupocangqiong",mhname:"斗破苍穹",pageid:1292901,pagename:"第191话 魔炎高手",pageurl:"191",readmode:1,maxpreload:5,defaultminline:1,domain:"zymk.cn",comic_size:"-mht.middle"};</script>

而我需要的url是http://mhpic.zymk.cn/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%2F191%E8%AF%9DSM%2F1.jpg-mht.middle

网页爬虫 requests

python javascript

阅读 4.5k

1 个回答

得票最新

sheep3

9971412

发布于
2017-03-23

✓ 已被采纳

使用selenium就可以很容易做到这件事情

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.manhuatai.com/doupocangqiong/191.html')
img=browser.find_element_by_xpath('//img[@data-bd-imgshare-binded="1"]')
print img.get_attribute('src')
# 即打印出:
# http://mhpic.zymk.cn/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%2F191%E8%AF%9DSM%2F1.jpg-mht.middle

关于selenium可以看看Python爬虫利器五之Selenium的用法

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python爬虫看到这个Javascript，如何从中找到我需要的URL？

你尚未登录，登录后可以

js 如何将Key属性相同的放在同一个数组？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

Next.js做纯前端是否可行？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

git提交记录问题？