Requests爬取不到自己想要的网页代码。

发布于
2015-07-16

在学习python爬虫过程中
想练习爬取该网站：http://www.topit.me/的图片

可是当初次访问该网站时
网页会显示该页面:http://www.topit.me/event/warmup/welcome/views/index.html
所以每次都获取不到我想要的HTML代码

该怎么解决呢？谢谢！代码如下：

import re,requests
Topit_headers={'User-Agent':'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36'}

Topit_Html=requests.get('http://www.topit.me/',headers=Topit_headers)
Pic_url=re.findall('src="(.*?)" style',Topit_Html.text,re.S)

print Topit_Html.cookies

python python爬虫 requests

阅读 7.5k

3 个回答

DiffTT

✓ 已被采纳

初次访问主页，会跳转至欢迎页面，欢迎页上有 [进入网页版本] 的按钮，之后就不会再跳转了，说明按钮上有个操作设定了是否跳转的标识，查看源代码可知，设置了一个 cookie 作为标识

$.cookie('is_click' , '1',{expires: 100,path:'/',domain:'topit.me'});

所以在访问主页的时候，带上这个 cookie 即可

curl 'http://www.topit.me/' -H 'Cookie: is_click=1;'

maijver

19658

发布于
2015-07-17

Topit_headers里添加Cookie

me大华

321

发布于
2015-07-30

'src="(.*?)" style' 源码没有这些内容，匹配不到的吧

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Requests爬取不到自己想要的网页代码。

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？