python的lxml.etree和headers在一起碰到的奇怪问题

Question

python的lxml.etree和headers在一起碰到的奇怪问题

Jork

31

发布于
2018-03-16

新手上路，请多包涵

1.问题： loadPage 函数里面的request如果写上headers，那么link_list就会为空，反之正常，为什么？

coding=utf-8

import urllib
import urllib2
from lxml import etree

def loadPage(url):

"""
作用：根据URL发送请求，获取服务器响应文件

"""
print("正在下载")
ua_headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'
}
request = urllib2.Request(url)
response = urllib2.urlopen(request)
html = response.read()
content = etree.HTML(html)
link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
for link in link_list:
    fulllink = "http://tieba.baidu.com"+link
    loadImage(fulllink)

def loadImage(link):

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"
}
request = urllib2.Request(link, headers=headers)
html = urllib2.urlopen(request).read()
content = etree.HTML(html)
link_list = content.xpath('//img[@class="BDE_Image"]/@src')
print link_list
for link in link_list:
    writeImage(link)

def writeImage(link):

"""
作用：将图片文件保存文件写入到 本地

"""
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"
}
reques = urllib2.Request(link, headers=headers)
image = urllib2.urlopen(reques).read()
filename = link[-10:]
print("正在下载"+filename)
with open(filename, 'wb')as f:
    f.write(image)

def tiebaSpider(url,bginpage,endpage):

"""

"""
for page in range(beginpage,endpage+1):
    pn = (page-1)*50
    fullurl = url+"&pn="+str(pn)
    print(fullurl)
    loadPage(fullurl)

if __name__=="__main__":

kw = raw_input("请输入需要爬去的贴吧名：")
beginpage = input("请输入起始页：")
endpage=input("请输入结束页：")
url="http://tieba.baidu.com/f?"
key=urllib.urlencode({"kw":kw})
fullurl=url+key
tiebaSpider(fullurl, beginpage, endpage)

python

阅读 1.2k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python的lxml.etree和headers在一起碰到的奇怪问题

coding=utf-8

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？