Python3 爬取小猪短租出错

Question

Python3 爬取小猪短租出错

发布于
2018-03-30

刚接触python，按照 https://blog.csdn.net/mtbaby/...
想爬取小猪短租信息，但之后IP被封。
于是看起了代理ip的问题，但是仍无法获得信息

import requests
from lxml import etree
import time
proxies = {
    'http': 'http://61.135.217.7:80',
}
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
url = 'http://hz.xiaozhu.com/'
headers = {'User-Agent': user_agent}
data = requests.get(url, headers=headers, proxies=proxies).text
h = etree.HTML(data)
home = h.xpath('//*[@id="page_list"]/ul/li')
time.sleep(2)
for div in home:
    title = h.xpath('./div[2]/div/a/span/text()')[0]  # 标题
    price = h.xpath('./div[2]/span[1]/i/text()')[0]  # 价格
    print("{}-->{}}".format(title, price))

运行结果如下
图片描述
希望能够帮忙解决，不胜感激!

python 网页爬虫

阅读 11.4k

1 个回答

prolifes

✓ 已被采纳

并不是每个代理IP都有效，你要先确认代理是否有效再去使用

import requests
from pyquery import PyQuery as Q

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
proxies = {
    "http": "http://103.235.245.35:8080"
}

r = requests.get('http://hz.xiaozhu.com/', headers=headers, proxies=proxies)
for _ in Q(r.text)('#page_list li'):
    title = Q(_).find('.result_title').text()
    price = Q(_).find('.result_price').text()

    print title, price

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python3 爬取小猪短租出错

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？