模仿b站做了一个网页爬虫，但是运行错误，不知道是哪里出错了。

vesper

114

新手上路，请多包涵

代码如下：

import requests
import re

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 1000)
        r.raise_for_status()
        r.encoding = r.apparent.encoding
        return r.text
    except: 
        return ''

def parsePage(ilt, html):
    try:
        llt = re.findall(r'\"title\"\:\".*?\"',html)
        plt = re.findall(r'\"initialPrice\"\:\"[\d\.]*\"',html)
        for i in range (len(plt)) :
            location = eval(llt[i].split(':')[1])
            price = eval(plt[i].split(':')[1])
            ilt.append([location, price])
    except:
        print('')

def printGoodsList(ilt):
    tlpt = '{:4}\t{:20}\t{:8}'
    print(tlpt.format('序号','房子','价格'))
    count = 0
    for g in ilt:
        count = count + 1
        print(tlpt.format(count,g[0],g[1]))
  
def main():
    depth = 30
    start_url = 'https://sf.taobao.com/list/50025969__1___%BA%BC%D6%DD.htm?spm=a213w.7398504.pagination.1.Hn2fOe&auction_start_seg=-1'
    infoList = []
    for i in range(2,1,depth):
        try:
            url = start_url + '&page=' + str(i)
            html = getHTMLText(url)
            parsePage(infoList, html)
        except:
            continue
    printGoodsList(infoList)

main( )

运行结果如下图
图片描述

python 网页爬虫

阅读 3.1k

3 个回答

主要是两个原因：
一是你生成http请求的时候，没有http header，你根本没有抓到页面
二是这个网页是通过js动态生成的，你要拿到数据必须根据js代码来看他怎么写的数据接口

zhangxiang

442

发布于
2017-12-15

注意正则的*号，看图片

import requests
import re
def text():

for a in range(1,13):
    url = 'https://sf.taobao.com/list/50025969__1___%BA%BC%D6%DD.htm?spm=a213w.7398504.pagination.3.W9af3L&auction_start_seg=-1&page='+str(a)
    html = requests.get(url).text
    ids = re.findall('"id":(.*?),"itemUrl"',html)
    names = re.findall('"title":"(.*?)"',html)
    prices = re.findall('"initialPrice": (.*?) ,"currentPrice"',html)
    find = zip(ids,names,prices)
    for txt in find:
        print(txt)

if name == '__main__':

print('\t\t\t序号\t\t\t','\t\t\t\t\t地点\t\t\t','\t\t\t\t\t\t价格')
text()

图片描述

风笑云

发布于
2017-12-15

新手上路，请多包涵

页面我没看，从代码上说：
def main():

depth = 30
start_url = 'https://sf.taobao.com/list/50025969__1___%BA%BC%D6%DD.htm?spm=a213w.7398504.pagination.1.Hn2fOe&auction_start_seg=-1'
infoList = []
for i in range(2,1,depth):
    try:
        url = start_url + '&page=' + str(i)
        html = getHTMLText(url)
        parsePage(infoList, html)
    except:
        continue
printGoodsList(infoList)

中的range区间写的有问题

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

模仿b站做了一个网页爬虫，但是运行错误，不知道是哪里出错了。

注意正则的*号，看图片

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？