Python爬取拉勾网爬取几页后就开始报错

引入requests、bs4、fake_useragent，爬取网页时爬取几页就开始在get_content()报错。如果设置的页码是1-10，可以爬取到1-6页的数据；如果设置的页码是8-15，可以爬取到8-12的数据。

def download_page(url):
    try:
        headers = {'User-Agent':UserAgent().random}
        r = requests.get(url, headers=headers,timeout=5)
        r.raise_for_status()
        return r.text
    except:
        print("download_page错误")

def get_content(html, page):
    try:
        output = """第{}页 \n 公司{} \n 工资{} 工作地址{} --------------------------------\n"""
        soup = BeautifulSoup(html, 'html.parser')
        page = str(page)

        con = soup.find('div', class_='s_position_list')
        con_list = con.find('ul', class_='item_con_list').find_all('li', class_='con_list_item')
        print(con_list)
        for i in con_list:
            company = i.find('div', class_='company_name').find('a').string
            money = i.find('span', class_='money').string
            address = i.find('span', class_='add').get_text()

            save_txt(output.format(page, company, money, address))
    except:
        print('get-content错误')

爬取的部分内容如下.txt格式

爬取过于频繁会错误，但过会儿又可以进行爬取，请问如何解决

阅读 3.2k

Python爬取拉勾网爬取几页后就开始报错

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？