python3爬虫正则表达式卡顿

发布于
2016-10-04

python3初学者，练习使用爬虫抓取网页，随机找了个小说网站抓取，抓取html源代码没有问题，但是使用正则表达式，出现抓取数据后直接卡死，请问如何调试？

import urllib.request
import re

url = 'http://book.669977.net/xiuxiankuangtu/chapter.html'

response = urllib.request.urlopen(url)
html = response.read().decode('gbk')

url_number = re.findall('href="(/\w{5,20}/\d{3,8})',html)
print(url_number)

抓取图片

python 网页爬虫卡死

阅读 4.8k

2 个回答

同意并接受

✓ 已被采纳

print(url_number[:10])
改成这样，只显示前10个数据。

这是 idle 的bug，要显示太多字符时，会卡死。
它似乎将所有的字符都当成python代码，试图格式化显示它们。

公子孟尝

696110

发布于
2016-10-04

你print的数据太大，你把你print去掉试试。
任何一门的语言输出都是一样的，输出的数据量太大都会有可能造成卡顿。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python3爬虫正则表达式卡顿

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？