python正则爬虫无响应

发布于
2018-03-20

import requests
import re

content = requests.get('https://book.douban.com/').text
pattern=re.compile('<li.*?"cover".*?href=(.*?)title=(.*?).*"author">(.*?)</div>.*"year">(.*?)</span></li>',re.S)
results = re.findall(pattern, content)
for result in results:
    url, name, author, date = result
    author = re.sub('\s', '', author)
    date = re.sub('\s', '', date)
    print(url, name, author, date)

无响应，大家能告诉我什么原因吗？谢谢啦。

python 正则表达式网页爬虫

阅读 3.3k

3 个回答

剑心无痕

✓ 已被采纳

.*太多了，算法的时间太长

result = re.findall(pattern, content[15000:20000]) # 这个都是秒级的了，何况content长度134383

而且时间复杂度非线性 5000长度，3~4秒 134383长度，估计你跑一天能出来

建议分步正则，一次最好不要超过两个.*，一步一步匹配出你要的结果

linuxlife

48816

发布于
2018-03-20

我觉得你要是想爬些数据的话，还是不要这么爬了，另外豆瓣有api的。

冬瓜真瓜

1437

发布于
2018-03-20

我觉得还是正则表达式太复杂了，你试试BeautifulSoup吧

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python正则爬虫无响应

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？