import requests
import re
content = requests.get('https://book.douban.com/').text
pattern=re.compile('<li.*?"cover".*?href=(.*?)title=(.*?).*"author">(.*?)</div>.*"year">(.*?)</span></li>',re.S)
results = re.findall(pattern, content)
for result in results:
url, name, author, date = result
author = re.sub('\s', '', author)
date = re.sub('\s', '', date)
print(url, name, author, date)
无响应,大家能告诉我什么原因吗?谢谢啦。
.*太多了,算法的时间太长
而且时间复杂度非线性 5000长度,3~4秒 134383长度,估计你跑一天能出来
建议分步正则,一次最好不要超过两个.*,一步一步匹配出你要的结果