python正则表达式中要匹配汉字怎么弄

想写可正则表达式抓取url
目标地址如下

原文链接:<a href="http://www.darkreading.com">

请问这样的怎么写?? 主要是汉字不会处理
目前想用 m1=re.findall('正则',t1) 这种方法写 求指点

阅读 10k
6 个回答
>>> import re
>>> pattern = re.compile(r'^\u539f\u6587\u94fe\u63a5\uff1a<a href=\"(http:\/\/.*)\">$')
>>> match = pattern.match('原文链接:<a href="http://www.darkreading.com">')
>>> match.group(1)
'http://www.darkreading.com'

小提示,py2的话,可以用字符串前缀 u''
如: ur'原文链接:<a href="(.*?)">'

我写 js 的,正则的话,可以匹配 u... 这种汉字码,有个范围,u4e00-u9fa5 是简体好像。。。

要考虑你抓下的网页是用什么编码实现的

希望这是你想要的答案:
图片描述

import re
s='原文链接:<a href="http://www.darkreading.com">'
ptn = re.compile('原文链接[^<]*?<a[^>]*?href="([^"]*)')
print(ptn.findall(s))
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏