python正则表达式中要匹配汉字怎么弄

想写可正则表达式抓取url
目标地址如下

原文链接：<a href="http://www.darkreading.com">

请问这样的怎么写？？主要是汉字不会处理
目前想用 m1=re.findall('正则',t1) 这种方法写求指点

python

阅读 10.4k

6 个回答

manong

>>> import re
>>> pattern = re.compile(r'^\u539f\u6587\u94fe\u63a5\uff1a<a href=\"(http:\/\/.*)\">$')
>>> match = pattern.match('原文链接：<a href="http://www.darkreading.com">')
>>> match.group(1)
'http://www.darkreading.com'

ultimt

22125

发布于
2016-08-19

小提示，py2的话，可以用字符串前缀 u''
如: ur'原文链接：<a href="(.*?)">'

Rookie_Zoe

118115

发布于
2016-08-19

我写 js 的，正则的话，可以匹配 u... 这种汉字码，有个范围，u4e00-u9fa5 是简体好像。。。

fiveddd

442

发布于
2016-08-19

要考虑你抓下的网页是用什么编码实现的

zengfanrong

16516

发布于
2016-08-19

希望这是你想要的答案：
图片描述

同意并接受

7.2k21127

发布于
2016-08-19

import re
s='原文链接：<a href="http://www.darkreading.com">'
ptn = re.compile('原文链接[^<]*?<a[^>]*?href="([^"]*)')
print(ptn.findall(s))

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python正则表达式中要匹配汉字怎么弄

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

python正则表达式中要匹配汉字怎么弄

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？