用python的beautifulsoup提取xml文件标签,想用正则表达式匹配两个条件,比如
<test>
<a>111</a>
<c>123</c>
</test>
<test>
<b>222</b>
<c>123</c>
</test>
现在想用正则表达式提取两个标签的内容,就是<a>
标签跟<b>
标签的内容都要取到,请问该如何写这个正则表达式呢
用python的beautifulsoup提取xml文件标签,想用正则表达式匹配两个条件,比如
<test>
<a>111</a>
<c>123</c>
</test>
<test>
<b>222</b>
<c>123</c>
</test>
现在想用正则表达式提取两个标签的内容,就是<a>
标签跟<b>
标签的内容都要取到,请问该如何写这个正则表达式呢
import re
pat = re.compile(r'<(a|b)>(.*?)</\1>', re.M)
for m in pat.finditer:
print(m.group(2))
说明:
考虑到这里的<a>
标签没有属性, 如果有, 可用r'<(a|b).*?>(.*?)</\1>'
.
m.group(1)
是指标签名, 即a
或者b
. m.group(2)
则是标签内容.
.*?
是惰性匹配.
.finditer
是返回匹配的迭代器, 找它费了点时间.
因为标签名不确定, 所以结束标签使用\1
来反向引用标签名, 毕竟开始和结尾标签名要相同.
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.6k 阅读✓ 已解决
2 回答514 阅读✓ 已解决
1 回答4k 阅读✓ 已解决
簡單的用:
就可以囉,如果沒有太複雜的條件,可以不用正規吧。