正则匹配的时候,标识符在后边怎么处理?

在做正则匹配的时候,标识在后边咋办,
正则表达式:.*?\[.(*?)\]<br/> 这个<br/>才是标识符...就是想根据<br/>来截取内容
匹配的字符串是:
<div style="display:none"><p class="publishdate">研报日期:2018-09-27</p><p style="line-height: 164.28%;">组合收益不考虑交易佣金和印花税费。<br/><br/>  如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>[银河证券]<br/>[点击查看PDF原文] 

想匹配到的结果是:银河证券

阅读 2.5k
3 个回答

python3

>>> s = '<div style="display:none"><p class="publishdate">研报日期:2018-09-27</p><p style="line-height: 164.28%;">组合收益不考虑交易佣金和印花税费。<br/><br/>  如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>[银河证券]<br/><a href="**********" target="_blank" style="color:Red"><b><em class="download"></em>[点击查看PDF原文]</b></a>&nbsp;'
>>> import re
>>> ptn = r'(?<=<br/>)\[(.+?)\](?=<br/>)'
>>> t = re.findall(ptn, s)
>>> t[0]
'银河证券'
>>> 
re.findall('.*<br/>(.*)<br/>', s)
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题