我正在寻找一个正则表达式,它必须在不同类型的 HTML 标记之间提取文本。
例如:
<span>Span 1</span>
- O/P: 跨度 1
<div onclick="callMe()">Span 2</div>
- O/P: 跨度 2
<a href="#">HyperText</a>
- O/P: 超文本
我从 这里 找到了这个特别的作品 <([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>
但这一个不起作用。
原文由 Sriram 发布,翻译遵循 CC BY-SA 4.0 许可协议
您的评论表明您忽略了对正则表达式字符串中的反斜杠进行转义。
如果你想匹配小写字母添加
a-z
到字符类或使用Pattern.CASE_INSENSITIVE
(或添加(?i)
的开头)如果标记内容可能包含换行符,则使用
Pattern.DOTALL
或将(?s)
添加到正则表达式的开头以打开 dotall/singleline 模式。