新手上路，请多包涵

我正在寻找一个正则表达式，它必须在不同类型的 HTML 标记之间提取文本。

例如：

<span>Span 1</span> - O/P： 跨度 1

<div onclick="callMe()">Span 2</div> - O/P： 跨度 2

<a href="#">HyperText</a> - O/P： 超文本

我从这里找到了这个特别的作品 <([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1> 但这一个不起作用。

原文由 Sriram 发布，翻译遵循 CC BY-SA 4.0 许可协议

java 正则表达式

阅读 604

2 个回答

得票最新

社区维基

发布于
2022-11-29

✓ 已被采纳

您的评论表明您忽略了对正则表达式字符串中的反斜杠进行转义。

如果你想匹配小写字母添加 a-z 到字符类或使用 Pattern.CASE_INSENSITIVE （或添加 (?i) 的开头）

 "<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>"

如果标记内容可能包含换行符，则使用 Pattern.DOTALL 或将 (?s) 添加到正则表达式的开头以打开 dotall/singleline 模式。

原文由 MikeM 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2022-11-29

Matcher matcher = Pattern.compile("<([a-zA-Z]+).*>(.+)</\\1+>")
    .matcher("<a href=\"#\">HyperText</a>");

while (matcher.find())
{
    String matched = matcher.group(2);

    System.out.println(matched + " found at "
        + "\n"
        + "start at :- " + matcher.start()
        + "\n"
        + "end at :- " + matcher.end()
        + "\n");
}

原文由 Ambrish Rajput 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

正则表达式提取 HTML 标记之间的文本

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Stack Overflow 翻译

正则表达式提取 HTML 标记之间的文本

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

Stack Overflow 翻译

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?