是否有从 Java 字符串中删除 HTML 的好方法?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会工作,但有些东西如 &
将无法正确转换,并且两个尖括号之间的非 HTML 将被删除(即正则表达式中的 .*?
将消失)。
原文由 Mason 发布,翻译遵循 CC BY-SA 4.0 许可协议
如果你正在为 Android 写作,你可以这样做……
androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY).toString()
原文由 Ken Goodridge 发布,翻译遵循 CC BY-SA 4.0 许可协议
15 回答8.4k 阅读
8 回答6.3k 阅读
1 回答4.1k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
2 回答3.1k 阅读
2 回答3.8k 阅读
1 回答2.1k 阅读✓ 已解决
使用 HTML 解析器而不是正则表达式。这对于 Jsoup 来说非常简单。
Jsoup 还 支持 根据可自定义的白名单删除 HTML 标记,如果您只想允许例如
<b>
,<i>
和<u>
,这将非常有用也可以看看: