是否有从 Java 字符串中删除 HTML 的好方法?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会工作,但有些东西如 &
将无法正确转换,并且两个尖括号之间的非 HTML 将被删除(即正则表达式中的 .*?
将消失)。
原文由 Mason 发布,翻译遵循 CC BY-SA 4.0 许可协议
如果你正在为 Android 写作,你可以这样做……
androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY).toString()
原文由 Ken Goodridge 发布,翻译遵循 CC BY-SA 4.0 许可协议
8 回答6.6k 阅读
4 回答715 阅读✓ 已解决
2 回答3.4k 阅读
3 回答1.9k 阅读✓ 已解决
1 回答2.2k 阅读✓ 已解决
3 回答2.3k 阅读
1 回答2.1k 阅读✓ 已解决
使用 HTML 解析器而不是正则表达式。这对于 Jsoup 来说非常简单。
Jsoup 还 支持 根据可自定义的白名单删除 HTML 标记,如果您只想允许例如
<b>
,<i>
和<u>
,这将非常有用也可以看看: