有什么简单的方法可以从字符串中删除所有 HTML 标签或任何与 HTML 相关的内容吗?
例如:
string title = "<b> Hulk Hogan's Celebrity Championship Wrestling <font color=\"#228b22\">[Proj # 206010]</font></b> (Reality Series, )"
上面真的应该是:
“绿巨人霍根的名人冠军摔跤 [项目#206010](现实系列)”
原文由 JJ. 发布,翻译遵循 CC BY-SA 4.0 许可协议
您可以使用这样的简单正则表达式:
请注意,此解决方案有其自身的缺陷。 有关更多信息,请参阅 删除字符串中的 HTML 标记(尤其是 ‘Mark E. Haase’/@mehaase 的注释)
另一种解决方案是使用 HTML Agility Pack 。
您可以在此处找到使用该库的示例: HTML 敏捷包 - 删除不需要的标签而不删除内容?