我想使用 javascript 从给定的字符串中删除 html 标签。我研究了当前的方法,但它们出现了一些未解决的问题。
目前的解决方案
(1) 使用javascript,创建虚拟div标签并获取文本
function remove_tags(html)
{
var tmp = document.createElement("DIV");
tmp.innerHTML = html;
return tmp.textContent||tmp.innerText;
}
(2) 使用正则表达式
function remove_tags(html)
{
return html.replace(/<(?:.|\n)*?>/gm, '');
}
(3) 使用JQuery
function remove_tags(html)
{
return jQuery(html).text();
}
这三种解决方案都可以正常工作,但是如果字符串是这样的
<div> hello <hi all !> </div>
剥离的字符串就像 hello
。但我只需要删除 html 标签。喜欢 hello <hi all !>
编辑:背景是,我想删除特定文本区域的所有用户输入 html 标签。但我想让用户输入 <hi all>
种文本。在当前方法中,它会删除 <> 中包含的所有内容。
原文由 cp100 发布,翻译遵循 CC BY-SA 4.0 许可协议
如果您考虑不同的方法,使用正则表达式可能不是问题。例如,查找所有标签,然后检查标签名称是否与已定义的有效 HTML 标签名称列表相匹配:
这是有效的,因为浏览器将 ‘>’ 解析为文本,如果它不是匹配的 ‘<’ 开始标记的一部分。它不会遇到与尝试使用正则表达式解析 HTML 标签相同的问题,因为您只是在寻找开始定界符和标签名称,其他一切都无关紧要。
它也是 面向未来的:WebIDL 规范告诉供应商如何实现 HTML 元素的原型,因此我们尝试从当前匹配的标签创建 HTML 元素。如果该元素是
HTMLUnknownElement
的实例,我们知道它不是有效的 HTML 标记。validHTMLTags
正则表达式为未实现这些原型的旧浏览器(例如 IE 6 和 7)定义了 HTML 标记列表。