HTMLParser.HTMLParser().unescape() 不起作用

Question

新手上路，请多包涵

我想将 HTML 实体转换回其人类可读格式，例如 '£' 转换为“£”， '°' 转换为“°”等。

我已经阅读了几篇关于这个问题的帖子

根据他们的说法，我选择使用未记录的函数 unescape()，但它对我不起作用……

我的代码示例如下：

 import HTMLParser

htmlParser = HTMLParser.HTMLParser()
decoded = htmlParser.unescape('&copy; 2013')
print decoded

当我运行这个 python 脚本时，输出仍然是：

 &copy; 2013

代替

© 2013

我正在使用 Python 2.X，在 Windows 7 和 Cygwin 控制台上工作。我用谷歌搜索并没有发现任何类似的问题..任何人都可以帮我解决这个问题吗？

原文由 D.Q. 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 889

1 个回答

得票最新

显然 HTMLParser.unescape 在 Python 2.6 之前有点原始。

蟒蛇2.5：

 >>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
'&copy;'

Python 2.⁶⁄₂.7：

 >>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
u'\xa9'

更新：Python 3.4+：

 >>> import html
>>> html.unescape('&copy;')
'©'

原文由 DrMeers 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

推荐问题

子站问答

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题