如何打开包含 Unicode 字符的 html 文件?

新手上路,请多包涵

我有一个名为 test.html 的 html 文件,它有一个词 בדיקה

我打开 test.html 并使用这段代码打印它的内容:

 file = open("test.html", "r")
print file.read()

但它打印 ?????? ,为什么会这样,我该如何解决?

顺便提一句。当我打开文本文件时效果很好。

编辑:我试过这个:

 >>> import codecs
>>> f = codecs.open("test.html",'r')
>>> print f.read()
?????

原文由 david 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 473
2 个回答
import codecs
f=codecs.open("test.html", 'r')
print f.read()

尝试这样的事情。

原文由 vks 发布,翻译遵循 CC BY-SA 3.0 许可协议

我今天也遇到了这个问题。我使用的是 Windows,系统语言默认是中文。因此,有人可能会遇到类似的 Unicode 错误。只需添加 encoding = 'utf-8'

 with open("test.html", "r", encoding='utf-8') as f:
    text= f.read()

原文由 Chen Mier 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题