\\ufeff 标识符中的无效字符

Question

新手上路，请多包涵

我有以下代码：

 import urllib.request

try:
    url = "https://www.google.com/search?q=test"

    headers = {}
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
    headers['User-Agent'] = usag.encode('utf-8-sig')
    req = urllib.request.Request(url, headers=headers)
    resp = urllib.request.urlopen(req)
    respData = resp.read()

    saveFile = open('withHeaders.txt','w')
    saveFile.write(str(respData))
    saveFile.close()

except Exception as e:
    print(str(e))

它给了我以下错误：

 D:\virtualenv\samples\urllibb>python 1.py
  File "1.py", line 35
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
                                                                                              ^
 SyntaxError: invalid character in identifier

我在我的代码中看不到 \ufeff 。

原文由 Katallone 发布，翻译遵循 CC BY-SA 4.0 许可协议

python python-3.x python-3.4 urllib python-3.3

阅读 557

1 个回答

得票最新

社区维基

1

发布于
2022-11-17

\ufeff 是 零宽度不 换行代码点；打印时不渲染。它在 UTF-16 和 UTF-32 中用作字节顺序标记，用于记录编码字节要解码的顺序（big-endian 或 little-endian）。

UTF-8 不需要 BOM（它只有一个固定的字节顺序，不需要跟踪替代方案），但微软认为这是一个方便的签名字符，用于他们的工具检测 UTF-8 文件与 8-位编码（例如大多数 Windows 代码页使用的）。

我怀疑您正在使用 Microsoft 文本编辑器（如记事本）来保存您的代码。不要这样做，它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件，然后继续使用不同的工具向开头添加更多代码，而 BOM 卡在了中间。

删除整行和下一行并重新键入它们，或者从您定义的字符串的结束引号中选择直到下一行的 h 的 headers 之前，删除那部分并重新插入换行符和足够的缩进。

如果您的编辑器支持在搜索和替换时使用转义序列（例如，SublimeText 在正则表达式模式下支持），您可以只使用它来搜索字符并将其替换为空字符串。在 SublimeText 中，打开正则表达式支持并搜索 \x{feff} ，将这些匹配项替换为空字符串。

您在此处使用的 Python utf-8-sig 编码还包括 BOM：

 headers['User-Agent'] = usag.encode('utf-8-sig')

HTTP 标头也不应包含该代码点。 HTTP 标头通常坚持使用 Latin-1；即使是 ASCII 在这里也足够了，否则使用 'utf-8' （没有 -sig ）。

你真的不需要使用 str.encode() 在那里，你也可以只定义一个字节串：

 headers = {}
usag = b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag

请注意字符串文字的 b 前缀。

原文由 Martijn Pieters 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

\\ufeff 标识符中的无效字符

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译