\\ufeff 标识符中的无效字符

新手上路,请多包涵

我有以下代码:

 import urllib.request

try:
    url = "https://www.google.com/search?q=test"

    headers = {}
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
    headers['User-Agent'] = usag.encode('utf-8-sig')
    req = urllib.request.Request(url, headers=headers)
    resp = urllib.request.urlopen(req)
    respData = resp.read()

    saveFile = open('withHeaders.txt','w')
    saveFile.write(str(respData))
    saveFile.close()

except Exception as e:
    print(str(e))

它给了我以下错误:

 D:\virtualenv\samples\urllibb>python 1.py
  File "1.py", line 35
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
                                                                                              ^
 SyntaxError: invalid character in identifier

我在我的代码中看不到 \ufeff

原文由 Katallone 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 451
1 个回答

\ufeff零宽度不 换行代码点;打印时不渲染。它在 UTF-16 和 UTF-32 中用作 字节顺序标记,用于记录编码字节要解码的顺序(big-endian 或 little-endian)。

UTF-8 不需要 BOM(它只有一个固定的字节顺序,不需要跟踪替代方案),但微软认为这是一个方便的 签名 字符,用于他们的工具检测 UTF-8 文件与 8-位编码(例如大多数 Windows 代码页使用的)。

我怀疑您正在使用 Microsoft 文本编辑器(如记事本)来保存您的代码。不要这样做,它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件,然后继续使用不同的工具向开头添加更多代码,而 BOM 卡在了中间。

删除整行和下一行并重新键入它们,或者从您定义的字符串的结束引号中选择直到下一行的 hheaders 之前,删除那部分并重新插入换行符和足够的缩进。

如果您的编辑器支持在搜索和替换时使用转义序列(例如,SublimeText 在正则表达式模式下支持),您可以只使用 来搜索字符并将其替换为空字符串。在 SublimeText 中,打开正则表达式支持并搜索 \x{feff} ,将这些匹配项替换为空字符串。

您在此处使用的 Python utf-8-sig 编码还包括 BOM:

 headers['User-Agent'] = usag.encode('utf-8-sig')

HTTP 标头 也不 应包含该代码点。 HTTP 标头通常坚持使用 Latin-1;即使是 ASCII 在这里也足够了,否则使用 'utf-8' (没有 -sig )。

你真的不需要使用 str.encode() 在那里,你也 可以 只定义一个字节串:

 headers = {}
usag = b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag

请注意字符串文字的 b 前缀。

原文由 Martijn Pieters 发布,翻译遵循 CC BY-SA 3.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题