我有以下代码:
import urllib.request
try:
url = "https://www.google.com/search?q=test"
headers = {}
usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag.encode('utf-8-sig')
req = urllib.request.Request(url, headers=headers)
resp = urllib.request.urlopen(req)
respData = resp.read()
saveFile = open('withHeaders.txt','w')
saveFile.write(str(respData))
saveFile.close()
except Exception as e:
print(str(e))
它给了我以下错误:
D:\virtualenv\samples\urllibb>python 1.py
File "1.py", line 35
usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
^
SyntaxError: invalid character in identifier
我在我的代码中看不到 \ufeff
。
原文由 Katallone 发布,翻译遵循 CC BY-SA 4.0 许可协议
\ufeff
是 零宽度不 换行代码点;打印时不渲染。它在 UTF-16 和 UTF-32 中用作 字节顺序标记,用于记录编码字节要解码的顺序(big-endian 或 little-endian)。UTF-8 不需要 BOM(它只有一个固定的字节顺序,不需要跟踪替代方案),但微软认为这是一个方便的 签名 字符,用于他们的工具检测 UTF-8 文件与 8-位编码(例如大多数 Windows 代码页使用的)。
我怀疑您正在使用 Microsoft 文本编辑器(如记事本)来保存您的代码。不要这样做,它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件,然后继续使用不同的工具向开头添加更多代码,而 BOM 卡在了中间。
删除整行和下一行并重新键入它们,或者从您定义的字符串的结束引号中选择直到下一行的
h
的headers
之前,删除那部分并重新插入换行符和足够的缩进。如果您的编辑器支持在搜索和替换时使用转义序列(例如,SublimeText 在正则表达式模式下支持),您可以只使用 它 来搜索字符并将其替换为空字符串。在 SublimeText 中,打开正则表达式支持并搜索
\x{feff}
,将这些匹配项替换为空字符串。您在此处使用的 Python
utf-8-sig
编码还包括 BOM:HTTP 标头 也不 应包含该代码点。 HTTP 标头通常坚持使用 Latin-1;即使是 ASCII 在这里也足够了,否则使用
'utf-8'
(没有-sig
)。你真的不需要使用
str.encode()
在那里,你也 可以 只定义一个字节串:请注意字符串文字的
b
前缀。