今天突然遇到一个问题,在文本处理的时候需要去除一些停用词,停用词都放在一个txt文件中,其中一个字符串是 "\xa0
",用python读取后便会自动变为 “\\xa0”
. 以前都是字符串前面加 “r” ,但是从文件中读取这个真的没想出来...
今天突然遇到一个问题,在文本处理的时候需要去除一些停用词,停用词都放在一个txt文件中,其中一个字符串是 "\xa0
",用python读取后便会自动变为 “\\xa0”
. 以前都是字符串前面加 “r” ,但是从文件中读取这个真的没想出来...
方法一,用二进制的方式读取文件,并对内容进行细致的解析,来避免这个问题。
方法二,由于我猜测这可能是编码造成的问题,所以建议用 open 函数的 errors 参数来测试这个问题,有可能解决。
此外,因为没有测试,我不确定你这是不是实际上被添加了一个反斜杠,还是 Python 打印时为了显示,比如因 repr 函数等因素,而造成的显示型反斜杠。
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
2 回答847 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
\xa0
是一个空白符,这是它的十六进制表示形式。我猜你是把\xa0
这个字符串直接存到了文件中。正确的做法是,存这个符号本身。如果用文本编辑器打开,只能看到一个空白符。