python爬取微博正常的评论文本，为什么会得到像U+200E、U+202E、U+202C这样的奇怪字符串？

Question

python爬取微博正常的评论文本，为什么会得到像U+200E、U+202E、U+202C这样的奇怪字符串？

发布于
2022-08-01 重庆

这是我用requests库在微博上爬取关于堕胎评论的时候得到的奇怪字符串：

字符串顺序是乱的，但是通过print函数打印这个字符串却是正常的，我把这个字符串放到pandas的dataframe里面过后这堆字符串也能正常显示，但是一旦通过下标访问，或者遍历这个字符串的时候，他还是有这种\u202e这样的字符，而且顺序也是乱的。
我去微博看了原博然后手动复制，也是正常的字符串。我检查了一下编码，微博的网页是utf-8没错，我也指定了 response 对象为utf-8编码 response.encoding='utf-8'

请问为什么爬虫会爬取到这样夹杂着一堆\u202e \u202c的字符串？怎么把这种字符串转换成正常的字符串呢？

另外，我的requests版本是2.27.1，python版本是3.8.13。

python爬虫编码 utf-8

python

阅读 4.1k

1 个回答

得票最新

Mannix

2.2k2311

发布于
2022-08-01 广东

✓ 已被采纳

\u202E 和 \u202C 是方向格式控制符
\u202E 会使后面字符从右往左显示，\u202C 是取消方向格式

所以把 \u202E \u202C 删除，再把中间字符反转回来即可

import re

reversedRE = re.compile(r'\u202E(.*?)(?:\u202C|$)', re.DOTALL)

s = '\u202Ecba\u202Cdef\u202Eihg\u202C'
print(s)
s = reversedRE.sub(lambda m: m[1][::-1], s)
print(s)  # abcdefghi

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python爬取微博正常的评论文本，为什么会得到像U+200E、U+202E、U+202C这样的奇怪字符串？

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？