python爬虫爬取中文问题

在网页中是这样的
clipboard.png

clipboard.png

网页源码是这样的
clipboard.png

clipboard.png

爬取出来是这样的
请教一下这是什么情况
clipboard.png

clipboard.png

阅读 1.8k
1 个回答

可能是一种反爬虫技术,你可以看看这个地方引入的字体(就是 font-family 之类的),你会发现它引入了一个自定义的字体文件,这里面做了映射,导致代码里的 乱码 字符在页面却显示正常。

像猫眼电影之类的比较变态的,是几个字体文件轮流用(不知道现在的情况,一年前是这样),你这个就不清楚了。

如果是静态的字体文件,那可以手动做一下映射。
如果是动态的,那我也不知道怎么办了哈哈哈,当时只是为了做 Demo 所以换了个站爬。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题