如图,这个页面中html里面的时间和前端页面显示的时间不一致,是怎么做到的,规则是什么?https://www.tianyancha.com/co...
如图,这个页面中html里面的时间和前端页面显示的时间不一致,是怎么做到的,规则是什么?https://www.tianyancha.com/co...
如 @贾顺名 所言,该文字采用了特殊的字体做渲染。字体在 font.css 文件中定义,它很可能会不定期更改。
通过查看网页源码,可以发现有多处地方都使用了混淆(xpath '//*[contains(@class, "tyc-num")]'),内容包括汉字、英文字母、数字、标点符号等。
由于渲染的字体非常工整,可采用 OCR 引擎(tesseract)自动生成各种字符的映射表,实现全自动抓取、转换信息流程。
附:识别汉字请使用 tesseract 4.0 及以上版本,数据文件选择 chi_sim(best),下载地址 https://github.com/tesseract-...
亲测可用。
请参考
《自定义字体混淆信息的自动化破解》, https://segmentfault.com/a/11...
8 回答4.7k 阅读✓ 已解决
6 回答3.4k 阅读✓ 已解决
5 回答2.8k 阅读✓ 已解决
5 回答6.3k 阅读✓ 已解决
4 回答2.3k 阅读✓ 已解决
5 回答1.3k 阅读✓ 已解决
4 回答2.8k 阅读✓ 已解决
自定义的字体,规定字符实际显示出来的效果,类似
font-icon
之类的也是这么做的,但是这个可能是为了防盗之类的吧(猜测)。