主要观点:搜索引擎最近的改变是基于渲染 DOM 对网站进行分析,以识别广告、追踪器等元素。之前仅看静态代码效果不佳,需用浏览器自动化渲染网站,为此创建自定义浏览器扩展。扩展可做多项工作,如订阅重载事件、网络请求,模拟用户行为以触发相关弹出框,保存有效 CSS 和网络流量等信息,最后导出供分析。目前每天捕获约 10,000 个域名,年底计划将数据纳入排名算法并提供公开下载。
关键信息:
- 新系统基于渲染 DOM 分析网站。
- 仅看静态代码识别效果差。
- 需用浏览器自动化渲染。
- 自定义浏览器扩展的各项功能及作用。
- 每天捕获约 10,000 个域名。
- 年底计划纳入排名算法并公开下载数据。
重要细节: - 背景脚本订阅重载事件和网络请求。
- 内容脚本模拟用户行为触发弹出框。
- 检查 DOM 元素的 CSS 属性并保存信息。
- 导出的 HTML 数据示例。
- 测试扩展时模拟用户行为的体验。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。