网站分析

主要观点:搜索引擎最近的改变是基于渲染 DOM 对网站进行分析,以识别广告、追踪器等元素。之前仅看静态代码效果不佳,需用浏览器自动化渲染网站,为此创建自定义浏览器扩展。扩展可做多项工作,如订阅重载事件、网络请求,模拟用户行为以触发相关弹出框,保存有效 CSS 和网络流量等信息,最后导出供分析。目前每天捕获约 10,000 个域名,年底计划将数据纳入排名算法并提供公开下载。
关键信息:

  • 新系统基于渲染 DOM 分析网站。
  • 仅看静态代码识别效果差。
  • 需用浏览器自动化渲染。
  • 自定义浏览器扩展的各项功能及作用。
  • 每天捕获约 10,000 个域名。
  • 年底计划纳入排名算法并公开下载数据。
    重要细节:
  • 背景脚本订阅重载事件和网络请求。
  • 内容脚本模拟用户行为触发弹出框。
  • 检查 DOM 元素的 CSS 属性并保存信息。
  • 导出的 HTML 数据示例。
  • 测试扩展时模拟用户行为的体验。
阅读 12
0 条评论