更新 2025 年 7 月

主要观点:博客许久未更新致人们疑惑项目是否仍在进行,实则仍在,多数更新在 Matrix 频道,近期工作是让 Mwmbl 再次高效,因分布式爬虫和 Django 代码问题响应时间上升,已重新设计爬虫和重写 Firefox 扩展,接下来重点是准备新前端和实现排名算法排行榜,感谢支持并邀请加入 Matrix 社区。
关键信息:

  • 博客更新情况:许久未更新,多数更新在 Matrix 频道。
  • 效率问题及原因:响应时间从低于 100ms 逐渐上升,原因包括分布式爬虫对中央服务器负载大、Django 代码导致数据库 N+1 查询问题。
  • 解决措施:重新设计爬虫,新命令行爬虫分担中央服务器任务;重写 Firefox 扩展用于构建评估数据集。
  • 后续计划:准备新前端(实现新策展界面)、实现排名算法排行榜(允许上传 WASM 代码算法并评估)。
    重要细节:
  • 新命令行爬虫:执行之前中央服务器的多数任务,有本地索引和待爬取 URL 队列,同步过程对中央服务器轻量。
  • Firefox 扩展:重写后用于构建评估数据集,通过抓取谷歌搜索结果。
  • 排名算法排行榜:基于新评估数据,任何人可上传算法,与“黄金标准”(谷歌排名)对比,实际算法更注重用户贡献。
阅读 9
0 条评论