爬虫如何影响维基媒体项目的运营

自 2024 年初以来,由维基媒体志愿者社区创建的内容需求——尤其是在维基媒体共享上的 1.44 亿张图像、视频和其他文件——显著增长。在这篇文章中,我们将讨论这一趋势的原因及其影响。

维基媒体项目是世界上最大的开放知识集合。我们的网站是人类寻找信息的宝贵目的地,也是各种企业自动访问我们的内容作为其产品核心输入的地方。最值得注意的是,这些内容一直是搜索引擎结果的关键组成部分,反过来又将用户带回我们的网站。但随着人工智能的兴起,这种动态正在发生变化:我们观察到请求量显著增加,其中大部分流量是由为大型语言模型 (LLM) 和其他用例收集训练数据的抓取机器人驱动的。通过抓取、API 和批量下载等机制,对我们内容的自动化请求随着更广泛的技术经济呈指数增长。这种扩展在很大程度上没有足够的归因,而这对于吸引新用户参与运动至关重要,并且给维护我们网站对所有人可用的基础架构带来了重大负担。

幕后视角:吉米·卡特案例

吉米·卡特于 2024 年 12 月去世时,他在英文维基百科上的页面在一天内的浏览量超过了 280 万次。这相对较高,但还可以管理。与此同时,相当多的用户播放了长达 1.5 小时的卡特 1980 年与罗纳德·里根总统辩论的视频[https://commons.wikimedia.org...,_October_28,_1980.webm]。这导致网络流量激增,是正常速率的两倍。结果,在大约一个小时内,维基媒体与互联网的少量连接完全被填满,导致一些用户的页面加载时间变慢。突然的流量激增提醒了我们的站点可靠性团队,他们迅速通过改变互联网连接的路径来解决这个问题,以减少拥塞。但即便如此,这也不应该导致任何问题,因为基金会配备了良好的设备来处理特殊事件期间的高流量峰值。那么发生了什么呢?

自 2024 年 1 月以来,我们看到用于下载多媒体内容的带宽增长了 50%。这种增长不是来自人类读者,而是主要来自自动程序,这些程序抓取维基媒体共享的开放许可图像目录,将图像提供给人工智能模型。我们的基础设施是为了在高关注度事件期间承受人类的突然流量峰值而构建的,但抓取机器人产生的流量量是前所未有的,并且带来了越来越大的风险和成本。

下面的图表显示,自 2024 年初以来,多媒体内容的基本带宽需求一直在稳步增长——而且没有放缓的迹象。这种基线使用的增加意味着,当流量激增可能发生时,我们用于容纳特殊事件的空间更小:我们大量的时间和资源都用于应对非人类流量。


维基媒体项目的多媒体带宽需求。

我们最昂贵的流量中有 65%来自机器人

维基媒体基金会通过全球数据中心网络为用户提供内容。这使我们能够为世界各地的读者提供更快、更无缝的体验。当一篇文章被多次请求时,我们会在最接近用户的数据中心中记忆——或缓存——其内容。如果一篇文章有一段时间没有被请求,其内容需要从核心数据中心提供。然后,请求从用户的位置一路“传输”到核心数据中心,查找请求的页面并将其提供回用户,同时也将其缓存到区域数据中心,以供任何后续用户使用。

虽然人类读者倾向于关注特定的——通常是相似的——主题,但爬虫机器人倾向于“批量读取”大量页面,并且还访问不太受欢迎的页面。这意味着这些类型的请求更有可能被转发到核心数据中心,这在我们的资源消耗方面要昂贵得多。

在我们的系统迁移过程中,我们注意到,到达我们核心数据中心的昂贵流量中只有一小部分的行为方式与网络浏览器通常的行为方式相同,即解释 JavaScript 代码。当我们仔细观察时,我们发现我们网站的这种消耗资源的流量中至少有 65%来自机器人,考虑到机器人的总页面浏览量约占总浏览量的 35%,这是一个不成比例的数量。这种高使用率也给我们的站点可靠性团队带来了持续的干扰,他们必须在这种爬虫的压倒性流量导致我们的读者出现问题之前阻止它。

维基媒体并非独自面临这一挑战。正如我们在 2025 年的全球趋势报告中所指出的,科技公司正在竞相抓取网站上人类创建和验证的信息。内容发布商开源项目和各种网站都报告了类似的问题。此外,爬虫倾向于访问任何 URL。在维基媒体基础设施中,我们观察到不仅对维基媒体项目的抓取,还对我们开发人员基础设施中的关键系统,如我们的代码审查平台或错误跟踪器的抓取。所有这些都消耗了我们支持维基媒体项目、贡献者和读者所需的时间和资源。

我们的内容是免费的,我们的基础设施不是:建立对基础设施的负责任使用

提供可信赖的内容也意味着支持“知识即服务”模式,在这种模式下,我们承认整个互联网都依赖于维基媒体内容。但这必须以对我们可持续的方式发生:我们如何能够继续支持我们的社区,同时也在自动内容消费周围设置边界?我们如何引导开发人员和再利用者进入首选的、受支持的访问渠道?我们需要什么样的指导来激励负责任的内容再利用?

我们已经开始系统地努力解决这些问题,并在基金会即将到来的财政年度中将重点放在为开发人员和再利用者建立可持续的访问知识内容的方式上。你可以在我们的年度计划草案中阅读更多内容:WE5:对基础设施的负责任使用)。我们的内容是免费的,我们的基础设施不是:我们现在需要采取行动,重新建立健康的平衡,以便我们能够将工程资源用于支持和优先考虑维基媒体项目、我们的贡献者和人类对知识的访问。

你能帮助我们翻译这篇文章吗?

为了让这篇文章尽可能多地到达人们手中,我们需要你的帮助。你能翻译这篇文章以传达信息吗?

开始翻译

阅读 7
0 条评论