实习生的惊天逆袭:GPU集群遭恶意代码攻击

最近,一则消息引发了极大的热议。

某公司自回归团队的一名实习生,因恶意注入病毒,致使整一个8000多张 H100 的 GPU 集群长达一个多月的训练全都白费了。

事情颇为离奇,究竟发生了什么？

这位实习生利用了 Huggingface 的load ckpt函数的漏洞,直接给公司带来了无法估量的损失。

这位实习生曾是北大的高材生,因对团队调度的不满而选择进行了“报复”。最终,如此疯狂的举动,损失惨重,他的未来也基本断送了。

这位实习生主要通过恶意序列化的数据来执行代码,具体是利用了TFPreTrainedModel()类的load_repo_checkpoint()函数的安全隐患。在反序列化未经过信任的数据时,代码可以恶意执行。

通过构建恶意的数据,攻击者可以直接执行代码,几乎无人能察觉。由于训练过程依赖于梯度下降方法,修改梯度的方向自然会导致模型更新朝着错误的方向进行。

此事件的影响范围广泛,许多公司在这一事件后,不得不对自身的训练系统进行严格审查。这位实习生的注入代码行为,导致集群只有50%的利用率。

经过调查,最终找到了恶意代码的起点。专家估算,单是集群的成本损失就已经达到八位数。

事件的当事人后来进行了多次辟谣说明,表示此事并非完全如传言。

至于究竟是谁下的黑手,现阶段仍无确切答案。各方对此事件的看法众说纷纭。

最后,您怎么来看待这个事件？