特斯拉在 Hot Chips 2024 上的 TTPoE:为低延迟应用程序替代 TCP

主要观点:去年 Hot Chips 2023 上 Tesla 推出 Dojo 超级计算机,其机器学习专注于自动驾驶等汽车应用,训练需大量 IO 带宽,单张量大小达 1.7GB。Tesla 通过添加更多主机及用改良传输层的以太网(TTPoE)连接主机与超级计算机来解决数据推送速度限制问题,TTPoE 旨在提供微秒级延迟并实现简单硬件卸载,其状态机比 TCP 简化,通过去除 TCP 等待状态和简化握手减少延迟,用硬件处理简化的开闭序列对软件透明,采用类似 TCP 的丢包方式进行拥塞控制但采取暴力方法,在每个端点独立处理拥塞管理,TTP 协议在芯片和标准以太网硬件间的硬件块中实现,Mojo 包含相关主机芯片等,可通过添加远程主机机器增加带宽,Mojo 卡安装在远程主机上,TTPoE 协议展示了简化 TCP 用于高质量超级计算机内部网络的方式,与 Infiniband 等超算网络解决方案相比,以太网自定义传输协议能满足 Dojo 需求。
关键信息

  • 推出 Dojo 超级计算机及应用领域。
  • 解决主机数据推送限制的方法。
  • TTPoE 的特点及优势。
  • 简化 TCP 的相关措施。
  • Mojo 的组成及作用。
    重要细节
  • 单张量大小为 1.7GB 及对 IO 带宽需求。
  • TTPoE 设计及与 TCP 的对比。
  • 硬件处理开闭序列及对软件影响。
  • 拥塞控制的方式及特点。
  • Mojo 卡的安装及功耗。
阅读 16
0 条评论