作者:Chris Fotache翻译:疯狂的技术宅
原文:https://towardsdatascience.co...
未经允许严禁转载
在与 Microsoft Azure GPU VM 奋斗了几年之后,听说亚马逊的 AWS 并没有更好的表现,我觉得应该拥有自己的本地深度学习机器了。
一个主要的原因是云虚拟主机没有显示,所以你无法进行任何可视化操作。这没什么大不了的,只要你在那里训练然后在本地计算机上运行模型就行了,但是如果你需要处理基于仿真的机器人项目,那么这些项目根本不会在虚拟环境中运行。
后来我发现,组装一台几乎最先进的计算机在大约 4 个月内即可收回成本,而且它比云服务器快得多(主要是本地数据传输速度快,因为所有东西都在一个盒子里的同一个总线上),云服务则可能会把计算单元和存储放在不同的机架中——因此,即使 GPU 速度更快,它也无法足够快地获取数据。
我的系统最终花费不到 3千美元(从 AWS 或 Azure 购买入门级云 GPU ,大约是 800 美元/月)。我组装时是在 2019 年 5 月,价格与现在相差很大,现在可以将价格降低 10%。另外在你阅读本文时,该技术可能已经得到了发展。你可能会问,为什么要自己动手组装计算机而不是购买预装的计算机。这是因为现成的深度学习系统非常昂贵。 LambdaLabs 的起价超过 6,000 美元。其他的甚至会更多。这使从头开始组装计算机并匹配正确的组件看上去似乎很难。
所有用到的零件
为了确保所有功能都能正常工作,我建议你使用 PC Part Picker。它既会向你显示每个零件的最低价格,也能确保你没有选择不兼容的零件。至于放在一起,按照 YouTube 的规则。只需输入零件的名称,就会找到一些说明如何安装它的视频。现在,让我们看一下所需的零件:
CPU
你必须做出重大选择:AMD 还是 Intel。我一直是 Intel 的粉丝,但是对于这台机器,CPU 并不是最重要的部分,GPU 才是。而且 Intel CPU 的价格是 AMD 的两倍。 AMD 的新 Ryzen 系列有着很好的评价,我不需要超频,因为我不玩电子游戏。因此我选择了 12 核 24 线程的 AMD Threadripper 1920x,它足以满足我的需要。而且价格合理,大约为 350 美元,不过价格一直在下降。另一种选择是价格超过 900 美元的 10 核 Intel i9-7900。
AMD 锐龙 Threadripper CPU
CPU散热器
AMD CPU 运行时热量很大(这就是它们不那么可靠的主要原因之一)。因此你绝对需要液冷散热器。我选择了带有 2 个风扇的 Fractal S24,售价约为 115 美元。替代品是 Corsair H100i。
安装在CPU上方的液冷散热器
主板
关于主板主要是选择芯片组。简单的规则是:对于 AMD Threadripper,请使用 X399。对于 Intel 7900,请使用X299。
根据评论,我选择了 MSI X399 Gaming Pro Carbon AC,它支持深度学习所需要的一切。你会发现它的价格刚刚超过 300 美元。其他不错的选择是华硕 ROG,技嘉 Aorus 和华擎 Taichi(只需确保它至少有 40 条 PCIe 通道)。你必须确保板子设计适应 GPU 的大小,并能够添加多个 GPU。 MSI 有足够的空间,并且所有位置都很合理。
主板准备好了
GPU
这是你的深度学习系统中最重要的部分。你必须用 Nvidia GPU,推荐的最低配置是 GTX 1080 Ti。不幸的是,当时以大约 800 美元的正常价格是买不到的(怪异的游戏玩家?比特币矿工?)。所以我不得不换了一个更高级的,即 RTX 2080 Ti,这也不容易找到,但是我很幸运的以 1,187 美元的价格买到了 EVGA 的产品。 RTX 是新一代产品,是 2019 年初消费类 GPU 中性能最好的产品之一。我很高兴自己被“强迫”做出了选择。如果仔细去找,也许仍能找到 1200 美元左右的优惠价。我认为 EVGA 和技嘉是顶级制造商,而你要做的选择是关于冷却系统的。 EVGA RTX 2080 Ti XC Ultra 具有双空气冷却器,到目前为止已经足够了,它从未遇到严重的过热问题。
最重要的组件-Nvidia RTX 2080 TI GPU
最重要的组件-Nvidia RTX 2080 TI GPU
内存
对于上述配置,DDR4 是最佳选择。Corsair 可能是主要的制造商。在 2019 年你需要 64Gb 的内存。所以我最终用了 4x16Gb Corsair Vengeance LPX DDR4。花了我 399 美元,现在价格已经远远低于 300 美元了。
硬盘
SSD 现在是旧技术了。最先进的是 M.2 标准,这种硬盘可以直接插入主板的 PCIe 插槽中。以主总线速度运行,这基本上是一种高容量、持久的存储芯片。我真的很喜欢 1Tb Samsung EVO SSD M.2。我花了 241 美元,但现在价格也跌到了 200 美元。如果你需要更多存储空间,则可以再加一个价格不到 100 美元的普通 SSD 。
内存芯片和 M.2 硬盘驱动器到位
电源供应
PCPartPicker 将确保你选择足够大的电源来安装系统。也有其他在线功率计算器。使用一个 GPU 可能不会接近1,000W,但是如果你计划添加第二个 GPU,则需要 1,200W 才能安全。 EVGA 是一家可靠的制造商,我选择了 EVGA SuperNOVA P2 Platinum 1200,价格约为 250 美元。
机箱
这里有很多选择,取决于个人喜好和设计,但重要的是要确保它足够大,能够装下所有零件而不会局促,并且空气流通性良好。我以 114 美元的价格购买了 Lian-Li PC-O11AIR ,因为它符合这些要求。非常宽敞,所有东西都能放进去,并且散热良好。
额外冷却设备
组装完成后,你可能需要添加其他风扇来改善空气流通。我的机箱内部有几个风扇,同时还有几个额外的风扇,可几乎可以装满每个安装位置。在能够加速卷积网络的 GPU 机器中,温度永远不会太高。我机箱的背部有一个 80mm Noctua,还有一个普通的 120mm Corsair。是的,我搞了一个 RGB。我并不在意机箱是否流光溢彩(因为它总是在桌子底下),但最后我还是屈服了,买了一个很酷的风扇。
Assembly
部件
就像我说的那样,在 YouTube 上搜索的每个零件,你一定能够找到有关安装的详细示范。例如,以下是我遵循的一些示例:类似于我的版本,MSI X399主板演练, Threadripper 安装。阅读手册中的所有安装说明。例如,请注意内存条的插槽位置。
基本上,操作顺序是这样的:
首先,准备机箱,安装电源并拉出电源电缆。然后准备主板,安装 CPU,然后安装 M.2 硬盘驱动器。将主板装到机箱中,然后添加 CPU 散热器。之后添加其他风扇,并连接电源线和按钮及灯线。最后安装内存模块和 GPU。
将 CPU 插入插槽 1
将 CPU 插入插槽 2
将 CPU 插入插槽 3
完成并启动系统电源后,完成电缆管理并优化散热。例如我最终去除了覆盖风扇的大多数灰尘过滤器。我制定了一个繁重的GPU繁重的测试协议(训练了 Yolo 模型),并不断移动风扇,直到温度降至最低。
软件安装
这才是真正的乐趣开始的地方,但不是故事的重点。在 2019 年的春季你可能会用 Ubuntu 18.04,适用于你的 GPU 版本的 Nvidia 驱动程序(执行速度如此之快,但是显示效果会很糟糕),CUDA 10,还有你要用的任何框架(PyTorch,Tensorflow 等) 。而且,它的速度要比你曾经试过的任何云 GPU 都要快,而且你投入的资金会在几个月内获得回报。
运行!
零件清单
这是我的零件清单,包含 2019 年 4 月的价格。你还可以在我的 PCPartPicker 清单 上查看更新的价格。
CPU: AMD Threadripper 1920x 12-core ($356)
GPU: EVGA RTX 2080 Ti XC Ultra ($1,187)
CPU Cooler: Fractal S24 ($114)
Motherboard: MSI X399 Gaming Pro Carbon AC ($305)
Memory: Corsair Vengeance LPX DDR4 4x16Gb ($399)
Hard-drive: Samsung 1TB Evo SSD M.2 PCIe ($241)
Power: EVGA SuperNOVA P2 Platinum 1200W ($249)
Case: Lian-Li PC-O11AIR ($114)
这是对我有所启发的一些替代版本: Jeff Chen 的, Colin Shaw 的 和 Wayde Gilliam 的.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。