如何使用 GPU 训练 TensorFlow 模型

发布于 2017-10-04

主要观点：近年来机器学习领域取得显著进展，这得益于图形处理单元（GPU）在加速机器学习模型训练中的广泛应用，尤其是使深度学习得以普及。
关键信息：

GPU 擅长深度学习，因其设计处理的计算类型与深度学习中的相同，在矩阵操作等方面比中央处理器（CPU）更专业，能使深度学习算法运行速度大幅提升，学习时间从数天缩短至数小时。
介绍在 AWS 上设置启用 GPU 的实例来用 TensorFlow 训练神经网络的步骤，包括创建实例、选择操作系统和实例类型、安装所需库、安装 TensorFlow 及使其支持 GPU、安装 Cuda Toolkit 和 cuDNN 等。
说明在 TensorFlow 中利用 GPU 的方法，如使用with tf.device创建设备上下文指定设备，可在单 GPU 或多 GPU 上运行模型。
重要细节：
实例类型选择g2.2xlarge并启用 NVIDIA GRID GPU，安装 TensorFlow 时若出现问题可采用特定方法，安装 Cuda Toolkit 前需注意数据下载量，安装 cuDNN 需注册 Accelerated Computing Developer Program 并进行相应操作。
以卷积神经网络（CNN）在 TensorFlow 教程中的图像识别为例，比较在不同配置下训练模型的性能，结果显示 16 个 CPU 的性能才相当于 1 个 GPU，且使用 GPU 训练在相同时间内更便宜 18%。

阅读 21