在Ubuntu 20.04上配置深度学习环境时,NVIDIA驱动、CUDA、cuDNN以及TensorFlow和PyTorch是必不可少的工具。这篇文章将详细介绍如何安装和配置这些组件,使您的系统可以顺利运行深度学习任务。请按照步骤进行操作,确保每一步都正确执行。
1. 安装NVIDIA驱动和更新系统
在配置CUDA之前,首先需要确保系统已安装NVIDIA显卡的驱动。以下是具体步骤:
更新系统
打开终端,首先更新Ubuntu的系统包:sudo apt update sudo apt upgrade
这一步是为了确保系统中的所有软件包都处于最新状态,避免潜在的兼容性问题。
安装NVIDIA驱动
使用Ubuntu的自动安装工具为你的系统安装最合适的NVIDIA驱动:sudo ubuntu-drivers autoinstall
安装完成后,重启系统:
sudo reboot
这一步骤确保你的显卡驱动能够正常工作,为后续的CUDA安装打下基础。
2. 安装CUDA Toolkit
CUDA(Compute Unified Device Architecture)是NVIDIA提供的并行计算框架。我们将安装适用于Ubuntu 20.04的CUDA 11.0。
添加CUDA存储库
首先下载并配置CUDA存储库:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
下载并安装CUDA包
下载CUDA 11.0的安装包,并将其安装:
wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
添加CUDA密钥并安装
添加密钥以确保包的可信性,并安装CUDA:
sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub sudo apt-get update sudo apt-get -y install cuda
配置环境变量
安装完成后,您需要将CUDA的可执行文件路径添加到系统的环境变量中:
echo 'export PATH=/usr/local/cuda-11.0/bin${PATH:+:${PATH}}' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc source ~/.bashrc
验证CUDA安装
通过以下命令验证CUDA是否成功安装:
nvcc --version
如果输出显示CUDA版本信息,则说明CUDA安装成功。
3. 安装cuDNN
cuDNN(CUDA Deep Neural Network library)是NVIDIA为深度学习加速提供的GPU加速库。您需要根据CUDA版本下载相应的cuDNN版本。
下载cuDNN
从NVIDIA官网上下载cuDNN,确保选择与CUDA 11.0兼容的版本。
安装cuDNN
下载完成后,解压并安装cuDNN:
tar -xzvf cudnn-11.0-linux-x64-v8.0.5.39.tgz sudo cp -P cuda/include/cudnn*.h /usr/local/cuda/include sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
验证cuDNN安装
运行以下命令,验证cuDNN是否安装成功:
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
该命令会输出cuDNN的版本信息。
4. 安装TensorFlow和PyTorch
现在,我们将安装TensorFlow和PyTorch,它们是两大主流的深度学习框架。以下为详细步骤:
安装TensorFlow
我们将安装TensorFlow 2.3版本,支持CUDA 11.0。
安装TensorFlow
使用
pip
安装指定版本的TensorFlow:pip install tensorflow==2.3.0
验证TensorFlow安装
通过以下命令验证TensorFlow是否正确安装:
python -c "import tensorflow as tf; print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
该命令将生成一个随机矩阵,并计算其元素的总和。如果输出没有错误,则表明安装成功。
安装PyTorch
我们将安装PyTorch 1.6版本,同样支持CUDA 11.0。
安装PyTorch
使用
pip
安装PyTorch和torchvision
库:pip install torch==1.6.0 torchvision==0.7.0
验证PyTorch安装
使用以下命令验证PyTorch安装是否成功:
python -c "import torch; print(torch.rand(5, 3))"
如果输出一个5x3的随机矩阵,说明PyTorch安装成功。
5. 解决常见问题
NVIDIA驱动问题
如果在安装NVIDIA驱动过程中出现问题,建议卸载现有驱动,并重新安装。可以使用以下命令卸载旧的NVIDIA驱动:sudo apt-get --purge remove nvidia-*
然后重新按照之前的步骤安装。
- CUDA安装问题
如果CUDA安装后无法正常识别,可能是路径配置有误。请重新检查并确保.bashrc
文件中的路径已正确添加。 TensorFlow或PyTorch无法调用GPU
如果安装TensorFlow或PyTorch后无法调用GPU,检查CUDA和cuDNN是否正确安装,并使用以下命令查看可用的GPU设备:python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
或者:
python -c "import torch; print(torch.cuda.is_available())"
如果返回的结果为
False
,请重新检查CUDA、cuDNN和驱动的安装。
分析说明表
步骤 | 说明 | 代码示例 |
---|---|---|
系统更新 | 更新Ubuntu的系统包,确保系统最新 | sudo apt update ,sudo apt upgrade |
安装NVIDIA驱动 | 自动安装适合系统的NVIDIA显卡驱动 | sudo ubuntu-drivers autoinstall |
安装CUDA | 添加CUDA存储库并安装CUDA工具包 | sudo apt-get -y install cuda |
配置环境变量 | 将CUDA路径添加到系统环境变量中 | echo 'export PATH=/usr/local/cuda-11.0/bin...' |
安装cuDNN | 解压并复制cuDNN库文件到CUDA目录 | sudo cp -P cuda/include/cudnn*.h ... |
安装TensorFlow | 使用pip安装指定版本的TensorFlow | pip install tensorflow==2.3.0 |
安装PyTorch | 使用pip安装指定版本的PyTorch和torchvision | pip install torch==1.6.0 torchvision==0.7.0 |
总结
通过以上步骤,您可以在Ubuntu 20.04上成功配置深度学习环境,支持CUDA、cuDNN以及TensorFlow和PyTorch。该配置为后续深度学习任务提供了良好的基础。配置过程中,确保每一步操作都仔细执行,避免环境变量配置错误或库版本不匹配的问题。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。