头图

在Ubuntu 20.04上配置深度学习环境时,NVIDIA驱动、CUDA、cuDNN以及TensorFlow和PyTorch是必不可少的工具。这篇文章将详细介绍如何安装和配置这些组件,使您的系统可以顺利运行深度学习任务。请按照步骤进行操作,确保每一步都正确执行。

1. 安装NVIDIA驱动和更新系统

在配置CUDA之前,首先需要确保系统已安装NVIDIA显卡的驱动。以下是具体步骤:

  1. 更新系统
    打开终端,首先更新Ubuntu的系统包:

    sudo apt update
    sudo apt upgrade

    这一步是为了确保系统中的所有软件包都处于最新状态,避免潜在的兼容性问题。

  2. 安装NVIDIA驱动
    使用Ubuntu的自动安装工具为你的系统安装最合适的NVIDIA驱动:

    sudo ubuntu-drivers autoinstall

    安装完成后,重启系统:

    sudo reboot

    这一步骤确保你的显卡驱动能够正常工作,为后续的CUDA安装打下基础。

2. 安装CUDA Toolkit

CUDA(Compute Unified Device Architecture)是NVIDIA提供的并行计算框架。我们将安装适用于Ubuntu 20.04的CUDA 11.0。

  1. 添加CUDA存储库

    首先下载并配置CUDA存储库:

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
  2. 下载并安装CUDA包

    下载CUDA 11.0的安装包,并将其安装:

    wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
    sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
  3. 添加CUDA密钥并安装

    添加密钥以确保包的可信性,并安装CUDA:

    sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub
    sudo apt-get update
    sudo apt-get -y install cuda
  4. 配置环境变量

    安装完成后,您需要将CUDA的可执行文件路径添加到系统的环境变量中:

    echo 'export PATH=/usr/local/cuda-11.0/bin${PATH:+:${PATH}}' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc
    source ~/.bashrc
  5. 验证CUDA安装

    通过以下命令验证CUDA是否成功安装:

    nvcc --version

    如果输出显示CUDA版本信息,则说明CUDA安装成功。

3. 安装cuDNN

cuDNN(CUDA Deep Neural Network library)是NVIDIA为深度学习加速提供的GPU加速库。您需要根据CUDA版本下载相应的cuDNN版本。

  1. 下载cuDNN

    从NVIDIA官网上下载cuDNN,确保选择与CUDA 11.0兼容的版本。

  2. 安装cuDNN

    下载完成后,解压并安装cuDNN:

    tar -xzvf cudnn-11.0-linux-x64-v8.0.5.39.tgz
    sudo cp -P cuda/include/cudnn*.h /usr/local/cuda/include
    sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
  3. 验证cuDNN安装

    运行以下命令,验证cuDNN是否安装成功:

    cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

    该命令会输出cuDNN的版本信息。

4. 安装TensorFlow和PyTorch

现在,我们将安装TensorFlow和PyTorch,它们是两大主流的深度学习框架。以下为详细步骤:

安装TensorFlow

我们将安装TensorFlow 2.3版本,支持CUDA 11.0。

  1. 安装TensorFlow

    使用pip安装指定版本的TensorFlow:

    pip install tensorflow==2.3.0
  2. 验证TensorFlow安装

    通过以下命令验证TensorFlow是否正确安装:

    python -c "import tensorflow as tf; print(tf.reduce_sum(tf.random.normal([1000, 1000])))"

    该命令将生成一个随机矩阵,并计算其元素的总和。如果输出没有错误,则表明安装成功。

安装PyTorch

我们将安装PyTorch 1.6版本,同样支持CUDA 11.0。

  1. 安装PyTorch

    使用pip安装PyTorch和torchvision库:

    pip install torch==1.6.0 torchvision==0.7.0
  2. 验证PyTorch安装

    使用以下命令验证PyTorch安装是否成功:

    python -c "import torch; print(torch.rand(5, 3))"

    如果输出一个5x3的随机矩阵,说明PyTorch安装成功。

5. 解决常见问题

  1. NVIDIA驱动问题
    如果在安装NVIDIA驱动过程中出现问题,建议卸载现有驱动,并重新安装。可以使用以下命令卸载旧的NVIDIA驱动:

    sudo apt-get --purge remove nvidia-*

    然后重新按照之前的步骤安装。

  2. CUDA安装问题
    如果CUDA安装后无法正常识别,可能是路径配置有误。请重新检查并确保.bashrc文件中的路径已正确添加。
  3. TensorFlow或PyTorch无法调用GPU
    如果安装TensorFlow或PyTorch后无法调用GPU,检查CUDA和cuDNN是否正确安装,并使用以下命令查看可用的GPU设备:

    python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

    或者:

    python -c "import torch; print(torch.cuda.is_available())"

    如果返回的结果为False,请重新检查CUDA、cuDNN和驱动的安装。

分析说明表

步骤说明代码示例
系统更新更新Ubuntu的系统包,确保系统最新sudo apt updatesudo apt upgrade
安装NVIDIA驱动自动安装适合系统的NVIDIA显卡驱动sudo ubuntu-drivers autoinstall
安装CUDA添加CUDA存储库并安装CUDA工具包sudo apt-get -y install cuda
配置环境变量将CUDA路径添加到系统环境变量中echo 'export PATH=/usr/local/cuda-11.0/bin...'
安装cuDNN解压并复制cuDNN库文件到CUDA目录sudo cp -P cuda/include/cudnn*.h ...
安装TensorFlow使用pip安装指定版本的TensorFlowpip install tensorflow==2.3.0
安装PyTorch使用pip安装指定版本的PyTorch和torchvisionpip install torch==1.6.0 torchvision==0.7.0

总结

通过以上步骤,您可以在Ubuntu 20.04上成功配置深度学习环境,支持CUDA、cuDNN以及TensorFlow和PyTorch。该配置为后续深度学习任务提供了良好的基础。配置过程中,确保每一步操作都仔细执行,避免环境变量配置错误或库版本不匹配的问题。


蓝易云
25 声望3 粉丝