快速在DebianLinux下配置NVIDIA驱动和CUDA环境

前言

在重新部署羽毛云的机器学习训练虚拟机时,突然发现曾经在Ubuntu系下惯用的ubuntu-drivers驱动程序安装工具在Debian下并没有办法使用,遂写此文简述在Debian下使用debian的分发软件源安装Nvidia驱动的经历

获取显卡的详细型号

首先尝试使用了lspci命令列出所有的显示设备,看看能不能找到显卡的型号

lspci | grep -i vga

很遗憾,羽毛这张P104-100似乎并没有把型号写在pci配置中,lspci命令的输出如下:

00:01.0 VGA compatible controller: Device 1234:1111 (rev 02)

但是没有关系,还可以使用 nvidia-detect 工具来帮我们检测显卡型号

首先安装nvidia-detect

sudo apt install nvidia-detect

随后运行nvidia-detect来检测显卡型号,输出如下:

Detected NVIDIA GPUs:
01:00.0 3D controller [0302]: NVIDIA Corporation GP104 [P104-100] [10de:1b87] (rev a1)

Checking card:  NVIDIA Corporation GP104 [P104-100] (rev a1)
Your card is supported by all driver versions.
Your card is also supported by the Tesla 470 drivers series.
It is recommended to install the
    nvidia-driver
package.

nvidia-detect 成功检测到正确的显卡型号,可以看到羽毛这张卡是矿矿王 P104-100,那么接下来有两个选择:

  1. 前往nvidia官网下载同样支持此卡的Tesla 470驱动并安装

  2. 直接使用 nvidia-driver软件包安装

安装NVIDIA驱动程序

羽毛这里为了更快速方便,选择直接安装了nvidia-driver

sudo apt install nvidia-driver

安装完成后,重启!然后尝试使用nvidia-smi查看驱动安装情况:

featherp@wh-dlserver:~$ nvidia-smi
Sat Oct 26 19:28:43 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA P104-100                On  | 00000000:01:00.0 Off |                  N/A |
| 47%   33C    P0              8W / 180W |      0MiB /  8192MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

已经正常安装了535.183.01驱动,可以看到此驱动最高支持12.2的CUDA。

CUDA Toolkit 的安装

接着从软件源继续安装cuda toolkit

apt install nvidia-cuda-dev nvidia-cuda-toolkit

完成

完成以上步骤之后,就已经顺利安装完成了NVIDIA的显卡驱动程序和CUDA加速组件,接下来就可以根据需要安装pytorch等机器学习框架了。


快速在DebianLinux下配置NVIDIA驱动和CUDA环境
https://featherp.icu/2024/10/26/快速在DebianLinux下配置NVIDIA驱动和CUDA环境/
作者
羽毛P
发布于
2024年10月26日
许可协议