快速在DebianLinux下配置NVIDIA驱动和CUDA环境
前言
在重新部署羽毛云的机器学习训练虚拟机时,突然发现曾经在Ubuntu系下惯用的ubuntu-drivers驱动程序安装工具在Debian下并没有办法使用,遂写此文简述在Debian下使用debian的分发软件源安装Nvidia驱动的经历
获取显卡的详细型号
首先尝试使用了lspci命令列出所有的显示设备,看看能不能找到显卡的型号
lspci | grep -i vga
很遗憾,羽毛这张P104-100似乎并没有把型号写在pci配置中,lspci命令的输出如下:
00:01.0 VGA compatible controller: Device 1234:1111 (rev 02)
但是没有关系,还可以使用 nvidia-detect 工具来帮我们检测显卡型号
首先安装nvidia-detect
sudo apt install nvidia-detect
随后运行nvidia-detect来检测显卡型号,输出如下:
Detected NVIDIA GPUs:
01:00.0 3D controller [0302]: NVIDIA Corporation GP104 [P104-100] [10de:1b87] (rev a1)
Checking card: NVIDIA Corporation GP104 [P104-100] (rev a1)
Your card is supported by all driver versions.
Your card is also supported by the Tesla 470 drivers series.
It is recommended to install the
nvidia-driver
package.
nvidia-detect 成功检测到正确的显卡型号,可以看到羽毛这张卡是矿矿王 P104-100,那么接下来有两个选择:
前往nvidia官网下载同样支持此卡的Tesla 470驱动并安装
直接使用 nvidia-driver软件包安装
安装NVIDIA驱动程序
羽毛这里为了更快速方便,选择直接安装了nvidia-driver
sudo apt install nvidia-driver
安装完成后,重启!然后尝试使用nvidia-smi查看驱动安装情况:
featherp@wh-dlserver:~$ nvidia-smi
Sat Oct 26 19:28:43 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA P104-100 On | 00000000:01:00.0 Off | N/A |
| 47% 33C P0 8W / 180W | 0MiB / 8192MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
+---------------------------------------------------------------------------------------+
已经正常安装了535.183.01驱动,可以看到此驱动最高支持12.2的CUDA。
CUDA Toolkit 的安装
接着从软件源继续安装cuda toolkit
apt install nvidia-cuda-dev nvidia-cuda-toolkit
完成
完成以上步骤之后,就已经顺利安装完成了NVIDIA的显卡驱动程序和CUDA加速组件,接下来就可以根据需要安装pytorch等机器学习框架了。
快速在DebianLinux下配置NVIDIA驱动和CUDA环境
https://featherp.icu/2024/10/26/快速在DebianLinux下配置NVIDIA驱动和CUDA环境/