运行代码
nvidia-smi
输出:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
说明:
检测到了 NVIDIA 显卡硬件,但无法和它通信,通常是因为:
NVIDIA 驱动没有正确安装或未运行。
1. 查看自己的系统是 Ubuntu 还是 CentOS(很重要)
查看系统名称和版本
cat /etc/os-release
Ubuntu 示例:
NAME="Ubuntu" VERSION="20.04.6 LTS (Focal Fossa)" ID=ubuntu …
CentOS 示例:
NAME="CentOS Linux" VERSION="7 (Core)" ID="centos" …
我的系统是
NAME="CentOS Linux" VERSION="8" ID="centos" ID_LIKE="rhel fedora" VERSION_ID="8" PLATFORM_ID="platform:el8" PRETTY_NAME="CentOS Linux 8" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:centos:centos:8" HOME_URL="https://centos.org/" BUG_REPORT_URL="https://bugs.centos.org/" CENTOS_MANTISBT_PROJECT="CentOS-8" CENTOS_MANTISBT_PROJECT_VERSION="8" ,
2. 确认是否安装显卡驱动
bash:
lsmod | grep nvidia
-
有输出 → 说明驱动已加载
-
没输出 → 驱动没加载或压根没装
3. 再看是否有显卡硬件存在:
lspci | grep -i nvidia
有输出 → 有显卡
没输出 → 这台服务器根本没有 NVIDIA GPU
我们的服务器输出:
a1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000] a1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller
e1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000] e1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller
说明:
-
有两块 NVIDIA RTX A6000 GPU,每块显卡带一个音频模块(00.1 是音频控制器)
-
RTX A6000 是顶级专业显卡,显存高达 48GB
4. 查询系统中是否安装过 NVIDIA 相关包
对于 Ubuntu/Debian 系统:
dpkg -l | grep nvidia
对于 CentOS/RHEL 系统:
rpm -qa | grep nvidia
-
如果有输出(如 nvidia-driver-xxx),说明驱动包存在
-
如果没输出,说明系统中可能没有安装任何 NVIDIA 驱动
我运行
rpm -qa | grep nvidia
输出:
pcp-pmda-nvidia-gpu-5.3.1-5.el8.x86_64
pcp-pmda-nvidia-gpu 是一个 性能监控插件(PMDA),属于 PCP(Performance Co-Pilot)工具,用来监控 GPU 的,但它本身不是驱动。
5.安装 NVIDIA 驱动(适用于 CentOS 7/8)
5.1 禁用 Nouveau(开源显卡驱动,防冲突)
sudo bash -c 'echo -e "blacklist nouveau\\noptions nouveau modeset=0" > /etc/modprobe.d/disable-nouveau.conf'
# 重新生成内核镜像
sudo dracut –force
# 重启系统(让禁用生效)
sudo reboot
5.2 确认 nouveau 被禁用
重启后,运行:
lsmod | grep nouveau
-
无输出 ✅ 表示 nouveau 已禁用
-
有输出 ❌ 表示禁用失败,请重新执行第 1 步
5.3 下载并安装 NVIDIA 官方驱动
在浏览器中访问并下载最新版 .run 文件: NVIDIA 驱动官网
-
打开官网:Download The Official NVIDIA Drivers | NVIDIA
-
分类栏位你应该选的内容 Product Type NVIDIA RTX / Quadro ✅(这是最新分类) Product Series RTX Series 或 RTX A Series ✅ Product RTX A6000 ✅ Operating System Linux 64-bit ✅ Language English (US) 或你习惯的语言 -
下载 .run 文件(例如:NVIDIA-Linux-x86_64-535.154.05.run)
在你选中的版本(建议第一个 570.133.07)旁边,点击绿色按钮 “View”
然后会跳转到该驱动的详情页
在详情页中你会看到一个绿色的大按钮:
Download
4. 点击 Download 就会开始下载 .run 安装文件,或者跳转到一个 .run 文件的直链页面
5.4 进入纯命令行模式安装
关闭图形界面:
sudo systemctl isolate multi-user.target
然后:
chmod +x NVIDIA-Linux-*.run
sudo ./NVIDIA-Linux-*.run
安装过程中:
-
默认全部回车
-
如果提示要禁用 Nouveau,选择 “Yes”
5.5 重启并验证安装成功
sudo reboot
启动后运行:
nvidia-smi
如果你的是Ubuntu 系统
评论前必须登录!
注册