云计算百科
云计算领域专业知识百科平台

服务器中 安装 NVIDIA 驱动

运行代码

nvidia-smi

输出:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

说明:

检测到了 NVIDIA 显卡硬件,但无法和它通信,通常是因为:

NVIDIA 驱动没有正确安装或未运行。

1. 查看自己的系统是 Ubuntu 还是 CentOS(很重要)

查看系统名称和版本

cat /etc/os-release

 Ubuntu 示例:

NAME="Ubuntu" VERSION="20.04.6 LTS (Focal Fossa)" ID=ubuntu …

 CentOS 示例:

NAME="CentOS Linux" VERSION="7 (Core)" ID="centos" …

我的系统是 

NAME="CentOS Linux" VERSION="8" ID="centos" ID_LIKE="rhel fedora" VERSION_ID="8" PLATFORM_ID="platform:el8" PRETTY_NAME="CentOS Linux 8" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:centos:centos:8" HOME_URL="https://centos.org/" BUG_REPORT_URL="https://bugs.centos.org/" CENTOS_MANTISBT_PROJECT="CentOS-8" CENTOS_MANTISBT_PROJECT_VERSION="8" , 

2. 确认是否安装显卡驱动

 bash:

lsmod | grep nvidia

  • 有输出 → 说明驱动已加载

  • 没输出 → 驱动没加载或压根没装

 3. 再看是否有显卡硬件存在:

lspci | grep -i nvidia

有输出 → 有显卡

没输出 → 这台服务器根本没有 NVIDIA GPU

我们的服务器输出:

a1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000] a1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller

e1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000] e1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller  

 说明:

  • 有两块 NVIDIA RTX A6000 GPU,每块显卡带一个音频模块(00.1 是音频控制器)

  • RTX A6000 是顶级专业显卡,显存高达 48GB

4. 查询系统中是否安装过 NVIDIA 相关包

对于 Ubuntu/Debian 系统:

dpkg -l | grep nvidia

对于 CentOS/RHEL 系统:

rpm -qa | grep nvidia

  • 如果有输出(如 nvidia-driver-xxx),说明驱动包存在

  • 如果没输出,说明系统中可能没有安装任何 NVIDIA 驱动

我运行

rpm -qa | grep nvidia

输出:

pcp-pmda-nvidia-gpu-5.3.1-5.el8.x86_64

 pcp-pmda-nvidia-gpu 是一个 性能监控插件(PMDA),属于 PCP(Performance Co-Pilot)工具,用来监控 GPU 的,但它本身不是驱动。

5.安装 NVIDIA 驱动(适用于 CentOS 7/8)

5.1 禁用 Nouveau(开源显卡驱动,防冲突)

sudo bash -c 'echo -e "blacklist nouveau\\noptions nouveau modeset=0" > /etc/modprobe.d/disable-nouveau.conf'

# 重新生成内核镜像
sudo dracut –force

# 重启系统(让禁用生效)
sudo reboot

5.2 确认 nouveau 被禁用

 重启后,运行:

lsmod | grep nouveau

  • 无输出 ✅ 表示 nouveau 已禁用

  • 有输出 ❌ 表示禁用失败,请重新执行第 1 步

5.3 下载并安装 NVIDIA 官方驱动

在浏览器中访问并下载最新版 .run 文件: NVIDIA 驱动官网

  • 打开官网:Download The Official NVIDIA Drivers | NVIDIA

  • 分类栏位你应该选的内容
    Product Type NVIDIA RTX / Quadro ✅(这是最新分类)
    Product Series RTX Series 或 RTX A Series ✅
    Product RTX A6000 ✅
    Operating System Linux 64-bit ✅
    Language English (US) 或你习惯的语言
  • 下载 .run 文件(例如:NVIDIA-Linux-x86_64-535.154.05.run)

  • 在你选中的版本(建议第一个 570.133.07)旁边,点击绿色按钮 “View”

  • 然后会跳转到该驱动的详情页

  • 在详情页中你会看到一个绿色的大按钮:

  • Download

    4. 点击 Download 就会开始下载 .run 安装文件,或者跳转到一个 .run 文件的直链页面

     5.4 进入纯命令行模式安装

    关闭图形界面:

    sudo systemctl isolate multi-user.target

    然后:

    chmod +x NVIDIA-Linux-*.run
    sudo ./NVIDIA-Linux-*.run

    安装过程中:

    • 默认全部回车

    • 如果提示要禁用 Nouveau,选择 “Yes”

    5.5 重启并验证安装成功

    sudo reboot

    启动后运行:

    nvidia-smi

    如果你的是Ubuntu 系统

    赞(0)
    未经允许不得转载:网硕互联帮助中心 » 服务器中 安装 NVIDIA 驱动
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!