Windows的VGPU非常简单,一路点鼠标下一步,没有什么难度,Linux的vgpu桌面还是有点坑。
环境:Vcenter6.7 ESXI6.7 Horizon7.8 Centos7.6 GRID VGPU7.2
不同的ESXI和VGPU版本支持的功能不尽相同,在配置之前一定要确定。
一,安装配置VGPU驱动
1,上传GPU的驱动到主机的存储空间,开启主机的ssh,然后登录主机,把驱动复制到/tmp文件夹下,迁移或关闭主机上所有的虚拟机,然后将主机置入维护模式,并安装驱动。
esxcli system maintenanceMode set --enable=true
esxcli software vib install -v /tmp/NVIDIA-VMware_ESXi_6.7_Host_Driver-410.107-1OEM.670.0.0.8169922.x86_64.vib
如果是升级驱动则用下面命令:
esxcli software vib update -v /tmp/NVIDIA-VMware_ESXi_6.7_Host_Driver-410.107-1OEM.670.0.0.8169922.x86_64.vib

卸载驱动用下面的命令:
esxcli software vib remove -n NVIDIA-VMware_ESXi_6.7_Host_Driver
2,查看驱动是否安装成功
esxcli software vib list | grep -i nvidia

nvidia-smi

备注:Tesla M60,Tesla M6和基于Pascal GPU架构的GPU,例如Tesla P100或Tesla P4,支持纠错码(ECC)内存,以提高数据完整性。图形模式下的特斯拉M60和M6 GPU默认情况下禁用ECC内存。NVIDIA vGPU不支持ECC内存。如果启用了ECC内存,则NVIDIA vGPU无法启动。因此,如果使用的是NVIDIA vGPU,则必须确保在所有GPU上禁用ECC内存。早期的M10,M60 还需要手动将模式转为图形模式,出厂默认是计算模式,近几年出的卡不需要,转换方法参考官方文档。
如果nvidia-smi
执行报错,先查看ecc是否关闭
nvidia-smi -q

如果没有关闭,执行下面命令关闭ecc
如果要将主机上所有GPU 或分配给VM的vGPU的ECC状态更改为关闭,请运行以下命令:
nvidia-smi -e 0
如果要将特定GPU 或vGPU的ECC状态更改为关闭,请运行以下命令:
nvidia-smi -i id -e 0
id 是执行 nvidia-smi后显示的GPU 或vGPU的索引 即Bus-Id。
比如要禁用Bus-ID为00000000:31:00.0的GPU的ECC
nvidia-smi -i 00000000:31:00.0 -e 0
关闭ecc 的情况下如果还是报错,官网查看驱动版本和当前esxi是否兼容,确定版本没有问题的情况下继续报错,则点击这里确定主机的BIOS设置是否规范。
确认上述步骤无任何问题,把主机退出维护模式,然后重启服务器
esxcli system maintenanceMode set --enable=false
reboot
3,vcenter中选中主机,点击配置,单击图形

在图形设备
标签下,选择物理GPU,选择直接共享
,单击确定,多个GPU,重复操作即可

在主机图形
标签下,选择物理GPU,选择直接共享
,单击确定,多个GPU,重复操作即可

4,如果集群内有多个GPU服务器,可以开启VGPU的vmotion 模式。
点击vcenter实例名称,点击配置
,选择高级设置
并单击编辑
,弹出的窗口中,搜索关键字VGPU
,勾选已启用
,单击确定。此时vgpu 的vmotion功能已开启。

下表列出了支持VMware vmotion和vGPU的suspend-resume的软件版本
Guest OS | NVIDIA vGPU - VMware vSphereReleases | Pass-Through GPU - VMware vSphere Releases |
---|
Red Hat Enterprise Linux 7.0-7.6 and later compatible 7.x versions | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
CentOS 7.0-7.6 and later compatible 7.x versions | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
Red Hat Enterprise Linux 6.6 and later compatible 6.x versions | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
CentOS 6.6 and later compatible 6.x versions | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
Ubuntu 18.04 LTS | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
Ubuntu 16.04 LTS | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
Ubuntu 14.04 LTS | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
SUSE Linux Enterprise Server 12 SP3 | 6.7, 6.5, 6.0 | 6.7, 6.5, 6.0 |
并且只有以下GPU支持vmotion
Tesla M6
Tesla M10
Tesla M60
Tesla P4
Tesla P6
Tesla P40
Since 7.1: Tesla T4
二,配置虚拟机模板
[scode type="blue"]下面关键内容仅对打赏用户开放,之前通过微信打赏的用户,微信联系我获取密码,谢谢![/scode]