Dell 服务器 ESXi返回/无法初始化nvml:未知错误 NVIDIA GPU
说明
当尝试安装一个采用NVIDIA GPU(例如 m10)插入一个支持14G服务器(R740和 r 740 XD)、安装了驱动程序后VIB,可以尝试执行nVidia-SMI命令时出现以下错误: When trying to install an NVidia GPU (e.g. M10) into a supported 14G server (R740 and R740XD), after installing the driver vib, the following error can appear when attempting to execute the nvidia-smi command:
无法初始化nvml:未知错误
在NVIDIA-错误报告.log,/var/log/vmkernel.log”部分中看到类似于以下消息的事件:
2017-11- 02 t18 19.707 z cpu45: 66263) 恢复VRM:加载nVidia UNIX的X86_64内核模块384.73Mon Aug21 15:16:25:28:PDT2017
2017-11- 02 t18:28: 19.710 z cpu3: 66145) 恢复VRM:这是64位栏映射16TB以上的系统
恢复VRM:BIOS或VMware ESXi的内核。此PCI I/O区域分配
恢复VRM:nVidia内核不支持该设备。
恢复VRM:栏1 256M@0 x 382 FE00$
__
解决方案
硬件工作正常。要解决此问题,请将内存映射I/O库设置为512GB(默认情况下为56TB):
r740硬件用户手册》中的已记录此问题:
4GB以上的内存映射I/O-启用或禁用对需要大量内存的PCIe设备的支持。启用此选项仅适用于64位操作系统。该选项设置为已禁用)(在默认设置下已启用。
内存映射I/O上述库-当设置为12TB,则系统将映射MMIO基座为12TB。启用此选项,操作系统需要44位的PCIe寻址。
当设置为512GB,则系统将映射MMIO基座,512GB,并降低的最大内存支持,小于512GB。启用此选项仅用于4GPU dgma问题。此选项在默认情况下设置为56TB。
http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf(第52页)
请注意,这将限制系统内存为512GB。
更改此设置后,系统重新启动时,nvidia-smi应输出类似于: