Привет, я новый участник форума, но работаю с Proxmox уже некоторое время. У меня возникла довольно запутанная проблема и нужна консультация. Ниже я опишу свою проблему и оборудование, на котором я работаю. Хост – Supermicro AS 4124GO-NART с NVIDIA DGX A100 8-GPU 40GB, используемый в моем университете. Конфигурация машины: 2 x AMD EPYC 7702, 1 ТБ оперативной памяти и NVIDIA DGX A100 8-GPU 40GB. Вычислительный модуль содержит NVLink и 2 x NVSwitch между ядрами GPU. PCI Passthrough настроен в соответствии с официальной документацией () и проверен ()_Passthrough). Кроме того, я наткнулся на эту тему () и пошагово проверил свою конфигурацию и протестировал предложения, указанные в теме выше. Хост сконфигурирован как кластер с 2 другими узлами. Хост работает нормально. Запускаю ВМ, могу мигрировать их на другие узлы кластера и так далее. Проблема начинается с передачей подсистемы DGX. Если я добавляю любое количество GPU A100, ВМ не запускается, и задача запускается до перезагрузки хоста (скриншот ниже). Если добавленные GPU убрать, ВМ запускается нормально. Кроме того, я попытался добавить устройство PCIe: 'Broadcom / LSI PCIe Switch management endpoint', думая о нем как об устройстве NVLink/NVSwitch, но ВМ все равно не запускается. Более того, я наткнулся на некоторую информацию о отключении GPU NVIDIA в этой теме (). Также пытался отключить ядра A100 перед запуском ВМ с передачей, но это не помогает. Удаление устройств PCIe позволяет ВМ запуститься. Просмотр journalctl после запуска ВМ с GPU выглядит следующим образом:
Code: Jan 12 12:14:39 deimos login[5848]: ROOT LOGIN on '/dev/pts/0' from '*.*.*.*'
Jan 12 12:14:54 deimos chronyd[5308]: Selected source 212.160.106.226 (2.debian.pool.ntp.org)
Jan 12 12:14:54 deimos chronyd[5308]: System clock TAI offset set to 37 seconds
Jan 12 12:15:01 deimos kernel: nvidia_uvm: module uses symbols from proprietary module nvidia, inheriting taint.
Jan 12 12:15:01 deimos kernel: nvidia-uvm: Loaded the UVM driver, major device number 504.
Jan 12 12:16:00 deimos chronyd[5308]: Selected source 80.50.102.114 (2.debian.pool.ntp.org)
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000ca00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000c700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000a00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Unloading driver
Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jan 12 12:17:01 deimos CRON[6433]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session closed for user root
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:47:00.0 on minor 1
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:4d:00.0 on minor 2
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:87:00.0 on minor 7
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:8d:00.0 on minor 8
Jan 12 12:19:04 deimos pvedaemon[6983]: start VM 124: UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
Jan 12 12:19:04 deimos pvedaemon[5622]: <root@pam> starting task UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
Jan 12 12:19:04 deimos kernel: NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! Сегодня я столкнулся с NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! что понимаю, что GPU все еще используется драйвером. Дополнительно, интересно, не делает ли что-то не то модуль nvidia-drm здесь. Какие мысли? Буду признателен за любую дополнительную информацию. Сейчас возвращаюсь к изучению документации NVIDIA.
Code: Jan 12 12:14:39 deimos login[5848]: ROOT LOGIN on '/dev/pts/0' from '*.*.*.*'
Jan 12 12:14:54 deimos chronyd[5308]: Selected source 212.160.106.226 (2.debian.pool.ntp.org)
Jan 12 12:14:54 deimos chronyd[5308]: System clock TAI offset set to 37 seconds
Jan 12 12:15:01 deimos kernel: nvidia_uvm: module uses symbols from proprietary module nvidia, inheriting taint.
Jan 12 12:15:01 deimos kernel: nvidia-uvm: Loaded the UVM driver, major device number 504.
Jan 12 12:16:00 deimos chronyd[5308]: Selected source 80.50.102.114 (2.debian.pool.ntp.org)
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000ca00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000c700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000a00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000700] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Unloading driver
Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Unloading driver
Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jan 12 12:17:01 deimos CRON[6433]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session closed for user root
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:47:00.0 on minor 1
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:4d:00.0 on minor 2
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:87:00.0 on minor 7
Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Loading driver
Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:8d:00.0 on minor 8
Jan 12 12:19:04 deimos pvedaemon[6983]: start VM 124: UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
Jan 12 12:19:04 deimos pvedaemon[5622]: <root@pam> starting task UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
Jan 12 12:19:04 deimos kernel: NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! Сегодня я столкнулся с NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! что понимаю, что GPU все еще используется драйвером. Дополнительно, интересно, не делает ли что-то не то модуль nvidia-drm здесь. Какие мысли? Буду признателен за любую дополнительную информацию. Сейчас возвращаюсь к изучению документации NVIDIA.
