Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    PCI Passthrough с NVIDIA HGX 8 x A100 40GB – ВМ не запускается. У кого-нибудь были проблемы с запуском виртуальной машины при использовании PCI Passthrough и NVIDIA HGX 8 x A100 40GB? Попробовал разные конфигурации и способы, но пока безрезультатно. Во

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    PCI Passthrough с NVIDIA HGX 8 x A100 40GB – ВМ не запускается. У кого-нибудь были проблемы с запуском виртуальной машины при использовании PCI Passthrough и NVIDIA HGX 8 x A100 40GB? Попробовал разные конфигурации и способы, но пока безрезультатно. Во, Proxmox Виртуальная Среда
     
    whyer
    Guest
    #1
    0
    12.01.2024 15:14:00
    Привет, я новый участник форума, но работаю с Proxmox уже некоторое время. У меня возникла довольно запутанная проблема и нужна консультация. Ниже я опишу свою проблему и оборудование, на котором я работаю. Хост – Supermicro AS 4124GO-NART с NVIDIA DGX A100 8-GPU 40GB, используемый в моем университете. Конфигурация машины: 2 x AMD EPYC 7702, 1 ТБ оперативной памяти и NVIDIA DGX A100 8-GPU 40GB. Вычислительный модуль содержит NVLink и 2 x NVSwitch между ядрами GPU. PCI Passthrough настроен в соответствии с официальной документацией (https://pve.proxmox.com/wiki/PCI_Passthrough) и проверен (https://pve.proxmox.com/wiki/PCI(e)_Passthrough). Кроме того, я наткнулся на эту тему (https://forum.proxmox.com/threads/p...a100-80gb-4-vms-gpu-only-works-on-one.127114/) и пошагово проверил свою конфигурацию и протестировал предложения, указанные в теме выше. Хост сконфигурирован как кластер с 2 другими узлами. Хост работает нормально. Запускаю ВМ, могу мигрировать их на другие узлы кластера и так далее. Проблема начинается с передачей подсистемы DGX. Если я добавляю любое количество GPU A100, ВМ не запускается, и задача запускается до перезагрузки хоста (скриншот ниже). Если добавленные GPU убрать, ВМ запускается нормально. Кроме того, я попытался добавить устройство PCIe: 'Broadcom / LSI PCIe Switch management endpoint', думая о нем как об устройстве NVLink/NVSwitch, но ВМ все равно не запускается. Более того, я наткнулся на некоторую информацию о отключении GPU NVIDIA в этой теме (https://unix.stackexchange.com/ques...ble-and-later-re-enable-one-of-my-nvidia-gpus). Также пытался отключить ядра A100 перед запуском ВМ с передачей, но это не помогает. Удаление устройств PCIe позволяет ВМ запуститься. Просмотр journalctl после запуска ВМ с GPU выглядит следующим образом:

    Code: Jan 12 12:14:39 deimos login[5848]: ROOT LOGIN on '/dev/pts/0' from '*.*.*.*'
    Jan 12 12:14:54 deimos chronyd[5308]: Selected source 212.160.106.226 (2.debian.pool.ntp.org)
    Jan 12 12:14:54 deimos chronyd[5308]: System clock TAI offset set to 37 seconds
    Jan 12 12:15:01 deimos kernel: nvidia_uvm: module uses symbols from proprietary module nvidia, inheriting taint.
    Jan 12 12:15:01 deimos kernel: nvidia-uvm: Loaded the UVM driver, major device number 504.
    Jan 12 12:16:00 deimos chronyd[5308]: Selected source 80.50.102.114 (2.debian.pool.ntp.org)
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000ca00] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x0000c700] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000a00] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00000700] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Unloading driver
    Jan 12 12:16:27 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Unloading driver
    Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
    Jan 12 12:17:01 deimos CRON[6433]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
    Jan 12 12:17:01 deimos CRON[6432]: pam_unix(cron:session): session closed for user root
    Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004700] Loading driver
    Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:47:00.0 on minor 1
    Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00004d00] Loading driver
    Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:4d:00.0 on minor 2
    Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008700] Loading driver
    Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:87:00.0 on minor 7
    Jan 12 12:18:06 deimos kernel: [drm] [nvidia-drm] [GPU ID 0x00008d00] Loading driver
    Jan 12 12:18:06 deimos kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:8d:00.0 on minor 8
    Jan 12 12:19:04 deimos pvedaemon[6983]: start VM 124: UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
    Jan 12 12:19:04 deimos pvedaemon[5622]: <root@pam> starting task UPID:deimos:00001B47:0000785C:65A12028:qmstart:124:root@pam:
    Jan 12 12:19:04 deimos kernel: NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! Сегодня я столкнулся с NVRM: Attempting to remove device 0000:47:00.0 with non-zero usage count! что понимаю, что GPU все еще используется драйвером. Дополнительно, интересно, не делает ли что-то не то модуль nvidia-drm здесь. Какие мысли? Буду признателен за любую дополнительную информацию. Сейчас возвращаюсь к изучению документации NVIDIA.
     
     
     
    gestromt
    Guest
    #2
    0
    18.05.2025 08:46:00
    Нашёл решение? Я в такой же ситуации, к сожалению, не могу найти нормальной документации по nvswitch.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры