Привет всем! У меня возникают перезагрузки хоста Proxmox, и я надеюсь получить какие-нибудь подсказки.
Проблема: Мой узел Proxmox хоста падает и перезагружается каждый раз, когда я пытаюсь остановить конкретную виртуальную машину Windows 10 (ID 509001), в которой есть NVIDIA GPU, проброшенный через VFIO.
Симптомы и результаты: Сбой хоста происходит при использовании кнопки "Остановить" в интерфейсе, команды `qm stop 509001` или эквивалентного вызова API. Важно отметить, что инициация выключения из гостевой ОС Windows 10 работает идеально. Виртуальная машина выключается корректно, и хост Proxmox остается стабильным. Удаление конфигурации проброса NVIDIA GPU RTX 5090 из виртуальной машины предотвращает сбой хоста – виртуальная машина останавливается нормально любым способом. Когда проброс был активен, проверка журналов хоста (journalctl -b -1 -e) непосредственно перед сбоем выявила повторяющиеся ошибки `kvm: VFIO_MAP_DMA failed: Invalid argument` , связанные с процессом QEMU виртуальной машины.
Текущий статус: Конфигурация проброса позволяет гостевой ОС Windows 10 успешно распознавать и использовать NVIDIA GPU. Единственная остающаяся проблема заключается в том, что хост падает только при принудительной остановке виртуальной машины, а не во время корректного выключения, управляемого гостевой ОС.
Вопрос: Это, похоже, указывает на нестабильность именно во время принудительного отсоединения устройства VFIO и очистки ресурсов. Кто-нибудь еще сталкивался с падением хоста только во время принудительной остановки виртуальных машин (а не во время корректного выключения) с использованием NVIDIA passthrough? Буду признателен за любые советы или предложения!
В этом обзоре четко изложены:
* Конкретное действие, вызывающее сбой (принудительная остановка). (Другие процессы, такие как "Запуск", "Перезагрузка", "Выключение", "Откат снимка", работают нормально)
* Что работает (выключение гостевой ОС, отсутствие проброса).
* Доказательства, указывающие на VFIO (VFIO\_MAP\_DMA failed).
* Точная помощь, которая необходима (решения для нестабильности принудительной остановки).
Спецификация хоста:
* Proxmox 8.4.1
* 28 x Intel® Core i7-14700 (1 Socket)
* Linux 6.8.12-9-pve (2025-03-16T19:18Z)
* GPU NVIDIA RTX 5090
Спецификация виртуальной машины:
* Code: agent: 1
* args: -cpu host,hv\_passthrough,level=30
* balloon: 0
* bios: ovmf
* boot: order=virtio0;net0;ide0
* cores: 16
* cpu: host
* efidisk0: local-lvm:vm-509001-disk-0,efitype=4m,pre-enrolled-keys=1,size=4M
* hostpci0: 0000:01:00,pcie=1
* ide0: local:iso/virtio-win-0.1.266.iso,media=cdrom,size=707456K
* machine: pc-q35-9.2
* memory: 65536
* meta: creation-qemu=9.2.0,ctime=1743998400
* net0: virtio=BC:24:11:56:8E:0B,bridge=vmbr0,firewall=1
* numa: 0
* ostype: win10
* parent: session\_start\_point
* scsihw: virtio-scsi-single
* smbios1: uuid=64139eb6-cad7-4366-a1dd-e89fb117e7d4
* sockets: 1
* vga: std
* virtio0: local-lvm:vm-509001-disk-1,cache=writeback,iothread=1,size=1500G
* vmgenid: d18e9d69-86b8-43bd-b1d4-85b9b31dc6b8
Проблема: Мой узел Proxmox хоста падает и перезагружается каждый раз, когда я пытаюсь остановить конкретную виртуальную машину Windows 10 (ID 509001), в которой есть NVIDIA GPU, проброшенный через VFIO.
Симптомы и результаты: Сбой хоста происходит при использовании кнопки "Остановить" в интерфейсе, команды `qm stop 509001` или эквивалентного вызова API. Важно отметить, что инициация выключения из гостевой ОС Windows 10 работает идеально. Виртуальная машина выключается корректно, и хост Proxmox остается стабильным. Удаление конфигурации проброса NVIDIA GPU RTX 5090 из виртуальной машины предотвращает сбой хоста – виртуальная машина останавливается нормально любым способом. Когда проброс был активен, проверка журналов хоста (journalctl -b -1 -e) непосредственно перед сбоем выявила повторяющиеся ошибки `kvm: VFIO_MAP_DMA failed: Invalid argument` , связанные с процессом QEMU виртуальной машины.
Текущий статус: Конфигурация проброса позволяет гостевой ОС Windows 10 успешно распознавать и использовать NVIDIA GPU. Единственная остающаяся проблема заключается в том, что хост падает только при принудительной остановке виртуальной машины, а не во время корректного выключения, управляемого гостевой ОС.
Вопрос: Это, похоже, указывает на нестабильность именно во время принудительного отсоединения устройства VFIO и очистки ресурсов. Кто-нибудь еще сталкивался с падением хоста только во время принудительной остановки виртуальных машин (а не во время корректного выключения) с использованием NVIDIA passthrough? Буду признателен за любые советы или предложения!
В этом обзоре четко изложены:
* Конкретное действие, вызывающее сбой (принудительная остановка). (Другие процессы, такие как "Запуск", "Перезагрузка", "Выключение", "Откат снимка", работают нормально)
* Что работает (выключение гостевой ОС, отсутствие проброса).
* Доказательства, указывающие на VFIO (VFIO\_MAP\_DMA failed).
* Точная помощь, которая необходима (решения для нестабильности принудительной остановки).
Спецификация хоста:
* Proxmox 8.4.1
* 28 x Intel® Core i7-14700 (1 Socket)
* Linux 6.8.12-9-pve (2025-03-16T19:18Z)
* GPU NVIDIA RTX 5090
Спецификация виртуальной машины:
* Code: agent: 1
* args: -cpu host,hv\_passthrough,level=30
* balloon: 0
* bios: ovmf
* boot: order=virtio0;net0;ide0
* cores: 16
* cpu: host
* efidisk0: local-lvm:vm-509001-disk-0,efitype=4m,pre-enrolled-keys=1,size=4M
* hostpci0: 0000:01:00,pcie=1
* ide0: local:iso/virtio-win-0.1.266.iso,media=cdrom,size=707456K
* machine: pc-q35-9.2
* memory: 65536
* meta: creation-qemu=9.2.0,ctime=1743998400
* net0: virtio=BC:24:11:56:8E:0B,bridge=vmbr0,firewall=1
* numa: 0
* ostype: win10
* parent: session\_start\_point
* scsihw: virtio-scsi-single
* smbios1: uuid=64139eb6-cad7-4366-a1dd-e89fb117e7d4
* sockets: 1
* vga: std
* virtio0: local-lvm:vm-509001-disk-1,cache=writeback,iothread=1,size=1500G
* vmgenid: d18e9d69-86b8-43bd-b1d4-85b9b31dc6b8
