Привет, у меня дома лаборатория, состоящая из 3 мини-ПК (Ryzen 5825U с 64 ГБ оперативной памяти, 1 ТБ NVME, 500 ГБ SSD на каждом узле). Запускаю кластер Proxmox VE 8.3 с Ceph на 1 ТБ NVME и LVM Thin на 500 ГБ SSD. Этот кластер работает почти 2 года и в основном используется для контейнеров (CT), плюс несколько виртуальных машин.
В последние две недели я начал создавать много виртуальных машин Windows Server 2025 (Core и Desktop-версии) для тестирования различных конфигураций. Сначала я создал две ВМ с поддержкой virtio и Spice, выполнил обновления Windows и так далее, затем "OOBE" sysprep’ил ВМ и преобразовал их в шаблоны ВМ, после чего начал создавать ВМ, распределяя их по своим 3 узлам как можно более равномерно:
* 3 Windows Core (2 vCPU, 2 ГБ ОЗУ, 80 ГБ хранилища)
* 5 Windows Desktop (4 vCPU, 4 ГБ ОЗУ, 80 ГБ хранилища)
Нагрузка на ресурсы составляет около 10% для ЦП, менее 30% для памяти и примерно 35% для хранилища.
Все работало без проблем до вчерашнего дня, когда я заметил, что некоторые ВМ больше не подключаются... и обнаружил, что узел просто выключился! Я перезапустил его, не увидел никаких ошибок при загрузке (без восстановления хранилища или чего-либо, что могло бы указывать на сбой), проверил логи, не увидев признаков проблемы с нехваткой памяти (OOM). Что еще хуже: в journald я вижу сообщения о том, что узел выполнил нормальное выключение!
Теперь странная вещь: каждый раз, когда я запускаю одну из ВМ Windows на этом конкретном узле, узел выключается через случайную задержку от 5 до 30 минут??? С вчерашнего дня я трачу время на перезапуск этого чертового узла. Если переместить ВМ на другой узел, проблема исчезает! И на обоих других узлах! Я попытался удалить и пересоздать новую ВМ Windows с нуля, но узел все равно перезагружается!
У меня есть другие контейнеры (CT) и Linux-ВМ, работающие на этом узле, без каких-либо проблем: он остается абсолютно стабильным, если я не запущу ВМ Windows.
Вот конфигурация ВМ:
```
root@hvm3:~# cat /etc/pve/nodes/hvm3/qemu-server/130.conf
YAML:
#Windows Server 2025 en-us Desktop Edition
agent: 1
bios: ovmf
boot: order=scsi0;ide0
cores: 4
cpu: host
efidisk0: local-hvm3:vm-130-disk-0,efitype=4m,pre-enrolled-keys=1,size=4M
ide0: none,media=cdrom
machine: pc-q35-9.0
memory: 4096
meta: creation-qemu=9.0.2,ctime=1739467692
name: ad-rds-srv2
net0: virtio=BC:24:11:E8:28:16,bridge=vmbrvlan
numa: 0
ostype: win11
scsi0: local-hvm3:vm-130-disk-1,cache=writeback,discard=on,iothread=1,size=80G,ssd=1
scsihw: virtio-scsi-single
smbios1: uuid=d8f0281e-6729-43eb-8454-f1e7258835a7
sockets: 1
tpmstate0: local-hvm3:vm-130-disk-2,size=4M,version=v2.0
vga: qxl
vmgenid: 15d01cd2-4fae-4505-b6bd-8b5e047e9a99
```
Это сводит меня с ума, и я понятия не имею, что происходит! Есть какие-нибудь идеи?
С уважением,
Эрик
В последние две недели я начал создавать много виртуальных машин Windows Server 2025 (Core и Desktop-версии) для тестирования различных конфигураций. Сначала я создал две ВМ с поддержкой virtio и Spice, выполнил обновления Windows и так далее, затем "OOBE" sysprep’ил ВМ и преобразовал их в шаблоны ВМ, после чего начал создавать ВМ, распределяя их по своим 3 узлам как можно более равномерно:
* 3 Windows Core (2 vCPU, 2 ГБ ОЗУ, 80 ГБ хранилища)
* 5 Windows Desktop (4 vCPU, 4 ГБ ОЗУ, 80 ГБ хранилища)
Нагрузка на ресурсы составляет около 10% для ЦП, менее 30% для памяти и примерно 35% для хранилища.
Все работало без проблем до вчерашнего дня, когда я заметил, что некоторые ВМ больше не подключаются... и обнаружил, что узел просто выключился! Я перезапустил его, не увидел никаких ошибок при загрузке (без восстановления хранилища или чего-либо, что могло бы указывать на сбой), проверил логи, не увидев признаков проблемы с нехваткой памяти (OOM). Что еще хуже: в journald я вижу сообщения о том, что узел выполнил нормальное выключение!
Теперь странная вещь: каждый раз, когда я запускаю одну из ВМ Windows на этом конкретном узле, узел выключается через случайную задержку от 5 до 30 минут??? С вчерашнего дня я трачу время на перезапуск этого чертового узла. Если переместить ВМ на другой узел, проблема исчезает! И на обоих других узлах! Я попытался удалить и пересоздать новую ВМ Windows с нуля, но узел все равно перезагружается!
У меня есть другие контейнеры (CT) и Linux-ВМ, работающие на этом узле, без каких-либо проблем: он остается абсолютно стабильным, если я не запущу ВМ Windows.
Вот конфигурация ВМ:
```
root@hvm3:~# cat /etc/pve/nodes/hvm3/qemu-server/130.conf
YAML:
#Windows Server 2025 en-us Desktop Edition
agent: 1
bios: ovmf
boot: order=scsi0;ide0
cores: 4
cpu: host
efidisk0: local-hvm3:vm-130-disk-0,efitype=4m,pre-enrolled-keys=1,size=4M
ide0: none,media=cdrom
machine: pc-q35-9.0
memory: 4096
meta: creation-qemu=9.0.2,ctime=1739467692
name: ad-rds-srv2
net0: virtio=BC:24:11:E8:28:16,bridge=vmbrvlan
numa: 0
ostype: win11
scsi0: local-hvm3:vm-130-disk-1,cache=writeback,discard=on,iothread=1,size=80G,ssd=1
scsihw: virtio-scsi-single
smbios1: uuid=d8f0281e-6729-43eb-8454-f1e7258835a7
sockets: 1
tpmstate0: local-hvm3:vm-130-disk-2,size=4M,version=v2.0
vga: qxl
vmgenid: 15d01cd2-4fae-4505-b6bd-8b5e047e9a99
```
Это сводит меня с ума, и я понятия не имею, что происходит! Есть какие-нибудь идеи?
С уважением,
Эрик
