Привет всем! У меня странная проблема с Windows Server 2022 VM: каждые несколько секунд вся система зависает на секунду или около того. Кажется, чем больше нагрузка, тем чаще это происходит, но только на короткие моменты, обычно секунда или меньше, иногда до 2 секунд, но не больше. Это RDP сервер, и работать с этими "задержками" очень неудобно. Проблема есть с RDP, но также и с веб-консолью (noVNC), и её можно наблюдать внутри VM без необходимости в сетевом соединении. Я занимаюсь этим уже несколько дней, провел много тестов и читал очень много, но пока не смог решить проблему.
VM работает на двухсокетовом сервере (2 x 24C32T старенький Xeon) с 2 x PM1653 SAS (ZFS зеркало) плюс несколько вращающихся дисков (для резервного копирования, не используются VM), 256 GB RAM, всё ZFS только. На странице сводки узла PVE использование RAM ниже 50% (~115 GB), CPU max 40%. У узла нет swap-пространства. У VM использование RAM ~30%, но в рабочее время высокая загрузка CPU, 60-80% в течение рабочих часов. Внутри VM я вижу несколько процессов с загрузкой 2-5%, и в общей сложности до 80% (но я думаю, что суммирование всех процессов дает 30%, а не 80%). Кроме того, я часто вижу "прерывания" ("Systemunterbrechnungen") с загрузкой CPU ~2%.
Сама VM, кажется, не замечает этих зависаний, как будто она полностью зависает на моменте. "Мировая заморозка". Когда я пингую снаружи, я вижу высокую ping RTT (500-2000 мс), которая идеально коррелирует с задержками ввода/зависаниями. Когда я пингую изнутри, я вижу, что пинг зависает, но он показывает =<3мс, как будто "часы" для пинга тоже зависают. Однако, когда я использую HD Tune Pro, инструмент для тестирования дисков, я вижу не только то, что инструмент зависает на секунду или две, но и впоследствии получаю "просадку" скорости чтения, опять же на 100% коррелирует с "зависаниями".
Итак, Windows ping не видит проблему, но HD Tune Pro видит. Из последнего я делаю вывод, что у меня нет проблем, связанных с сетью. Проблема намного хуже в рабочее время, чем ночью, но я не смог искусственно спровоцировать ее (чтобы я мог тестировать ночью в окно обслуживания):
* Не удалось нагрузить сервер, чтобы спровоцировать зависания.
* Не могу перезагрузить его без окна обслуживания (на нем работают ночные смены).
Я испробовал следующее:
* Высокие нагрузки на сервер не приводят к зависанию.
* Использование HD Tune Pro показывает просадку скорости чтения.
* Вижу много прерываний ("Systemunterbrechnungen").
Внутри VM, как правило, ни CPU, ни I/O диска не выглядят плохо, отчет Windows Performance Indicator показывает все зеленое. В диспетчере задач есть всего несколько процессов с загрузкой 2-5%, но сверху часто я вижу "прерывания" которые, как я думаю, связаны с прерываниями.
Я зашел в тупик и надеюсь, что кто-то сможет подсказать, что еще можно попробовать, пожалуйста!
```
Code: pve-manager/8.1.4/ec5affc9e41f1d79 (running kernel: 6.5.11-8-pve)
Code: root@pve-2:~# cat /etc/pve/qemu-server/107.conf
agent: 1
bios: ovmf
boot: order=virtio0;ide2;net0
cores: 12
cpu: host
efidisk0: local-zfs:vm-107-disk-0,efitype=4m,pre-enrolled-keys=1,size=1M
ide2: none,media=cdrom
machine: pc-q35-8.0
memory: 49152
meta: creation-qemu=8.0.2,ctime=1695813306
name: w2k22-ts
net0: virtio=0E:4B:CB:cc:bb:cc,bridge=vmbr0,firewall=1
numa: 1
onboot: 1
ostype: win11
scsihw: virtio-scsi-single
smbios1: uuid=28f74c6e-bde3-49d5-b215-68a4031512803
sockets: 2
virtio0: local-zfs:vm-102-disk-1,cache=writethrough,iothread=1,size=432G
vmgenid: d16b6ad8-226f-4baf-a4d8-564331511392f
[PENDING]
balloon: 0
vga: virtio
```
VM работает на двухсокетовом сервере (2 x 24C32T старенький Xeon) с 2 x PM1653 SAS (ZFS зеркало) плюс несколько вращающихся дисков (для резервного копирования, не используются VM), 256 GB RAM, всё ZFS только. На странице сводки узла PVE использование RAM ниже 50% (~115 GB), CPU max 40%. У узла нет swap-пространства. У VM использование RAM ~30%, но в рабочее время высокая загрузка CPU, 60-80% в течение рабочих часов. Внутри VM я вижу несколько процессов с загрузкой 2-5%, и в общей сложности до 80% (но я думаю, что суммирование всех процессов дает 30%, а не 80%). Кроме того, я часто вижу "прерывания" ("Systemunterbrechnungen") с загрузкой CPU ~2%.
Сама VM, кажется, не замечает этих зависаний, как будто она полностью зависает на моменте. "Мировая заморозка". Когда я пингую снаружи, я вижу высокую ping RTT (500-2000 мс), которая идеально коррелирует с задержками ввода/зависаниями. Когда я пингую изнутри, я вижу, что пинг зависает, но он показывает =<3мс, как будто "часы" для пинга тоже зависают. Однако, когда я использую HD Tune Pro, инструмент для тестирования дисков, я вижу не только то, что инструмент зависает на секунду или две, но и впоследствии получаю "просадку" скорости чтения, опять же на 100% коррелирует с "зависаниями".
Итак, Windows ping не видит проблему, но HD Tune Pro видит. Из последнего я делаю вывод, что у меня нет проблем, связанных с сетью. Проблема намного хуже в рабочее время, чем ночью, но я не смог искусственно спровоцировать ее (чтобы я мог тестировать ночью в окно обслуживания):
* Не удалось нагрузить сервер, чтобы спровоцировать зависания.
* Не могу перезагрузить его без окна обслуживания (на нем работают ночные смены).
Я испробовал следующее:
* Высокие нагрузки на сервер не приводят к зависанию.
* Использование HD Tune Pro показывает просадку скорости чтения.
* Вижу много прерываний ("Systemunterbrechnungen").
Внутри VM, как правило, ни CPU, ни I/O диска не выглядят плохо, отчет Windows Performance Indicator показывает все зеленое. В диспетчере задач есть всего несколько процессов с загрузкой 2-5%, но сверху часто я вижу "прерывания" которые, как я думаю, связаны с прерываниями.
Я зашел в тупик и надеюсь, что кто-то сможет подсказать, что еще можно попробовать, пожалуйста!
```
Code: pve-manager/8.1.4/ec5affc9e41f1d79 (running kernel: 6.5.11-8-pve)
Code: root@pve-2:~# cat /etc/pve/qemu-server/107.conf
agent: 1
bios: ovmf
boot: order=virtio0;ide2;net0
cores: 12
cpu: host
efidisk0: local-zfs:vm-107-disk-0,efitype=4m,pre-enrolled-keys=1,size=1M
ide2: none,media=cdrom
machine: pc-q35-8.0
memory: 49152
meta: creation-qemu=8.0.2,ctime=1695813306
name: w2k22-ts
net0: virtio=0E:4B:CB:cc:bb:cc,bridge=vmbr0,firewall=1
numa: 1
onboot: 1
ostype: win11
scsihw: virtio-scsi-single
smbios1: uuid=28f74c6e-bde3-49d5-b215-68a4031512803
sockets: 2
virtio0: local-zfs:vm-102-disk-1,cache=writethrough,iothread=1,size=432G
vmgenid: d16b6ad8-226f-4baf-a4d8-564331511392f
[PENDING]
balloon: 0
vga: virtio
```
