Столкнулся с проблемой зависания ввода-вывода для ВМ при работе с Ceph RBD в Proxmox. Эта ошибка возникает уже больше года и серьезно влияет на стабильность системы.
Среда: Proxmox (8.1.3) с Ceph (17.2.7)
ВМ: RHEL 8
Хранилище: Ceph RBD (блочное устройство) → ВМ как XFS и ext4 диск
Монтирование: fstab с настройками по умолчанию
Конфигурация ВМ: VirtIO-SCSI single, discard=on, эмуляция SSD
Триггер: случайные ошибки зависания ввода-вывода происходят примерно раз в 1-6 месяцев при обычном использовании ВМ с использованием стресс-теста fio, часового резервного копирования и операций создания и освобождения блоков памяти. Зависания происходят в течение 1-7 дней.
Симптомы:
1. Высокое время ожидания ввода-вывода: iostat показывает, например, avg-cpu: %iowait 43.71%, %idle 56.22% sdX: %util 100.00% Но все метрики ввода-вывода равны 0: r/s=0, w/s=0, rMB/s=0, wMB/s=0, aqu-sz=0
2. Операции: echo "abc" > new_file.txt (работает) echo "abc" >> existing_file.txt (работает) vi any_file.txt (ВМ замерзает на неопределенный срок) cp old_file.txt new_file.txt (ВМ замерзает на неопределенный срок)
3. Обходной путь: Live-миграция ВМ на другой узел Proxmox временно решает проблему, или перезагрузка ВМ решает проблему.
Проверены следующие настройки, но проблема сохраняется:
1. Отключение KSM на узле Proxmox
2. Async IO=native / io_uring / threads
3. Контроллер SCSI: Virtio SCSI Single / Virtio SCSI
4. Отключение fs-freeze
5. Отключение QEMU guest agent
Вопрос: Есть ли какие-то идеи, как расследовать и исправить эту проблему? Это какой-то известный тупик для текущих настроек?
Спасибо за помощь.
Среда: Proxmox (8.1.3) с Ceph (17.2.7)
ВМ: RHEL 8
Хранилище: Ceph RBD (блочное устройство) → ВМ как XFS и ext4 диск
Монтирование: fstab с настройками по умолчанию
Конфигурация ВМ: VirtIO-SCSI single, discard=on, эмуляция SSD
Триггер: случайные ошибки зависания ввода-вывода происходят примерно раз в 1-6 месяцев при обычном использовании ВМ с использованием стресс-теста fio, часового резервного копирования и операций создания и освобождения блоков памяти. Зависания происходят в течение 1-7 дней.
Симптомы:
1. Высокое время ожидания ввода-вывода: iostat показывает, например, avg-cpu: %iowait 43.71%, %idle 56.22% sdX: %util 100.00% Но все метрики ввода-вывода равны 0: r/s=0, w/s=0, rMB/s=0, wMB/s=0, aqu-sz=0
2. Операции: echo "abc" > new_file.txt (работает) echo "abc" >> existing_file.txt (работает) vi any_file.txt (ВМ замерзает на неопределенный срок) cp old_file.txt new_file.txt (ВМ замерзает на неопределенный срок)
3. Обходной путь: Live-миграция ВМ на другой узел Proxmox временно решает проблему, или перезагрузка ВМ решает проблему.
Проверены следующие настройки, но проблема сохраняется:
1. Отключение KSM на узле Proxmox
2. Async IO=native / io_uring / threads
3. Контроллер SCSI: Virtio SCSI Single / Virtio SCSI
4. Отключение fs-freeze
5. Отключение QEMU guest agent
Вопрос: Есть ли какие-то идеи, как расследовать и исправить эту проблему? Это какой-то известный тупик для текущих настроек?
Спасибо за помощь.
