Привет. У меня проблема с задержкой IO во время живой миграции. Два узла — это серверы Supermicro 2U, соединенные по 10G, и версия proxmox 7.1-10. Сейчас первый узел находится на этапе тестирования без виртуальных машин. Он состоит из 40 процессоров Intel® Xeon® Silver 4114 @ 2.20GHz (2 сокета) с 187.58 GiB оперативной памяти. Оба узла имеют одинаковое хранилище zfs. Для тестирования на целевом машине я использую SSD-пул (3 диска по 512 ГБ от Intel). Когда я начинаю миграцию ВМ (2 диска по 100 ГБ) на пустой узел, это занимает 1:10:35 со средней скоростью 514 MiB/s (безопасно): {
"lightbox_close": "Закрыть",
"lightbox_next": "Далее",
"lightbox_previous": "Назад",
"lightbox_error": "Запрашиваемый контент не может быть загружен. Пожалуйста, попробуйте позже.",
"lightbox_start_slideshow": "Начать слайд-шоу",
"lightbox_stop_slideshow": "Остановить слайд-шоу",
"lightbox_full_screen": "На весь экран",
"lightbox_thumbnails": "Миниатюры",
"lightbox_download": "Скачать",
"lightbox_share": "Поделиться",
"lightbox_zoom": "Увеличить",
"lightbox_new_window": "Новое окно",
"lightbox_toggle_sidebar": "Переключить боковую панель"
} Во время миграции целевой узел получает очень большую среднюю нагрузку (~50) и задержку IO около 30%. Htop на этой машине показывает ту же нагрузку, но использование ЦП/ДИСКА скачет — несколько секунд нормально, затем на несколько секунд до ~80%. С пустым узлом особых проблем нет (иногда некоторые задачи на ВМ нужно перезапустить), но становится хуже, когда я начинаю миграцию второй ВМ на этот узел (такой же пул). Задержка IO и средняя нагрузка достигают аналогичных значений. Использование ЦП/ДИСКА тоже скачет от:
до:
Проблема возникает с другими ВМ на целевом узле. Некоторые задачи перестают работать, и syslog показывает ошибки ядра. Htop на ВМ не показывает никаких проблем — отсутствует использование ЦП/ДИСКА и почти 0 средней нагрузки. Через некоторое время и после нескольких ошибок ядра ВМ зависает с сообщением в консоли "Перезагрузка через 5 секунд". Я не знаю, где искать причину. В конфигурации я отключил безопасную миграцию — это дало мне более быструю передачу. У вас есть идеи, что может быть не так? Спасибо заранее.
"lightbox_close": "Закрыть",
"lightbox_next": "Далее",
"lightbox_previous": "Назад",
"lightbox_error": "Запрашиваемый контент не может быть загружен. Пожалуйста, попробуйте позже.",
"lightbox_start_slideshow": "Начать слайд-шоу",
"lightbox_stop_slideshow": "Остановить слайд-шоу",
"lightbox_full_screen": "На весь экран",
"lightbox_thumbnails": "Миниатюры",
"lightbox_download": "Скачать",
"lightbox_share": "Поделиться",
"lightbox_zoom": "Увеличить",
"lightbox_new_window": "Новое окно",
"lightbox_toggle_sidebar": "Переключить боковую панель"
} Во время миграции целевой узел получает очень большую среднюю нагрузку (~50) и задержку IO около 30%. Htop на этой машине показывает ту же нагрузку, но использование ЦП/ДИСКА скачет — несколько секунд нормально, затем на несколько секунд до ~80%. С пустым узлом особых проблем нет (иногда некоторые задачи на ВМ нужно перезапустить), но становится хуже, когда я начинаю миграцию второй ВМ на этот узел (такой же пул). Задержка IO и средняя нагрузка достигают аналогичных значений. Использование ЦП/ДИСКА тоже скачет от:
до:
Проблема возникает с другими ВМ на целевом узле. Некоторые задачи перестают работать, и syslog показывает ошибки ядра. Htop на ВМ не показывает никаких проблем — отсутствует использование ЦП/ДИСКА и почти 0 средней нагрузки. Через некоторое время и после нескольких ошибок ядра ВМ зависает с сообщением в консоли "Перезагрузка через 5 секунд". Я не знаю, где искать причину. В конфигурации я отключил безопасную миграцию — это дало мне более быструю передачу. У вас есть идеи, что может быть не так? Спасибо заранее.