Доброе утро, у нас есть кластер баз данных, состоящий из четырех хостов, все они работают на версии 6.2-11. Хосты парные: master-1 — с slave-1, и master-2 — с slave-2. Все они на виртуальных машинах Debian в формате qcow2, с PostgreSQL v12, где мастера реплицируют данные на слейвы. Большие из них имеют размер около 4 ТБ. ProxMox HA не используется, так как репликация осуществляется через PostgreSQL. На некоторых виртуальных машинах был сделан снимок во время их создания, и он не был удален до входа в продукцию. Когда мы осознали эту ошибку, через веб-интерфейс мы протестировали удаление снимка на одном из слейвов. Все шло нормально в течение нескольких минут, но затем виртуальная машина потеряла Ethernet-соединение, и начали приходить уведомления. Через несколько минут интерфейс выдал ошибку таймаута. В конечном итоге, спустя более 15 минут, машина вернулась в онлайн. Тестирование показало, что все "в порядке", и база данных синхронизировалась с мастером. Мы разблокировали виртуальную машину с помощью команды pvecm unlock VMID, очистили конфигурационный файл, удалив записи о снимках, и подтвердили, что снимок больше не существует в qcow2 с помощью команды "qemu-img -l <vm>". Теперь мы в той ситуации, что хотим удалить снимки на других виртуальных машинах, но мастера в продакшене и не могут быть остановлены. Происходила ли потеря Ethernet-соединения у кого-то еще? Является ли это следствием много ТБ размера образа? Есть ли способ избежать потери Ethernet-соединения во время удаления снимка? Должны ли мы просто смириться с этим и не удалять снимки? Мы рассматривали вариант запланировать окно обслуживания, отключить ВМ и удалить снимок. Будет ли это лучше по сравнению с "живым" удалением? Будем признательны за любую помощь и комментарии. Спасибо!
QCOW2 Удаление снимка вызывает временную потерю Ethernet-соединения у виртуальной машины, Proxmox Виртуальная Среда
|
13.10.2020 14:36:00
|
|
|
|
|
Читают тему
