+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Ошибка репликации задачи., Proxmox Виртуальная Среда

Maksimus

Guest

17.04.2024 10:59:00

Посыпаются сообщения об ошибках синхронизации, в основном ночью, в нерабочее время. Вот лишь один из сотен, которые приходят по почте: подскажите, что делать? Боимся, что в какой-то момент у нас на сервере появятся поврежденные копии, получившие репликацию. Репликация job 132-1 с целью 'Host807' и расписанием '*/5' завершилась неудачей! Последняя успешная синхронизация: 2024-04-17 05:06:29 Следующая попытка синхронизации: 2024-04-17 05:32:39 Количество ошибок: 2 Ошибка: команда 'zfs snapshot disk2/vm-132-disk-0@__replicate_132-1_1713320590__' завершилась неудачей: истекло время ожидания.

Maksimus Guest	#2 0 22.04.2024 14:32:00 Прямой связи между получением ошибок и нагрузкой нет. Нагрузка была до 11:57, сообщение об ошибке пришло в 12:01. Но в 12:00 на этих серверах был sentry backup, о котором получили сообщение в 12:01.

gfngfn256

Guest

17.04.2024 11:26:00

Похоже, у вас с этим уже давняя проблема, как вы писали в предыдущем сообщении. У вас выделенная сеть для миграции, отличная от кластерной сети, как рекомендуется в документации? Если исключить сетевые проблемы (как вы пытались предположить в старом сообщении), скорее всего, дело в загруженности ZFS пула в это время. Сколько репликаций/другой активности происходит во время ошибки? Возможно, стоит убедиться, что две репликации заданий и т.д. не запускаются одновременно. Также стоит посмотреть на таймаут репликации, IDK, я в этом не особо разбираюсь, но когда-то была дискуссия на эту тему.

Maksimus

Guest

17.04.2024 11:48:00

Да, проблема довольно распространённая. Мы уже начинаем волноваться, что в какой-то момент получим повреждённую копию на сервере приёмника репликации. Да, есть вторая выделенная сеть 10Gb/s Репликация из 4 узлов с 2 дисками каждый (VM 3+9+7+15) в 1 узел с 2 дисками. Один раз каждые 5 минут. Везде стоят enterprise ssds. Если каким-то образом возможно настроить так, чтобы репликация не происходила из нескольких узлов одновременно, то мы с радостью перенастроим. Где я могу посмотреть эти таймауты?

gfngfn256 Guest	#5 0 17.04.2024 11:59:00 Как я уже упоминал, я особого понятия об этом не имею. Поискав, я нашел вот это. Может, стоит обратиться к @fiona, чтобы узнать текущую ситуацию с таймаутами. И еще мысль: когда будет происходить ZFS scrub на пуле?

Maksimus

Guest

18.04.2024 12:02:00

Таймауты установили на 3600 по совету из другой темы. Я увеличил таймауты, но ошибки продолжают появляться. Судя по описанию ошибки, я думал, что есть бэкап, но бэкап был в 20:00. Ошибка: задание репликации 115-0 с целевым хостом 'Host807' и расписанием '*/5' завершилось неудачей! Последняя успешная синхронизация: 2024-04-18 01:35:05 Следующая попытка синхронизации: 2024-04-18 01:45:00 Количество сбоев: 1 Ошибка: команда 'set -o pipefail && pvesm export local-zfs:vm-115-disk-4 zfs - -with-snapshots 1 -snapshot __replicate_115-0_1713393605__ -base __replicate_115-0_1713393305__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=Host807' root@192.168.200.7 -- pvesm import local-zfs:vm-115-disk-4 zfs - -with-snapshots 1 -snapshot __replicate_115-0_1713393605__' завершилась неудачей: код возврата 255.

Вот новая ошибка. Мы посмотрели целевой хост, на нём не было ни бэкапов, ни миграций на тот момент, только репликации с других хостов. Отправляющий хост тоже ничего сверхъестественного не делал, с ВМ ничего не произошло, она работала нормально.

2024-04-18 12:41:58 703-0: старт задания репликации
2024-04-18 12:41:58 703-0: guest => ВМ 703, running => 3653200
2024-04-18 12:41:58 703-0: volumes => local-zfs:vm-703-disk-1,local-zfs:vm-703-disk-2,local-zfs:vm-703-disk-3,local-zfs:vm-703-disk-4
2024-04-18 12:41:58 703-0: конец задания репликации с ошибкой: команда '/usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=Host807' root@82.202.177.220 pvecm mtunnel -migration_network 192.168.200.1/24 -get_migration_ip' завершилась неудачей: код возврата 255.

Зафиксировано только то, что происходит скачок i/o на 1680, но это логично, так как запись на диск была в процессе. Но предел производительности далёк от ограничения; диск легко справляется с 10000 i/o, в пиках до 22500 i\o

gfngfn256

Guest

18.04.2024 12:24:00

Ну вот, эти репликации могут создавать нагрузку на твой Zpool/NW. Думаю, это просто возможности дисков, а не сам Zpool в твоей системе. Может, попробуй протестировать ZFS под нагрузкой и посмотри, что будет. (Не уверен, что это рекомендовано в рабочей среде). Как проходят скрубы на Zpool?

Maksimus Guest	#8 0 18.04.2024 13:04:00 Что или как тестировать zpool, чтобы не поломать его. Вижу "скрубы" на экране. Также прилагаю статистику ввода/вывода во время скрубов.

gfngfn256

Guest

18.04.2024 14:56:00

Ввод/вывод во время отладки выглядит нормально. Хотя мы не знаем, какое использование ЦП/ОЗУ было в этот период. Если целевой сервер обычно не страдает от перегрузок, то, скорее всего, это перегрузка сети. У вас есть мониторинг этого?

Maksimus Guest	#10 0 18.04.2024 16:09:00 NW=сеть? Есть сеть со скоростью 10 Гбит/с.

gfngfn256 Guest	#11 0 18.04.2024 19:48:00 Пробовал ли ты сопоставлять высокую сетевую активность (выше графиков) со временем получения ошибок в сообщениях?

pva Guest	#12 0 05.06.2025 18:25:00 У меня та же проблема. Раз в один-два дня появляется такое: Код: Репликация '192-0' с целевым сервером 'cf-pve3' и расписанием '*/15' завершилась с ошибкой! Последняя успешная синхронизация: 2025-06-04 06:30:12 Следующая попытка синхронизации: ОШИБКА Количество сбоев: 1 Ошибка: команда '/usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=cf-pve3' -o 'UserKnownHostsFile=/etc/pve/nodes/cf-pve3/ssh_known_hosts' -o 'GlobalKnownHostsFile=none' root@172.20.10.42 -- pvesr prepare-local-job 192-0 --scan local-zfs local-zfs:subvol-192-disk-0 --last_sync 1749007812 --parent_snapname mspmo25' завершилась с ошибкой: код выхода 255. Судя по странице управления ssh, ssh завершается с кодом выхода удаленной команды или с 255, если произошла ошибка. Теперь вопрос, можно ли здесь добавить отладочный вывод каким-нибудь образом? Где находится эта команда, чтобы добавить туда -v? И возможно ли отфильтровать эти сообщения, чтобы они не засоряли мою почту?

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры