Всем привет! У меня есть кластер с двумя группами серверов: 2 — Dell R720 и ещё 2 — Dell R710. На всех запущены ВМ в ZFS пуле, собранном из SSD. На паре R710 иногда сбивается репликация ZFS между узлами, и я это замечаю только потому, что приходят уведомления на почту. Ниже пример такого уведомления:
Код: команда 'zfs snapshot R710SSD1/vm-107-disk-0@__replicate_107-0_1596076021__' не удалась: время ожидания превышено.
Некоторые из этих репликаций настроены на выполнение каждые 5 минут, с целью реализовать сценарий высокой доступности без необходимости переходить на CEPH (а для CEPH нужны 4 узла и более качественная сеть).
Есть идеи, в чём может быть причина (ладно, в этом случае — таймаут, но почему?) и как это исправить? Заранее спасибо!
Код: команда 'zfs snapshot R710SSD1/vm-107-disk-0@__replicate_107-0_1596076021__' не удалась: время ожидания превышено.
Некоторые из этих репликаций настроены на выполнение каждые 5 минут, с целью реализовать сценарий высокой доступности без необходимости переходить на CEPH (а для CEPH нужны 4 узла и более качественная сеть).
Есть идеи, в чём может быть причина (ладно, в этом случае — таймаут, но почему?) и как это исправить? Заранее спасибо!
