У меня небольшой кластер из 3 нод, сейчас работает на PVE8.3.3. Кластер в плохом состоянии, сейчас функционирует только одна нода. Очень странно, даже не представляю, с чего начать разбираться с проблемой.
Node1: веб-интерфейс работает до страницы логина. Я пытаюсь войти, через некоторое время появляется "login failed".
Node2: веб-интерфейс не загружается, браузер выдает ошибку PR_END_OF_FILE (явно, когда Firefox исчерпал все комбинации шифров, пытаясь установить SSL-соединение).
Node3: эта нода работает нормально. Отсюда видно следующее по кластеру: node1 и node3 в сети, node2 – оффлайн. Node1 отображается серым вопросительным знаком (и статус: unknown при наведении), и я не могу выполнить никаких операций. Затем появляется "Error: connection error 401: permission denied, invalid ticket" и всплывает диалоговое окно логина. Node2 отображается красным крестиком и статусом offline.
Я связываюсь с техподдержкой, где находятся физические машины, пока что знаю, что недавно были сетевые перебои из-за неисправного коммутатора. Я ещё не перезагружал физически машины и не получил доступ к физическим консолям.
Также я вижу что-то подобное в systemlog на node3:
Code: [TOTEM] Токен не получен в 2737 мс
[TOTEM] Процессор не ответил, формируется новая конфигурация: токен истек (3650 мс), ожидание 4380 мс для консенсуса.
[QUORUM] Члены синхронизации[1]: 3
[QUORUM] Члены покинули[1]: 1
[TOTEM] Сформировано новое членство (3.2663). Члены покинули: 1
[TOTEM] Не удалось получить сообщение об уходе, ошибка: 1
[QUORUM] Этот узел находится в не-основном компоненте и НЕ будет предоставлять никаких услуг.
[QUORUM] Члены[1]: 3
[MAIN] Завершена синхронизация служб, готова предоставлять услуги.
[...]
pve-ha-lrm[1159]: не удалось записать файл статуса lrm - не удалось открыть файл '/etc/pve/nodes/pve03/lrm_status.tmp.1159' - Permission denied pve03 = node3. Такого файла /etc/pve/nodes/pve03/lrm_status.tmp.1159 не существует, но есть lrm_status.
Что можно сделать до/вместо физической перезагрузки?
Node1: веб-интерфейс работает до страницы логина. Я пытаюсь войти, через некоторое время появляется "login failed".
Node2: веб-интерфейс не загружается, браузер выдает ошибку PR_END_OF_FILE (явно, когда Firefox исчерпал все комбинации шифров, пытаясь установить SSL-соединение).
Node3: эта нода работает нормально. Отсюда видно следующее по кластеру: node1 и node3 в сети, node2 – оффлайн. Node1 отображается серым вопросительным знаком (и статус: unknown при наведении), и я не могу выполнить никаких операций. Затем появляется "Error: connection error 401: permission denied, invalid ticket" и всплывает диалоговое окно логина. Node2 отображается красным крестиком и статусом offline.
Я связываюсь с техподдержкой, где находятся физические машины, пока что знаю, что недавно были сетевые перебои из-за неисправного коммутатора. Я ещё не перезагружал физически машины и не получил доступ к физическим консолям.
Также я вижу что-то подобное в systemlog на node3:
Code: [TOTEM] Токен не получен в 2737 мс
[TOTEM] Процессор не ответил, формируется новая конфигурация: токен истек (3650 мс), ожидание 4380 мс для консенсуса.
[QUORUM] Члены синхронизации[1]: 3
[QUORUM] Члены покинули[1]: 1
[TOTEM] Сформировано новое членство (3.2663). Члены покинули: 1
[TOTEM] Не удалось получить сообщение об уходе, ошибка: 1
[QUORUM] Этот узел находится в не-основном компоненте и НЕ будет предоставлять никаких услуг.
[QUORUM] Члены[1]: 3
[MAIN] Завершена синхронизация служб, готова предоставлять услуги.
[...]
pve-ha-lrm[1159]: не удалось записать файл статуса lrm - не удалось открыть файл '/etc/pve/nodes/pve03/lrm_status.tmp.1159' - Permission denied pve03 = node3. Такого файла /etc/pve/nodes/pve03/lrm_status.tmp.1159 не существует, но есть lrm_status.
Что можно сделать до/вместо физической перезагрузки?
