У меня проблемы с HA, и я заметил следующее:
Код: root@pve01:/etc# systemctl list-units --failed
UNIT ЗАГРУЗКА АКТИВЕН СОСТОЯНИЕ ОПИСАНИЕ
● nut-monitor.service загружен сбойный сбойный Сетевые инструменты бесперебойного питания - монитор и контроллер отключения питания
● pve-ha-crm.service загружен сбойный сбойный Демон менеджера ресурсов кластера HA PVE
● watchdog-mux.service загружен сбойный сбойный Множитель сторожевой собаки Proxmox VE
ЗАГРУЗКА = Отражает, была ли успешно загружена определение юнита.
АКТИВЕН = Высокоуровневое состояние активации юнита, т.е. обобщение СОСТОЯНИЯ.
СОСТОЯНИЕ = Низкоуровневое состояние активации юнита, значения зависят от типа юнита.
3 загруженных юнита перечислены.
Код: root@pve01:/etc# systemctl status pve-ha-crm
● pve-ha-crm.service - PVE Cluster HA Resource Manager Daemon
Загружен: загружен (/lib/systemd/system/pve-ha-crm.service; включен; предустановка поставщика: включен)
Активен: сбой (Результат: exit-code) с Пт 2022-06-10 02:59:46 EDT; 11 часов назад
Процесс: 732969 ExecStart=/usr/sbin/pve-ha-crm start (код=вышел, статус=0/УСПЕХ)
Основной PID: 732972 (код=вышел, статус=255/ИСКЛЮЧЕНИЕ)
ЦПУ: 2.979с
10 июн 02:56:36 pve01 pve-ha-crm[732972]: изменение статуса startup => wait_for_quorum
10 июн 02:56:36 pve01 systemd[1]: Запущен Демон менеджера ресурсов кластера HA PVE.
10 июн 02:56:41 pve01 pve-ha-crm[732972]: изменение статуса wait_for_quorum => slave
10 июн 02:59:46 pve01 pve-ha-crm[732972]: успешно получен замок 'ha_manager_lock'
10 июн 02:59:46 pve01 pve-ha-crm[732972]: ОШИБКА: не удалось открыть сокет сторожевой собаки - Нет такого файла или каталога
10 июн 02:59:46 pve01 pve-ha-crm[732972]: сервер получил запрос на отключение
10 июн 02:59:46 pve01 pve-ha-crm[732972]: сервер остановлен
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Основной процесс завершился, код=вышел, статус=255/ИСКЛЮЧЕНИЕ
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Неудалось с результатом 'exit-code'.
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Потребовалось 2.979с ЦПУ.
Код: root@pve01:/etc# systemctl status watchdog-mux
● watchdog-mux.service - Proxmox VE watchdog multiplexer
Загружен: загружен (/lib/systemd/system/watchdog-mux.service; статический)
Активен: сбой (Результат: exit-code) с Пт 2022-06-10 13:59:04 EDT; 10мин назад
Процесс: 2360328 ExecStart=/usr/sbin/watchdog-mux (код=вышел, статус=1/НЕУДАЧА)
Основной PID: 2360328 (код=вышел, статус=1/НЕУДАЧА)
ЦПУ: 4мс
10 июн 13:59:04 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 13:59:04 pve01 watchdog-mux[2360328]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'. Это на HP DL360p Gen8, и я использую сторожевую собаку hpwdt.
Код: root@pve01:/etc# cat /etc/default/pve-ha-manager
# выбрать модуль сторожевой собаки (по умолчанию softdog)
WATCHDOG_MODULE=hpwdt
Код: -- Загрузка 609e561812e6490885c7a95d92b1e6c5 --
04 июн 21:04:34 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
04 июн 21:04:34 pve01 watchdog-mux[1819]: Загрузка модуля сторожевой собаки 'hpwdt'
04 июн 21:04:34 pve01 watchdog-mux[1819]: Драйвер сторожевой собаки 'HPE iLO2+ HW Watchdog Timer', версия 0
09 июн 22:31:29 pve01 watchdog-mux[1819]: клиент сторожевой собаки истек - отключить обновления сторожевой собаки
09 июн 22:32:08 pve01 watchdog-mux[1819]: выход сторожевой собаки с активными соединениями
09 июн 22:32:08 pve01 systemd[1]: watchdog-mux.service: Успешно.
09 июн 22:32:08 pve01 systemd[1]: watchdog-mux.service: Потребовалось 25.671с ЦПУ.
10 июн 02:43:15 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 02:43:15 pve01 watchdog-mux[699575]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 02:43:15 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 02:43:15 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
10 июн 02:56:33 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 02:56:33 pve01 watchdog-mux[732968]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 02:56:33 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 02:56:33 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
10 июн 13:59:04 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 13:59:04 pve01 watchdog-mux[2360328]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
Что я могу сделать, чтобы продолжить устранение неполадок?
Код: root@pve01:/etc# systemctl list-units --failed
UNIT ЗАГРУЗКА АКТИВЕН СОСТОЯНИЕ ОПИСАНИЕ
● nut-monitor.service загружен сбойный сбойный Сетевые инструменты бесперебойного питания - монитор и контроллер отключения питания
● pve-ha-crm.service загружен сбойный сбойный Демон менеджера ресурсов кластера HA PVE
● watchdog-mux.service загружен сбойный сбойный Множитель сторожевой собаки Proxmox VE
ЗАГРУЗКА = Отражает, была ли успешно загружена определение юнита.
АКТИВЕН = Высокоуровневое состояние активации юнита, т.е. обобщение СОСТОЯНИЯ.
СОСТОЯНИЕ = Низкоуровневое состояние активации юнита, значения зависят от типа юнита.
3 загруженных юнита перечислены.
Код: root@pve01:/etc# systemctl status pve-ha-crm
● pve-ha-crm.service - PVE Cluster HA Resource Manager Daemon
Загружен: загружен (/lib/systemd/system/pve-ha-crm.service; включен; предустановка поставщика: включен)
Активен: сбой (Результат: exit-code) с Пт 2022-06-10 02:59:46 EDT; 11 часов назад
Процесс: 732969 ExecStart=/usr/sbin/pve-ha-crm start (код=вышел, статус=0/УСПЕХ)
Основной PID: 732972 (код=вышел, статус=255/ИСКЛЮЧЕНИЕ)
ЦПУ: 2.979с
10 июн 02:56:36 pve01 pve-ha-crm[732972]: изменение статуса startup => wait_for_quorum
10 июн 02:56:36 pve01 systemd[1]: Запущен Демон менеджера ресурсов кластера HA PVE.
10 июн 02:56:41 pve01 pve-ha-crm[732972]: изменение статуса wait_for_quorum => slave
10 июн 02:59:46 pve01 pve-ha-crm[732972]: успешно получен замок 'ha_manager_lock'
10 июн 02:59:46 pve01 pve-ha-crm[732972]: ОШИБКА: не удалось открыть сокет сторожевой собаки - Нет такого файла или каталога
10 июн 02:59:46 pve01 pve-ha-crm[732972]: сервер получил запрос на отключение
10 июн 02:59:46 pve01 pve-ha-crm[732972]: сервер остановлен
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Основной процесс завершился, код=вышел, статус=255/ИСКЛЮЧЕНИЕ
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Неудалось с результатом 'exit-code'.
10 июн 02:59:46 pve01 systemd[1]: pve-ha-crm.service: Потребовалось 2.979с ЦПУ.
Код: root@pve01:/etc# systemctl status watchdog-mux
● watchdog-mux.service - Proxmox VE watchdog multiplexer
Загружен: загружен (/lib/systemd/system/watchdog-mux.service; статический)
Активен: сбой (Результат: exit-code) с Пт 2022-06-10 13:59:04 EDT; 10мин назад
Процесс: 2360328 ExecStart=/usr/sbin/watchdog-mux (код=вышел, статус=1/НЕУДАЧА)
Основной PID: 2360328 (код=вышел, статус=1/НЕУДАЧА)
ЦПУ: 4мс
10 июн 13:59:04 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 13:59:04 pve01 watchdog-mux[2360328]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'. Это на HP DL360p Gen8, и я использую сторожевую собаку hpwdt.
Код: root@pve01:/etc# cat /etc/default/pve-ha-manager
# выбрать модуль сторожевой собаки (по умолчанию softdog)
WATCHDOG_MODULE=hpwdt
Код: -- Загрузка 609e561812e6490885c7a95d92b1e6c5 --
04 июн 21:04:34 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
04 июн 21:04:34 pve01 watchdog-mux[1819]: Загрузка модуля сторожевой собаки 'hpwdt'
04 июн 21:04:34 pve01 watchdog-mux[1819]: Драйвер сторожевой собаки 'HPE iLO2+ HW Watchdog Timer', версия 0
09 июн 22:31:29 pve01 watchdog-mux[1819]: клиент сторожевой собаки истек - отключить обновления сторожевой собаки
09 июн 22:32:08 pve01 watchdog-mux[1819]: выход сторожевой собаки с активными соединениями
09 июн 22:32:08 pve01 systemd[1]: watchdog-mux.service: Успешно.
09 июн 22:32:08 pve01 systemd[1]: watchdog-mux.service: Потребовалось 25.671с ЦПУ.
10 июн 02:43:15 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 02:43:15 pve01 watchdog-mux[699575]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 02:43:15 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 02:43:15 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
10 июн 02:56:33 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 02:56:33 pve01 watchdog-mux[732968]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 02:56:33 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 02:56:33 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
10 июн 13:59:04 pve01 systemd[1]: Запущен сторожевой собаки Proxmox VE.
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Основной процесс завершился, код=вышел, статус=1/НЕУДАЧА
10 июн 13:59:04 pve01 watchdog-mux[2360328]: сторожевая собака активна - не удалось перезапустить watchdog-mux
10 июн 13:59:04 pve01 systemd[1]: watchdog-mux.service: Неудалось с результатом 'exit-code'.
Что я могу сделать, чтобы продолжить устранение неполадок?
