Привет форум, пару месяцев у меня периодически возникают проблемы с сервером Proxmox в одноузловой конфигурации. Время от времени вход в GUI Proxmox не удается с сообщением об ошибке:
Пароль, конечно, в порядке, realm тоже, ... и система обновлена: pve-manager/8.1.4/ec5affc9e41f1d79 (ядро: 6.5.11-7-pve). Так как я мог все равно войти по SSH, я смог провести некоторое дополнительное расследование. После некоторых исследований я выяснил, что проблему можно решить перезапуском сервиса pve-cluster. Однако сообщения, которые показывает journalctl -f, указывают на то, что, возможно, присутствует ошибка или неправильная конфигурация, которую я не могу самостоятельно определить и устранить:
Spoiler: Содержимое systemctl restart pve-cluster.service && journalctl -f
Code: root@pmx:~# systemctl restart pve-cluster.service && journalctl -f
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Убиваю процесс 3105109 (cfs_loop) сигналом SIGKILL.
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Основной процесс завершился, код=killed, статус=9/KILL
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Не удалось завершить работу с результатом 'timeout'.
Jan 29 13:56:34 pmx systemd[1]: Остановил pve-cluster.service - The Proxmox VE cluster filesystem.
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Затрачено 4 мин 7.698с ЦП.
Jan 29 13:56:34 pmx systemd[1]: Запуск pve-cluster.service - The Proxmox VE cluster filesystem...
Jan 29 13:56:34 pmx pmxcfs[610665]: [main] notice: resolved node name 'pmx' to '192.168.253.2' for default node IP address
Jan 29 13:56:34 pmx pmxcfs[610665]: [main] notice: resolved node name 'pmx' to '192.168.253.2' для адреса по умолчанию node IP address
Jan 29 13:56:35 pmx systemd[1]: Запустил pve-cluster.service - The Proxmox VE cluster filesystem.
Jan 29 13:56:35 pmx systemd[1]: corosync.service - Corosync Cluster Engine был пропущен из-за невыполненной проверки условия (ConditionPathExists=/etc/corosync/corosync.conf).
Jan 29 13:56:35 pmx pvestatd[2442]: status update time (14.695 seconds)
Jan 29 13:56:35 pmx pve-firewall[2440]: firewall update time (8.015 seconds)
Jan 29 13:56:35 pmx pvestatd[2442]: auth key pair too old, rotating..
Jan 29 13:56:57 pmx pvedaemon[2346307]: <root@pam> successful auth for user 'root@pam'
Jan 29 13:57:04 pmx pvescheduler[612014]: <root@pam> starting task UPID:pmx:000956AF:02FCE544:65B7A0A0:vzdump::root@pam:
Jan 29 13:57:04 pmx pvescheduler[612015]: INFO: starting new backup job: vzdump --all 1 --mailto *** --compress zstd --storage backup --quiet 1 --mailnotification failure --mode snapshot --prune-backups 'keep-last=5'
Jan 29 13:57:04 pmx pvescheduler[612015]: INFO: Starting Backup of VM 101 (qemu)
Jan 29 13:57:37 pmx pvescheduler[612015]: INFO: Finished Backup of VM 101 (00:00:33)
Jan 29 13:57:37 pmx pvescheduler[612015]: INFO: Starting Backup of VM 102 (lxc)
[…]. Я вижу, что первая часть перезапуска (остановка потенциально работающего сервиса) кажется неудачной из-за таймаута, что, я думаю, не должно происходить: systemd[1]: pve-cluster.service: Не удалось завершить работу с результатом 'timeout'. Причиной неудачного входа, похоже, является устаревшая пара ключей аутентификации, которая немедленно обновляется после перезапуска сервиса: pvestatd[2442]: auth key pair too old, rotating.. Последнее наблюдение заключается в том, что сразу после перезапуска сервиса также запускаются резервные копии, что не должно происходить в это время дня. Следовательно, я думаю, что это может быть связано с прерванной/неудачной/… резервной копией тоже?! pvescheduler[612014]: <root@pam> starting task UPID:pmx:000956AF:02FCE544:65B7A0A0:vzdump::root@pam: Буду признателен, если вы поможете мне понять, почему что-то не так, чтобы найти постоянное решение для восстановления возможности входа. Спасибо и наилучшие пожелания, Siebo
Пароль, конечно, в порядке, realm тоже, ... и система обновлена: pve-manager/8.1.4/ec5affc9e41f1d79 (ядро: 6.5.11-7-pve). Так как я мог все равно войти по SSH, я смог провести некоторое дополнительное расследование. После некоторых исследований я выяснил, что проблему можно решить перезапуском сервиса pve-cluster. Однако сообщения, которые показывает journalctl -f, указывают на то, что, возможно, присутствует ошибка или неправильная конфигурация, которую я не могу самостоятельно определить и устранить:Spoiler: Содержимое systemctl restart pve-cluster.service && journalctl -f
Code: root@pmx:~# systemctl restart pve-cluster.service && journalctl -f
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Убиваю процесс 3105109 (cfs_loop) сигналом SIGKILL.
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Основной процесс завершился, код=killed, статус=9/KILL
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Не удалось завершить работу с результатом 'timeout'.
Jan 29 13:56:34 pmx systemd[1]: Остановил pve-cluster.service - The Proxmox VE cluster filesystem.
Jan 29 13:56:34 pmx systemd[1]: pve-cluster.service: Затрачено 4 мин 7.698с ЦП.
Jan 29 13:56:34 pmx systemd[1]: Запуск pve-cluster.service - The Proxmox VE cluster filesystem...
Jan 29 13:56:34 pmx pmxcfs[610665]: [main] notice: resolved node name 'pmx' to '192.168.253.2' for default node IP address
Jan 29 13:56:34 pmx pmxcfs[610665]: [main] notice: resolved node name 'pmx' to '192.168.253.2' для адреса по умолчанию node IP address
Jan 29 13:56:35 pmx systemd[1]: Запустил pve-cluster.service - The Proxmox VE cluster filesystem.
Jan 29 13:56:35 pmx systemd[1]: corosync.service - Corosync Cluster Engine был пропущен из-за невыполненной проверки условия (ConditionPathExists=/etc/corosync/corosync.conf).
Jan 29 13:56:35 pmx pvestatd[2442]: status update time (14.695 seconds)
Jan 29 13:56:35 pmx pve-firewall[2440]: firewall update time (8.015 seconds)
Jan 29 13:56:35 pmx pvestatd[2442]: auth key pair too old, rotating..
Jan 29 13:56:57 pmx pvedaemon[2346307]: <root@pam> successful auth for user 'root@pam'
Jan 29 13:57:04 pmx pvescheduler[612014]: <root@pam> starting task UPID:pmx:000956AF:02FCE544:65B7A0A0:vzdump::root@pam:
Jan 29 13:57:04 pmx pvescheduler[612015]: INFO: starting new backup job: vzdump --all 1 --mailto *** --compress zstd --storage backup --quiet 1 --mailnotification failure --mode snapshot --prune-backups 'keep-last=5'
Jan 29 13:57:04 pmx pvescheduler[612015]: INFO: Starting Backup of VM 101 (qemu)
Jan 29 13:57:37 pmx pvescheduler[612015]: INFO: Finished Backup of VM 101 (00:00:33)
Jan 29 13:57:37 pmx pvescheduler[612015]: INFO: Starting Backup of VM 102 (lxc)
[…]. Я вижу, что первая часть перезапуска (остановка потенциально работающего сервиса) кажется неудачной из-за таймаута, что, я думаю, не должно происходить: systemd[1]: pve-cluster.service: Не удалось завершить работу с результатом 'timeout'. Причиной неудачного входа, похоже, является устаревшая пара ключей аутентификации, которая немедленно обновляется после перезапуска сервиса: pvestatd[2442]: auth key pair too old, rotating.. Последнее наблюдение заключается в том, что сразу после перезапуска сервиса также запускаются резервные копии, что не должно происходить в это время дня. Следовательно, я думаю, что это может быть связано с прерванной/неудачной/… резервной копией тоже?! pvescheduler[612014]: <root@pam> starting task UPID:pmx:000956AF:02FCE544:65B7A0A0:vzdump::root@pam: Буду признателен, если вы поможете мне понять, почему что-то не так, чтобы найти постоянное решение для восстановления возможности входа. Спасибо и наилучшие пожелания, Siebo
