Привет, у меня возникли проблемы с правильным удалением отдельного узла Proxmox из кластера. Я следую руководству в документации , но похоже, что узел удален только частично. В общем, я сделал что-то вроде этого:
# убедился, что на узле нет ВМ
systemctl stop pve-ha-lrm pve-ha-crm corosync pve-cluster pvedaemon pveproxy
dd if=/dev/urandom of=/dev/sda
shutdown now
Затем я попытался удалить узел из кластера и получил ошибку:
P virt1[root](15:01:30)-(~)
-> pvecm delnode virt98
Убиваем узел 98
Не удалось убить узел (ошибка = CS_ERR_NOT_EXIST)
ошибка во время операции cfs-locked 'file-corosync_conf': команда 'corosync-cfgtool -k 98' завершилась с ошибкой: код выхода 1
На многих местах я не могу найти никаких следов:
P virt1[root](15:01:38)-(~)
-> grep virt98 /etc/pve/.members
P virt1[root](15:01:43)-(~)
-> grep 98 /etc/corosync/corosync.conf
P virt1[root](15:02:15)-(~)
-> pvecm delnode virt98
ошибка во время операции cfs-locked 'file-corosync_conf': Узел/IP: virt98 не известен в кластере.
Но я все еще вижу его в GUI и на многих других местах:
P virt1[root](15:44:28)-(~)
-> jq .node_status.virt98 /etc/pve/ha/manager_status
"gone"
P virt1[root](15:44:30)-(~)
-> ls -l /etc/pve/nodes/virt98
всего 2
-rw-r----- 1 root www-data 84 Feb 19 14:58 lrm_status
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 lxc
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 openvz
drwx------ 2 root www-data 0 Feb 1 16:18 priv
-rw-r----- 1 root www-data 1675 Feb 1 16:18 pve-ssl.key
-rw-r----- 1 root www-data 1712 Feb 1 16:18 pve-ssl.pem
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 qemu-server
Также я не смог найти причину, по которой удаление узла из corosync не удалось. Syslog выглядел как обычно для меня:
Feb 19 15:01:39 virt1 pvecm[30430]: <root@pam> удаление узла virt98 из кластера
Feb 19 15:01:39 virt1 pmxcfs[34727]: [dcdb] уведомление: записана новая конфигурация corosync '/etc/corosync/corosync.conf' (версия = 21)
Feb 19 15:01:39 virt1 corosync[6398]: [CFG ] Перезагрузка конфигурации запрошена узлом 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 0
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 0: локальный адрес: 192.168.248.76, порт=5405
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 1: локальный адрес: 192.168.232.60, порт=5406
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 pmxcfs[34727]: [status] уведомление: обновление информации о кластере (имя кластера virt, версия = 21)
Есть ли у вас идеи, как правильно его удалить и (что самое важное) что я сделал не так? Спасибо за ваше время.
# убедился, что на узле нет ВМ
systemctl stop pve-ha-lrm pve-ha-crm corosync pve-cluster pvedaemon pveproxy
dd if=/dev/urandom of=/dev/sda
shutdown now
Затем я попытался удалить узел из кластера и получил ошибку:
P virt1[root](15:01:30)-(~)
-> pvecm delnode virt98
Убиваем узел 98
Не удалось убить узел (ошибка = CS_ERR_NOT_EXIST)
ошибка во время операции cfs-locked 'file-corosync_conf': команда 'corosync-cfgtool -k 98' завершилась с ошибкой: код выхода 1
На многих местах я не могу найти никаких следов:
P virt1[root](15:01:38)-(~)
-> grep virt98 /etc/pve/.members
P virt1[root](15:01:43)-(~)
-> grep 98 /etc/corosync/corosync.conf
P virt1[root](15:02:15)-(~)
-> pvecm delnode virt98
ошибка во время операции cfs-locked 'file-corosync_conf': Узел/IP: virt98 не известен в кластере.
Но я все еще вижу его в GUI и на многих других местах:
P virt1[root](15:44:28)-(~)
-> jq .node_status.virt98 /etc/pve/ha/manager_status
"gone"
P virt1[root](15:44:30)-(~)
-> ls -l /etc/pve/nodes/virt98
всего 2
-rw-r----- 1 root www-data 84 Feb 19 14:58 lrm_status
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 lxc
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 openvz
drwx------ 2 root www-data 0 Feb 1 16:18 priv
-rw-r----- 1 root www-data 1675 Feb 1 16:18 pve-ssl.key
-rw-r----- 1 root www-data 1712 Feb 1 16:18 pve-ssl.pem
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 qemu-server
Также я не смог найти причину, по которой удаление узла из corosync не удалось. Syslog выглядел как обычно для меня:
Feb 19 15:01:39 virt1 pvecm[30430]: <root@pam> удаление узла virt98 из кластера
Feb 19 15:01:39 virt1 pmxcfs[34727]: [dcdb] уведомление: записана новая конфигурация corosync '/etc/corosync/corosync.conf' (версия = 21)
Feb 19 15:01:39 virt1 corosync[6398]: [CFG ] Перезагрузка конфигурации запрошена узлом 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 0
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 0: локальный адрес: 192.168.248.76, порт=5405
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 1: локальный адрес: 192.168.232.60, порт=5406
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 pmxcfs[34727]: [status] уведомление: обновление информации о кластере (имя кластера virt, версия = 21)
Есть ли у вас идеи, как правильно его удалить и (что самое важное) что я сделал не так? Спасибо за ваше время.
