Привет, ребята! У меня довольно странная проблема с текущей конфигурацией Proxmox. Состояние 2 из 3 узлов постоянно переходит в "неизвестно" примерно через 3 минуты после перезагрузки узла. В течение этих 3 минут состояние узла "онлайн". Узел, который я перезагрузил, работает нормально. Кто-нибудь знает, что я делаю не так? Буду очень благодарен, если смогу наконец-то решить эту проблему.
Общая информация:
* 3 узла в кластере (Не путайтесь в названиях — node3 называется prox09)
* Ceph кластер (хранилище — SAN, подключенный через multipath)
Что я выяснил на данный момент:
Я пытался запустить `time pvesm status` на каждом узле, но получаю ответ только на сервере с наименьшим временем простоя. На двух других команда не выполняется. То же самое с командой `vgs`.
Сообщение "lvm[977]: WARNING: lvmlockd process is not running." довольно интересное, но я вижу, что `lvmlockd` запускается через несколько секунд после этого сообщения. (см. ниже статус lvm на узле1)
Я нашел это сообщение на узле1 при первой загрузке узла3.
May 09 10:05:22 prox01 lvmlockd[2649]: [D] creating /run/lvm/lvmlockd.socket
May 09 10:05:22 prox01 lvmlockd[2649]: 1746777922 lvmlockd started
May 09 10:05:22 prox01 systemd[1]: Started lvmlockd.service - LVM lock daemon.
Пример: я перезагрузил узел3.
На узле3:
```bash
# time pvesm status
Skipping global lock: lockspace is starting
Skipping global lock: lockspace is starting
Name Type Status Total Used Available %
ceph rbd active 1855337117 89429661 1765907456 4.82%
local dir active 44867864 5582292 36973996 12.44%
local-lvm lvmthin active 68513792 0 68513792 0.00%
real 0m1.425s
user 0m1.189s
sys 0m0.201s
# vgs
Skipping global lock: lockspace is starting
Skipping global lock: lockspace is starting
VG #PV #LV #SN Attr VSize VFree
ceph-2a1fdede-aebc-470a-a3fa-c4577ecbbf56 1 1 0 wz--n- <1.82t 0
pve 1 3 0 wz--n- 135.12g 16.00g
# dlm_tool status
cluster nodeid 3 quorate 1 ring seq 203 203
daemon now 3656 fence_pid 0
node 1 M add 27 rem 0 fail 0 fence 0 at 0 0
node 2 M add 27 rem 0 fail 0 fence 0 at 0 0
node 3 M add 25 rem 0 fail 0 fence 0 at 0 0
```
Файл журнала узла3 вложениях.
Узел1:
```bash
# multipath -ll
mpath0 (3600c0ff000fcbe3d64d6eb6701000000) dm-5 DellEMC,ME5
size=1.8T features='0' hwhandler='1 alua' wp=rw
|-+- policy='service-time 0' prio=50 status=active
| `- 11:0:0:0 sdb 8:16 active ready running
`-+- policy='service-time 0' prio=10 status=enabled
`- 12:0:0:0 sdc 8:32 active ready running
# ceph status
cluster:
id: 2a211c88-f574-472b-b29a-0a1c4f8549bc
health: HEALTH_OK
services:
mon: 3 daemons, quorum prox01,prox02,prox09 (age 24m)
mgr: prox01(active, since 10d)
osd: 3 osds: 3 up (since 24m), 3 in (since 22h)
data:
pools: 2 pools, 33 pgs
objects: 24.91k objects, 90 GiB
usage: 255 GiB used, 5.2 TiB / 5.5 TiB avail
pgs: 33 active+clean
io:
client: 0 B/s rd, 29 KiB/s wr, 0 op/s rd, 5 op/s wr
# systemctl status lvm*
● lvmlockd.service - LVM lock daemon
Loaded: loaded (/lib/systemd/system/lvmlockd.service; enabled; preset: enabled)
Active: active (running) since Fri 2025-05-09 10:05:22 CEST; 1 week 3 days ago
Docs: man:lvmlockd(8)
Main PID: 2649 (lvmlockd)
Tasks: 4 (limit: 154476)
Memory: 3.0M
CPU: 53.971s
CGroup: /system.slice/lvm2-lvmlockd.socket
May 09 10:05:22 prox01 systemd[1]: Started lvmlockd.service - LVM lock daemon.
● lvmlocks.service - LVM locking start and stop
Loaded: loaded (/lib/systemd/system/lvmlocks.service; enabled; preset: enabled)
Active: active (exited) since Fri 2025-05-09 10:05:23 CEST; 1 week 3 days ago
Docs: man:lvmlockd(8)
Main PID: 2652 (code=exited, status=0/SUCCESS)
CPU: 13ms
May 09 10:05:22 prox01 systemd[1]: Starting lvmlocks.service - LVM locking start and stop...
May 09 10:05:23 prox01 systemd[1]: Finished lvmlocks.service - LVM locking start and stop.
● lvm2-lvmpolld.socket - LVM2 poll daemon socket
Loaded: loaded (/lib/systemd/system/lvm2-lvmpolld.socket; enabled; preset: enabled)
Active: active (listening) since Fri 2025-05-09 10:04:50 CEST; 1 week 3 days ago
Triggers: ● lvm2-lvmpolld.service
Docs: man:lvmpolld(8)
Listen: /run/lvm/lvmpolld.socket (Stream)
CGroup: /system.slice/lvm2-lvmpolld.socket
[CODE=bash]# dlm_tool status
cluster nodeid 1 quorate 1 ring seq 203 203
daemon now 945540 fence_pid 0
node 1 M add 17 rem 0 fail 0 fence 0 at 0 0
node 2 M add 876508 rem 536761 fail 0 fence 0 at 0 0
node 3 M add 941902 rem 941646 fail 0 fence 0 at 0 0[/CODE]
Если вам потребуется дополнительная информация, я буду рад ее предоставить.
Общая информация:
* 3 узла в кластере (Не путайтесь в названиях — node3 называется prox09)
* Ceph кластер (хранилище — SAN, подключенный через multipath)
Что я выяснил на данный момент:
Я пытался запустить `time pvesm status` на каждом узле, но получаю ответ только на сервере с наименьшим временем простоя. На двух других команда не выполняется. То же самое с командой `vgs`.
Сообщение "lvm[977]: WARNING: lvmlockd process is not running." довольно интересное, но я вижу, что `lvmlockd` запускается через несколько секунд после этого сообщения. (см. ниже статус lvm на узле1)
Я нашел это сообщение на узле1 при первой загрузке узла3.
May 09 10:05:22 prox01 lvmlockd[2649]: [D] creating /run/lvm/lvmlockd.socket
May 09 10:05:22 prox01 lvmlockd[2649]: 1746777922 lvmlockd started
May 09 10:05:22 prox01 systemd[1]: Started lvmlockd.service - LVM lock daemon.
Пример: я перезагрузил узел3.
На узле3:
```bash
# time pvesm status
Skipping global lock: lockspace is starting
Skipping global lock: lockspace is starting
Name Type Status Total Used Available %
ceph rbd active 1855337117 89429661 1765907456 4.82%
local dir active 44867864 5582292 36973996 12.44%
local-lvm lvmthin active 68513792 0 68513792 0.00%
real 0m1.425s
user 0m1.189s
sys 0m0.201s
# vgs
Skipping global lock: lockspace is starting
Skipping global lock: lockspace is starting
VG #PV #LV #SN Attr VSize VFree
ceph-2a1fdede-aebc-470a-a3fa-c4577ecbbf56 1 1 0 wz--n- <1.82t 0
pve 1 3 0 wz--n- 135.12g 16.00g
# dlm_tool status
cluster nodeid 3 quorate 1 ring seq 203 203
daemon now 3656 fence_pid 0
node 1 M add 27 rem 0 fail 0 fence 0 at 0 0
node 2 M add 27 rem 0 fail 0 fence 0 at 0 0
node 3 M add 25 rem 0 fail 0 fence 0 at 0 0
```
Файл журнала узла3 вложениях.
Узел1:
```bash
# multipath -ll
mpath0 (3600c0ff000fcbe3d64d6eb6701000000) dm-5 DellEMC,ME5
size=1.8T features='0' hwhandler='1 alua' wp=rw
|-+- policy='service-time 0' prio=50 status=active
| `- 11:0:0:0 sdb 8:16 active ready running
`-+- policy='service-time 0' prio=10 status=enabled
`- 12:0:0:0 sdc 8:32 active ready running
# ceph status
cluster:
id: 2a211c88-f574-472b-b29a-0a1c4f8549bc
health: HEALTH_OK
services:
mon: 3 daemons, quorum prox01,prox02,prox09 (age 24m)
mgr: prox01(active, since 10d)
osd: 3 osds: 3 up (since 24m), 3 in (since 22h)
data:
pools: 2 pools, 33 pgs
objects: 24.91k objects, 90 GiB
usage: 255 GiB used, 5.2 TiB / 5.5 TiB avail
pgs: 33 active+clean
io:
client: 0 B/s rd, 29 KiB/s wr, 0 op/s rd, 5 op/s wr
# systemctl status lvm*
● lvmlockd.service - LVM lock daemon
Loaded: loaded (/lib/systemd/system/lvmlockd.service; enabled; preset: enabled)
Active: active (running) since Fri 2025-05-09 10:05:22 CEST; 1 week 3 days ago
Docs: man:lvmlockd(8)
Main PID: 2649 (lvmlockd)
Tasks: 4 (limit: 154476)
Memory: 3.0M
CPU: 53.971s
CGroup: /system.slice/lvm2-lvmlockd.socket
May 09 10:05:22 prox01 systemd[1]: Started lvmlockd.service - LVM lock daemon.
● lvmlocks.service - LVM locking start and stop
Loaded: loaded (/lib/systemd/system/lvmlocks.service; enabled; preset: enabled)
Active: active (exited) since Fri 2025-05-09 10:05:23 CEST; 1 week 3 days ago
Docs: man:lvmlockd(8)
Main PID: 2652 (code=exited, status=0/SUCCESS)
CPU: 13ms
May 09 10:05:22 prox01 systemd[1]: Starting lvmlocks.service - LVM locking start and stop...
May 09 10:05:23 prox01 systemd[1]: Finished lvmlocks.service - LVM locking start and stop.
● lvm2-lvmpolld.socket - LVM2 poll daemon socket
Loaded: loaded (/lib/systemd/system/lvm2-lvmpolld.socket; enabled; preset: enabled)
Active: active (listening) since Fri 2025-05-09 10:04:50 CEST; 1 week 3 days ago
Triggers: ● lvm2-lvmpolld.service
Docs: man:lvmpolld(8)
Listen: /run/lvm/lvmpolld.socket (Stream)
CGroup: /system.slice/lvm2-lvmpolld.socket
[CODE=bash]# dlm_tool status
cluster nodeid 1 quorate 1 ring seq 203 203
daemon now 945540 fence_pid 0
node 1 M add 17 rem 0 fail 0 fence 0 at 0 0
node 2 M add 876508 rem 536761 fail 0 fence 0 at 0 0
node 3 M add 941902 rem 941646 fail 0 fence 0 at 0 0[/CODE]
Если вам потребуется дополнительная информация, я буду рад ее предоставить.
