Привет всем! Вот сложилась ситуация: у нас Ceph кластер поверх Proxmox на оборудовании Dell. Один из дисков DELL, на которых виртуализированные диски, вышел из строя, соответственно, и соответствующий OSD тоже. Это HDD диск, а не NVMe, и "к счастью", Bluestore не был развернут на локальных NVMe дисках. В общем, мы выполнили рекомендации по удалению OSD из Ceph перед заменой физического диска. Для этого мы следовали инструкциям по адресу: pve-docs/chapter-pveceph.html#_replace_osds и статье на RHAT: , но не можем выполнить `ceph-volume lvm zap /dev/sdb`, так как /dev/sdb больше не существует. Кажется, всё шло неплохо, но мы не заметили, что OSD.4, в данном случае, был удален, но связанная с ним сервис остался:
```bash
# ceph osd crush ls proxmoxNode
osd.6
osd.5
osd.7
osd.16
osd.17
osd.18
osd.19
osd.20
osd.36
# systemctl list-units --type service |grep ceph
ceph-crash.service loaded active running Ceph crash dump collector
ceph-osd@16.service loaded active running Ceph object storage daemon osd.16
ceph-osd@17.service loaded active running Ceph object storage daemon osd.17
ceph-osd@18.service loaded active running Ceph object storage daemon osd.18
ceph-osd@19.service loaded active running Ceph object storage daemon osd.19
ceph-osd@20.service loaded active running Ceph object storage daemon osd.20
ceph-osd@36.service loaded active running Ceph object storage daemon osd.36
● ceph-osd@4.service loaded failed failed Ceph object storage daemon osd.4
ceph-osd@5.service loaded active running Ceph object storage daemon osd.5
ceph-osd@6.service loaded active running Ceph object storage daemon osd.6
ceph-osd@7.service loaded active running Ceph object storage daemon osd.7
```
Устройство, связанное с этим OSD (ранее /dev/sdb), фактически было удалено из системы, однако у нас есть эта информация, перечисляющая LVM PVs:
```bash
# pvs
Error reading device /dev/ceph-b4dd4437-ca3b-4676-9476-43d479e91b80/osd-block-1d61dd7b-4fff-434f-aad3-1d27273fe45b at 0 length 512.
Error reading device /dev/ceph-b4dd4437-ca3b-4676-9476-43d479e91b80/osd-block-1d61dd7b-4fff-434f-aad3-1d27273fe45b at 0 length 4096.
PV VG Fmt Attr PSize PFree
/dev/nvme0n1 ceph-9ad5af69-2af0-4d77-9297-46cd579b3589 lvm2 a-- <1.46t 424.00m
/dev/nvme1n1 ceph-b2cd2032-4a87-4e83-bd9b-982568385b1e lvm2 a-- <1.46t 424.00m
/dev/sda3 pve lvm2 a-- 1.09t <16.00g
/dev/sdc ceph-8d9d0312-1de4-4617-917e-c1640f68b570 lvm2 a-- 10.69t 0
/dev/sdd ceph-c72b9c09-3dfe-4b41-9c07-23a8a089e897 lvm2 a-- 10.69t 0
/dev/sde ceph-6d001322-fe2f-461f-b068-db9c833571b9 lvm2 a-- 10.69t 0
/dev/sdf ceph-4fc85931-8fa4-496a-9312-c9da6e38b910 lvm2 a-- 10.69t 0
/dev/sdg ceph-0613871a-a88f-45d7-9544-05334867aacf lvm2 a-- 10.69t 0
/dev/sdh ceph-cb93a5d9-93f8-4596-82ca-175750cd7a01 lvm2 a-- 10.69t 0
/dev/sdi ceph-9d0b7e0e-db70-4ba0-aa23-173847631d7c lvm2 a-- 10.69t 0
/dev/sdj ceph-a2eb34ea-fd05-46da-b693-29c64a790748 lvm2 a-- 10.69t 0
/dev/sdk ceph-521bbd29-951a-4aa5-95f1-6a679c5ebcb0 lvm2 a-- 10.69t 0
/dev/sdl SQL_RAID lvm2 a-- 21.38t 508.00m
....
Теперь вопрос в следующем: прежде чем "принудительно" удалить systemd юнит `ceph-osd@4.service`, не поделился ли кто-нибудь опытом, похожим на этот, и какие действия были предприняты для воссоздания отсутствующего OSD? Учитывая, что новый диск в системе присутствует, но не под `/dev/sdb`, а под `/dev/sdm`, безопасно ли будет создать новый OSD том OSD.4, используя физическое устройство `/dev/sdm`? Буду рад вашим мыслям!
```bash
# ceph osd crush ls proxmoxNode
osd.6
osd.5
osd.7
osd.16
osd.17
osd.18
osd.19
osd.20
osd.36
# systemctl list-units --type service |grep ceph
ceph-crash.service loaded active running Ceph crash dump collector
ceph-osd@16.service loaded active running Ceph object storage daemon osd.16
ceph-osd@17.service loaded active running Ceph object storage daemon osd.17
ceph-osd@18.service loaded active running Ceph object storage daemon osd.18
ceph-osd@19.service loaded active running Ceph object storage daemon osd.19
ceph-osd@20.service loaded active running Ceph object storage daemon osd.20
ceph-osd@36.service loaded active running Ceph object storage daemon osd.36
● ceph-osd@4.service loaded failed failed Ceph object storage daemon osd.4
ceph-osd@5.service loaded active running Ceph object storage daemon osd.5
ceph-osd@6.service loaded active running Ceph object storage daemon osd.6
ceph-osd@7.service loaded active running Ceph object storage daemon osd.7
```
Устройство, связанное с этим OSD (ранее /dev/sdb), фактически было удалено из системы, однако у нас есть эта информация, перечисляющая LVM PVs:
```bash
# pvs
Error reading device /dev/ceph-b4dd4437-ca3b-4676-9476-43d479e91b80/osd-block-1d61dd7b-4fff-434f-aad3-1d27273fe45b at 0 length 512.
Error reading device /dev/ceph-b4dd4437-ca3b-4676-9476-43d479e91b80/osd-block-1d61dd7b-4fff-434f-aad3-1d27273fe45b at 0 length 4096.
PV VG Fmt Attr PSize PFree
/dev/nvme0n1 ceph-9ad5af69-2af0-4d77-9297-46cd579b3589 lvm2 a-- <1.46t 424.00m
/dev/nvme1n1 ceph-b2cd2032-4a87-4e83-bd9b-982568385b1e lvm2 a-- <1.46t 424.00m
/dev/sda3 pve lvm2 a-- 1.09t <16.00g
/dev/sdc ceph-8d9d0312-1de4-4617-917e-c1640f68b570 lvm2 a-- 10.69t 0
/dev/sdd ceph-c72b9c09-3dfe-4b41-9c07-23a8a089e897 lvm2 a-- 10.69t 0
/dev/sde ceph-6d001322-fe2f-461f-b068-db9c833571b9 lvm2 a-- 10.69t 0
/dev/sdf ceph-4fc85931-8fa4-496a-9312-c9da6e38b910 lvm2 a-- 10.69t 0
/dev/sdg ceph-0613871a-a88f-45d7-9544-05334867aacf lvm2 a-- 10.69t 0
/dev/sdh ceph-cb93a5d9-93f8-4596-82ca-175750cd7a01 lvm2 a-- 10.69t 0
/dev/sdi ceph-9d0b7e0e-db70-4ba0-aa23-173847631d7c lvm2 a-- 10.69t 0
/dev/sdj ceph-a2eb34ea-fd05-46da-b693-29c64a790748 lvm2 a-- 10.69t 0
/dev/sdk ceph-521bbd29-951a-4aa5-95f1-6a679c5ebcb0 lvm2 a-- 10.69t 0
/dev/sdl SQL_RAID lvm2 a-- 21.38t 508.00m
....
Теперь вопрос в следующем: прежде чем "принудительно" удалить systemd юнит `ceph-osd@4.service`, не поделился ли кто-нибудь опытом, похожим на этот, и какие действия были предприняты для воссоздания отсутствующего OSD? Учитывая, что новый диск в системе присутствует, но не под `/dev/sdb`, а под `/dev/sdm`, безопасно ли будет создать новый OSD том OSD.4, используя физическое устройство `/dev/sdm`? Буду рад вашим мыслям!
