У меня возникла странная проблема с cephFS, причину которой я не мог определить. Заметил её только на двух узлах с ядрами 6.14 (может быть, просто совпадение). Вернулся к ядру 6.8 на этих узлах. Сейчас все работает, но хочу покопаться в логах, чтобы понять, что пошло не так.
Это началось, когда я экспериментировал с объединением двух портов Thunderbolt из моей ceph-mesh-сети на одном узле Proxmox/Ceph.
Симптомы: на любом хосте Proxmox я мог видеть `/mnt/pve/cephfs-name`, читать файлы, создавать новые файлы размером 0 байт, запускать nano для создания файла, но при попытке записи файл зависал (и вместе с ним зависал SSH-сеанс, в котором работал nano).
Что я пробовал: перезагружал MDS, перезагружал OSD, перезагружал узлы 1 и 3 (с откатом ядра), удалял настройки кэша PWL и плагин RBD (я добавил их несколько дней назад). В итоге просто корректно выключил кластер и запустил все узлы по одному, дожидаясь сходимости – похоже, это помогло.
Ни один из моих MDS не переходил в режим только для чтения (я проверил журнал). Сейчас все стабильно.
Прежде чем пытаться настроить объединение Thunderbolt и рисковать обрушением системы, что еще можно поискать в журнале, чтобы разобраться? Уже пробовал:
```
journalctl | grep -i "docker-cephFS"
journalctl -u ceph-mds@* | grep -i "read only"
```
Я видел много подобных записей, когда у меня были проблемы, но они только подтверждали их наличие:
Apr 25 15:06:00 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:06:08 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:06:45 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:06:45 pve3 systemd[1]: Mounting mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS...
Apr 25 15:06:45 pve3 systemd[1]: Mounted mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS.
Apr 25 15:09:44 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:10:20 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:10:22 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:38:42 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:38:59 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:01 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:18 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:32 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:00 pve3 pvedaemon[197243]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:02 pve3 pvedaemon[187221]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:03 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:20 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:35 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:40:35 pve3 systemd[1]: Mounting mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS...
Apr 25 15:42:05 pve3 systemd[1]: Failed to mount mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS.
Apr 25 15:42:05 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:42:05 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway. i have updated from reef to squid this morning as it was on my todo list, everything seems great so far - this is just about trying to figure out what happened and why
Это началось, когда я экспериментировал с объединением двух портов Thunderbolt из моей ceph-mesh-сети на одном узле Proxmox/Ceph.
Симптомы: на любом хосте Proxmox я мог видеть `/mnt/pve/cephfs-name`, читать файлы, создавать новые файлы размером 0 байт, запускать nano для создания файла, но при попытке записи файл зависал (и вместе с ним зависал SSH-сеанс, в котором работал nano).
Что я пробовал: перезагружал MDS, перезагружал OSD, перезагружал узлы 1 и 3 (с откатом ядра), удалял настройки кэша PWL и плагин RBD (я добавил их несколько дней назад). В итоге просто корректно выключил кластер и запустил все узлы по одному, дожидаясь сходимости – похоже, это помогло.
Ни один из моих MDS не переходил в режим только для чтения (я проверил журнал). Сейчас все стабильно.
Прежде чем пытаться настроить объединение Thunderbolt и рисковать обрушением системы, что еще можно поискать в журнале, чтобы разобраться? Уже пробовал:
```
journalctl | grep -i "docker-cephFS"
journalctl -u ceph-mds@* | grep -i "read only"
```
Я видел много подобных записей, когда у меня были проблемы, но они только подтверждали их наличие:
Apr 25 15:06:00 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:06:08 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:06:45 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:06:45 pve3 systemd[1]: Mounting mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS...
Apr 25 15:06:45 pve3 systemd[1]: Mounted mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS.
Apr 25 15:09:44 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:10:20 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:10:22 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:38:42 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:38:59 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:01 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:18 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:39:32 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:00 pve3 pvedaemon[197243]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:02 pve3 pvedaemon[187221]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:03 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:20 pve3 pvestatd[1835]: unable to activate storage 'docker-cephFS' - directory '/mnt/pve/docker-cephFS' does not exist or is unreachable
Apr 25 15:40:35 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:40:35 pve3 systemd[1]: Mounting mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS...
Apr 25 15:42:05 pve3 systemd[1]: Failed to mount mnt-pve-docker\x2dcephFS.mount - /mnt/pve/docker-cephFS.
Apr 25 15:42:05 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway.
Apr 25 15:42:05 pve3 systemd[1]: mnt-pve-docker\x2dcephFS.mount: Directory /mnt/pve/docker-cephFS to mount over is not empty, mounting anyway. i have updated from reef to squid this morning as it was on my todo list, everything seems great so far - this is just about trying to figure out what happened and why
