Для контекста: у меня кластер Proxmox из девяти узлов. Мы добавили пять новых узлов, в каждом из которых по 4 x 3ТБ NVMe-накопителей, и я настроил их с отдельным правилом CRUSH и добавил device-class nvme, чтобы они могли использоваться отдельно от оригинальных 4 узлов с SSD, которые теперь находятся на новом правило репликации (так что `ceph osd pool autoscale-status` работает). Но у меня возникли проблемы. Вот детали пула:
Я ожидаю, что 'должен' иметь возможность выкинуть два узла одновременно, и всё должно продолжать работать. Но... не работает. Я запустил простую виртуальную машину для запуска fio и если я выключаю больше одного хоста, диск повреждается и ничего не работает с этого момента, требуется полная переустановка, диск поврежден и не загружается. Я не могу получить dmesg с виртуальной машины (бинарная ошибка и т.д... она не может запустить ее). И я не могу понять, почему это происходит. Я что-то делаю принципиально не так? Я потратил, наверное, две недели на бенчмаркинг и тестирование, и это кажется решающим фактором для N+2 избыточности, которую я ожидаю от Ceph. Может быть, подскажите, на что мне стоит обратить внимание, чтобы понять, что происходит - я не вижу никаких причин, по которым это должно происходить с конфигурацией 5/3. Но это происходит.
Я ожидаю, что 'должен' иметь возможность выкинуть два узла одновременно, и всё должно продолжать работать. Но... не работает. Я запустил простую виртуальную машину для запуска fio и если я выключаю больше одного хоста, диск повреждается и ничего не работает с этого момента, требуется полная переустановка, диск поврежден и не загружается. Я не могу получить dmesg с виртуальной машины (бинарная ошибка и т.д... она не может запустить ее). И я не могу понять, почему это происходит. Я что-то делаю принципиально не так? Я потратил, наверное, две недели на бенчмаркинг и тестирование, и это кажется решающим фактором для N+2 избыточности, которую я ожидаю от Ceph. Может быть, подскажите, на что мне стоит обратить внимание, чтобы понять, что происходит - я не вижу никаких причин, по которым это должно происходить с конфигурацией 5/3. Но это происходит.