Привет всем! У меня работает кластер Proxmox Ceph с тремя узлами, сконфигурированными следующим образом: Ceph: 2×10G SFP+ (Активный/Резервный) VM: 2×10G copper (Активный/Резервный) Corosync: 2×1Gbit copper (выделенные порты) WebUI: 2×1Gbit copper (активный/резервный) → Эти порты оказались свободными, поэтому я использую их для WebUI с резервированием. В качестве хранилища я использую два локальных SSD в ZFS RAID1 для операционной системы. OSD состоят из трёх 3.84TB Datacenter PCIe 4.0 NVMe на узел. Я понимаю, что никогда не смогу достичь полной скорости NVMe. Но они стоили практически столько же, сколько обычные Datacenter SSD SATA 6GB, и для будущих обновлений казалось разумным сразу брать их.
Оптимизация моего кластера Ceph
Я уже прочитал некоторые сообщения на форуме и рассмотрел следующие моменты для оптимизации:
* Включить KRBD на хранилище Ceph (требуется холодная перезагрузка VM) - в данный момент я этого не использую.
* VM: Использовать SCSI + virtio-scsi-single - я уже использую это.
* Включить кэш с записью, установить опцию SSD, включить discard, использовать IO thread - я уже использую это.
* Изменить Async IO из значения по умолчанию (io\_uring) на threads - я пока этого не использую.
Я не уверен, приведут ли эти изменения к заметному улучшению: Отключить опции отладки?
Вопрос о стабильности во время полной остановки
В более раннем тестовом кластере у меня были проблемы, потому что Ceph больше не мог самостоятельно восстанавливаться. Я получал сообщения об ошибках типа:
В конце концов, я переустановил весь кластер Proxmox. Что касается справедливости, должен сказать, что у коммутаторов тогда была проблема с прошивкой производителя, для которой я сейчас использую предварительную версию. Они всегда автоматически перезагружались, что было проблемой RSTP, которая сейчас исправлена. Я также удалил и удалил диск в качестве теста через Ceph, что, вероятно, и стало причиной этой проблемы.
Производительность сейчас выглядит так:
Я надеюсь на увеличение производительности с KRBD, так как уже читал об этом в некоторых сообщениях, например, здесь: Rocket Fly
Мой вопрос: Могу ли я полностью выключить кластер Proxmox Ceph без каких-либо опасений? В моих тестах с новым кластером пока всё шло хорошо. Я останавливал все VM, чинно выключал узлы по одному и затем перезапускал их в том же порядке - без каких-либо заметных проблем.
Ожидания и заключение
Поскольку я хотел бы вывести этот кластер в продуктивную среду, я буду признателен за ваши отзывы о моих оптимизациях и любые опасения. Я особенно заинтересован в мнениях опытных пользователей - и, конечно, вклад сотрудника Proxmox был бы очень приветствуем.
Заранее большое спасибо!
Оптимизация моего кластера Ceph
Я уже прочитал некоторые сообщения на форуме и рассмотрел следующие моменты для оптимизации:
* Включить KRBD на хранилище Ceph (требуется холодная перезагрузка VM) - в данный момент я этого не использую.
* VM: Использовать SCSI + virtio-scsi-single - я уже использую это.
* Включить кэш с записью, установить опцию SSD, включить discard, использовать IO thread - я уже использую это.
* Изменить Async IO из значения по умолчанию (io\_uring) на threads - я пока этого не использую.
Я не уверен, приведут ли эти изменения к заметному улучшению: Отключить опции отладки?
Вопрос о стабильности во время полной остановки
В более раннем тестовом кластере у меня были проблемы, потому что Ceph больше не мог самостоятельно восстанавливаться. Я получал сообщения об ошибках типа:
В конце концов, я переустановил весь кластер Proxmox. Что касается справедливости, должен сказать, что у коммутаторов тогда была проблема с прошивкой производителя, для которой я сейчас использую предварительную версию. Они всегда автоматически перезагружались, что было проблемой RSTP, которая сейчас исправлена. Я также удалил и удалил диск в качестве теста через Ceph, что, вероятно, и стало причиной этой проблемы.
Производительность сейчас выглядит так:

Я надеюсь на увеличение производительности с KRBD, так как уже читал об этом в некоторых сообщениях, например, здесь: Rocket Fly
Мой вопрос: Могу ли я полностью выключить кластер Proxmox Ceph без каких-либо опасений? В моих тестах с новым кластером пока всё шло хорошо. Я останавливал все VM, чинно выключал узлы по одному и затем перезапускал их в том же порядке - без каких-либо заметных проблем.
Ожидания и заключение
Поскольку я хотел бы вывести этот кластер в продуктивную среду, я буду признателен за ваши отзывы о моих оптимизациях и любые опасения. Я особенно заинтересован в мнениях опытных пользователей - и, конечно, вклад сотрудника Proxmox был бы очень приветствуем.
Заранее большое спасибо!