+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Настройка сети Proxmox с Ceph, Proxmox Виртуальная Среда

RandomVash

Guest

12.03.2025 20:55:00

Я поигрался с кластером из четырех нод, используя серверы, которые раньше были в гиперконвергентной настройке. У меня всё работало в основной сети, и производительность была довольно низкой. Потом я добавил 1G-коммутатор для ceph_cluster, и производительность улучшилась примерно в два раза. Затем я добавил 4-портовые sfp+ сетевые карты в каждый из четырех нод, подключив по одному кабелю от каждой ноды к 10G-коммутатору. Это улучшило производительность более чем в десять раз. После этого я решил попробовать перенести ceph_public на тот же 10G-порт с ceph_cluster, и производительность вернулась к тому, что было при подключении ко всему через 1G. С тех пор я отделил ceph_public и ceph_cluster в разные подсети, подключив их к двум разным 10G-коммутаторам, но производительность так и не вернулась к прежнему уровню, а скорее даже упала. Все OSD были перезапущены, потом я перезапустил ceph.target на каждой ноде, потом перезапустил все ноды целиком. Улучшений после разделения на два разных 10G-коммутатора не последовало. Не знаю, чего я не хватает. Мы также довольно регулярно используем хранилище на серверах, поэтому не хочу выбрасывать всё и начинать заново, если это не обязательно. На форумах видел, что некоторые предлагают переключить MTU со стандартного 1500 до 9000, но странно, что у меня была конфигурация, где всё работало нормально, а теперь, когда всё на сети с большей пропускной способностью, производительность резко упала. Текущая конфигурация: Основная сеть передается через 1G-коммутатор к каждой ноде. - 192.168.30.0/24 10G-коммутатор к одному порту на каждой из нод для ceph_public - 10.0.1.0/24 отдельный 10G-коммутатор к каждой из нод для ceph_cluster - 10.0.0.0/24

RandomVash

Guest

14.03.2025 14:27:00

Спасибо, что обратил на это внимание. Я не знал, что это за значение. Теперь понятно, откуда такие перепады в производительности. Проверяю связь, и количество повторных попыток значительно ниже на некоторых интерфейсах, так что собираюсь заказать новые кабели. Некоторые из кабелей, которые я использовал в тестировании, были намного длиннее, чем нужно, да ещё и все были использованы ранее.

RandomVash

Guest

13.03.2025 22:59:00

Не знаю, что изменилось, но сегодня всё просто отлично работало. Скорость выросла заметно, и лагов на ВМ не было. Может, просто потребовалось несколько дней, чтобы автоматически всё подстроилось после изменений?

guruevi Guest	#4 0 14.03.2025 02:55:00 Ух, retr (повторные передачи) совсем завышены. Они должны быть 0 или около нуля. Возможно, проблема с кабелями или коммутатором. Из-за этого твоё окно перегрузки скачет как сумасшедшее.

RandomVash

Guest

12.03.2025 21:24:00

Вот как настроен каждый нод, на случай, если я что-то делаю не так.

[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 10.0.0.0/24
fsid = 421c8c2e-1155-43c2-8d86-8e294570195d
mon_allow_pool_delete = true
mon_host = 10.0.1.2 10.0.1.3 10.0.1.4 10.0.1.5
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 2
osd_pool_default_size = 3
public_network = 10.0.1.0/24

[client]
keyring = /etc/pve/priv/$cluster.$name.keyring

[client.crash]
keyring = /etc/pve/ceph/$cluster.$name.keyring

[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.prox1]
host = prox1
mds_standby_for_name = pve

[mds.prox2]
host = prox2
mds_standby_for_name = pve

[mds.prox3]
host = prox3
mds_standby_for_name = pve

[mds.prox4]
host = prox4
mds_standby_for_name = pve

[mon.prox1]
public_addr = 10.0.1.2

[mon.prox2]
public_addr = 10.0.1.3

[mon.prox3]
public_addr = 10.0.1.4

[mon.prox4]
public_addr = 10.0.1.5

guruevi

Guest

13.03.2025 00:29:00

Сначала я бы проверил, нет ли проблем с сетью (потери пакетов, все каналы на 10G, нет петель и т.д.). Могут ли все хосты связываться друг с другом по этой сети? Какая измеренная пропускная способность между каждой точкой? Как вы измеряете производительность? Какую производительность получаете? Еще бы я объединил два коммутатора и настроил LACP между ними, сгруппировав два порта вместе. Но сначала вам нужно добиться пропускной способности ~2-3Gbps при передаче образа (или лучше) под нагрузкой.

david_tao

Guest

13.03.2025 01:14:00

Согласен с guruevi, можно протестировать производительность сети с помощью iperf, чтобы получить базовые показатели текущей пропускной способности. Затем используйте nmon для сбора ежедневных графиков производительности всех узлов. Сравнив их, вы сможете увидеть, какие узкие места в производительности у вас возникают.

RandomVash Guest	#8 0 13.03.2025 02:30:00 Я раньше тестировал iperf3 с каждого сервера на каждый. Всё было практически одинаково. Придётся посмотреть, как использовать nmon. Я судил о производительности в целом по Ceph Reads/Writes. Сейчас они примерно 1-3 MiBs на чтение и 0.5-2 MiBs на запись, что самое медленное, что было. Когда я перенёс кластер на отдельный "тупой" 1g-коммутатор, он работал примерно на 8-10 в обе стороны, а когда переключил на 10g — примерно на 40-50. Хотелось бы, чтобы всё работало плавно, прежде чем пытаться объединять коммутаторы. Сейчас они работают с настройками по умолчанию. Когда я делаю тест на чтение/запись 4 ГБ на одной из виртуальных машин, получаю 1.52 ГБ/с на запись и 2.87 ГБ/с на чтение, но навигация по папкам или перемещение файлов соответствует скоростям чтения/записи Ceph.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры