Всем привет! Я сейчас работаю над проектом по миграции нашей устаревшей инфраструктуры, размещенной на собственных серверах, в частное облако. Планирую повторно использовать наши существующие серверы Dell R750 (3 ноды) без покупки нового оборудования и буду очень благодарен за советы тех, у кого есть практический опыт.
Текущая инфраструктура:
Серверы: 3 × Dell R750
Все серверы в настоящее время размещают производственные сервисы
План миграции:
Резервное копирование (P2V) → Переустановка Proxmox VE → Настройка кластера Ceph → Восстановление ВМ
Решение для резервного копирования:
Планирую использовать решение, похожее на Veeam, также рассматриваю Proxmox Backup Server
Запланированная архитектура (в настоящее время тестирую):
Виртуализация: Proxmox VE 8.2 (планируется кластер с высокой доступностью)
Хранилище: Ceph version: Reef (18.2.4, последняя стабильная версия)
Диски OSD: Samsung U.2 NVMe 7.68TB × 6 (2 на ноду)
Конфигурация пула: Репликация (size=3, min_size=2)
Сеть: Выделенная сеть 10G (рассматриваю Mikrotik CRS312-4C+8XG-RM против других брендов)
Ожидаемая нагрузка:
Примерно 20 ВМ (Linux-based DB, Web, API servers и т.д.)
Вопросы и опасения:
При повторном использовании производственных серверов, возникают ли какие-то неожиданные проблемы или важные моменты, о которых нужно знать в процессе восстановления физического сервера (P2V)?
Касательно настройки Ceph: при репликации (3 копии), какая скорость восстановления при сбоях и эффективность использования хранилища на вашем опыте?
Сталкивались ли вы с узкими местами или накладными расходами при использовании реплицированных пулов даже в NVMe-окружении?
В окружениях Proxmox VE + Ceph: сколько системных ресурсов (CPU, RAM) фактически потребляет Ceph? Какой реальный процент использования ресурсов у вас в опыте?
В конфигурациях с высокой доступностью: какое фактическое время восстановления после сбоев?
Для тех, кто использует Mikrotik CRS312-4C+8XG-RM: могли бы вы поделиться своим опытом работы с производительностью, управлением тепловыделением и стабильностью обработки трафика?
Какие "обязательные советы" или "вещи, о которых я жалею, что не сделал" от тех, кто строил аналогичные решения?
Я в настоящее время строю тестовую среду и провожу различные тесты с последней версией Ceph Reef (18.x). Независимо от того, увенчается ли этот проект успехом или нет, я обещаю поделиться подробным описанием всего процесса после завершения!
Заранее благодарю за ваши советы и опыт!
Текущая инфраструктура:
Серверы: 3 × Dell R750
Все серверы в настоящее время размещают производственные сервисы
План миграции:
Резервное копирование (P2V) → Переустановка Proxmox VE → Настройка кластера Ceph → Восстановление ВМ
Решение для резервного копирования:
Планирую использовать решение, похожее на Veeam, также рассматриваю Proxmox Backup Server
Запланированная архитектура (в настоящее время тестирую):
Виртуализация: Proxmox VE 8.2 (планируется кластер с высокой доступностью)
Хранилище: Ceph version: Reef (18.2.4, последняя стабильная версия)
Диски OSD: Samsung U.2 NVMe 7.68TB × 6 (2 на ноду)
Конфигурация пула: Репликация (size=3, min_size=2)
Сеть: Выделенная сеть 10G (рассматриваю Mikrotik CRS312-4C+8XG-RM против других брендов)
Ожидаемая нагрузка:
Примерно 20 ВМ (Linux-based DB, Web, API servers и т.д.)
Вопросы и опасения:
При повторном использовании производственных серверов, возникают ли какие-то неожиданные проблемы или важные моменты, о которых нужно знать в процессе восстановления физического сервера (P2V)?
Касательно настройки Ceph: при репликации (3 копии), какая скорость восстановления при сбоях и эффективность использования хранилища на вашем опыте?
Сталкивались ли вы с узкими местами или накладными расходами при использовании реплицированных пулов даже в NVMe-окружении?
В окружениях Proxmox VE + Ceph: сколько системных ресурсов (CPU, RAM) фактически потребляет Ceph? Какой реальный процент использования ресурсов у вас в опыте?
В конфигурациях с высокой доступностью: какое фактическое время восстановления после сбоев?
Для тех, кто использует Mikrotik CRS312-4C+8XG-RM: могли бы вы поделиться своим опытом работы с производительностью, управлением тепловыделением и стабильностью обработки трафика?
Какие "обязательные советы" или "вещи, о которых я жалею, что не сделал" от тех, кто строил аналогичные решения?
Я в настоящее время строю тестовую среду и провожу различные тесты с последней версией Ceph Reef (18.x). Независимо от того, увенчается ли этот проект успехом или нет, я обещаю поделиться подробным описанием всего процесса после завершения!
Заранее благодарю за ваши советы и опыт!
