Привет, у нас уже около 10 дней наблюдаются проблемы с повреждением базы данных SQL Server, и мы не можем справиться с ситуацией. У нас работает 3-узловой кластер Proxmox с Ceph. В конфигурации Ceph участвуют 4 NVMe-диска. Эти 3 узла соединены в полной сетке в сети Routed (с откатом) для поддержки Ceph. Ниже представлена информация об оборудовании каждого сервера:
Модель диска: 3.2TB Micron_7450_MTFD x4 (Участвует в Ceph)
CPU: Intel® Xeon® Silver 4316 CPU @ 2.30GHz x2
Memory: 32GB x12
Модель сервера: Supermicro SYS-620C-TN12R
Сетевая карта, участвующая в Ceph: AOC-A25G-i4SM x2
Контроллер хранения: Broadcom MegaRAID 9560-16i 8GB
Этот 3-узловой кластер хостит около 8 виртуальных машин Windows Server. Все они работают под Windows Server 2022 Standard. Серверы следующего типа:
1) 5 серверов приложений (Работают с IIS)
2) 1 Active Directory (Microsoft Active Directory)
3) 2 сервера баз данных (SQL Server 2017 с последним кумулятивным обновлением) // Здесь проявляются проблемы с повреждением
Обратите внимание, что все серверы имеют TPM. Проблема началась 12 июня 2025 года, когда рабочая нагрузка SQL Server была запущена после включения шифрования баз данных (TDE). Приложению требуются 2 сервера баз данных. DB-1 выступает в качестве транзакционного сервера, а DB-2 – сервера отчетности. Система устроена так, что после завершения всех транзакций на DB-1 все базы данных резервируются ночью и восстанавливаются на DB-2 для целей отчетности. DB-1 размещает 5 баз данных. Все они имеют включенное шифрование. Проблема в том, что после включения шифрования базы данных начали повреждаться. DBCC CHECKDB показывает различные проблемы с выделением и страницами. Даже если создана новая база данных со свежими данными и DBCC CHECKDB не показывает ошибок, но на следующий день база данных начинает повреждаться и выдает ошибки, такие как:
{
"lightbox_close": "Close",
"lightbox_next": "Next",
"lightbox_previous": "Previous",
"lightbox_error": "The requested content cannot be loaded. Please try again later.",
"lightbox_start_slideshow": "Start slideshow",
"lightbox_stop_slideshow": "Stop slideshow",
"lightbox_full_screen": "Full screen",
"lightbox_thumbnails": "Thumbnails",
"lightbox_download": "Download",
"lightbox_share": "Share",
"lightbox_zoom": "Zoom",
"lightbox_new_window": "New window",
"lightbox_toggle_sidebar": "Toggle sidebar"
}
Это происходит случайным образом. На данный момент затронуты 2 базы данных. Мы не знаем, затронет ли эта проблема другие базы данных в будущем. Ежедневная задача теперь выглядит так: мы получаем поврежденные базы данных, затем создаем новую базу данных. И как-то сопоставляем данные всю ночь и создаем базу данных с 0 ошибок. На следующий день другая база данных повреждается, и цикл продолжается. Бывало, что одна и та же база данных несколько раз повреждалась после создания базы данных со свежими данными и 0 ошибок. Мы просмотрели системные и аппаратные события в виртуальных машинах и не нашли ничего, связанного с подсистемой хранения или ввода-вывода. Настройка хранилища для виртуальных машин следующая:
Настройка хранилища
Верна ли конфигурация виртуальных машин в Proxmox?
Совместимы ли выбранное нами оборудование для работы с MSSQL Server 2017?
Что идет не так? Нам срочно нужна помощь.
Информация PVE прилагается.
Модель диска: 3.2TB Micron_7450_MTFD x4 (Участвует в Ceph)
CPU: Intel® Xeon® Silver 4316 CPU @ 2.30GHz x2
Memory: 32GB x12
Модель сервера: Supermicro SYS-620C-TN12R
Сетевая карта, участвующая в Ceph: AOC-A25G-i4SM x2
Контроллер хранения: Broadcom MegaRAID 9560-16i 8GB
Этот 3-узловой кластер хостит около 8 виртуальных машин Windows Server. Все они работают под Windows Server 2022 Standard. Серверы следующего типа:
1) 5 серверов приложений (Работают с IIS)
2) 1 Active Directory (Microsoft Active Directory)
3) 2 сервера баз данных (SQL Server 2017 с последним кумулятивным обновлением) // Здесь проявляются проблемы с повреждением
Обратите внимание, что все серверы имеют TPM. Проблема началась 12 июня 2025 года, когда рабочая нагрузка SQL Server была запущена после включения шифрования баз данных (TDE). Приложению требуются 2 сервера баз данных. DB-1 выступает в качестве транзакционного сервера, а DB-2 – сервера отчетности. Система устроена так, что после завершения всех транзакций на DB-1 все базы данных резервируются ночью и восстанавливаются на DB-2 для целей отчетности. DB-1 размещает 5 баз данных. Все они имеют включенное шифрование. Проблема в том, что после включения шифрования базы данных начали повреждаться. DBCC CHECKDB показывает различные проблемы с выделением и страницами. Даже если создана новая база данных со свежими данными и DBCC CHECKDB не показывает ошибок, но на следующий день база данных начинает повреждаться и выдает ошибки, такие как:
{
"lightbox_close": "Close",
"lightbox_next": "Next",
"lightbox_previous": "Previous",
"lightbox_error": "The requested content cannot be loaded. Please try again later.",
"lightbox_start_slideshow": "Start slideshow",
"lightbox_stop_slideshow": "Stop slideshow",
"lightbox_full_screen": "Full screen",
"lightbox_thumbnails": "Thumbnails",
"lightbox_download": "Download",
"lightbox_share": "Share",
"lightbox_zoom": "Zoom",
"lightbox_new_window": "New window",
"lightbox_toggle_sidebar": "Toggle sidebar"
}
Это происходит случайным образом. На данный момент затронуты 2 базы данных. Мы не знаем, затронет ли эта проблема другие базы данных в будущем. Ежедневная задача теперь выглядит так: мы получаем поврежденные базы данных, затем создаем новую базу данных. И как-то сопоставляем данные всю ночь и создаем базу данных с 0 ошибок. На следующий день другая база данных повреждается, и цикл продолжается. Бывало, что одна и та же база данных несколько раз повреждалась после создания базы данных со свежими данными и 0 ошибок. Мы просмотрели системные и аппаратные события в виртуальных машинах и не нашли ничего, связанного с подсистемой хранения или ввода-вывода. Настройка хранилища для виртуальных машин следующая:
Настройка хранилища
Верна ли конфигурация виртуальных машин в Proxmox?
Совместимы ли выбранное нами оборудование для работы с MSSQL Server 2017?
Что идет не так? Нам срочно нужна помощь.
Информация PVE прилагается.
