<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
	<channel>
		<title>Аспро: ЛайтШоп [тема: Лучшая практика для частоты репликации? (Проблемы с таймингом HA, медленные неожиданные перезагрузки)]</title>
		<link>http://proxmox.su</link>
		<description>Новое в теме Лучшая практика для частоты репликации? (Проблемы с таймингом HA, медленные неожиданные перезагрузки) форума Proxmox Виртуальная Среда на сайте Аспро: ЛайтШоп [proxmox.su]</description>
		<language>ru</language>
		<docs>http://backend.userland.com/rss2</docs>
		<pubDate>Tue, 26 May 2026 08:51:11 +0300</pubDate>
		<item>
			<title>Лучшая практика для частоты репликации? (Проблемы с таймингом HA, медленные неожиданные перезагрузки)</title>
			<description><![CDATA[<b><a href="http://proxmox.su/forum/messages/forum63/message312462/75995-luchshaya-praktika-dlya-chastoty-replikatsii_-_problemy-s-taymingom-ha_-medlennye-neozhidannye-perezagruzki">Лучшая практика для частоты репликации? (Проблемы с таймингом HA, медленные неожиданные перезагрузки)</a></b> <i>Proxmox Виртуальная Среда</i> в форуме <a href="http://proxmox.su/forum/forum63/">Proxmox Виртуальная Среда</a>. <br />
			Привет, сообщество! У нас есть 2 разные 3-узловые конфигурации (с подпиской Community) с репликацией ZFS вместо общего хранилища. Мы знаем, что это не идеально, это не суть <img  src="data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==" data-src="http://proxmox.su/upload/main/smiles/2/bx_smile_wink.png" border="0" data-code=";-)" data-definition="UHD" alt=";-)" style="width:20px;height:20px;" title="Шутливо" class="lazyload bx-smile" /> Недавно у нас были некоторые негативные последствия неожиданных перезагрузок узлов (и одна особенно долгая перезагрузка, в частности), и я хотел бы обсудить, стоит ли использовать очень высокую частоту репликации. Для справки, инцидент 1 (пока просто как справочная информация): Недавно у нас произошла еще одна неожиданная перезагрузка узла, которая, похоже, является еще одним особенным случаем нестабильности с определенными материнскими платами ASRock, как обсуждалось здесь: <noindex><a href="https://forum.proxmox.com/threads/sudden-bulk-stop-of-all-vms.139500/page-4#post-692639" target="_blank" rel="nofollow" >https://forum.proxmox.com/threads/sudden-bulk-stop-of-all-vms.139500/page-4#post-692639</a></noindex> и ниже. Материнские платы в этом кластере достигли серийных номеров M80-H1025200nnn, но поведение все еще оставляет неприятный осадок, я действительно надеюсь, что у нас снова не будет перезагрузок через день, вздыхаю. Возможно, это было вызвано необычной нагрузкой сети + дискового ввода-вывода в сочетании с драйвером сети virtio, который кажется менее стабильным, чем эмуляция legacy e1000. Инцидент 2: Примерно две недели назад, в начале вечера, я случайно перезагрузил узлы 1 и 3 (из 3 всего) очень случайно остановив corosync (вместо того, чтобы просто приостановить HA, и я даже не помню, чего хотел в первый раз). К сожалению, пока узел 1 вернулся через 2-3 минуты, у узлу 3 потребовалось около 15 минут, чтобы вернуться. К тому времени узел 2 взял на себя контейнеры с узла 3 — используя данные, реплицированные утром. При переключении обратно на узел 3 утренние данные с узла 2 перезаписали более новые вечерние данные на узле 3. (Почему? Хорошо, я понимаю почему, все равно очень неудобно) Мы потеряли полдня данных. Клиенты не в восторге. С тех пор я увеличил частоту репликации до каждые 20 минут, но очень не хочу заходить слишком далеко, из страха, что репликация будет доминировать над нагрузкой системы. Урок 1: К сожалению, неожиданные перезагрузки случаются гораздо чаще, чем запланированное обслуживание узлов или фактические проблемы с оборудованием, и они могут привести к потере данных, если репликация недостаточно частая. Экспериментальный "инцидент" 3: Сегодня, в нашей внутренней конфигурации с в основном несущественными контейнерами без постоянно меняющихся данных, я поэкспериментировал с идеей установки большинства желаемых состояний служб HA в "Ignored", чтобы я мог вручную мигрировать контейнеры, если я решу, что узел не перезагрузится. НО, это невозможно, кластер настаивает на попытке подключиться к неработающему узлу, который он помнит, как узел, на котором работают контейнеры, даже если я поставлю этот узел в режим обслуживания. Я могу сделать резервную копию последних реплицированных данных, выкинуть застрявший контейнер и пересоздать его более-менее. Но это совсем непрактично. Урок 2? Игнорировать нагрузку частой репликации и реплицировать все каждую минуту? Главный вопрос: Как часто следует реплицировать CT и виртуальные машины с непрерывными изменениями данных? Каждую минуту? Нам не хочется, чтобы репликация доминировала над нормальной работой. Вопрос 2: Возможно ли замедлить автоматическое переключение узлов службами, чтобы учесть медленную перезагрузку узлов? Я искал, но ничего не нашел, кроме пожеланий даже более быстрой передачи. Но для многих служб выход из строя был бы гораздо предпочтительнее потери данных, как описано в моем инциденте 2 выше. Боковой вопрос: Кто-нибудь еще сталкивается с неожиданными перезагрузками, с материнскими платами AS Rock или драйвером сети virtio? Спасибо заранее за любой отзыв! С уважением, Christoph <br />
			<i>25.04.2025 14:22:00, Christoph Lechleitner.</i>]]></description>
			<link>http://proxmox.su/forum/messages/forum63/message312462/75995-luchshaya-praktika-dlya-chastoty-replikatsii_-_problemy-s-taymingom-ha_-medlennye-neozhidannye-perezagruzki</link>
			<guid>http://proxmox.su/forum/messages/forum63/message312462/75995-luchshaya-praktika-dlya-chastoty-replikatsii_-_problemy-s-taymingom-ha_-medlennye-neozhidannye-perezagruzki</guid>
			<pubDate>Fri, 25 Apr 2025 14:22:00 +0300</pubDate>
			<category>Proxmox Виртуальная Среда</category>
		</item>
	</channel>
</rss>
