У нас есть NetApp, который мы используем для хранения дисков виртуальных машин как для VMware, так и для Proxmox (мы переходим с VMware). Для каждого типа есть своя NFS-шара (например, для дисков виртуальных машин VMware используется ESX_VMs, а для Proxmox — отдельная NFS-шара с именем PVE_VMs). Изначально настройки экспорта для всех шар были одинаковыми (поддержка v3, v4, v4.1 и v4.2). Когда мы проводили первоначальное тестирование с парой виртуальных машин, используя NFS-шару Proxmox, проблем не заметили. Теперь, когда мы переносим все больше и больше наших виртуальных машин с VMware на PVE, мы внезапно начали замечать, что наши Windows-виртуальные машины на PVE начинают выдавать синие экраны. Изучили логи и видим несколько сообщений "pvestatd[1889]: storage 'PVE_VMs' is not online" (примерно каждые 20 минут). После небольшого поиска в Google мы попробовали следующие шаги, но ничего не изменилось:
1. Заставили PVE-хост использовать NFSv3, сохраняя NetApp-шару на NFSv3/v4/v4.1/v4.2.
2. Заставили и PVE-хост, и NetApp-шару использовать только NFSv3.
Проблем с хостами на VMware у нас нет, только с Proxmox, поэтому мы сейчас уверены, что это Proxmox. Отметим, что сервер, который мы используем для Proxmox, изначально использовался для VMware и подключен по тем же кабелям, что и оставшиеся ESXi-хосты. У нас также есть зеркало этой конфигурации в другом серверном помещении со своим PVE-хостом, ESXi-хостом, собственным NetApp и собственным коммутатором (точное зеркало того, что у нас есть), и все они демонстрируют одни и те же симптомы. MTU настроены на 1500, мы используем LACP-агрегирование для хранилища (2 x 10 Гбит/с), отдельное LACP-агрегирование для управления, резервного копирования и миграции (2 x 1 Гбит/с) и отдельное LACP-агрегирование для производства (2 x 1 Гбит/с). Кто-нибудь сталкивался с подобным раньше? Можете подсказать, где еще поискать или что еще попробовать? У нас есть подписка на поддержку, но разница в часовых поясах огромна, поэтому я решил спросить здесь, пока жду ответа от поддержки.
1. Заставили PVE-хост использовать NFSv3, сохраняя NetApp-шару на NFSv3/v4/v4.1/v4.2.
2. Заставили и PVE-хост, и NetApp-шару использовать только NFSv3.
Проблем с хостами на VMware у нас нет, только с Proxmox, поэтому мы сейчас уверены, что это Proxmox. Отметим, что сервер, который мы используем для Proxmox, изначально использовался для VMware и подключен по тем же кабелям, что и оставшиеся ESXi-хосты. У нас также есть зеркало этой конфигурации в другом серверном помещении со своим PVE-хостом, ESXi-хостом, собственным NetApp и собственным коммутатором (точное зеркало того, что у нас есть), и все они демонстрируют одни и те же симптомы. MTU настроены на 1500, мы используем LACP-агрегирование для хранилища (2 x 10 Гбит/с), отдельное LACP-агрегирование для управления, резервного копирования и миграции (2 x 1 Гбит/с) и отдельное LACP-агрегирование для производства (2 x 1 Гбит/с). Кто-нибудь сталкивался с подобным раньше? Можете подсказать, где еще поискать или что еще попробовать? У нас есть подписка на поддержку, но разница в часовых поясах огромна, поэтому я решил спросить здесь, пока жду ответа от поддержки.
