Привет, у нас возникли проблемы с вводом-выводом на DELL r710. Это происходит случайно раз в 6 месяцев (потом 2-3 месяца, а сейчас раз в месяц) и требует перезагрузки сервера. Виртуальные машины работают медленно, proxmox тоже медленный и неотзывчивый. Сервер — это DELL r710 на RAID 10 (PERC 6/i встроенный). Скорости чтения и записи ниже 1MiB/s. Вот пример, когда все хорошо: INFO: 0% (514.7 MiB из 300.0 GiB) за 3с, чтение: 171.6 MiB/s, запись: 29.6 MiB/s INFO: 1% (3.0 GiB из 300.0 GiB) за 1м 35с, чтение: 27.9 MiB/s, запись: 27.5 MiB/s INFO: 2% (6.0 GiB из 300.0 GiB) за 3м 24с, чтение: 28.3 MiB/s, запись: 27.7 MiB/s INFO: 3% (9.0 GiB из 300.0 GiB) за 5м 21с, чтение: 26.2 MiB/s, запись: 25.9 MiB/s INFO: 4% (12.0 GiB из 300.0 GiB) за 7м 18с, чтение: 26.3 MiB/s, запись: 26.1 MiB/s INFO: 5% (15.0 GiB из 300.0 GiB) за 8м 59с, чтение: 30.8 MiB/s, запись: 30.4 MiB/s INFO: 6% (18.1 GiB из 300.0 GiB) за 9м 49с, чтение: 61.5 MiB/s, запись: 61.3 MiB/s А когда возникают проблемы с вводом-выводом: INFO: 0% (2.6 MiB из 300.0 GiB) за 3с, чтение: 896.0 KiB/s, запись: 133.3 KiB/s INFO: 1% (3.0 GiB из 300.0 GiB) за 1ч 15м 40с, чтение: 692.9 KiB/s, запись: 589.4 KiB/s INFO: 2% (6.0 GiB из 300.0 GiB) за 2ч 29м 30с, чтение: 710.1 KiB/s, запись: 695.7 KiB/s INFO: 3% (9.0 GiB из 300.0 GiB) за 3ч 50м 57с, чтение: 643.7 KiB/s, запись: 634.5 KiB/s INFO: 4% (12.0 GiB из 300.0 GiB) за 5ч 8м 10с, чтение: 678.9 KiB/s, запись: 674.4 KiB/s Вот что показывает top, когда возникает проблема: top - 09:49:52 работает 16 дней, 23:47, 1 пользователь, средняя нагрузка: 2.23, 2.53, 2.32 Задачи: 370 всего, 1 запущена, 369 спят, 0 остановлены, 0 зомби %Cpu(s): 4.9 us, 0.7 sy, 0.0 ni, 90.1 id, 4.2 wa, 0.0 hi, 0.0 si, 0.0 st MiB Память: 96660.7 всего, 53299.8 свободно, 34248.4 использовано, 9112.6 буфер/кэш MiB Своп: 8192.0 всего, 7577.0 свободно, 615.0 использовано. 61490.0 доступно Если IOs ужасно медленные, я с трудом могу получить доступ к webUi или к системному журналу. Это не проблема сети. По графику Zabbix (среднее время ожидания CPU IOwait) видно, что IOwait колеблется от 0.1 до 4.0. Это гораздо больше, но не кажется слишком высоким. Похоже, это начинается в 00:00. 3 скрипта выполняются в 00:00, но не должны быть «опасными». Код: #!/bin/sh
raid=$(/usr/sbin/megaclisas-status)
datapercent=$(/usr/sbin/lvs pve/data -o data_percent --noheading | /usr/bin/sed -e 's/^[[:space:]]*//')
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.raid.disk.status -o "$raid"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.lvm.data.percent -o "$datapercent" Код: #!/bin/sh
smart1=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '1q;d')
smart2=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '2q;d')
smart3=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '3q;d')
smart4=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '4q;d')
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[1] -o "$smart1"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[2] -o "$smart2"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[3] -o "$smart3"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[4] -o "$smart4" Код: #!/bin/sh
temp1=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '1q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp2=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '2q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp3=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '3q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp4=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '4q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[1] -o "$temp1"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[2] -o "$temp2"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[3] -o "$temp3"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[4] -o "$temp4" Если кто-то может подтвердить, это проблема с оборудованием или нет, буду рад услышать.
raid=$(/usr/sbin/megaclisas-status)
datapercent=$(/usr/sbin/lvs pve/data -o data_percent --noheading | /usr/bin/sed -e 's/^[[:space:]]*//')
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.raid.disk.status -o "$raid"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.lvm.data.percent -o "$datapercent" Код: #!/bin/sh
smart1=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '1q;d')
smart2=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '2q;d')
smart3=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '3q;d')
smart4=$(/usr/sbin/megacli -PDList -aAll | grep "Drive has flagged a S.M.A.R.T alert" | sed '4q;d')
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[1] -o "$smart1"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[2] -o "$smart2"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[3] -o "$smart3"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.smartmegacli[4] -o "$smart4" Код: #!/bin/sh
temp1=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '1q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp2=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '2q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp3=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '3q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
temp4=$(/usr/sbin/megacli -PDList -aAll | grep Temperature | sed '4q;d' | grep -o -P "\d+C" | grep -o -P "\d+")
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[1] -o "$temp1"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[2] -o "$temp2"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[3] -o "$temp3"
/usr/bin/zabbix_sender -c /etc/zabbix/zabbix_agentd.conf -k system.disk.temperature[4] -o "$temp4" Если кто-то может подтвердить, это проблема с оборудованием или нет, буду рад услышать.
