SMART мониторинг элементов исследования и механизм классификации работоспособности хранилища – Русские Блоги

Command_timeout тайм-аут команды

ID: 188, уровень тревоги:

«Предупреждение»: снижение производительности.
 «Снижение»: риск высокой производительности.
 «Катастрофа»: Прекратить неприятности / Производительность пропала.
  • Порог:
    Уровень предупреждения: ненулевой
    Уровень распада: выше 10
    Уровень бедствия: выше 1000000

  • Примечание. Значение этого элемента не равно нулю и продолжает увеличиваться, указывая на то, что скорость реакции жесткого диска снизилась и производительность сильно пострадала.

  • Воздействие: его необходимо заменить немедленно, но, поскольку значение не вызовет серьезных ошибок при первом повышении, может быть сложно вызвать тревогу. Его независимое повышение практически не повлияет на производительность жесткого диска, но постепенно ухудшится до серьезного риска снижения производительности. .

Согласно опыту, обычно считается, что это значение связано с SMART187 и SMART183, и появление двух вышеупомянутых может (см. Частоту чтения и записи) привести к тому, что значение будет продолжать увеличиваться.

G-sense error rate предупреждение датчика ускорения

ID: 191, уровень тревоги:

«Отчет»: Предупреждение о физическом воздействии.
  • Порог: увеличение
  • Примечание. Встроенный датчик ускорения корпуса диска обнаруживает удар во время работы, который может вызвать повреждение жесткого диска.
  • Воздействие: это значение относительно редкое, но оно означает, что внешняя среда резко изменилась, например, сервер пострадал от землетрясения и т. Д. Когда все серверы в компьютерном зале обнаруживают повышение этого значения, обратитесь в компьютерный зал, чтобы узнать, сильно ли изменилась среда или произошло землетрясение. .

High_fly_writes голова работает на ненормальной высоте

ID: 189, уровень тревоги:

«Отчет»: ненормальная головка / высокий уровень диска.
  • Порог: больше 1 или больше
  • Примечание. Если значение не равно нулю, это указывает на то, что жесткий диск может быть поврежден или могут быть механические неисправности.
  • Воздействие: необходимо внимательно следить за тем, есть ли ухудшение.Постоянное увеличение этого значения может привести к снижению производительности оборудования, поскольку увеличение этого значения означает увеличение количества операций, которые были прерваны без завершения.

Offline uncorrectable / uncorrectable sector count количество секторов щита

ID: 198, уровень тревоги:

«Отчет»: Стабильность снижается.
  • Порог:
    Уровень отчета: 3

  • Объяснение: Этот элемент данных представляет собой количество секторов, которые были замаскированы мастером диска, подтверждающим сбой.

  • Воздействие: теоретически это значение слишком велико, чтобы вызвать риск передачи данных. Статистика показывает, что для большинства дисков эти данные равны нулю. Однако ненулевое значение не сильно связано с ухудшением производительности или отказом диска.Ценность проблемного диска обычно выше, поэтому он устанавливается на уровне отчета для дальнейшего изучения.

Raw_read_error_rate частота ошибок необработанного чтения

ID: 1, пункт тревоги:

«Рапорт»: Патруль / Патруль.
  • Порог: чрезвычайно высокая скорость роста в единицу времени
  • Описание: частота ошибок при чтении необработанных данных с жесткого диска. Ненулевое значение указывает на проблему с поверхностью диска или головкой чтения / записи.
  • Воздействие: значительное увеличение этих данных обычно указывает на то, что жесткий диск старый и его следует рассмотреть для замены из онлайн-среды, но в краткосрочной перспективе серьезных проблем не возникнет, но это в определенной степени повлияет на производительность, а скорость роста стоимости очень высока. Более крупные корпуса также могут в большей степени повлиять на производительность жесткого диска.

Поскольку каждый производитель определяет это значение по-разному, нет сильной корреляции между увеличением значения и рабочим состоянием жесткого диска, поэтому оно не используется в качестве элемента для определения уровней предупреждения и снижения.

Reallocated_sector_ct количество секторов перераспределения

ID: 5, тревога:

«Предупреждение»: снижение производительности.
 «Рецессия»: риск данных / высокий риск данных.
  • Порог: «Предупреждение» не равно 0
  • Примечание. Когда жесткий диск обнаруживает ошибку чтения / записи / проверки, он помечает сектор как «Перераспределенный» и перемещает данные в зарезервированную область.
  • Воздействие: состояние жесткого диска ухудшилось до такой степени, что оно не только влияет на производительность, но даже вызывает риски для целостности данных. Его не нужно спасать, и его следует немедленно заменить или списать. В настоящее время он все еще может полагаться на усилия основной системы управления в течение определенного периода времени. Но риск вырос до неконтролируемого уровня.

Reported_uncorrect неустранимая ошибка

ID: 187, уровень тревоги:

Отклонение: обнаружен риск данных / высокий риск данных.
  • Примечание. Ненулевое значение этого элемента означает, что на жестком диске возникла серьезная проблема, и это означает, что мастер подтвердил, что начали появляться ошибки, которые нельзя исправить никакими средствами, включая аппаратный ECC.
  • Воздействие: такие жесткие диски следует немедленно заменять и не использовать.
:/>  RFC 3315 - Dynamic Host Configuration Protocol for IPv6 (DHCPv6)

Seek_error_rate частота ошибок поиска

ID: 7, тревога:

«Рапорт»: Патруль / Патруль.
  • Порог: чрезвычайно высокая скорость роста в единицу времени
  • Описание: Частота ошибок при позиционировании данных
  • Воздействие: при значительном увеличении объема данных производительность жесткого диска будет иметь определенное влияние, но он все еще может нормально работать без немедленной отрыжки, но существует определенный риск. Если данные и исходная частота ошибок чтения увеличиваются одновременно, жесткий диск может Когда механические характеристики ухудшаются, звук становится громче, увеличивается вибрация или даже возникает неприятный шум, следует как можно скорее заменить или списать.

Поскольку каждый производитель определяет это значение по-разному, нет сильной корреляции между увеличением значения и рабочим состоянием жесткого диска, поэтому оно не используется в качестве элемента для определения уровней предупреждения и снижения.

Ssd – на моем ssd сейчас 226 плохих секторов. это важно?

Интеллектуальные данные нашего SSD говорят, что вы использовали SSD в течение 1331 часов, и ваш SSD понес 33308592070 * 512/1024 ^ 4 = 15,5 записей TiB. Это означает ca. 12 гигабайт записывает мощность на часах вашего SSD. Это характерно для типичного использования SSD для потребителей. Что вы используете для SSD?

Вы все еще находитесь ниже предела цикла записи вашего SSD, который основан на MLC, поэтому следует терпеть ca. 3000 циклов записи, что будет означать ок. 256 ГБ * 3000 = 768 ТБ. Поэтому я бы сказал, что вы в безопасности.

Но ваши данные SMART показывают, что теперь у вас уже 238 перераспределенных (сбой) секторов. Это число по-прежнему очень мало по сравнению с несколькими сотнями миллионов секторов вашего диска, но для меня удивительно, что после всего лишь 60-70 циклов записи ваш SSD имеет блокировку. У вас есть запасное место на вашем SSD? Для надежного управления износом накопителей на SSD требуется запасное пространство.

Вот график, показывающий SSD 840 PRO 256 ГБ при записи теста. Он имеет нулевое или очень близкое к нулю перераспределенные сектора после записи 300 ТБ. У вас более 200 после менее 20 ТБ.

Используется последняя прошивка накопителя. Я не хочу вас волновать, но я думаю, вам следует связаться с Samsung с выходом SMART и спросить о своем мнении. Я думаю, что ваш диск имеет какую-то проблему.

UPDATE:

После ответа Samsung – кто в основном сказал, что все в порядке – я бы сказал, что до тех пор, пока вы не столкнетесь с потерей данных ( это до тех пор, пока злоумышленники обнаружены во время операции записи). Я думаю, вам тогда не следует беспокоиться.

Вы можете увидеть счет badblock в строке Runtime_bad_block (238, Raw value), которая является суммой Program_Fail_Cnt_Total (238, которая является неудачной операцией записи) Erase_Fail_Count_Total (0, которая является неудачной операции стирания) и неудачные операции чтения. Таким образом, неудачные операции чтения на вашем диске во время создания интеллектуального вывода были 238-238-0 = 0, поэтому у вас не было отказавшего чтения, у вас нет потери данных.

[d13 ] Если ваш диск начинает сталкиваться с неудачными чтениями в ближайшем будущем (это означает, что

Runtime_bad_block

не будет равняться Program_Fail_Cnt_Total

Program_Fail_Cnt_Total

), потенциальная потеря данных, я бы пересмотрел Samsung. До этого момента просто наслаждайтесь своим SSD.

Temperature_celsius илиairflow_temperature_celsiu температура / температура воздушного потока

ID: 194 или 190, уровень тревоги:

«Отчет»: жесткий диск BBQ / BBQ.
 «Внимание»: сначала брось ноги в ад.
  • Порог:
    Уровень отчета: 52
    Уровень предупреждения: 62

  • Описание: Рабочая температура жесткого диска.

  • Воздействие: если рабочая температура жесткого диска в определенной аппаратной обычно слишком высока, следует подтвердить, приведет ли рассеяние тепла в аппаратной к сокращению срока службы оборудования.

Unexpect_power_loss_ct / power-off retract count / emergency retract cycle count количество аномальных сбоев питания

ID: 174/192, тревога:

«Отчет»: обнаружено прерывание питания ядра.
  • Порог: увеличение
  • Примечание. Если обнаружено увеличение значения, проверьте, нет ли в оборудовании сбоя питания или ненормального источника питания.
  • Воздействие: увеличение значения счетчика обычно указывает на аварийное отключение устройства. Если этот аварийный сигнал возникает на одном жестком диске, следует учитывать неисправность кабеля или материнской платы. Значение контроля этого значения в основном заключается в оценке сбоя источника питания устройства, а не аварийного отключения, поскольку Внешняя система обнаружения может быстрее обнаружить ненормальное отключение.
:/>  Как и чем открыть SWF файл.Что делать?Как открыть?

Wear_leveling_count среднее количество стирания и записи частиц

ID: 177, тревога:

«Предупреждение»: конец жизни / диск умирает.
 «Отклонение»: диск мертв.
  • Порог:
    Уровень предупреждения ХУДШИЕ данные (не RAW) ниже 15;
    Распад ХУДШИХ данных (не RAW) меньше или равен 1.

  • Примечание. Элементы, относящиеся к твердотельным накопителям, используются для оценки срока службы твердотельных накопителей. Из-за стандартов оценки различных производителей RAW VALUE не является стандартом.

  • Воздействие: когда жесткий диск переходит в уровень предупреждения, вам следует подумать о его замене, потому что значение этого элемента уменьшено до 0 и нет сильной корреляции с рабочим состоянием жесткого диска, но даже если нет отклонений от нормы во всех индикаторах, не рекомендуется чрезмерное обслуживание, когда он используется в сети.

Обычно считается, что когда значение равно нулю, расчетный срок службы жесткого диска достигнут.

Внимание уровень «отчет»

Жесткий диск, состояние здоровья которого указано в «Отчете» с предупреждением, имеет определенную степень ухудшения индикаторов мониторинга, но он все еще находится в безопасном диапазоне главного управления жестким диском. Главный управляющий чип может эффективно справиться с отклонением от нормы без каких-либо явных признаков ухудшения производительности.

Характерное определение: Любой элемент риска соответствует стандарту «отчет».

Известные s.m.a.r.t. атрибуты · павел сатин

Count of load/unload cycles into head landing zone position.[45] Some drives use 225 (0xE1) for Load Cycle Count instead.

Western Digital rates their VelociRaptor drives for 600,000 load/unload cycles,[47] and WD Green drives for 300,000 cycles;[48] the latter ones are designed to unload heads often to conserve power. On the other hand, the WD3000GLFS (a desktop drive) is specified for only 50,000 load/unload cycles.[49]

Some laptop drives and “green power” desktop drives are programmed to unload the heads whenever there has not been any activity for a short period, to save power.[50][51] Operating systems often access the file system a few times a minute in the background,[52] causing 100 or more load cycles per hour if the heads unload: the load cycle rating may be exceeded in less than a year.[53] There are programs for most operating systems that disable the Advanced Power Management (APM) and Automatic acoustic management (AAM) features causing frequent load cycles.[54][55]

Класс бедствия

Жесткие диски со статусом «Disaster» обычно не отображаются ни в одной сетевой системе. После включения механизма классификации жестких дисков теоретически будут “аварийные” жесткие диски. Единственными условиями являются внезапное повреждение жесткого диска, вызванное сильным электрическим током, внезапным отключением питания или током, и нечитаемое из-за отказа микросхемы S.M.A.R.T. Жесткие диски этого уровня вообще не могут работать.

Характерное определение:

  1. Встречаются ряд «падающих» характеристик.
  2. Или информация S.M.A.R.T. не читается.
  3. Имеется много аварийных сигналов системного уровня или их просто невозможно идентифицировать.

Действие обработки: заменить!

О достоверности данных s.m.a.r.t.

Данные S.M.A.R.T. могут реагировать быстро и точно в нормальных условиях.

В реальной онлайн-среде UPYUN я столкнулся с ситуацией, когда информация S.M.A.R.T. не может быть прочитана на некоторых жестких дисках. Проведя простое исследование жестких дисков с этими условиями, я обнаружил, что жесткие диски с такими условиями обычно сопровождаются серьезным снижением производительности.

Я думаю, это может быть связано с тем, что главный чип жесткого диска не смог справиться с огромными требованиями к исправлению данных, и нет свободного ресурса для ответа на запрос системы в S.M.A.R.T. На самом деле, эти жесткие диски уже имеют очень серьезные проблемы.

:/>  CHKDSK — проверка жесткого диска на ошибки

Снижение уровня «снижение»

Жесткие диски, состояние здоровья которых имеет значение «Снижение», не следует использовать в сети. В принципе, жесткие диски, находящиеся на уровне предупреждения, следует заменять, поскольку жесткие диски с «ухудшением» имеют большой потенциал повлиять на бизнес-систему при использовании для онлайн-сервисов.

Общая операция представляет собой угрозу, обычно проявляющуюся в снижении производительности бизнес-системы, ошибках чтения и записи данных, тайм-аутах и ​​т. Д. Однако жесткие диски, которые только что вышли на уровень «спада», обычно не вызывают ошибок системного уровня, и о них можно судить только с точки зрения снижения производительности. Случай.

Характеристика: любая статья риска соответствует стандарту «рецессия»

Действие обработки: система автоматически удалит его из бизнес-системы, но, если он не может быть временно заменен по разным причинам, он должен быть физически отключен от устройства как можно скорее, чтобы избежать состояния жесткого диска, близкого к «аварийному» уровню, и вызвать систему Произошло исключение (например, зависание процесса).

Угрожающий класс

Жесткий диск, состояние здоровья которого имеет значение «Угроза« Предупреждение », уже имеет определенный риск снижения производительности, поскольку некоторые ситуации, которые не может контролировать основной управляющий чип, уже произошли, и его производительность, возможно, немного снизилась, а его состояние здоровья постепенно отклоняется от основного управляющего чипа.

Система управления должна отправить аварийное уведомление обслуживающему персоналу и обслуживающему персоналу и рассмотреть возможность удаления жесткого диска из бизнес-системы для замены как можно скорее, чтобы предотвратить его переход на уровень снижения при одновременном выполнении онлайн-сервисов.

Характерное определение: любой предмет риска соответствует стандарту «предупреждения».

Действие при обработке: примите меры для замены жесткого диска, когда это позволит рабочая сила, и обычно есть достаточно времени для замены жесткого диска от предупредительного сигнала до периода отказа. Если он случайно войдет в рецессию, система автоматически изолирует его от бизнес-системы.

Хороший “здоровый” уровень

Жесткие диски этого уровня очень здоровы без какого-либо риска. Обычно это недавно запущенные жесткие диски. Для жестких дисков, отмеченных как Good, проблем не будет, и не потребуется внимания и мониторинга.

Определение характеристик: все элементы оценки риска равны 0 или рост ключевых исходных данных ниже, чем стандарт «отчета».

End-to-end_error ошибка сквозной проверки

ID: 184, тревога:

«Отчет»: среда передачи испорчена.
  • Порог: ненулевое значение
  • Описание: количество ошибок проверки передачи данных между хостом и жестким диском.
  • Воздействие: это значение встречается крайне редко, и ни один из более чем 3000 жестких дисков, которые я использовал для тестирования, не показал этого значения. Согласно данным, увеличение этого значения обычно связано с проблемами со средой передачи, такой как кабели или интерфейсы SATA. Попробуйте подключить или заменить линию передачи.

Так как случаев не обнаружено, этот элемент в настоящее время настроен на уровень отчета.

Current_pending_sector текущее количество секторов для отображения

ID: 197, уровень тревоги:

«Отчет»: Стабильность снижается.
 «Предупреждение»: снижение производительности.
 «Рецессия»: риск данных / высокий риск данных.
  • Порог:
    Уровень отчета: ненулевой
    Уровень предупреждения: 3
    Уровень распада: 10

  • Примечание. Данные этого параметра указывают количество «нестабильных» секторов, то есть количество секторов, «ожидающих отображения».

  • Воздействие: если есть ошибка при чтении сектора, ID197 увеличится.Если сектор впоследствии будет успешно прочитан и записан, операция, ожидающая отображения, будет отменена, а ID197 уменьшится. Если следующая операция записи в сектор продолжает вызывать ошибку, произойдет повторное сопоставление, а затем счетчик ID5 увеличится, а счетчик ID197 уменьшится. Если в сектор не поступают никакие последующие операции, значение ID197 останется неизменным.

Следовательно, эта небольшая ошибка не будет иметь серьезных последствий, но значение этого пункта меняется быстро или в большой степени, следует учитывать, есть ли у жесткого диска проблемы со стабильностью.

Оставьте комментарий

Adblock
detector