Как исправить offline uncorrectable sector в последствии

Время на прочтение


Как исправить offline uncorrectable sector в последствии

Привет, Хабр! Меня зовут Данил, я системный инженер, работаю с серверами и клиентским оборудованием в дата-центре Selectel в Дубровке (Ленобласть). Бывают ситуации, когда диски в серверах работают некорректно. В таком случае нужно быстро определить причину, понять, на чьей она стороне, и исправить проблему.

Под катом расскажу, с какими дисками и как мы работаем в Selectel, а также поделюсь советами, как ускорить решение проблем с накопителем.

Небольшой дисклеймер. В тексте мы говорим о работе с дисками в выделенных серверах Selectel — всех, кроме линейки Chipcore.

показатель SMART – сектора, которые не удалось переназначить

Уточните, пожалуйста, название атрибута на английском, либо его ID (Number).
Вы имеете в виду атрибут 198 (С6) Offline Uncorrectable Sector Count (Uncorrectable Sector Count)?
В нём содержится количество секторов-кандидатов на переназначение, обнаруженных при оффлайн-тестировании, которое диск запускает во время простоя в соответствии с параметрами, зависящими от прошивки.

сектора – кандидаты на переназначение?

197 (С5) Current Pending Sector Count – речь про него?
Это и есть количество секторов-кандидатов на переназначение в резервную область.
Т.е. количестве секторов, которые диск встретил в процессе работы, и которые ему «не понравились». Сначала этот сектор помечается как кандидат на переназначение и заносится в соответствующий внутренний список (в этот момент параметр 197 / C5 увеличивается).

Впоследствии этот сектор может быть как выведен из списка (с уменьшением параметра), так и переназначен, при это атрибут 197 также уменьшится, но увеличатся атрибуты 196 (С4) Reallocated Event Count и 05 Reallocated Sector Count, также будут сделаны соответствующие пометки в G-list.

– P. S. –
Если у вас в программе всё на русском, можете посмотреть оригинальные названия параметров СМАРТ в R.tester’е.
В нём также есть функция автоматической диагностики, интерпретирующая параметры и выводящая возможные варианты проблем с жёстким диском.

P. P. S
В любом случае, если сомневаетесь в здоровье HDD, начинайте с копирования важных данных на другой накопитель, это важнее любых проверок жёсткого диска. Потом может быть поздно.
Также ни в коем случае не пытайтесь “лечить” диск поделиями наподобие HDD Regenerator.

This post mainly discusses what does uncorrectable sector count mean for your hard drive and how to cope with this case. Now, let’s explore these contents together.

On This Page :

What Does Uncorrectable Sector Count Mean

If there are any bad sectors on your hard drive, some errors such as Windows couldn’t be installed error 0x80300024, path not found c boot may happen to you. What does uncorrectable sector count mean? Do I need to change a new drive when this happens to your drive? You may raise such a question. Here, MiniTool will tell the answers.

If you conduct a non-destructive scanning, you will not receive any serious issues or warnings. However, some disks have been marked as suspicious due to uncorrectable sectors. There’s no sector reallocations and no pending sectors. In this case, uncorrectable sector count means that your disk probably is safe.

SMART ID 198 (0xC6) Uncorrectable Pending Sector Count is an important S. M. A. R. T parameter, which indicates many uncorrectable errors when reading/writing a sector on the hard drive. The error can damage or does a permanent failure to the hard drive and lead to data loss.

Simply put, offline uncorrectable pending sector count warning implies imminent disk failure and requires immediate backup and drive replacement. Here is a full guide to fix hard drive uncorrectable sector count warning.

4 Phases to Fix Uncorrectable Sector Count Warning

Warnings like uncorrectable sector count 100, off-line uncorrectable sector count will appear when you are trying to obtain the SMART information of a disk by utilizing tools like Drive Monitor, CrystalDiskInfo, HDSentinel and so on. Hence, it is strongly recommended that you monitor the disk SMART parameter actively to prevent data loss because of impending drive.

:/>  Control-Alt-Delete (комбинация)

To fix the SMART uncorrectable sector count warning, you need to know something about it.

Back up and Recover

If you can access the drive, please back up files immediately. If the drive turns RAW or unavailable, you can fix this issue and recover the missing data by utilizing methods from this post.

Perform Surface Test

After running surface test for the drive, you should run CHKDSK to scan and repair bad sectors. Here are steps to run CHKDSK.


Как исправить offline uncorrectable sector в последствии

Step 2: In this pop-up prompt window, type the command chkdsk *: /f /r (* stands for the volume that you want to check) and hit the Enter key. If there are more than one volume on the disk, please run the above command one by one.

Tip: As you have backed up data in advance, you can delete all the volumes on the disk and then run the scanning to fix SMART uncorrectable sector count warning.

Full Format or Erase Drive Securely

If you still see the uncorrectable sector count warning in SMART information of the disk, you can utilize a safe eraser software such as MiniTool Partition Wizard for file or format the affected drive.

Full format and safe eraser will overwrite each sector on the drive. This operation will force the drive into reading the SMART parameters and attributes including uncorrectable sector count.

Step 1: Press Win and R keys to open the Run window, and then type diskmgmt.msc and hit the Enter to open your Windows Disk Management.

Step 2: Right click the affected drive volume in the Disk Management page, and then select the Format option from the elevated menu.


Как исправить offline uncorrectable sector в последствии

Step 3: Uncheck Perform a quick format and click OK to save the change. Then the volume will be formatted automatically.

Tip: If you don’t uncheck Perform a quick format, the data can be recovered with recovery software.


Как исправить offline uncorrectable sector в последствии

После получения данных инженер их анализирует.

Для проверки SMART мы в Selectel используем самописного бота в Telegram. Боту отправляется полный вывод команды smartctl. Он, в свою очередь, в зависимости от типа диска и вендора проверяет определенные атрибуты и выносит «приговор» — подлежит ли данный диск замене. Именно поэтому мы всегда рекомендуем отправлять вывод SMART текстом, а не скрином :).


Как исправить offline uncorrectable sector в последствии

Телеграм-бот для проверки SMART

Подготовка диска

Если неисправность диска подтверждается, то инженер приступает к подготовке носителя для замены. Для быстрого решения проблемы такие диски находятся на складе в определенном месте — они уже проверены и готовы к добавлению в сервер. Инженеру остается накрутить нужную корзину и согласовать с клиентом время замены.

Идентификация проблемного диска

Перед заменой клиенту необходимо вывести диск из RAID-массива (если массив используется) и «подсветить».

Существует несколько способов подсветки диска в Linux:

Если диски подключены к RAID-контроллеру, подсветка включается через утилиты вендора — например arcconf, storcli.

После этого необходимо сообщить в тикете о включении индикации. Инженер Selectel со своей стороны смотрит индикацию на дисках, определяет нужный диск и просит клиента остановить действие подсветки. Так он убеждается, что неисправный диск определен верно.

Далее инженер выполняет замену диска и сообщает об этом клиенту, чтобы тот проверил, определился ли новый диск в ОС.

:/>  После установки материнской платы не включается компьютер

Бывают случаи, что индикация не срабатывает на корзине. В такой ситуации замену диска можно выполнить только с отключением сервера, то есть даунтаймом.

Дисковые корзины

Накопители HDD SATA, SSD SATA и SSD NVMe U.2 подключаются к серверам через дисковые корзины.

Дисковая корзина — это модуль, который используется для подключения определенного количества дисков к серверу. Корзины позволяют легко выполнить подключение или отключение диска в работающем сервере без отключения, вскрытия корпуса и снятия из стойки. То есть выполнить «горячую» замену без даунтайма.


Как исправить offline uncorrectable sector в последствии

Корзина для диска, форм-фактор 3.5”.

Каждый производитель корпусов использует свои корзины, которые не совместимы с корпусами конкурентов.


Как исправить offline uncorrectable sector в последствии

Переходник для диска 2.5”.


Как исправить offline uncorrectable sector в последствии

HDD-диск, прикрученный к корзине.


Как исправить offline uncorrectable sector в последствии

SSD-диск, прикрученный к корзине.

Другая ситуация с SSD NVMe PCIe. Этот диск подключается напрямую в матплату, поэтому его без отключения сервера, снятия из стойки и вскрытия корпуса не заменить. К слову, эти диски используются довольно редко, и экстренно менять их на практике мне не доводилось. Единственный раз был связан с плановым апгрейдом сервера клиента и согласованным даунтаймом.

Мы заменили диск. Что дальше?

Самая сложная часть позади. Клиент может продолжать пользоваться своим сервером.

Неисправный диск инженер передает в отдел сборки. Там его полностью очищают от данных с помощью специальных программ.

Далее может произойти два варианта развития событий:

Если первые два варианта не подошли — например, носитель не записывает информацию и не подлежит ремонту, он будет ждать утилизации. Неисправные диски из Аттестованного ЦОД уничтожаются с помощью специального устройства.


Как исправить offline uncorrectable sector в последствии

Устройство для уничтожения дисков

Если вам понравился этот текст, советуем также почитать:

Проблемы в работе диска. Что делать?

При обнаружении проблем с накопителем стоит выполнить первичную диагностику и сообщить результаты в тикет-систему. В случае выявления аппаратной неисправности инженеры дата-центра подготовят накопитель и согласуют этапы проведения замены.

Первичную диагностику можно выполнить средствами ОС или через Rescue.

Rescue — образ LiveCD, основанный на Arch Linux c набором утилит для диагностики, который загружается в оперативную память. Более подробно о Rescue можно прочитать по ссылке.

Если накопитель не инициализируется в ОС, то по обратной связи инженер дата-центра выполняет переподключение диска. Далее принимается решение о неисправности накопителя.

Существует несколько способов выявить неисправность накопителя:

С первыми двумя пунктами ознакомимся более подробно.

Проверка диска SMART

Основным методом оценки неисправности диска является значения атрибутов SMART — технологии оценки состояния жесткого диска встроенной аппаратурой самодиагностики. Более подробно с атрибутами можно ознакомиться по ссылке.

Для просмотра показателей SMART конкретного накопителя потребуется пакет smartmontools. Для ОС Windows его можно найти по ссылке.

Рассмотрим, как вывести информацию о диске на практике.

Для вывода модели с серийным номером и списка атрибутов достаточно ввести следующую команду:

smartctl -iA /dev/sdX, где X — идентификатор накопителя

Пример вывода команды

При наличии RAID-контроллера команда может быть следующего вида:

smartctl -iA -d megaraid,2 /dev/sda

Подробнее в manual smartctl.

Также с помощью данной утилиты можно выполнить тестирование или произвести полный вывод с журналом событий о ошибках. Например:

smartctl –test=long /dev/sda — команда запуска теста
smartctl -l selftest /dev/sda — команда вывода результатов теста

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 26190

smartctl -x /dev/sda — полный вывод информации о диске

При принятии решения о замене мы ориентируемся на базовые атрибуты и атрибуты конкретной модели накопителя. Также необходимо отметить, что значения определяются по параметрам RAW_VALUE или VALUE в зависимости от атрибута.

Базовые атрибуты для HDD-дисков

*при превышении этого значения диск не становится неисправным — цифра установлена Selectel. После 5 лет эксплуатации требуется замена диска согласно внутренним регламентам.

:/>  Как определить какие программы используют интернет-трафик на компьютере

При росте значений параметров 199 UltraDMA CRC Error Count и 200 Multi_Zone_Error_Rate проявляются проблемы на уровне интерфейса. В данном случае проверяем корректность подключения дисков SATA.

Базовые атрибуты для SSD-дисков

Также существуют атрибуты модели, которые можно узнать на официальном сайте конкретного производителя.

Проверка скорости чтения

Еще один немаловажный параметр — это скорость работы диска.

Заявленную скорость можно посмотреть на официальном сайте производителя. Учитывайте, что реальная скорость может отличаться от заявленной производителем. Чтобы быстро проверить скорость чтения, можно воспользоваться утилитой hdparm (для Linux):

hdparm -Tt /dev/sda

Также можно произвести полноценное нагрузочное тестирование с помощью утилиты fio, оценив показатели IOPS. Подробнее можно почитать здесь.

Как правильно составить обращение к провайдеру

Корректная формулировка тикета позволит быстрее решить проблему.

Сотрудникам техподдержки не придется задавать дополнительные вопросы, а значит, инженер скорее получит нужную информацию и приступит к решению проблемы.

В заголовке тикета укажите суть проблемы (в нашем случае — неисправен диск) и ID сервера.

В теле тикета необходимо добавить следующую информацию:


Как исправить offline uncorrectable sector в последствии

Какие диски мы используем в Selectel и их особенности работы в дата-центре

Для начала я коротко расскажу о том, какие виды дисков мы используем в выделенных серверах.

HDD SATA (жесткий диск) — запоминающее устройство, работающее на принципе магнитной записи. Самый распространенный вид носителя и дешевый относительно стоимости за 1 ГБ. Существенно проигрывает по скорости записи и чтения данных твердотельным накопителям. Используется интерфейс SATA.

Когда-то в Selectel были доступны HDD-диски с интерфейсом SAS, но сейчас их уже не заказать. Но у нас еще остались клиенты, которые используют такие диски, и мы продолжаем обслуживать серверы с ними.

HDD SAS — жесткие диски с интерфейсом подключения SAS. Как и в случае NVMe U.2, такие диски подключаются в специальный корпус с поддержкой SAS. S AS-интерфейс обратно совместим с SATA, что дает подключать в такой корпус SATA-диски.

SSD SATA — твердотельный накопитель, в котором нет движущихся частей. В основном использует флеш-память. Имеют гораздо большую скорость производимых операций, но в то же время меньшую износоустойчивость, чем HDD.

SSD NVMe PCIe подключаются напрямую в матплату через интерфейс PCI Express x4. Из-за этого таких дисков можно подключить меньше, чем тех же NVMe U.2. Также для данных дисков нет возможности подключения к RAID-контроллеру.

SSD NVMe U.2 — твердотельный накопитель форм-фактора 2.5” с разъемом для подключения U.2. На вид данный диск очень похож на обычный SSD SATA, но имеет другой порт подключения, не совместимый с SATA. При этом SATA-диск можно подключить к разъему U.2. Обладает гораздо большей скоростью записи/чтения по сравнению с SSD SATA.

Преимущества SSD NVMe U.2 перед NVMe PCIe в том, что есть возможность выполнения горячей замены и подключение большого количества дисков, не занимая при этом слоты PCIe на материнской плате. Также такие диски можно подключить к RAID-контроллеру. Если вы хотите добавить SSD NVMe U.2 к в уже имеющийся сервер произвольной конфигурации, необходимо уточнить, если ли в наличии корпус с разъемами U.2 и поддерживает ли материнская плата подключение данных накопителей.


Как исправить offline uncorrectable sector в последствии

Оставьте комментарий