Наблюдения за S.M.A.R.T.

24.11.2012 23:20:15

Хотя, конечно, импортные товарищи и пишут что «S.M.A.R.T. is dumb», он всё же полезен как минимум одной вещью — самотестированием. Например, на моём домашнем сервере smartd настроен так:

/dev/sda -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sdb -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sdc -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sdd -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sde -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sdf -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)
/dev/sdg -a -d ata -s (S/../../(1|4)/02|L/../(01|15)/./03)

И это тестирование не так давно показало, что у меня уже почти месяц как фэйлит один из стареньких Seagate ST3400620A (ещё IDE-шных), которые простояли в kettle уже пять лет (интересно, что я думал, что они стояли c самого начала, и если бы не аккуратные записи в бложике так бы думал и дальше). Винт не просто фэйлил тестирование, а ещё и накопил более 30 000 реаллоцированных секторов и ещё вагон в ожидании. Пока ходил неделю и думал, что притарить, количество реаллоцированных секторов успело даже за 40 000 перевалить. Ну, в общем, пять лет это срок, претензий к винту никаких, в ноуте один из двух винтов тоже аккурат через пять лет помер, хороший такой срок.

В результате заменил на Seagate ST3500411SV, понравилось, серия позиционируется как несколько более надёжная чем рядовое десктопное барахло и более приспособленная для работы 24 часа в сутки. Возможно, правда, что магии никакой нет и я просто подарил всем лишних 300 рублей, но не особо жалко.

Но суть даже не в этом, а в том, что, естественно, смотрел я на смарты всех дисков. И на одном из них, Samsung HD403LJ, обнаружилось 4 реаллоцированных сектора и 25 в статусе Current_Pending_Sector. Остальные диски были чистые (максимум — ошибки CRC UDMA). Скрестив пальцы запустил ресинхронизацию с новым винтом. Через какое-то время синхронизация завершилась успешно (от чего мне стало легче и радостнее на душе), а счётчик Current_Pending_Sector на том же самсунге вырос до 37.

И вот тут-то и начинается интерес. Если верить тому, что мне удалось найти, этот счётчик должен обозначать сектора, которые уже не читаются, но их ещё никто не пробовал читать официально и поэтому винт как бы ещё не в отказе. Вот даже smartd как про это всё пишет:

Nov 24 22:06:18 kettle smartd[6575]: Device: /dev/sdb, 37 Currently unreadable (pending) sectors

То есть, при самотестировании эти сектора не прочитались, но так как их никто пока не пробовал читать, есть шанс, что пользователь захочет не прочитать их, а записать в них что-нибудь, и тогда у винта будет возможность совершенно незаметно взять и реаллоцировать эти сектора, нарастив счётчик Reallocated_Event_Count (и/или Reallocated_Sector_Ct) и уменьшив Current_Pending_Sector. В интернетах можно даже найти инструкции по поводу того как найти эти сектора и как зафорсить реаллокацию.

А вот теперь интерес — как же в свете такой трактовки Current_Pending_Sector у меня получилось ресинхронизировать RAID5? Теоретически не должно бы было, поскольку на винте ничего кроме раздела рэйда нет. Конечно, можно придраться к тому, что раздел этот начинается с 63-го сектора и заканчивается вовсе даже не самым последним сектором, а оставляет ещё аж 5104 в хвосте, но я даже специально погонял селективные тесты смарта на этих регионах и они ничего не нашли.

То есть, если исключать вариант того, что самсунг вернул мне мусор вместо данных, получается, что самсунговская трактовка Current_Pending_Sector несколько отличается от общепринятой и сектора таки ещё читаемые, хотя уже и подозрительные. Или отличалась, в свете того, что винчестерный бизнес самсунга отошёл сигейту.

Интересно, что те три хитачи, которые стоят в массиве действительно с самого начала по показаниям смарта чувствуют себя прекрасно несмотря на статистику behardware. Хотя, конечно, забывать про то, что «S.M.A.R.T. is dumb» тоже не стоит, равно как и старый отчёт гугла в котором половина винтов дохла без каких-либо намёков по смарту.

P.S. Ну а поводом полазить по смартам послужил второй за последний год сдохший винт в рабочем ноуте, вот там хорошо везёт с этим видом расходников.

Закомментировать

Вам бы, по-хорошему, зарегистрироваться сначала надобно, прежде чем комментарии оставлять. Но, в порядке исключения, можете попробовать с OpenID проскочить, вдруг.