Время наработки на отказ ssd что это
MTBF — откуда берется «миллион часов MTBF»
Просто удивительно то, насколько велико непонимание вокруг такого широко распространенного понятия, как MTBF (Mean Time Between Failure — «Время между сбоями» или «наработка на отказ» ), насколько смысла этой величины не понимают, зачастую, даже специалисты в области хранения данных.
Казалось бы — что может быть проще. «Наработка на отказ» это время беспроблемной работы, от первого включения нового диска, до момента отказа, посчитанная в часах.
Почти любой, кто поинтересуется значением, приводимым производителями, в качестве MTBF современных дисков, и с легкостью сделает несложные подсчеты, будет удивлен странной его величиной.
На сегодня величина MTBF приводится в миллион или даже полтора миллиона часов.
В году — примерно 8760 часов, значит, исходя из нашего понимания «физического смысла» этого значения, производитель планирует «наработку на отказ» для любого такого диска более ста лет (114 лет, для миллиона часов MTBF), что является очевидной нелепостью для каждого, у кого подыхали жесткие диски.
Тогда что это за «миллион часов», где и каким образом он измерен?
Конечно же производитель не гоняет диск 114 лет, оценка производится искусственно, но откуда вообще взялась величина в «миллион часов»?
Дело в том, что MTBF измеряется для всей эксплуатируемой «дисковой популяции», и распространяется на период объявленного гарантийного срока для данного типа дисков. Оба выделенных момента являются важными, и часто опускаются в описании, что и приводит к принципиальному непониманию.
Представим себе, что мы поставили в сервер жесткий диск, который проработал 3 года гарантийного срока, и, будучи исправным, был заменен на новый. Следующий проработал три года, и был заменен по истечении гарантийного срока, и так далее. И вот на 38-м диске вы вправе ожидать, что до конца гарантийного срока он не доработает.
Или же представим себе чуть более приближенную к реальности ситуацию.
Допустим, для простоты подсчета, у нас есть система хранения на 115 дисков. Для каждого диска производитель приводит MTBF равный миллиону часов. Но надо принять во внимание то, что в большой дисковой популяции общий MTBF, то есть вероятность отказа, растет, с увеличением количества используемых дисков.
Для 115 дисков, исходя из приводимой вендором величины MTBF, мы вправе ожидать, что хотя бы один диск из популяции в 115 выйдет из строя до конца трехлетнего гарантийного срока.
Этот вариант уже куда более похож на правду.
Строго говоря, на практике, вместо MTBF гораздо практичнее пользоваться параметром AFR — Annual Failure Rate, или «ежегодная вероятность сбоев», выводимом из MTBF.
Он вычисляется как: AFR = 1-exp(-8760/MTBF)
Величина AFR для диска с миллионом часов MTBF составляет 0,87%, что, в принципе, хоть и чуть завышено (Google в известном исследовании 2007 года показывает для новых дисков в пределах гарантийного срока как раз AFR в районе 1%), но, все же уже довольно хорошо согласуется с практикой.
Любопытно, что, например, такой производитель жестких дисков как WD теперь вовсе перестал указывать величину MTBF, перейдя на указание другого параметра: «power on/off cycles», по видимому не в последнюю очередь именно в связи с явно видимым непониманием и неочевидностью применения указываемой величины MTBF пользователями.
Среднее время жизни SSD
Многих покупателей, выбирающих твердотельный накопитель, интересует, насколько долго он может проработать: часто диск приобретается под систему, а внезапная переустановка Windows, программ и драйверов – удовольствие весьма сомнительное. В этой статье мы постараемся ответить на вопрос, каково среднее время жизни SSD.
Технологические особенности
Тип памяти
Нужно понимать, что по своему устройству и принципам работы твердотельники значительно отличаются от традиционных жестких дисков. В «хардах» используются магнитные пластины и считывающие головки, а их более современные конкуренты не имеют движущихся частей и построены на базе флэш-памяти, ячейки которой имеют определенный ресурс перезаписи. Она бывает разных типов, и от этого напрямую зависит, сколько живет SSD накопитель. Рассмотрим распространенные виды флеш-памяти подробнее:
SLC – одноуровневая. Наиболее быстрая и поддерживающая огромное количество циклов. К сожалению, гораздо дороже всех остальных типов, поэтому используется в основном в серверном сегменте.
MLC – многоуровневая (по факту двух-). Уступает по скорости и надежности предыдущему варианту, но стоит значительно дешевле.
TLC – трехуровневая. Еще менее «выносливая» и более дешевая память, чем MLC.
QLC – четырехуровневая. Новомодный тип, во всем уступающий вышеперечисленным, но самый недорогой в производстве.
Важно, что накопитель на TLC-памяти от одного производителя вполне может быть быстрее и надежнее накопителя на MLC от другого – вышеперечисленная информация актуальна лишь при сравнении моделей одной «весовой категории». Ситуация может отличаться и в случае использования трехмерной компоновки, поэтому перед покупкой девайса всегда стоит обращаться к обзорам от независимых ресурсов.
Выравнивание износа
Каждая ячейка флеш-памяти может выдержать определенное количество циклов перезаписи, поэтому производители предусмотрели алгоритм, благодаря которому контроллер твердотельного накопителя производит запись в разные блоки, сохраняя информацию о том, сколько раз уже был перезаписан тот или иной из них. В противном случае одни ячейки исчерпали бы свой ресурс гораздо раньше других, и полезный объем SSD, доступный пользователю, уменьшился бы, а значит, сократился бы и эффективный срок службы твердотельного накопителя.
Надежность контроллера
Из строя может выйти не только память твердотельника, но и управляющая плата. К счастью, ненадежные контроллеры на текущий момент – скорее редкость и удел Noname-производителей, преимущественно китайских, не представленных в розничных сетях. Поэтому рекомендуем проявлять осторожность и не заказывать SSD под систему или важные данные с Алиэкспресс, а также не покупать б/у модели на сайтах объявлений (под ними могут скрываться перемаркированные/переделанные китайские). Конечно, даже у топовых производителей контроллеров возможен брак, поэтому в любом случае необходимо делать бэкапы – восстановить данные с поврежденного твердотельного накопителя, как правило, куда сложнее, чем с жесткого диска.
Параметр TBW
Заявленный компанией-производителем параметр TBW (Total Byte Written) – это количество данных, которое можно гарантированно записать на диск прежде, чем ресурс чипов памяти будет исчерпан. Обычно он измеряется в терабайтах. Так, значение TBW, равное 300 ТБ означает, что информацию на SSD можно регулярно перезаписывать новой вплоть до значения в 300 терабайт. При этом совсем не факт, что при достижении такого показателя твердотельник выйдет из строя или начнет работать «только на чтение». Так, согласно тестам, проведенным авторитетным интернет-изданием 3DNews, работающим в сфере информационных технологий, SSD Samsung 850 Evo выдержали 2000+ терабайт перезаписанной информации при 150 заявленных!
150-300 ТБ применительно к рассматриваемому показателю – много это или мало? Для среднестатистического пользователя, использующего носитель под систему, программы и игры – много! Если вы не планируете ставить SSD в сервер, где данные будут перезаписываться 24/7, то даже этого гарантированного ресурса хватит на много лет – быстрее успеет морально устареть само устройство и другие комплектующие ПК. Согласно статистике, в большинстве случаев на твердотельник в домашнем ПК записывается не больше 10-30 терабайт за год, и это при активном использовании. Например, автор данной статьи за 2 года и 4 месяца перезаписал 39404 ГБ информации на свой полутерабайтный накопитель, тем самым не исчерпав заявленный ресурс даже на треть. А ведь фактический может быть в разы больше!
Посчитать, примерно сколько проживет ваш SSD, достаточно просто. Посмотрите при помощи специализированных программ, (CrystalDiskInfo и подобные), сколько гигабайт вы уже перезаписали, и сколько дней используется накопитель. Затем загляните в спецификации и узнайте заявленный ресурс. Дальше следуйте простому алгоритму:
Пример: заявленный ресурс – 150 терабайт (округленно 150000 гигабайт). Накопитель используется 300 дней. Перезаписано 20000 гигабайт.
Важно: Перезапись данных, приводящая к износу ячеек памяти, может происходить не только когда пользователь вручную инициирует ее, но и автоматически, особенно, если твердотельный накопитель используется в качестве системного диска. Система регулярно обращается к расположенному на носителе файлу подкачки, работает с реестром, временными файлами, и так далее. Впрочем, это не значит, что нужно отказываться от скоростных возможностей SSD и устанавливать Windows на традиционный медленный жесткий диск – как правило, ресурса перезаписи хватает на 5 и более лет даже если SSD используется весьма активно.
Фирмы-производители
У многих компаний бывают как удачные, так и неудачные модели устройств, но некоторые из них за прошедшие годы успели определенным образом зарекомендовать себя среди пользователей. Приведем несколько примеров.
Samsung
Корейская корпорация считается одним из лучших в мире производителей твердотельных накопителей: они используют собственные разработки и часто первыми внедряют инновации, например, трехмерную флеш-память с повышенным числом слоев. Среднее время жизни SSD диска Samsung в большинстве случаев на практике значительно превышает заявленное производителем. Единственный недостаток устройств под этим брендом – их довольно высокая стоимость.
Kingston
В свое время эта компания завоевала уважение потребителей недорогой, и при этом качественной оперативной памятью, а теперь выпускает также SSD, флешки и карты памяти различных форматов. Продукция Кингстон выделяется на рынке сочетанием отличных технических характеристик, высокой надежности и приемлемой стоимости.
Western Digital
WD славится в первую очередь своими жесткими дисками, но в последние несколько лет начала выпускать и твердотельные накопители. В ассортименте есть как продвинутые модели с повышенными скоростью и надежностью, так и более бюджетные компромиссные варианты.
Crucial
У SSD этой фирмы примерно такая же репутация, как у продукции Kingston – среди них немало «народных» моделей с привлекательным соотношением цены, надежности и производительности.
Как продлить срок службы твердотельного накопителя?
На самом деле, ресурс SSD и без каких-либо специальных мероприятий по его продлению достаточно высок. Единственное, что можно посоветовать – не использовать дефрагментацию: такая процедура может повысить скорость работы жесткого диска, но работу твердотельника она не улучшит, а только исчерпает часть его ресурса, пусть и незначительную.
Требуется ли устройству дополнительное охлаждение?
Большинство SSD обладают невысоким тепловыделением, поэтому им не нужны даже радиаторы, не говоря уж о кулерах и каком-либо отдельном обдуве. Проблемы могут возникнуть только с дефектными моделями, девайсами от Noname-производителей, или же в случае неграмотной общей организации охлаждения в системном блоке. Если у вас просторный системник, и установлены 1-2 вентилятора на вдув и 2-3 на выдув, все будет хорошо. В тех редких случаях, когда все-таки происходит перегрев SSD, и он снижает из-за этого скорость чтения/записи, можно переставить его в более «холодный» слот, почистить компьютер от пыли или установить дополнительный кулер.
Какие SSD надежнее – M.2 или обычные?
Оба типа накопителей достаточно надежны, и обращать внимание следует скорее не на форм-фактор, а на обзоры и отзывы касательно конкретной модели, а также используемые память и контроллер.
Правда ли, что восстановить данные с вышедшего из строя твердотельного накопителя сложнее, чем с жесткого диска?
Во многих случаях – правда. Впрочем, делать резервную копию ценных данных необходимо всегда, причем как минимум в двух разных местах, например, на другом накопителе и в облаке. Ведь если копия одна, в случае форс-мажорных обстоятельств (таких, как пожар), она может быть уничтожена. Дублирование же информации в разных местах значительно снижает вероятность ее потери.
Какие программы можно использовать, чтобы узнать, сколько гигабайт информации уже было перезаписано?
Помимо фирменного ПО от производителя – CrystalDiskInfo, SSD Life и другие. Указанные две доступны как в английской, так и в русской версиях, а также позволяют просматривать параметры SMART, поэтому рекомендуются к использованию.
Я не хочу читать всю статью. На какой срок службы твердотельного накопителя можно рассчитывать в среднем? Речь о диске под систему, программы и игры для домашнего ПК.
В большинстве случаев – 5-10 лет.
Заключение
Если резюмировать изложенное в статье, можно заключить, что качественные твердотельные накопители от авторитетных производителей (не Noname из Китая!) не уступают по надежности традиционным жестким дискам, а нередко и превосходят их. Если ваш SSD не вышел из строя в первый год работы по причине брака, то с крайне высокой вероятностью он прослужит как минимум до выработки заявленного производителем ресурса, а часто и гораздо дольше. Скорее устареют другие комплектующие ПК, чем выйдет из строя твердотельный накопитель, при этом за годы его работы стоимость за гигабайт успеет значительно снизиться, и за условные 100 долларов можно будет взять гораздо более емкую модель, чем сейчас.
Как узнать, сколько проработает SSD
Что такое ресурс выработки SSD, и как узнать, сколько проработает накопитель?
Что такое ресурс выработки SSD
Необходимо понимать, что ресурс выработки – это только теоретические расчёты. Это тот ресурс, который гарантирует производитель устройства, исходя из расчётов износа ячеек флеш-памяти в результате перезаписи информацией и общего износа устройства. Накопитель по факту может проработать дольше указанного производителем ресурса выработки. А может проработать меньше и прийти в непригодность из-за проблем с контроллером, прошивкой или в результате сбоя питания.
Узнать ресурс выработки конкретной модели SSD можно на сайте его производителя, либо же на веб-сервисах, специализирующихся на сборе детальных характеристик различных комплектующих, типа Nix.Ru.
Значения ресурса выработки SSD
Ресурс выработки производители SSD обычно указывают в виде значений:
— TBW – гарантируемого общего объёма перезаписываемых данных;
— MTBF – гарантируемого общего времени работы устройства.
Вот, к примеру, на упомянутом сайте Nix.Ru для одной из моделей SSD Western Digital на 250 Гб указан ресурс 100 TBW.
Т.е. это 100 Тб – общий объём записи данных, которые гарантирует производитель. Много это или мало? Для обывателя это более чем достаточно. Если мы эти 100 Тб разделим, скажем, на 10 лет срока службы SSD, то в год это получится 10 Тб, а в месяц – 833 Гб. Ну и разделим это число на 30 календарных дней и получим 27,76 Гб перезаписи данных каждый день.
Общее время работы SSD – это всё то время, которое диск теоретически может проработать вне зависимости от факта произведения им каких-либо операций. Это всё то время, что диск теоретически может проработать, не беря в учёт износ ячеек памяти, повреждение контроллера и прошивки, выход из строя в результате проблем с питанием и пр. MTBF – не более чем информация к сведенью, голая теория, ни один диск не проработает 170 лет, если его полноценно эксплуатировать, он придёт в непригодность гораздо ранее в силу одного из указанных факторов.
Как узнать оставшийся ресурс SSD
С выбором нового SSD понятно: нужно брать модель с указанием значения TBW и с расчётом такого на выполнение своих задач. А как узнать оставшийся ресурс накопителя, который у нас уже приобретён и усиленно трудится на борту нашего компьютера? Нужно противопоставить гарантируемым производителем значениям ресурса перезаписи данных или времени наработки на отказ значения уже исчерпанного ресурса. А как узнать исчерпанный ресурс? Узнать можно с помощью профильных программ для диагностики жёстких дисков.
Одна из таких программ – бесплатная CrystalDiskInfo. В блоке данных справа окна она показывает в нижней графе общее время работы, а в верхней – общий объём записанных данных в Тб. Но последний отображается не для всех моделей SSD, в нашем случае вот, например, не отображается. Но мы можем проанализировать исчерпанный ресурс времени – 6 706 часов. И сделать вывод, что до времени теоретической выработки на отказ, а это 1,5 млн. часов, нам ещё очень далеко.
Правда ли SSD надёжнее, чем HDD?
В серии статей SSD 101 мы рассмотрели SSD со всех сторон. А теперь проверим главный аргумент фанатов SSD — что эти устройства выходят из строя гораздо реже, чем старые добрые HDD. Они обычно объясняют, что в SSD нет движущихся частей, и предъявляют документы от производителей с мутными расчётами среднего времени до отказа (MTBF). Всё это хорошо для рекламы, но мы предпочитаем реальную статистику частоты отказов.
Что такое отказ для SSD и HDD?
В своих ежеквартальных отчётах Drive Stats мы определяем отказ диска или как реактивный (диск не работает), или как проактивный (мы считаем, что отказ неизбежен). В случае HDD мы определяем проактивный отказ по специфической статистике SMART, которую сообщает сам диск и которую мы отслеживаем.
SMART, или S.M.A.R.T., расшифровывается как Self-monitoring, Analysis, and Reporting Technology и представляет собой систему мониторинга, встроенную в HDD и SDD. Основная функция — сообщать различные показатели, связанные с надёжностью диска, для предсказания отказов. Backblaze каждый день записывает атрибуты SMART всех работающих дисков.
То же самое для SSD. Различные модели сообщают разные показатели SMART, но некоторые совпадают. На сегодняшний день для SSD мы регистрируем 31 атрибут SMART-статистики. 25 из них перечислены ниже.
# | Description | # | Description |
---|---|---|---|
1 | Read Error Rate | 194 | Temperature Celsius |
5 | Reallocated Sectors Count | 195 | Hardware ECC Recovered |
9 | Power-on Hours | 198 | Uncorrectable Sector Count |
12 | Power Cycle Count | 199 | UltraDMA CRC Error Count |
13 | Soft Read Error Rate | 201 | Soft Read Error Rate |
173 | SSD Wear Leveling Count | 202 | Data Address Mark Errors |
174 | Unexpected Power Loss Count | 231 | Life Left |
177 | Wear Range Delta | 232 | Endurance Remaining |
179 | Used Reserved Block Count Total | 233 | Media Wearout Indicator |
180 | Unused Reserved Block Count Total | 235 | Good Block Count |
181 | Program Fail Count Total | 241 | Total LBAs Written |
182 | Erase Fail Count | 242 | Total LBAs Read |
192 | Unsafe Shutdown Count |
Оставшиеся шесть (16, 17, 168, 170, 218 и 245) мы не можем найти. Пожалуйста, напишите в комментариях, если у вас есть информация по отсутствующим атрибутам.
Мы только начинаем использовать статистику SMART для предупреждения отказов SSD. Многие атрибуты зависят от модели диска или производителя. Кроме того, у нас было пока мало отказов SSD, как вы увидите ниже. Это ограничивает количество данных для исследования. Так что в реальности мы пока не смогли предсказать ни одного отказа.
Сравнение яблок с яблоками
В серверах хранения данных в качестве загрузочных дисков работают и SSD, и HDD. В нашем случае называть их загрузочными неверно, поскольку они также хранят различные логи и т. д. Другими словами, регулярно читают, записывают и удаляют файлы, а не только выполняют загрузку сервера.
Итак, у нас две группы дисков — SSD и HDD — которые выполняют одинаковые функции, имеют одинаковую рабочую нагрузку и работают в одинаковых условиях в течение долгого времени. Естественно, мы решили сравнить частоту отказов загрузочных дисков SSD и HDD. Ниже приведены показатели отказов за весь срок службы для каждой группы по состоянию на II кв. 2021 года.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD | 1607 | 52,4 | 3 523 610 | 619 | 6,41% |
Загрузочные диски. Отчётный период: апрель 2013 — июнь 2021
SSD победили… Подождите, не так быстро!
Всё понятно, SSD победили. Можно положить HDD на полку или на пол как ограничитель для двери. Но погодите, давайте сначала учтём несколько моментов, которые не вошли в таблицу.
Другим фактором является количество дней, сколько диски каждой группы проработали без сбоев. Большой разброс в количестве дней работы приводит к значительной разнице в доверительных интервалах двух групп, поскольку существенно различается количество наблюдений (т.е. дней работы).
Чтобы провести более точное сравнение, попробуем привести к общему знаменателю средний возраст и количество дней работы для SSD и HDD. Для этого можем перенестись назад во времени, когда группа HDD соответствовала группе SSD из II кв. 2021 года по среднему возрасту и количеству дней работы. Это позволит сравнить группы в один и тот же период жизненного цикла.
Взяв данные по HDD за IV кв. 2016 года, мы смогли сделать следующее сравнение.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD на II кв. 2021 | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD на IV кв. 2016 | 1297 | 14,3 | 659 526 | 25 | 1,38% |
Загрузочные диски. Отчётный период: апрель 2013 — указанный период
Неожиданно разница в AFR оказалась не такой уж большой. На самом деле статистика каждой группы находится в пределах 95%-ного доверительного интервала другой группы. Окно довольно широкое (плюс-минус 0,5%) из-за относительно небольшого количества дней работы накопителей.
Что же в итоге? Мы получили некоторые свидетельства, что в начале работы (в среднем до 14 месяцев в данном случае) SSD выходят из строя реже, но не намного. Но вы же покупаете диск не на 14 месяцев, а на годы. Что мы знаем об этом?
Частота сбоев со временем
У нас есть данные по загрузочным HDD с 2013 года и по загрузочным SSD с 2018 года. На диаграмме показан Lifetime AFR каждого типа дисков до II кв. 2021 года.
Как видно, с 2018 года частота сбоев загрузочных HDD стала расти. Тенденция сохранялась в 2019 и 2020 годах, а в 2021 году (пока что) остановилась. Очевидно, что с увеличением возраста HDD увеличивается и частота отказов.
Интересно сравнить кривые в первых четырёх точках. Для флота HDD пятый год (2018) знаменовал резкий рост частоты отказов. Ждёт ли та же участь SSD в их пятый год? Хотя мы можем ожидать некоторого увеличения AFR по мере старения SSD, но будет ли оно таким же резким, как в случае с HDD?
Итог: SSD или HDD?
Что же нам покупать: SSD или HDD? Учитывая то, что мы знаем на сегодняшний день, вряд ли можно использовать AFR как фактор при принятии решения. С учётом возраста и количества дней работы оба типа накопителей схожи, а разница недостаточна, чтобы оправдать дополнительные затраты на покупку SSD вместо HDD. На данном этапе лучше принимать решение на основе других факторов: стоимость, требуемая скорость, энергопотребление, требования к форм-фактору и так далее.
В ближайшие пару лет мы получим более полное представление об AFR для SSD. И тогда сможем решить, насколько велика разница в частоте отказов SSD и HDD. А сейчас мы не видим, чтобы она была значительной.