monitorizando discos duros con s.m.a.r.t

Tecnología de Computadores Escuela Universitaria de Ingeniería Técnica Informática de Oviedo Curso 2006-2007

1

MONITORIZACIÓN DEL DISCO DURO CON TECNOLOGÍA SMART

Sheila Méndez Núñez [email protected]

Resumen – El disco duro es el componente que más frecuentemente puede producir pérdida de datos en un ordenador. Hay varios fallos que se pueden producir para que se pierdan datos en un disco duro, de los tipos de fallos, los producidos por el deterioro de los componentes mecánicos del disco presentan una evolución que permite anticiparlos antes de que lleguen a dañar el disco. SMART es una tecnología de monitoreo, análisis e informe de los indicadores mecánicos que puedan revelar un futuro fallo no recuperable del disco duro y así permitir advertir al usuario del disco para que pueda salvar los datos del mismo a tiempo Actualmente incorporan esta tecnología todos los discos duros modernos y se activa mediante la BIOS. Cuando un indicador sobrepasa un cierto valor umbral, la BIOS notifica al administrador del sistema que el disco se haya en riesgo. Los indicadores proporcionados por la tecnología SMART también pueden controlarse por programas que permiten su monitoreo constante y así poder ver cómo evolucionan sus valores a lo largo del tiempo. En este trabajo se hace mención a tres herramientas compatibles con SMART que permiten obtener esta funcionalidad, cada una de ellas con características específicas destacables. Palabras Clave – SMART, disco duro, fallos disco duro, monitorización, atributos SMART, campos de los atributos SMART, herramientas de monitorización.

I. INTRODUCCIÓN

La tecnología S.M.A.R.T. acrónimo de Self Monitoring Analysis and Reporting Technology consiste en la capacidad de detección de fallos del disco duro. La detección de los fallos con la suficiente anticipación permite al usuario el poder realizar una copia de su contenido, o reemplazar el disco, antes de que se produzca una pérdida de datos irrecuperable.

Este tipo de tecnología tiene que ser compatible con la BIOS del equipo, estar activada y además que el propio disco duro la soporte. [1]

II. SMART

En unidades ATA, la capacidad SMART puede habilitarse desde el BIOS del sistema o desde una aplicación que lo soporte. Cuando SMART está habilitado la unidad de disco monitoriza los atributos que son susceptibles de degradarse con el tiempo. Como es lógico, lo que SMART no permite detectar son fallos súbitos impredecibles. Por ejemplo el hecho de que los cabezales

toquen la superficie del plato provocaría una destrucción del cabezal y de los datos de la superficie dañada. Un disco que utilice tecnología SMART puede monitorizar la variación de la distancia de las cabezas al disco y generar un mensaje de aviso al usuario. Pero no puede hacer nada ante un golpe o impacto brusco que provoque el contacto cabezal-superficie.

Cuando se detecta probabilidad de fallo, SMART realiza un informe de estado disponible para que el sistema host informe al usuario y pueda realizar un backup. [2]

Los atributos predicitivos son parámetros relativos a prestaciones o la calibración usados para analizar el estado del dispositivo. Estos atributos son seleccionados por el fabricante basándose en su capacidad de predecir el deterioro o el fallo del dispositivo.

El conjunto específico de atributos usados y su identidad no están normalizados por lo que son particulares de cada fabricante.

Entre estos atributos se encuentran: Altura de vuelo de las cabezas, rendimiento en transferencia de datos, tasa de error de búsqueda, rendimiento del tiempo de búsqueda, tiempo en alcanzar la velocidad de giro.

SMART monitoriza el ritmo al que ocurren los errores e informa de un fallo inminente cuando ese ritmo alcanza un valor inaceptable. Cada atributo posee su propio valor límite usado para indicar la existencia de degradación o condición de fallo. A. FALLOS MÁS COMUNES EN UN DISCO DURO El dispositivo que con más frecuencia provoca pérdida de datos en un ordenador es el disco duro, que supone un 85% de las actuaciones de recuperación de datos en las empresas especializadas. Hay una clasificación general de los fallos de disco duro que provocan la pérdida de datos: Fallos de tipo Lógico Es lo más frecuente. Estos fallos los causa el fallo "humano" o de software, que ocurre cuando el soporte (el disco duro, la memoria externa, etc.) funciona bien, pero por borrado accidental, por virus, por mal funcionamiento del sistema operativo, por cortes de electricidad, etc. se han borrado archivos o y es necesario recuperar datos. Fallos de tipo Físico. Es frecuente que se deban a problemas electrónicos, causados por tormentas, picos de tensión, fallo de algún componente. Es también probable que los fallos de tipo físico los causen las deformaciones de los elementos mecánicos por causas térmicas: el sobrecalentamiento por uso prolongado con escasa ventilación o un cambio brusco de temperatura pueden provocar la deformación de algún elemento que impida el funcionamiento del disco duro.


2

Otros problemas son los de tipo mecánico como el fallo de cabezales, fallos del motor, roce de los cabezales sobre el material magnético, etc. [3] Parte de este grupo de fallos pueden considerarse fallos predecibles como los fallos mecánicos que van ocurriendo gradualmente a lo largo del tiempo con el deterioro del dispositivo. [1]

B. LA TECNOLOGÍA SMART

Esencialmente, este es un sistema de alarma temprana actualmente incorporado en muchos discos duros. Diseñado hace un tiempo por fabricantes de soportes de almacenamiento de datos, la tecnología SMART permite al disco duro diagnosticarse a sí mismo constantemente y alertar al usuario cuando el sistema cree que un disco duro amenaza con fallar. SMART monitorea en el disco duro todo comportamiento que se salga de lo común, lo analiza y notifica al usuario si hay señales de perturbación. Señales comunes de advertencia incluyen discos que comienzan a girar irregularmente, que no giran a la velocidad para la cual fueron fabricados o que comienzan a acusar un número creciente de sectores defectuosos.[4]

La tecnología SMART ha sido desarrollada como estándar por ATA y SATA [5]. Los dispositivos SCSI incorporan una especificación estándar diferente, definida en el ANSI-SCSI Informational Exception Control (IEC) documento X3T10/94-190. La tecnología empleada es similar en ATA y SCSI, pero la forma de proporcionar la información difiere. Si SMART detecta un problema en uno de sus discos duros, el ordenador se detendrá la próxima vez que arranque el sistema. Aparecerá la palabra SMART junto con el texto del mensaje. Generalmente, el mensaje indica qué disco duro tiene un problema detectado por SMART. Esta tecnología permite predecir fallos de funcionamiento de tipo predecible como los fallos mecánicos, los cuales representan el 60% de los fallos del disco duro. Su propósito es advertir al usuario o al propio sistema cuando aún hay tiempo para prevenir estos fallos. Se supone que aproximadamente el 30% de los fallos predecibles pueden predecirse por SMART.[6]

Los atributos SMART más habitualmente monitorizados son:

• Tasa de errores de lectura (raw error rate). Indica la tasa de errores de lectura previos a la corrección ECC.

• Errores corregidos “al vuelo” usando ECC (ECC on the fly count).

• Número de horas encendido (power-on hours count).

• Número de ciclos de encendido y apagado (power cycle count). Encender y apagar un disco duro reduce su vida.

• Tiempo de arranque (spin up time). Tiempo necesario para que el disco alcance su velocidad nominal de giro.

• Cuenta de sectores reubicados (realocated sector count). Los sectores defectuosos se sustituyen por sectores reserva.

• Rendimiento en las operaciones de búsqueda (seek time performance). Tiempo de posicionamiento de las cabezas.

• Temperatura (temperature). Los atributos SMART tienen los siguientes campos: • Valor (value). Valor normalizado en el rango 1 a

253. Cuanto más bajo el valor mayor es la probabilidad de fallo.

• Umbral (threshold). Valor del atributo por debajo del cual hay un problema en el disco relacionado con el atributo. Si toma el valor cero el fabricante no asocia ningún límite. Esto no significa que el atributo pueda tomar cualquier valor sin afectar al funcionamiento del disco duro.

• Valor absoluto (raw value). Indica el valor del atributo sin normalizar. Por ejemplo, el número de horas encendido indica exactamente eso. Los fabricantes no tienen por qué proporcionar el valor absoluto de todos los atributos que monitorizan.

• Peor valor (worst-value). Peor valor del atributo medido en el disco hasta el momento.

Los valores de los atributos SMART van del número 1 al 253, siendo 1 el peor valor. Los valores normales son entre 100 y 200. Estos valores se guardan en un espacio reservado del disco duro.

En un sentido estricto, el término SMART se refiere únicamente a un método de señalización entre los sensores electromecánicos del disco y el ordenador, pero no el disco duro no tiene porqué tener todos los sensores reconocidos por SMART. Algunos discos pueden traer un único sensor para un determinado elemento físico y venderse como discos que son compatibles con SMART aunque haya muchos parámetros que no estén contemplando.[5]

Hay fabricantes, como Maxtor, que reemplazan gratuitamente un disco duro si ha recibido un mensaje SMART durante el período de garantía.[7]

C. HERRAMIENTAS DE MONITORIZACIÓN SMART

Las utilidades de monitorización consultan cada cierto tiempo los parámetros SMART y permiten avisar cuando alguno de los atributos cruce su umbral, o cuando detecte caídas importantes en el valor de alguno de los atributos.[7] Windows no monitoriza los fallos de disco. La BIOS puede detector un fallo, pero solo cuando se excede un umbral crítico de los parámetros. Las aplicaciones de monitorización de SMART existen para monitorizar periódicamente el disco y predecir la fecha de un posible fallo. SMART monitoriza el ritmo al que ocurren los errores e informa de un fallo inminente cuando ese ritmo alcanza un valor inaceptable. Cada atributo posee su propio valor límite usado para indicar la existencia de degradación o condición de fallo. [9] Aunque todas las aplicaciones de SMART siguen unas directrices comunes, se expondrán tres herramientas con características que las diferencian de las demás así como sus interfaces. Aunque hay multitud de aplicaciones, casi todas se pueden enmarcar en los tres tipos que se desarrollan a continuación.


3

Active SMART

Captura de pantalla de “Active SMART” [10]

Características destacadas • Notificaciones sobre todos los cambios producidos

sobre el estado de los discos. • Control de la temperatura del disco para prevenir

el sobrecalentamiento. • Indicadores del funcionamiento, estado y

temperatura del disco. • Permite establecer la temperatura crítica del disco

y automáticamente apagará y salvará los datos de disco en caso de sobrecalentamiento. [10]

Advanced SmartCheck

Captura de pantalla de “Advanced SmartCheck” [11]

Características destacadas: • Diseñado para proporcionar información

detallada del estado del disco duro de los equipos que se encuentren en una red, mediante un programa Network Administrator para el administrador de la red y una versión cliente para los equipos instalados en la misma.

• Resalta los cambios más peligrosos en el estado de los discos y lo comunica al programa Network Administrator o envía un informe por e-mail. [11]

Informe proporcionado por Advanced SmartCheck:

Informe generado con “Advanced SmartCheck” [11] Smart and Simple

Captura de pantalla de “Smart & Simple” [12]

Características destacadas: • Licencia freeware. • Almacena el peor valor obtenido, el umbral y el

valor actual de los indicadores. • Manejo muy simple, solamente se necesita

ejecutar el archivo .exe y opcionalmente especificar la unidad del volumen a analizar.[12]

III. CONCLUSIÓN

Los fabricantes de discos duros se están dedicando a mejorar la fiabilidad de sus productos [13]. La necesidad de una tecnología de predicción de fallos surge de la ampliamente reconocida necesidad de proteger datos críticos almacenados en discos duros.

Con la tecnología SMART se ha dado un gran paso en cuanto a la predicción de fallos del disco duro. Se estima que con esta tecnología se pueden predecir el 30% de los fallos más habituales.

Los fallos predecibles, los mecánicos, podrían llegar a dañar físicamente el disco duro y hacer que se pierda información que no sería posible recuperar. Al implantar esta tecnología en los discos, se consigue que con el deterioro de los componentes se pueda estimar incluso la fecha en la cual el disco va a fallar, de esta manera el usuario del disco siempre tendrá tiempo de salvar sus datos.


4

Es importante tener una herramienta de monitorización de errores que se base en tecnología SMART, entre otros motivos porque la BIOS solo nos alertará de un fallo de SMART cuando el parámetro en cuestión que produce el fallo supere el umbral “aceptable” y posiblemente sea tarde para recuperar toda la información del disco. Si tenemos instalada una herramienta específica de monitorización de disco, podremos ir viendo la evolución de los parámetros del disco y anticiparnos más al fallo del disco.

Aunque pueda parecer poco tiempo, se estima que la duración media de un disco es de tres años. Es muy probable que en una empresa se esté utilizando un disco durante un periodo de tres años o incluso más tiempo, por eso es fundamental disponer tanto de un disco con esta tecnología como de un programa de monitorización.

REFERENCIAS

[1] S.M.A.R.T., “http://es.wikipedia.org/wiki/S.M.A.R.T.”,2007. [2] Mantenimiento de equipos informáticos, “http://www2.ubu.es/ingelec/tecelec/inaki/Mequinf/docsmei/Apuntes_MEI_5-Almacenamiento_Ver6-2_PW.pdf”, 2006 [3] Recuperación de datos, “http://www.fotosok.com/recuperardatos/index.htm”, 2007. [4] Tecnología inteligente para el disco rígido, “http://weblog.mendoza.edu.ar/actinform/archives/002634.html”, 2007. [5]Interfaces de almacenamiento, “http://helios.tlm.unavarra.es/asignaturas/ac/0506/material/Anexo.02.pdf”, 2006 [6] Self-Monitoring, Analysis, and Reporting Technology, “http://en.wikipedia.org/wiki/Self-Monitoring%2C_Analysis%2C_and_Reporting_Technology”, 2006 [7] Tecnología inteligente para el disco rígido, “http://weblog.mendoza.edu.ar/actinform/archives/002634.html”, 2004 [8] How does S.M.A.R.T. work?, “http://smartlinux.sourceforge.net/smart/faq.php?#2”, 2006 [9] Monitoring Hard Disks with SMART, “http://www.linuxjournal.com/article/6983”, 2004 [10] S.M.A.R.T. technology, “http://www.ariolic.com/activesmart/smart-technology.html”, 2006 [11] Advanced SmartCheck, “http://www.urltoy.com/asc.htm”, 2006 [12] SMART and Simple for NT/2000/XP, “http://www.beyondlogic.org/solutions/smart/smart.htm”, 2007 [13] “http://www.seagate.com/support/kb/disc/smart.html”, 2007

monitorizando discos duros con s.m.a.r.t

Documents