Matriz redundante de discos independientes (RAID)

Fiabilidad

¿Qué es RAID?

RAID, o Redundant Array of Independent Disks, es la combinación de varios discos duros físicos para que aparezcan y actúen como un único disco virtual/lógico. Hay varias formas de hacerlo, llamadas “niveles”.

Diccionario Techopedia: RAID

Algunos niveles RAID, como RAID 1 o RAID 5, se utilizan habitualmente, aunque existe un debate constante sobre qué nivel funciona mejor y en qué circunstancias. Los niveles RAID 2, 3 y 4 rara vez se implementan por diversas razones, y el 7 es una implementación patentada.

Si quieres proteger tus datos frente a fallos de hardware, es imprescindible un nivel RAID que ofrezca redundancia mediante duplicación o paridad. Es un día triste cuando un disco en solitario o una matriz RAID 0 con striping o sin paridad se va al garete. La recuperación suele ser posible, pero muy cara. El RAID con duplicación o paridad también permite seguir trabajando hasta que se sustituye la unidad defectuosa. Esto puede ahorrarte mucho dinero.

Los niveles RAID que aumentan el rendimiento sostenido (el acceso aleatorio suele sufrir ligeramente en cualquier configuración RAID) mediante la división en franjas o la distribución de los datos en varios discos también pueden ser muy beneficiosos. Permiten aprovechar la tecnología de almacenamiento más antigua y lenta, como los discos duros de 250 MBps o incluso las unidades SSD SATA de 550 MBps, y convertirla en un almacenamiento capaz de transmitir grandes cantidades de datos mucho más rápido. Hemos visto incluso pequeñas cajas NAS de 4 bahías superar 1 GBps con striping.

Hardware vs. Software RAID

RAID por hardware se implementa a través de controladores dedicados (HBA o adaptadores de bus de host), mientras que RAID por software se implementa a través de un sistema operativo que utiliza CPU normales. Puede que pienses que la mayoría de las cajas NAS son RAID por hardware. En realidad, lo más frecuente es que se trate de RAID por software implementado por el sistema operativo, que también proporciona el resto de funcionalidades. Por eso los NAS actuales son tan versátiles.

El sistema operativo suele ser Linux en las cajas para usuarios finales, y FreeBSD u otras variantes de UNIX que ejecutan sistemas de archivos como ZFS u OpenZFS entran en juego cuando se alcanza el nivel de negocio o empresa más grande.

El RAID por software es más fácil de implementar, actualizar y mejorar, pero los controladores de hardware dedicados suelen tener ventaja en velocidad, facilidad de implementación y concentración general en las tareas.

Niveles RAID

Aquí describimos los distintos niveles RAID, desde el básico al no tan básico, del lento al rápido y del seguro al no tan seguro.

Ten en cuenta que la capacidad utilizable mostrada en cada llamada es el porcentaje de la capacidad bruta del disco que queda disponible después de implementar el nivel RAID. Por ejemplo, dos discos duros de 12 TB en RAID 1 ofrecen 24 TB de capacidad bruta, pero sólo 12 TB (50%) de capacidad utilizable.

JBOD (Sólo un puñado de discos)

Aunque no es realmente un nivel RAID, JBOD se ofrece habitualmente como opción con las cajas de almacenamiento multidisco. Lo único que significa es que las unidades aparecen como una unidad lógica, y los datos se suceden en cascada. Cuando el primer disco está lleno, los datos se escriben en el siguiente, y así sucesivamente.

JBOD explicado

Es una forma agradable de sentir que no te vas a quedar sin espacio, pero no ofrece redundancia ni mayor rendimiento.

  • Pro: 100% de capacidad utilizable
  • Contra: Menor seguridad, no mejora el rendimiento
  • Requisitos: 2 o más unidades, controlador o software

RAID 0 (Disk Striping)

RAID 0 distribuye los datos uniformemente entre los discos para mejorar drásticamente el rendimiento sostenido, pero sin las ventajas de seguridad (o sobrecarga) de escribir información de paridad o duplicación.

RAID 0 explicado

El RAID 0 es peligroso porque el fallo de un disco provoca la caída de toda la matriz. Cuantos más discos haya en la matriz, más puntos de fallo habrá. Este nivel, a no ser que se combine con otros niveles RAID, sólo debe utilizarse para operaciones scratch o, si se trata de datos importantes, realizar copias de seguridad continuamente. La recuperación suele ser posible, pero muy costosa.

  • Pro: Mayor rendimiento sostenido, capacidad utilizable al 100
  • Contra: Menor seguridad
  • Requisitos: 2 o más unidades, controlador o software

RAID 1 (duplicación de discos)

RAID 1 consiste en crear una copia exacta de un disco en otro. Básicamente, los datos se escriben en todas las unidades al mismo tiempo. Puede tener tantas réplicas como desee, pero normalmente las unidades se emparejan. En caso de que uno falle, seguirá teniendo un disco funcional con el que trabajar mientras se sustituye el disco que ha fallado y se reconstruye la matriz (los datos existentes se copian en la nueva unidad).

RAID 1 explicado

Las réplicas RAID 1 suelen combinarse con otros niveles RAID (RAID 10, etc.) para aumentar el rendimiento y mantener la redundancia. La gran desventaja del RAID 0 es que se pierde la mitad de la capacidad bruta.

  • Pro: Mayor seguridad de los datos
  • Contra: No aumenta el rendimiento, 50% de capacidad utilizable
  • Requisitos: 2 o más unidades, controladora o software

RAID 1E (Striped Mirroring)

RAID 1E consiste en separar un bloque de datos duplicado (en espejo) en una unidad diferente en un conjunto de tres o más. No se trata de la información de paridad que encontrará en niveles como el 5, sino de un duplicado/espejo real de los datos. El bloque de datos y el bloque duplicado pueden estar en cualquiera de las unidades, siempre que no sea la misma. Al igual que el RAID 1 normal, la capacidad utilizable es la mitad de la capacidad total.

  • A favor: Mayor rendimiento sostenido y seguridad de los datos.
  • Contra: Sólo el 50% de la capacidad utilizable
  • Requisitos: 3 o más unidades, controladora o software

RAID 2 (división en bandas de bits con paridad y corrección de errores)

En la práctica, RAID 2 ha demostrado ser difícil y caro de implementar. Una controladora distribuye los datos a nivel de bits entre varias unidades de disco duro con código Hamming (corrección lineal de errores) utilizado para corregir errores y proporcionar bits de paridad.

El código de corrección de errores (ECC) de los discos duros modernos ha eliminado en gran medida la necesidad de Hamming, pero sigue existiendo un obstáculo técnico importante a la hora de sincronizar los cabezales para operaciones de un solo bit. Además, como todos los husos están en juego para cada escritura, sólo es posible una operación de escritura a la vez. Esto hace que el rendimiento sostenido sea muy rápido, pero el rendimiento multitransaccional (aleatorio) es pésimo.

  • Pro: Mayor rendimiento sostenido y seguridad de los datos.
  • Contra: los cabezales deben sincronizarse, menor rendimiento aleatorio, 66% de capacidad utilizable.
  • Requisitos: 2 o más unidades, controladora o software

RAID 3 (Byte Striping con un único disco de paridad )

Al igual que RAID 2, RAID 3 es otro nivel que suena como si fuera a proporcionar un buen aumento de rendimiento: bytes divididos en múltiples discos con toda la información de paridad almacenada en un disco separado. Pero, de nuevo, se requieren husos sincronizados, y el rendimiento es excelente para lecturas y escrituras secuenciales, pero escaso para operaciones de lectura y escritura multitarea.

  • Pro: Mayor rendimiento sostenido, mayor seguridad.
  • Contras: los cabezales deben sincronizarse, menor rendimiento aleatorio, 66% de capacidad utilizable.
  • Requisitos: 3 o más unidades, controladora o software

RAID 4 (bandas de bloques con un único disco de paridad)

RAID 4 se parece mucho a RAID 5 en que separa los datos a nivel de bloque en varios discos (al menos tres). Sin embargo, a diferencia del RAID 5, que distribuye la información de paridad entre todos los discos de la matriz, la paridad del RAID 4 se escribe en un único disco. La única tubería para la paridad puede ser un cuello de botella bajo cargas pesadas.

  • Pro: Mayor rendimiento sostenido, mayor seguridad
  • Contras: Los discos deben sincronizarse, menor rendimiento aleatorio, 66% de capacidad útil.
  • Requisitos: 3 o más unidades, controladora o software

RAID 5 (bandas de bloques con paridad distribuida)

RAID 5 requiere al menos tres unidades y es similar a RAID 0 en el sentido de que separa (distribuye uniformemente) los datos a nivel de bloque en varios discos. Sin embargo, a diferencia de su primo de toda la vida, también reparte la información de paridad entre todas las unidades de la matriz para redundancia de datos.

Explicación de RAID 5

Los bloques de paridad nunca residen en el disco que contiene los datos que protegen. RAID 5 es el nivel RAID más bajo que utiliza paridad distribuida. RAID 5 puede soportar la pérdida de un disco.

  • Pro: Mayor rendimiento sostenido, mayor seguridad
  • Contra: Nada de lo que hablar, 66% de capacidad utilizable
  • Requisitos: 3 o más unidades, controlador o software

RAID 5E (RAID 5 con Hot Spare distribuido)

La E de RAID 5E significa extendido o mejorado, según con quién se hable. Extendido/mejorado, como en un disco extra, se incluye en el array como hot spare, pero que en realidad funciona como parte del array. La capacidad de reserva que representa el disco adicional se reparte entre todos los discos de la matriz en grandes áreas contiguas al final de los datos de cada disco.

El número mínimo de discos es cuatro en 5E, pero por lo demás, es RAID 5 en striping con paridad distribuida.

  • Pros: Mayor rendimiento sostenido, excelente seguridad.
  • Contra: Tiempos de reconstrucción largos, 50% de capacidad utilizable
  • Requisitos: 4 o más unidades, controladora o software

RAID 5EE (RAID 5 con Hot Spare distribuido/intercalado)

RAID 5EE es lo mismo que 5E, pero el espacio vacío que representa el “hot spare” está intercalado con el resto de los datos en lugar de en grandes bloques contiguos al final de los datos de cada unidad. Se dice que el tiempo de recuperación es más rápido que con RAID 5E.

A favor: Mayor rendimiento sostenido, excelente seguridad.
Contra: Tiempos de reconstrucción largos, 66% de capacidad utilizable
Requisitos: 4 o más unidades, controladora o software

RAID 6 (Block Striping con doble paridad)

RAID 6 es un primo cercano de RAID 5 en el sentido de que los datos y la información de paridad se distribuyen en franjas en todos los discos de la matriz. Sin embargo, RAID 6 distribuye el doble de información de paridad: dos bloques por cada bloque de datos, frente a uno en RAID 5. El bloque de datos original y el bloque de paridad se dividen en dos bloques. El bloque de datos original, el bloque de paridad uno y el bloque de paridad dos residen por separado.

RAID 6 explicado

RAID 6 requiere un mínimo de 4 unidades y puede soportar la pérdida de dos unidades y seguir funcionando. El RAID 5 normal sólo puede tolerar el fallo de una unidad.

  • Pro: Mayor rendimiento sostenido, mayor seguridad
  • Contra: Largos tiempos de reconstrucción, 50% de capacidad utilizable
  • Requisitos: 4 o más unidades, controladora o software

RAID 7 (Propietario)

RAID 7 no es uno de los niveles RAID estándar, sino una solución propietaria que integra una CPU y una controladora ofrecida por Storage Computer Corporation (ya desaparecida). RAID 7 utiliza las características de RAID 3 y RAID 4 añadiendo las ventajas del almacenamiento en caché.

RAID 10 (RAID 1 + 0)

RAID 10 es una combinación de RAID 1 en espejo y RAID 0 en bandas. También se conoce como 1 + 0, y lo hemos visto como 0 + 1. Los datos se distribuyen en bandas RAID 0 a través de una o varias réplicas RAID 1.

RAID 10 explicado

El RAID 10 puede soportar la pérdida de dos discos siempre que no estén en el mismo par de espejos.

  • Pros: Mayor rendimiento sostenido, muy buena seguridad.
  • Contra: Tiempos de reconstrucción largos, 50% de capacidad utilizable
  • Requisitos: 4 o más unidades, controlador o software

RAID 50 (RAID 5 + 0)

RAID 50 es una división en bandas RAID 0 (sin paridad) en nodos o más matrices RAID 5. Las matrices RAID 5 proporcionan la paridad. Las matrices RAID 5 proporcionan la paridad y redundancia de datos que le falta al nivel 0. También se podrían utilizar matrices 5E o 5EE. RAID 50 es más rápido que RAID 5 pero requiere un mínimo de seis discos. Al igual que con RAID 5, el almacenamiento utilizable es el 66% de la capacidad total.

Pro: Mayor rendimiento sostenido, excelente seguridad.
Contra: Tiempos de reconstrucción largos, 66% de capacidad utilizable

Requisitos: 6 o más unidades, controladora o software

RAID 60 (RAID 6 + 0)

RAID 60 es una forma de RAID 0 en bandas de datos a través de dos o más submatrices RAID 6 de doble paridad. Ofrece el doble de redundancia de datos que RAID 50 pero, por supuesto, requiere más discos: cuatro por matriz RAID 6 para un total de ocho como mínimo. Es más rápido que un único RAID 6. En qué medida depende de tu pila y del número de submatrices RAID 6. La capacidad utilizable es el 50% de la capacidad total.

  • Pro: Mayor rendimiento sostenido, mayor seguridad de los datos.
  • Contra: Tiempos de reconstrucción largos, 50% de capacidad utilizable
  • Requisitos: 8 o más unidades, controladora o software

RAID 100 (RAID 10+0)

Se trata de un RAID 0 de doble apilamiento, o de una división en bandas en modo RAID 0 sin paridad en varias matrices RAID 10, que a su vez dividen los datos en bandas en modo RAID 0 en varias matrices RAID 1 duplicadas. Vaya.

Obviamente, con tantas unidades, RAID 100 puede ser muy rápido manteniendo la redundancia de la duplicación. Requiere ocho unidades como mínimo.

  • Pro: Mayor rendimiento sostenido, mejor seguridad de los datos.
  • Contra: Tiempos de reconstrucción largos, 50% de capacidad utilizable
  • Requisitos: 8 o más unidades, controladora o software

Tabla comparativa de atributos de los niveles RAID

Aunque hemos explicado las principales diferencias entre los niveles RAID, siempre es bueno comparar los aspectos básicos. Hemos omitido los que no lo son.

Tabla comparativa de niveles RAID

Temas relacionados

Marshall Gunnell
Technology Writer
Marshall Gunnell
Editor

Marshall es un experimentado escritor técnico y entusiasta de los videojuegos con sede en Tokio. Es un profesional en el arte de las palabras con cientos de artículos destacados en VGKAMI, Business Insider, How-To Geek, PCWorld, Zapier, y mucho más. Sus escritos han llegado a una audiencia masiva de más de 70 millones de lectores.