El almacenamiento flash de alto rendimiento transporta sistemas empresariales de misión crítica para diversas industrias. Si ocurriera un problema, las empresas se verían muy afectadas. Qualix Group publicó cifras para mostrar los impactos de la interrupción de las actividades comerciales. En el transporte, una interrupción de un minuto daría como resultado pérdidas promedio de 150.000 dólares, mientras que para los bancos sería de 270.000 dólares. La misma interrupción de un minuto para una empresa de telecomunicaciones costaría un promedio de 350.000 dólares, mientras que la fabricación se vería afectada con una pérdida de 420.000 dólares, y los operadores de valores encabezarían la lista, con pérdidas de 450.000 dólares.
Por lo tanto, garantizar la continuidad empresarial crítica para la misión es una prioridad máxima para los sistemas de almacenamiento all-flash. La confiabilidad, diseñada de manera integral, no es una tarea fácil. Analizando desde los medios hasta los sistemas y soluciones, examinemos cómo el almacenamiento all-flash OceanStor Dorado de Huawei puede brindar alto rendimiento y confiabilidad a los clientes.
Confiabilidad a nivel de disco
La confiabilidad de los SSD se mide examinando el tiempo medio entre fallas (MTBF) y la tasa anualizada de fallas (AFR). El MTBF de referencia de la industria se encuentra entre 2 y 2,5 millones de horas. Huawei eleva el listón mucho más allá de esto, alcanzando 3 millones de horas entre fallas en sus discos de fabricación propia.
¿Cómo logra Huawei esta hazaña y extiende la vida útil de sus SSD? Huawei ha mantenido una cooperación de larga data con sus proveedores, como Samsung, Micron y Toshiba, para garantizar que los componentes se fabriquen de acuerdo con los objetivos de diseño de soluciones de Huawei. Otra razón es la amplia cooperación lograda entre matrices y discos, que combina una serie de diseños de confiabilidad (como la optimización en la tecnología de disipación de grafeno (GDT), nivelación global del desgaste y nivelación global antidesgaste).
1. Diseño de nivelación de desgaste global
Al comienzo del ciclo de vida de los SSD, las cargas de servicio se distribuyen de manera equilibrada entre los SSD para evitar la sobrecarga de discos específicos. Esto provoca la inactividad de algunos discos y el retiro prematuro de otros.
2. Diseño de nivelación antidesgaste global (patentado por Huawei)
Al final del ciclo de vida de un SSD, cuando el desgaste de un SSD supera el 80 %, el mecanismo antinivelación reduce el desgaste por gradiente a más de un 2 % de diferencia para evitar fallos simultáneos en los discos. La vida útil del sistema se puede prolongar reemplazando gradualmente los discos, lo que garantiza tiempo suficiente para la actualización del sistema.
El almacenamiento all-flash se centra en el rendimiento y la eficiencia. Como un gigantesco buque portacontenedores en el mar, el almacenamiento all-flash busca continuamente velocidades más altas y una mayor capacidad. Con operaciones continuas y estables, los sistemas all-flash Huawei OceanStor Dorado pueden ofrecer una confiabilidad del 99,9999 %, lo que proporciona al público una plataforma ultrarrápida y sólida.
3. Optimización del software del sistema
En primer lugar, en la capa de algoritmo, Huawei es el primer proveedor en comercializar el algoritmo LDPC en SSD. Después de años de optimización, Huawei ahora admite un algoritmo de código ultralargo de 4K. Esto eleva la granularidad de corrección de errores al doble de la de otros proveedores de SSD en la industria.
En segundo lugar, en la capa del chip flash, el número de ciclos de borrado de un SSD es limitado. La vida útil de un SSD se puede prolongar si se puede aumentar el número de ciclos de borrado mediante algoritmos. La innovadora tecnología de programación y borrado adaptativo (APE) de Huawei controla automáticamente la intensidad y la frecuencia de borrado de los chips flash en función de la cantidad de datos de lectura y escritura. De esta manera, el número de ciclos de borrado se puede extender de manera efectiva sin cambiar los costos ni los gránulos de los medios, lo que prolonga la vida útil del SSD.
En tercer lugar, en la capa de protección de datos, si bien el sistema del controlador de almacenamiento tiene protección RAID, los SSD también admiten grupos RAID bidimensionales con paridad intercalada a nivel de canal y CE, lo que garantiza la protección de datos en caso de fallas a nivel de chip. Los grupos RAID de disco y RAID de sistema trabajan juntos para realizar una recuperación automática de datos si fallan varios chips de un solo disco. Luego, después de la recuperación, los SSD volverán a estar operativos.
Confiabilidad a nivel de sistema
Lograr la confiabilidad es complejo. Además del diseño de la estructura del hardware y el mecanismo de tolerancia a fallas del software, el sistema de almacenamiento debe tolerar fallas físicas y lógicas y permitir una recuperación rápida. Esto evitará la pérdida de datos causada por fallas del sistema y garantizará que las empresas sigan funcionando de manera estable.
1. Diseño resistente a terremotos de magnitud 9.0
Las ondas sísmicas irregulares y la intensificación de los temblores provocados por grandes terremotos afectarán la estabilidad y la vida útil de los equipos electrónicos. El almacenamiento all-flash OceanStor Dorado de Huawei ha superado la prueba de resistencia a terremotos de magnitud 9 realizada por China Telecommunication Technology Labs (TTL). Esto convierte a Huawei en la única empresa que lo ha hecho y cumple con los estándares de TI de TIL. Una vez que se detecta una excepción, el sistema también puede diagnosticar y rectificar la falla con la suficiente rapidez para evitar la interrupción del negocio.
2. Tolerancia a fallos de tres discos
La capacidad de los discos aumenta linealmente con el tiempo de reconstrucción de los mismos. Las tecnologías RAID 5 o RAID 6 tradicionales permiten 5 horas para la reconstrucción de 1 TB de datos y 80 horas para 16 TB. Sin embargo, si uno o dos discos más fallan durante la reconstrucción, los sistemas que ejecutan RAID 5 o RAID 6 no pueden hacer frente a la situación, lo que afecta gravemente a la empresa. Por lo tanto, las tecnologías RAID tradicionales no pueden garantizar la confiabilidad del sistema, lo que provoca la pérdida de datos y la interrupción de la actividad empresarial.
La innovadora tecnología de software RAID-TP de Huawei se basa en el algoritmo Erasure Code (EC). Los bits de paridad admiten 1, 2 y 3 dimensiones y pueden tolerar de 1 a 3 fallos simultáneos de disco. Esto significa que en caso de fallos de tres discos, el sistema no sufrirá pérdida de datos ni interrupción del servicio. Actualmente, solo los productos de Huawei, NetApp y Nimble pueden tolerar el fallo simultáneo de tres discos.
Aunque NetApp y Nimble pueden tolerar fallos simultáneos de tres discos, ambos utilizan una arquitectura RAID tradicional con discos de datos fijos y discos de repuesto en caliente. Para estas empresas, la reconstrucción de un disco de repuesto en caliente para 1 TB de datos lleva 5 horas. OceanStor Dorado emplea un sistema de virtualización global capaz de reconstruir los datos en tan solo 30 minutos, cumpliendo con los requisitos de los perfiles de capacidad ultragrande.
3. Protección de la integridad de los datos de extremo a extremo y tolerancia a la corrupción silenciosa de los datos
En el acceso a los datos, cualquier error que se produzca puede causar problemas de integridad de los datos cuando estos se transfieren a través de múltiples componentes, canales y software complejo. Sin embargo, dichos errores solo se pueden detectar en comprobaciones y accesos posteriores a los datos. Este fenómeno se denomina corrupción silenciosa de datos.
La corrupción silenciosa de datos, que a menudo se pasa por alto, ha afectado en gran medida a los servicios, como las bases de datos, que requieren una integridad absoluta de los datos. Lanzada por Huawei, Emulex y Oracle, la solución de integridad de datos cambia la situación tradicional en la que los hosts y los sistemas de almacenamiento protegen los datos de forma independiente. Esto se ha logrado mediante la implementación de una protección integral en todas las aplicaciones, hosts, sistemas de almacenamiento y discos. Como resultado, esta solución evita la corrupción silenciosa de datos para empresas de misión crítica y elimina posibles tiempos de inactividad.
4. Prefetch inteligente
Cuando un disco detecta fallas de bloque o incluso fallas graves de matriz, el sistema de almacenamiento recibe informes de fallas de los SSD y utiliza datos redundantes en grupos RAID para reconstruir y reparar rápidamente los datos dañados, lo que reduce los riesgos de pérdida de datos y garantiza la confiabilidad del sistema.
Los sistemas de almacenamiento all-flash de Huawei pueden consultar con precisión los datos internos, como los datos de SSD, y utilizar algoritmos de predicción innovadores para supervisar y predecir la vida útil de los discos. El personal a cargo de las empresas de los clientes recibirá una notificación de que sus discos necesitan ser reemplazados antes de que se estropeen o un mes antes de que se agote su vida útil.
Confiabilidad a nivel de solución
El almacenamiento all-flash Huawei OceanStor Dorado admite múltiples tecnologías de protección de datos, como instantáneas, clonación, replicación remota y protección de datos activa-activa. Esto le permite implementar soluciones de protección de datos desde la recuperación ante desastres local o intraurbana hasta la recuperación ante desastres remota. Esta solución brinda servicios de almacenamiento de datos sin interrupciones y de alta disponibilidad para los clientes, lo que evita la pérdida de datos causada por desastres lógicos o físicos.
1. Instantánea sin pérdida
Tradicionalmente, la tecnología de instantáneas basada en COW requiere que los datos se escriban en una ubicación después de leerlos y migrarlos a una nueva ubicación. Por lo tanto, estos procesos de instantáneas implican una lectura, dos escrituras y una actualización de metadatos. Las instantáneas basadas en COW afectan el rendimiento del sistema debido a la pérdida de rendimiento durante cada migración de datos.
El almacenamiento all-flash Huawei OceanStor Dorado implementa instantáneas sin pérdida mediante ROW. Cuando se activa una instantánea, los datos se escriben en la nueva ubicación y se modifica el puntero de la tabla de mapeo. Solo se requiere una escritura de datos y una actualización de metadatos, y la complejidad de la operación de datos es solo un tercio de la observada para las instantáneas basadas en COW. Además, no se requiere migración de datos adicionales cuando se activa la instantánea ROW, lo que no compromete el rendimiento en lo que respecta a las empresas de producción.
Además, el almacenamiento OceanStor Dorado admite instantáneas periódicas de segundo nivel, que son superiores a las instantáneas de minutos u horas que utilizan los almacenamientos totalmente flash de la competencia. La instantánea OceanStor Dorado ofrece a los usuarios una solución de gestión continua de datos (CDM) más intensiva y potente, que permite la protección de datos en tiempo real.
2. Arquitectura activa-activa sin pasarela
El almacenamiento Huawei OceanStor Dorado adopta un diseño activo-activo sin gateway, eliminando los gateways en ambos lados. Esto reduce inmediatamente los costos de adquisición del cliente y disminuye las posibles fallas, logrando una latencia reducida, una confiabilidad mejorada y un rendimiento acelerado. Además, la red general se simplifica enormemente, ya que la cantidad de pasos de implementación se reduce a la mitad, lo que acorta el ciclo de entrega.
Arquitectura activa-activa
HyperMetro se implementa en dos matrices en un perfil activo-activo. Los datos de las LUN activas-activas en ambos extremos se sincronizan en tiempo real y ambos extremos procesan las E/S de lectura y escritura de los servidores de aplicaciones para proporcionar a los servidores un acceso activo-activo en paralelo. Si alguna de las matrices detecta una falla, los servicios se conmutan sin problemas al otro extremo sin interrumpir el acceso al servicio, lo que permite alcanzar un RPO = 0 y un RTO ≈ 0.
En escenarios de protección de datos remotos, la solución activa-activa se puede actualizar sin esfuerzo a la solución de centro de datos en modo georredundante, sin necesidad de puertas de enlace adicionales y sin causar interrupciones comerciales. Esto le permite ofrecer una enorme tasa de protección de confiabilidad del 99,9999 % para los clientes. Los sitios de terceros incluso pueden usar los sistemas de almacenamiento convergente OceanStor de Huawei para proporcionar soluciones de recuperación ante desastres rentables para centros de recuperación ante desastres remotos que solo requieren tiempos de respuesta normales.
Resumen
El almacenamiento all-flash se centra en el rendimiento y la eficiencia. Como un gigantesco buque portacontenedores en el mar, el almacenamiento all-flash busca continuamente velocidades más altas y una mayor capacidad. Con operaciones continuas y estables, los sistemas all-flash Huawei OceanStor Dorado pueden ofrecer una confiabilidad del 99,9999 %, lo que proporciona al público una plataforma ultrarrápida y sólida.