En la era digital actual, donde los datos masivos reinan supremos, nuevas tecnologías como la computación de alto rendimiento (HPC), el análisis de big data y la inteligencia artificial (IA) están impulsando el surgimiento de nuevas aplicaciones.
A continuación, se presentan algunos ejemplos de la importancia de los datos masivos en la industria moderna. Durante la investigación y el desarrollo de la conducción autónoma, es necesario almacenar cientos de PB de datos para el entrenamiento de la IA durante décadas; los datos de producción de una fábrica inteligente alcanzan 1 PB en un solo día; y en el campo del descubrimiento de fármacos impulsado por la IA, un secuenciador puede generar 6 TB de datos por día. En vista de estos requisitos, la industria de la informática de alto rendimiento está evolucionando desde un uso intensivo de la computación a un uso intensivo de los datos, y el análisis de datos de alto rendimiento (HPDA) se ha convertido en una importante tendencia de desarrollo.
Veamos un ejemplo más específico. En el proceso de análisis genómico, existen diversas necesidades de rendimiento y acceso, como el procesamiento de archivos de diferentes tamaños, diferentes latencias de respuesta y acceso mediante protocolos híbridos en múltiples fases (como NFS para el acceso estándar a archivos, MPI-IO para el acceso paralelo, HDFS para análisis de big data y S3 para el archivo de datos). Estos flujos de servicio comparten una característica típica: tener cargas de trabajo híbridas y, por lo tanto, es deseable un sistema que pueda alojar múltiples cargas de trabajo. Esto nos lleva a la pregunta de cómo analizar de manera eficiente datos masivos para liberar al máximo su potencial y valor infinitos.
El almacenamiento escalable Huawei OceanStor Pacific está diseñado específicamente para aplicaciones emergentes, y su exclusivo diseño de sistema totalmente equilibrado SmartBalance está desarrollado especialmente para cargas de trabajo híbridas.
SmartBalance detecta de forma inteligente los tipos de datos y los flujos de E/S para mejorar eficazmente la eficiencia de las cargas de trabajo híbridas. Adopta tres innovaciones revolucionarias:
• Equilibrio de capacidad multiprotocolo para una interoperabilidad nativa fluida entre protocolos de almacenamiento de archivos y objetos y big data.
• Equilibrio de programación dinámica de recursos, que permite flujos de datos adaptables a E/S grandes y pequeñas para lograr un ancho de banda, IOPS y rendimiento de OPS óptimos.
• Equilibrio de rutas de E/S grandes y pequeñas para una latencia y utilización del disco óptimas.
Las tres innovaciones se describen en detalle a continuación.
Equilibrio de capacidad de múltiples protocolos
Tradicionalmente, los sistemas de almacenamiento de objetos utilizan una estructura de indexación plana, que permite que un solo contenedor admita cientos de miles de millones de objetos. Los sistemas de archivos, por otro lado, utilizan una estructura de indexación en árbol, que facilita la gestión de archivos. Sin embargo, la cantidad de archivos que admite un solo directorio es limitada.
A diferencia de la interoperabilidad multiprotocolo tradicional, que emplea pasarelas y complementos para convertir formatos de almacenamiento, OceanStor Pacific utiliza indexación convergente para datos no estructurados con el fin de aprovechar las ventajas de los protocolos de archivos y objetos. La tecnología de interoperabilidad multiprotocolo de OceanStor Pacific adopta una estructura en forma de árbol, donde los metadatos se almacenan en orden lexicográfico en un directorio de gran tamaño. En este directorio, hay varios subdirectorios que son invisibles para los sistemas externos, y cada subdirectorio contiene varios fragmentos de índice de una sola capa. Esta estructura no solo conserva la excelente escalabilidad de un solo contenedor, sino que también garantiza un alto rendimiento y una baja latencia de acceso a los datos. Además, estos fragmentos de índice de una sola capa admiten la carga de varias partes de un objeto y permiten que el servicio de archivos acceda a varias partes de un archivo sin modificar las aplicaciones de la capa superior.
En resumen, OceanStor Pacific logra una interoperabilidad de múltiples protocolos sin puertas de enlace físicas o lógicas y sin perder semántica ni comprometer el rendimiento.
Programación dinámica de recursos y equilibrio
Como se describió anteriormente, las cargas de trabajo híbridas vienen con varios modelos de E/S, como archivos grandes con E/S grandes, archivos grandes con E/S pequeñas y archivos pequeños con E/S pequeñas. Como los flujos de datos se adaptan a E/S grandes y pequeñas, el almacenamiento necesita un equilibrio dinámico de programación de recursos para lograr un rendimiento óptimo de ancho de banda, IOPS y OPS.
En primer lugar, echemos un vistazo a la asignación dinámica de recursos de CPU. Esta técnica agrupa los núcleos de CPU y los vincula con las solicitudes de E/S para garantizar una baja latencia de procesamiento de las aplicaciones de misión crítica. La cantidad de núcleos de un grupo se ajusta dinámicamente para adaptarse a las cargas de trabajo intensivas en IOPS y ancho de banda, lo que garantiza una relación óptima de configuración de recursos de CPU en cargas de trabajo híbridas. La programación inteligente de CPU y el uso de colas separadas para solicitudes de E/S grandes y pequeñas reducen la latencia de conmutación de CPU. Además, la programación inteligente de E/S garantiza las prioridades de E/S de lectura de datos, escritura de datos y funciones avanzadas, lo que da como resultado una latencia constante para las aplicaciones de misión crítica.
Equipado con estas ventajas, OceanStor Pacific proporciona altos IOPS para cargas de trabajo híbridas para que se pueda cumplir plenamente el acuerdo de nivel de servicio (SLA) de ancho de banda.
Equilibrio de rutas de E/S grandes y pequeñas
Por último, echemos un vistazo al equilibrio de rutas, que está diseñado para mejorar el procesamiento de E/S grandes y pequeñas. OceanStor Pacific hace que los flujos de datos se adapten a E/S grandes y pequeñas.
Las E/S de gran tamaño se transfieren desde los clientes a los discos, lo que reduce la sobrecarga de rutas, mientras que las E/S pequeñas se agregan en la capa de caché y luego se escriben en los discos, lo que reduce en gran medida la cantidad de interacciones de E/S. Gracias a la agregación inteligente de franjas, una gran cantidad de E/S de escritura aleatorias se agregan en E/S de escritura 100 % secuenciales antes de escribirse en los discos, lo que reduce la sobrecarga de franjas de los discos.
A diferencia de la agregación tradicional de E/S pequeñas, OceanStor Pacific implementa la duplicación de datos basada en el acceso remoto directo a memoria (RDMA) unidireccional para garantizar la confiabilidad de la agregación de E/S. Solo el nodo de almacenamiento principal participa en la copia de datos entre las CPU y la memoria. En comparación con la duplicación de caché tradicional, OceanStor Pacific reduce aún más la sobrecarga de la CPU en un 30 %, lo que mejora las IOPS y garantiza una baja latencia.
En términos de lectura de datos, un diseño de precarga de datos que cuenta con detección inteligente permite que el sistema de almacenamiento lea un archivo grande a través de E/S consecutivas y precarga archivos pequeños en la memoria caché de alta velocidad, lo que aumenta significativamente la eficiencia del acceso a los datos.
El diseño avanzado de Huawei, tanto en términos de arquitectura como de tecnología, implementa interoperabilidad multiprotocolo nativa y procesamiento de datos adaptativo para ofrecer un rendimiento óptimo de ancho de banda, IOPS y OPS. Con la tecnología SmartBalance, un diseño de sistema totalmente equilibrado, OceanStor Pacific está listo para adoptar diversas cargas de trabajo híbridas, lo que lo convierte en una opción ideal para que los clientes extraigan aún más el valor de los datos masivos en la era de los yottabytes.