$0.00

No products in the cart.

Obtener mayor valor de la minería de datos masiva mediante la implementación de stacks de TI con motores de aceleración de datos

La computación de alto rendimiento (HPC) es un motor informático importante que impulsa la innovación en la investigación científica. Ayuda a liberar todo el potencial de los datos masivos para explorar el futuro de la humanidad y el universo. Las herramientas de análisis de datos impulsadas por big data e IA han cambiado los requisitos de HPC del cálculo numérico al análisis de datos de alto rendimiento (HPDA) con minería de conocimiento impulsada por big data y entrenamiento e inferencia habilitados por IA.

La eficiencia de la aplicación de datos determina el nivel de digitalización de una empresa. Con la aparición ininterrumpida de nuevas aplicaciones diversas, el volumen de datos que necesita procesar HPDA crece rápidamente, lo que genera una mayor demanda de procesamiento de datos en tiempo real. Esta mayor demanda ha dado como resultado una expansión significativa de la escala de clientes informáticos. Cuando la escala alcanza decenas de miles o cientos de miles, se necesita la innovación conjunta de aplicaciones, computación y almacenamiento para construir una pila de TI más eficiente.

Además del almacenamiento de alto rendimiento, la infraestructura de datos implementa una capa de aceleración de datos entre las capas de cómputo y almacenamiento para implementar un procesamiento casi de datos. Esta capa permite una respuesta rápida y un rendimiento óptimo para el procesamiento simultáneo a gran escala, incluso cuando hay decenas de miles de clientes involucrados, como se muestra en la Figura 1.

Figura 1: Pila de TI con motor de aceleración de datos

 

El desarrollo de un motor de aceleración versátil para diversas aplicaciones de datos genera importantes beneficios para los servicios emergentes

• Motor de aceleración de aplicaciones HPDA: el análisis de datos de alto rendimiento implica tipos de datos mixtos de archivos grandes y pequeños, lo que plantea altos requisitos de ancho de banda y OPS. Los dispositivos de almacenamiento tradicionales solo pueden admitir el rendimiento de acceso de un solo tipo de datos. Para resolver esto, los clientes de acceso a datos paralelos que admiten la aceleración de caché se implementan en la capa de cómputo y el acceso a metadatos se acelera en la capa de almacenamiento para cumplir con los requisitos de alto rendimiento para el acceso mixto a archivos grandes y pequeños.

• Motor de aceleración de aplicaciones de IA: el entrenamiento de IA evoluciona hacia modelos grandes y multimodales, lo que aumenta la cantidad de parámetros de modelado entre 10 y 100 veces. El motor de aceleración de IA se implementa para acelerar el procesamiento de características y la programación inteligente de tareas de canalización, lo que mejora la eficiencia del entrenamiento de IA decenas de veces, acelera el período de entrenamiento y controla los costos de tiempo.

• Motor de aceleración de aplicaciones de big data: la latencia de acceso a los datos de la plataforma tradicional de big data Hadoop es de cientos de microsegundos y la latencia de análisis de datos alcanza días. Ahora, se ha creado un caché de alta velocidad de almacenamiento distribuido para trasladar a los operadores de aplicaciones a la capa de almacenamiento, lo que reduce la latencia de acceso a los datos a 10 microsegundos y acelera la eficiencia del análisis de big data a minutos.

El motor de aceleración de datos Huawei DataTurbo conecta aplicaciones y almacenamiento para brindar una eficiencia superior en el análisis de datos

El motor de aceleración de datos DataTurbo está equipado con un conjunto de aceleración de aplicaciones integrado para HPDA, IA y big data. Aprovecha las tecnologías de aceleración colaborativa de software y hardware, como algoritmos de agregación de E/S, puertas de enlace de metadatos unificadas y descarga de algoritmos, y se integra con una optimización en profundidad para aplicaciones de ecosistemas, lo que mejora enormemente la eficiencia del procesamiento de datos varias veces.

La capacidad de aceleración de datos de DataTurbo y la capacidad de almacenamiento compartido global del almacenamiento escalable OceanStor Pacific de Huawei ofrecen el mejor rendimiento de la industria. En escenarios de computación a exaescala e inteligencia artificial, un solo clúster de almacenamiento puede proporcionar una asombrosa capacidad de ancho de banda de decenas de TB/s junto con miles de millones de IOPS. Esto puede soportar de manera eficiente el acceso simultáneo de más de 10 000 clientes informáticos. En el análisis de big data en tiempo real, el tiempo de consulta de cientos de PB de datos se puede acortar de 10 minutos a 10 segundos.

El motor de aceleración de datos DataTurbo potencia el análisis de big data en tiempo real

El análisis de big data es un medio técnico básico para aprovechar al máximo los activos de datos y permitir la innovación en materia de datos. Sin embargo, los sistemas de big data de las empresas se enfrentan a nuevos desafíos.

En primer lugar, la Ley de Moore se ha ralentizado. Cada vez resulta más difícil obtener más con menos. El desarrollo de las capacidades de procesamiento de datos va muy por detrás del rápido crecimiento de los datos, lo que se ha convertido en un problema fundamental en la industria de los datos. En segundo lugar, los recursos de almacenamiento local en la arquitectura tradicional de los sistemas de big data no se utilizan en su totalidad porque los servicios los utilizan de forma desigual. Como resultado, existe una necesidad apremiante de avances técnicos para aumentar la eficiencia del procesamiento de datos y la utilización de los recursos, mejorando al mismo tiempo las posibilidades de expansión de la capacidad.

Además, en la era de Internet móvil, las aplicaciones de big data se están volviendo en tiempo real, lo que plantea nuevos desafíos para la eficiencia del análisis de datos. Los lagos de datos deben colaborar sin problemas con los almacenes de datos para permitir la libre movilidad, el intercambio y el uso de los datos, de modo que la toma de decisiones basada en datos pueda ser más eficiente y precisa. Con los modelos convencionales de construcción de sistemas de big data, los datos del lago de datos están aislados de los datos del almacén de datos, lo que aumenta gradualmente la gravedad de los datos. Esto hace que el intercambio y el movimiento de datos sean más complicados y difíciles. Las crecientes necesidades de movilidad de datos y la creciente gravedad de los datos se han convertido en importantes barreras para la extracción de valor de los datos.

Figura 2: DataTurbo potencia el análisis de big data

 

Como se muestra en la Figura 2, DataTurbo toma las siguientes medidas para acelerar las aplicaciones de análisis de big data:

• Formato unificado para migración cero de datos

1) Unifica metadatos para el lago de datos y el almacén, maneja las diferencias de formato de archivo en la capa de almacenamiento y se conecta a varios motores de big data.

2) Permite compartir datos entre el lago de datos y el almacén, lo que reduce la necesidad de ETL.

• Aceleración semántica de tablas para particionamiento de tablas de un millón de niveles, que es 10 veces mejor que otras soluciones en la industria

1) Almacena metadatos en KV Store para un mejor rendimiento en el acceso a los metadatos.

2) Optimiza la estructura de metadatos para reducir el consumo de recursos y el retraso en la carga de datos durante la carga en el lado informático.

3) Preprocesa datos almacenados en caché e implementa conversión de formato, compresión y descompresión para un acceso más fácil y rápido sin necesidad de procesamiento secundario.

• Uso compartido de caché con reconocimiento de carga para consultas de datos de nivel 100 PB en 10 segundos

1) Habilita la capacidad de caché para que el motor de cómputo simplifique el proceso de servicio al eliminar el caché local en el lado de cómputo.

2) Mejora el rendimiento de lectura de datos a través del almacenamiento en caché automático de datos de puntos de acceso, sin necesidad de intervención manual.

3) Permite compartir datos de caché entre múltiples clústeres informáticos para lograr menor redundancia.

En resumen, agregar el motor de aceleración de datos DataTurbo entre las capas de almacenamiento y aplicación es una forma ideal de acelerar la extracción de valor de datos masivos. Esto se aplica a la creciente cantidad de escenarios que involucran análisis de datos masivos, como big data, HPDA e IA, donde la potencia de procesamiento alcanza la exaescala y la cantidad de clientes de aplicaciones supera los 10 000.

Reviews

Related Articles