Los servicios de los centros de datos se están transformando: primero se trasladaron a la nube y ahora están entrando en la era inteligente
En la última década, los servicios de los centros de datos han pasado de estar centrados predominantemente en la web a estar centrados en la nube. Hoy, están volviendo a pasar de la era de la computación en la nube a la era inteligente.
Con las enormes cantidades de datos generados durante la digitalización, filtrar y reorganizar automáticamente la información útil (y luego extraer los datos valiosos mediante inteligencia artificial) es, sin duda, la clave para la era inteligente. Según Huawei Global Industry Vision (GIV), el 97 % de las grandes empresas utilizarán inteligencia artificial en 2025. De hecho, cada vez más empresas consideran que la inteligencia artificial es la principal estrategia para la transformación digital. La capacidad de aprovechar la inteligencia artificial (en la toma de decisiones, para reconfigurar los modelos y ecosistemas comerciales y para reconstruir experiencias positivas para los clientes) será la clave para impulsar una transformación digital exitosa.
Durante la digitalización se genera un gran volumen de datos. Según Huawei GIV, la cantidad de datos globales producidos anualmente alcanzará los 180 ZB en 2025, y la proporción de datos no estructurados (como datos de voz, video e imágenes sin procesar) también seguirá aumentando, alcanzando más del 95% en un futuro cercano. Como los métodos manuales de análisis y procesamiento de big data no pueden manejar volúmenes tan grandes de datos, se pueden utilizar algoritmos de inteligencia artificial de aprendizaje profundo basados en aritmética de máquinas para filtrar datos no válidos y reorganizar automáticamente la información útil, proporcionando así sugerencias de toma de decisiones más eficientes y una guía de comportamiento más inteligente. En la era inteligente, la misión de los centros de datos empresariales está evolucionando desde centrarse en la prestación rápida de servicios a centrarse en el procesamiento eficiente de datos.
A medida que la IA continúa avanzando, surgen clústeres de servidores de aprendizaje profundo y se han desarrollado medios de almacenamiento de alto rendimiento, como unidades de estado sólido (SSD), lo que impone mayores requisitos (nivel de μs) en la latencia de la comunicación. Por ejemplo, en un entorno de negociación de alta frecuencia (HFT) sensible al rendimiento en la industria financiera, la baja latencia es clave para procesar grandes volúmenes de negociación. La velocidad de transacción más rápida de una orden es de aproximadamente 100 microsegundos en la Asociación Nacional de Cotizaciones Automatizadas de Corredores de Valores (NASDAQ). La latencia de la comunicación es el factor principal que se debe considerar en la construcción de la red del centro de datos, que debe reducirse de dos maneras:
1. Es necesario cambiar la pila de protocolos de comunicación interna de un servidor. En los sistemas de almacenamiento distribuido SSD y de computación de datos de IA, el procesamiento de datos mediante la pila de protocolos TCP/IP tradicional tiene una latencia de decenas de microsegundos. Por lo tanto, se ha convertido en una práctica de la industria reemplazar TCP/IP por el acceso directo a memoria remota (RDMA). En comparación con TCP/IP, RDMA puede mejorar la eficiencia de computación de seis a ocho veces; y la latencia de transmisión de 1 μs de los servidores permite reducir la latencia de los sistemas de almacenamiento distribuido SSD de milisegundos a microsegundos. Como resultado, en el último protocolo de interfaz de memoria no volátil Express (NVMe), RDMA se ha convertido en una pila de protocolos de comunicación de red predeterminada.
2. Para reducir la latencia que implica la transmisión por fibra óptica, los centros de datos deben instalarse cerca de las ubicaciones físicas de las aplicaciones sensibles a la latencia. Como resultado, los centros de datos distribuidos se han convertido en la norma. Las soluciones de red de comunicación de datos (DCN) e interconexión de centros de datos (DCI) se preocupan cada vez más por aumentar de forma rápida y gradual el ancho de banda de DCN/DCI, para garantizar una pérdida de paquetes nula, una baja latencia y un alto rendimiento de las redes sin pérdidas, cumpliendo así los requisitos del rápido desarrollo de los servicios. La Ley de Moore respalda el aumento del ancho de banda de los centros de datos, y la capacidad de una única interfaz DCN para DCI superará los 100 G. La red DCI que conecta los centros de datos ha evolucionado hasta convertirse en una red de interconexión de multiplexación por división de longitud de onda (WDM) de 10 Tbit/s.
Resumen: La operación de datos orientada a la IA requiere una red sin pérdidas de paquetes, con baja latencia y alto rendimiento. Como resultado, es necesario cambiar los protocolos de comunicación interna en los servidores y se requiere DCI.
La implementación rápida y el O&M inteligente de DCI se han vuelto claves, apoyando la operación elástica y la expansión de las DCN.
Los servicios de alto rendimiento, como la IA y la informática de alto rendimiento (HPC), dependen cada vez más de las redes. El algoritmo de control de congestión de una red sin pérdidas requiere la colaboración entre los adaptadores de red y las propias redes. Por ello, desde el principio del diseño de la red, es necesario conocer de forma rápida y precisa el estado en tiempo real de los dispositivos y enlaces de toda la red durante las operaciones y el mantenimiento (O&M) para respaldar el funcionamiento y la expansión estables del servicio. Los sistemas de transmisión de fibra óptica con multiplexación de múltiples longitudes de onda se utilizan ampliamente en DCI. Los modos de aprovisionamiento y mantenimiento de servicios de los sistemas ópticos difieren de los de las redes digitales, y los operadores suelen contar con grandes equipos de personal capacitado que garantizan el mantenimiento de la red óptica. Por el contrario, en los sectores de los proveedores de servicios de Internet (ISP) y las finanzas, la experiencia y las habilidades requeridas del personal de TI que construye y mantiene las redes de centros de datos son mucho menores. El aprovisionamiento rápido de servicios y la resolución precisa de problemas son desafíos clave para dichas industrias. Con el crecimiento masivo de la construcción de centros de datos, los requisitos de DCI aumentan a gran escala. Esto se ha convertido en uno de los principales cuellos de botella en el desarrollo de centros de datos.
1. La introducción de sistemas de planificación automática, configuración automática y análisis de alarmas inteligentes ayuda a simplificar la operación y el mantenimiento del sistema DCI.
A medida que los servicios en la nube se desarrollan e implementan rápidamente, la reconstrucción y expansión de la red se ha vuelto más frecuente. La instalación de dispositivos WDM tradicionales, la conexión de fibra, la configuración y la puesta en servicio requieren una planificación y configuración profesionales. El sistema de planificación y configuración automática libera al personal de operaciones y mantenimiento de la implementación compleja y profesional en el sitio, garantiza una implementación automática y eficiente y admite una rápida implementación en la nube del servicio, así como una expansión frecuente de la capacidad. En comparación con la configuración manual, la configuración automática mejora en gran medida la eficiencia de la implementación y la precisión de la configuración. Para ilustrarlo, la probabilidad de errores en las conexiones de fibra manuales tradicionales a menudo puede alcanzar el 5%, y los servicios dejan de estar disponibles cuando la fibra se conecta incorrectamente. Además, la resolución de problemas, la comprobación cruzada y la verificación son tareas que requieren mucho tiempo y mano de obra.
2. Los sistemas O&M inteligentes reemplazan la gestión de red tradicional, implementando O&M proactivo para centros de datos.
Cada vez se ejecutan más aplicaciones en la nube, y los centros de datos, como infraestructuras clave para la digitalización, son por ello extremadamente importantes. Cualquier fallo que se produzca en DCI suele tener un impacto grave. DCI introduce un O&M eficiente e inteligente, transformando (optimizando) el O&M de manual a automático, de pasivo a activo. En comparación con los sistemas de monitorización de red tradicionales, los sistemas O&M inteligentes utilizan sensores ópticos integrados para implementar la visualización global de la red óptica (incluidas las fibras ópticas y los dispositivos de transmisión óptica). Además, los sistemas O&M inteligentes proporcionan advertencias sobre los cambios en el estado de una red óptica, especialmente los parámetros físicos como la atenuación de la potencia óptica y la deriva de la longitud de onda óptica; analizan y filtran automáticamente las alarmas, así como también determinan automáticamente las causas fundamentales de los fallos basándose en la biblioteca de experiencias. Estas características garantizan que se reduzca la tasa de fallos de la red y se mejore enormemente la disponibilidad de la red.
Resumen: La operación y el mantenimiento de la red del centro de datos necesitan con urgencia herramientas de configuración y mantenimiento automáticos para ajustar las configuraciones en tiempo real, localizar fallas rápidamente y simplificar la operación y el mantenimiento de la red sin pérdidas, apoyando así el rápido desarrollo de los servicios del centro de datos en la era de la nube.