Los datos no estructurados pueden hacer referencia a cualquier contenido de datos, incluidos varios archivos de texto, imágenes, videos y audios. En general, algunos datos no estructurados pueden tener estructuras internas, pero las estructuras internas son flexibles y no son adecuadas para almacenarse en una base de datos relacional tradicional. En las últimas décadas, se han desarrollado diferentes protocolos para acceder a datos no estructurados para diferentes aplicaciones, incluidos S3, HDFS, NFS, SMB y FTP. Existen muchos tipos de datos no estructurados y protocolos de acceso. Por lo tanto, los clientes generalmente necesitan implementar diferentes productos de almacenamiento con protocolos específicos para cumplir con los requisitos de diferentes escenarios de servicio. Por ejemplo, los clientes necesitan implementar almacenamiento de objetos S3 para respaldar los requisitos del servicio, como servicios de imágenes de recibos, e implementar almacenamiento de big data HDFS para respaldar servicios de análisis como Hadoop y Spark. Implementar almacenamiento NFS/SMB para respaldar servicios PACS.
Con el desarrollo de tecnologías como 5G e IoT, los datos no estructurados aumentan de manera explosiva y esto hace que cada vez más clientes implementen múltiples conjuntos de dispositivos de almacenamiento para brindar soporte a diferentes servicios. Al mismo tiempo, con el uso generalizado de la infraestructura de TI de nube pública y nube privada y la diferencia en los costos de consumo de energía causada por el desequilibrio en el desarrollo regional, surgen nuevos modos de aplicación, como datos ingeridos en una región pero analizados en otra o datos ingeridos en un clúster local pero analizados en la nube pública. Por lo tanto, el acceso unificado a los datos en diferentes sistemas de almacenamiento y regiones se convierte en el requisito básico de capacidad de TI de la mayoría de las empresas. El Sistema de archivos global (GFS) de OceanStor Pacific es una característica avanzada diseñada para cumplir con los requisitos anteriores. Proporciona capacidades de uso compartido unificadas para datos heterogéneos y datos entre regiones.
GFS admite el intercambio de datos heterogéneos de múltiples fuentes, lo que acelera el acceso a los datos.
En el entorno de producción de la mayoría de los clientes, se implementan diferentes productos de almacenamiento para admitir diferentes escenarios de aplicación, como se muestra en la Figura 1.
Para cumplir con los requisitos de rendimiento de la aplicación, los usuarios pueden utilizar diferentes modos de aceleración:
Método 1: Los datos del almacenamiento compartido se obtienen previamente en el disco SSD local del lado del cómputo. En este método, los usuarios deben optimizar todo el proceso de la aplicación, realizar la obtención previa de datos en los pasos adecuados y eliminar la memoria caché del disco SSD local del lado del cómputo. Las diferentes aplicaciones tienen diferentes procesos y no se pueden reutilizar de manera eficiente.
Método 2: Implementar una capa de aceleración de código abierto como Alluxio para implementar la precarga y eliminación automática de datos mediante el uso de Alluxio y políticas, mejorando así la velocidad de acceso a los datos. La desventaja es que la capa de aceleración de código abierto no admite las interfaces POSIX/MP-IO que requieren las aplicaciones HPC y, por lo tanto, no puede cumplir con los requisitos de la aplicación.
Método 3: Utilice la solución de aceleración que ofrecen los productos de almacenamiento comerciales. La capacidad de aceleración de datos de los distintos productos de almacenamiento tiene sus propias ventajas y desventajas.
La función GFS de OceanStor Pacific hereda las capacidades de OceanStor Pacific 9950 y admite los protocolos estándar (NFS/SMB/HDFS/S3/POSIX/MP-IO) para aplicaciones. Admite la precarga basada en políticas para almacenamientos externos no estructurados, como NFS, SMB, almacenamiento HDFS, almacenamiento de objetos S3 público y almacenamiento de objetos S3 de terceros proveedores; también expulsa la memoria caché según los puntos de acceso a los datos y la configuración de cuotas para datos heterogéneos de múltiples fuentes. Además de la aceleración del acceso a los datos para los sistemas de almacenamiento OceanStor Pacific implementados de forma independiente (NFS, SMB, HDFS o S3), también se admiten los sistemas de almacenamiento NFS, SMB, HDFS o S3 estándar proporcionados por proveedores de almacenamiento de terceros.
En términos de modo de acceso a datos, GFS admite dos modos: lectura/escritura simultánea y lectura/escritura en caché. El modo de lectura/escritura simultánea es aplicable solo a situaciones en las que los datos deben sincronizarse rápidamente con el dispositivo de almacenamiento de destino. El modo de caché de lectura/escritura es aplicable a situaciones en las que se deben acelerar tanto la lectura como la escritura de datos. El momento en que los datos modificados se vacían en el dispositivo de almacenamiento de destino depende de la política de eliminación de caché y del período de GFS.
GFS admite el intercambio de datos entre regiones, acelerando el acceso
Para cumplir con los requisitos de intercambio y flujo de información entre regiones, OceanStor Pacific GFS admite la aceleración de fuentes de datos heterogéneas y el flujo y uso compartido de datos a pedido, como se muestra en la Figura 2.
Para implementar el flujo de datos entre dominios, el GFS utiliza diferentes políticas para los distintos almacenamientos de destino que se van a compartir. Si la fuente de almacenamiento de destino es OceanStor Pacific, desduplique y comprima los datos antes del flujo de datos, y descomprima y restaure los datos en el GFS de destino para reducir la cantidad de datos entre dominios y mejorar la eficiencia del flujo de datos. Si el almacenamiento de destino que se va a trasladar no es OceanStor Pacific, no se puede realizar la desduplicación y la compresión antes de la transferencia de datos. Todo el proceso se muestra en la Figura 3.
Todos los cambios de metadatos de DC1, DC2, almacenamiento S3 en la nube pública o almacenamiento S3 de terceros proveedores externos se detectarán, fusionarán y transferirán a otro almacenamiento en relación con GFS. Para mejorar la eficiencia del intercambio de metadatos, OceanStor Pacific GFS adopta dos métodos diferentes:
La primera forma, para sistemas de almacenamiento heterogéneos, por ejemplo, S3 en la nube pública o almacenamiento de objetos S3 de terceros proveedores, OceanStor Pacific GFS escaneará la carpeta o el depósito en intervalos (configurados por los clientes), comparará los metadatos escaneados nuevos con los metadatos escaneados anteriormente para determinar los cambios, obtendrá los metadatos nuevos para estos cambios, los compactará en una imagen delta meta y la transferirá al OceanStor Pacific remoto. Si el almacenamiento remoto no es OceanStor Pacific, se necesitará S3 estándar para actualizar los metadatos nuevos en el almacenamiento remoto uno por uno.
La segunda forma, para el sistema OceanStor Pacific, registrará un registro por cada cambio de metadatos, compactará estos registros de cambios en una metaimagen y la transferirá al sistema de almacenamiento remoto OceanStor Pacific.
Si la carpeta compartida entre regiones configurada es grande y contiene millones de archivos u objetos, la segunda forma es más eficiente que la primera.
El sistema de almacenamiento OceanStor Pacific está diseñado para almacenar y acceder de manera eficiente a datos masivos. La interoperabilidad sin inconvenientes entre múltiples protocolos proporciona un espacio de nombres global de un solo sistema, lo que reduce el almacenamiento redundante de datos entre diferentes protocolos. GFS está diseñado para acceder de manera eficiente a los datos de diferentes clústeres, regiones y fuentes de datos heterogéneas para los clientes.