Tesis "Método para la Construcción de Tuberías de Procesamiento de Datos para la Nube"
Sustentante: Hugo Germán Reyes Anastacio
Directores: Dr. José Luis González Compeán, Dr. Víctor Jesús Sosa Sosa
Sinodales: Dr. Edwyn Javier Aldana Bobadilla, Dr. Hiram Galeana Zapién
Resumen:
Las organizaciones que manejan grandes repositorios de acervos de información deben hacer frente a tres requerimientos: i) Flexibilidad en términos de variedad de procesos de codificación tales como corrección de errores, compresión, cifrado, etc., que se aplican a los archivos para cubrir restricciones de manejo impuestas por organizaciones y/o instancias gubernamentales. ii) Elasticidad en términos de procesamiento de acervos de grandes volúmenes de archivos de grandes dimensiones. iii) Eficiencia en términos de la velocidad de procesamiento de codificación y utilización de almacenamiento requeridos para preservar los archivos del acervo. Soluciones basadas en tuberías de procesamiento desplegables en infraestructuras de máquinas físicas o en máquinas virtuales en la nube han sido propuestas para hacer frente a los requerimientos antes mencionados. Sin embargo, ambas soluciones presentan inconvenientes. Por ejemplo, el despliegue de tuberías en infraestructuras de máquinas físicas es complejo debido a las dependencias con la infraestructura, lo cual compromete el requerimiento de flexibilidad. Las tuberías desplegadas en máquinas virtuales comprometen el requerimiento de eficiencia y producen subutilización de recursos.
En el presente trabajo de tesis se propone un método para la construcción de tuberías de procesamiento de datos basada en bloques de construcción encapsulados en contenedores virtuales. Los bloques de construcción permiten el acoplamiento de diversos módulos de procesamiento en forma dinámica, lo cual satisface el requerimiento de flexibilidad y variedad. La encapsulación de los bloques de construcción en contenedores virtuales permite no sólo desplegar tuberías bajo demanda sino desplegarlas en diversos tipos de infraestructuras, lo cual evita la subutilización de recursos y permite satisfacer el requerimiento de elasticidad y procesamiento de grandes volúmenes de archivos. El esquema de despliegue llamado divide y encapsula propuesto en esta tesis, permite desplegar, en la nube, tuberías en paralelo lo cual mejora la velocidad de procesamiento de los archivos del acervo así como la utilización del almacenamiento, lo cual permite satisfacer el requerimiento de eficiencia. El método propuesto fue desarrollado en un prototipo que fue evaluado en diferentes infraestructuras y escenarios de experimentación. La evaluación reveló la factibilidad de aplicar tuberías de procesamiento en la nube basada en bloques de construcción encapsulados en contenedores virtuales, los cuales satisfacen los requerimientos de variedad, volumen y velocidad inherentes al manejo de grandes acervos de información.