Tesis "Esquemas eficientes de extracción y entrega de datos para plataformas de ciencia de datos"
Sustentante: Julio César Salazar Pérez
Directores: Dr. José Luis González Compeán y Dr. Víctor Jesús Sosa Sosa.
Sinodales: Dr. Víctor Jesús Sosa Sosa, Cinvestav Unidad Tamaulipas; Dr. Miguel Morales Sandoval, Cinvestav Unidad Tamaulipas; Dr. José Luis González Compeán, Cinvestav Unidad Tamaulipas; Dr. Hiram Galeana Zapién, Cinvestav Unidad Tamaulipas.
Resumen:
Las plataformas de ciencia de datos son piezas complejas de software comúnmente utilizadas para soportar procesos de toma de decisiones. En estas plataformas generalmente se crean tuberías de procesamiento (data pipelines por su concepción en inglés) que incluyen etapas tales como la extracción, preparación y análisis de datos, así como la transformación de estos datos en información y/o conocimiento, los cuales son finalmente entregados a una etapa final para la toma de decisiones. En este tipo de tubería, cada etapa invoca procesos tanto de extracción como entrega de datos/información. Por tanto, las operaciones de entrada/salida representan la mayoría de las operaciones realizadas en una tubería de datos. Estas operaciones y el número de etapas de una tubería se convierten en un desafío, especialmente en ambientes de procesamiento de grandes volúmenes de datos. En este proyecto de tesis se presentan esquemas eficientes de extracción y entrega de datos para gestionar las operaciones de entrada/salida en plataformas de ciencia de datos. Estos esquemas se basan en patrones de recursos de memoria compartida (in-memory computing por su concepción en inglés) combinados con patrones de paralelismo de entrada y salida de datos estructurados y no estructurados. Se desarrolló un algoritmo llamado pasarela enfocado en crear, en tiempo de ejecución, esquemas de manejo concurrente y paralelo de operaciones de entrada/salida ofreciendo un mejor desempeño que los métodos tradicionales utilizados para este tipo de operaciones. El algoritmo se desarrolló con la posibilidad de ser integrado a un servicio de almacenamiento de alta disponibilidad para una plataforma de ciencia de datos diseñada para el sector salud mexicano.