Tesis "Hacia una representación espectral para la unificación de propiedades léxicas, sintácticas y semánticas de texto"
Sustentante: Melesio Crespo Sánchez
Directores: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwyn Javier Aldana Bobadilla, Cinvestav Unidad Tamaulipas.
Sinodales: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwyn Javier Aldana Bobadilla, Cinvestav Unidad Tamaulipas; Dr. José Luis González Compeán, Cinvestav Unidad Tamaulipas; Dr. Hiram Galeana Zapién, Cinvestav Unidad Tamaulipas; Dr. Wilfrido Gómez Flores, Cinvestav Unidad Tamaulipas; Dr. Víctor Hugo Muñiz Sánchez, CIMAT Monterrey.
Resumen:
Un problema de constante interés en análisis de texto es la identificación de propiedades y estructuras que resulten útiles para la creación de modelos computacionales que permitan el reconocimiento de patrones de interés. Muchos de estos modelos recurren a técnicas de aprendizaje automático para ser entrenados, los cuales requieren como entrada una representación numérica del texto en forma de vectores de características que abstraen el contenido del mismo. Estos vectores contienen características inherentes del lenguaje escrito que se dan a partir de las componentes léxica, sintáctica y semántica del mismo. Las representaciones de texto propuestas en la literatura se enfocan en las componentes del texto antes mencionadas de manera parcial o separada. En este trabajo se propone una representación de texto que incluye estas de manera conjunta, asumiendo que es importante considerarlas de este modo para obtener una ganancia informativa en tareas de análisis de texto, en comparación con los enfoques tradicionales de la literatura. Realizar esta fusión de información en una sola representación es un problema difícil dada la naturaleza heterogénea de las componentes en cuestión. Para ello, la representación propuesta integra lo que hemos denominado espectros de contenido léxico, sintáctico y semántico que resultan de un proceso de extracción de características en la forma de una estructura matricial análoga a una imagen en tres canales, que puede ser usada en tareas de aprendizaje automático. Para demostrar la bondad de esta propuesta de representación de texto, esta fue puesta a prueba en clasificación de texto, predicción de complejidad de lectura en documentos (regresión), recuperación de información y verificación de autoría.