Tesis "Organización Semántica de Documentos Mediante Grafos"
Alumna: Erika Velázquez García
Asesor: Dr. Iván López Arévalo
Sinodales: Dr. Javier Toscano Pulido y Dr. Víctor Jesús Sosa Sosa
Encontrar y acceder a la información relevante es esencial para un uso adecuado de la información y la adquisición de conocimiento, por ello este trabajo se enfoca en el problema de la búsqueda y recuperación de información. La búsqueda y recuperación de información generalmente se centra en la reducción inicial de un conjunto amplio de datos de entrada para pasarlo a un juego más concreto de información y hacer con ello un procesamiento extenso e intensivo necesario para la extracción y estructuración de conocimiento.
Para lograr una representación más compacta de documentos de texto no estructurados escritos en inglés, en este trabajo se propone utilizar como estructura de datos y medio de representación un grafo no dirigido. Para ello se describe un marco de trabajo para la representación y organización de documentos sin intervención humana, basado en la cooperación de diferentes algoritmos y técnicas de muestreo de texto que se utilizan para la extracción de características del conjunto de datos de entrada. También se incluye el desarrollo de un algoritmo para el cálculo de similitud de documentos, el cual se utiliza para la búsqueda de información. Dicho algoritmo toma en cuenta la consulta de entrada de un usuario y los diferentes significados que ésta puede tomar entre los documentos. Otro aspecto que considera este algoritmo son las diferentes temáticas a las que se pueden asociar los documentos, dando como resultado una búsqueda basada en semántica.
Un aspecto adicional que se cubre en este trabajo es la cantidad de documentos que se retornan al usuario, los cuales van en relación de los términos de la consulta y la cantidad de documentos recuperados, con esto se busca mejorar la precisión de la información retornada.
Con base en los experimentos realizados se presenta el análisis y discusión de los resultados con los que se ha podido determinar las ventajas y observaciones de los resultados y estadísticas de la aplicación desarrollada para probar el método propuesto. También se describen las características de los grupos de datos y los escenarios de prueba así como las métricas de evaluación aplicadas para medir el desempeño de la propuesta.