Tesis "Organización de documentos en Español, digitalizados y semánticamente relacionados"
Alumno: Jesús Ángel Cervantes de la Fuente
Asesor: Dr. Iván López Arévalo
Sinodales: Dr. Eduardo Arturo Rodríguez Tello, Dr. Víctor Jesús Sosa Sosa
Hoy en día las organizaciones se han dando cuenta que la vasta información histórica que es almacenada en documentos puede ser un recurso muy útil para ellas. Migrar los documentos a sistemas de información es una tarea fácil pero exhaustiva cuando se escanea el documento y se asocia a metadatos. En la mayoría de las veces la información contenida en los documentos escaneados no es aprovechada. En este sentido, el reconocimiento óptico de caracteres permite extraer información a partir de imágenes de texto escaneado de tal manera que da pie a grandes oportunidades para procesar y extraer información potencialmente relevante para las organizaciones. Existe un nicho de oportunidad oculto en los textos: el procesamiento de texto y la extracción de información. En este caso un área de oportunidad es el uso de técnicas de minería de texto y procesamiento de lenguaje natural para la organización de documentos con base en características comunes compartidas.
En esta tesis se describe un método que integra técnicas de procesamiento de lenguaje natural y minería de texto a modelos de recuperación de información con el n de organizar documentos en Español digitalizados. Dicho trabajo relaciona una representación de los documentos con los temas abordados en el corpus. Los temas son formados a partir de conjuntos de términos relacionados semánticamente. En las experimentaciones realizadas el método obtuvo un desempeño competitivo frente a trabajos relacionados.