Tesis "Enfoque de Enriquecimiento Semántico para Desambiguación del Sentido de la Palabra en Dominios Específicos"
Alumno: Franco Rojas López
Asesor: Dr. Iván López Arévalo
Sinodales: Dra. Darnes Vilariño Ayala, Dra. Xiaoou Li, Dra. Sonia G. Mendoza Chapa, Dr. José Guadalupe Rodríguez García
La Desambiguación del Sentido de la Palabra (DSP) es una tarea que se ha abordado por décadas en el Procesamiento del Lenguaje Natural debido a la complejidad que la misma representa. Dicha tarea es considerada un componente esencial para el éxito de otras tareas tales como Recuperación de Información, Análisis de Sentimientos, Sistemas de Pregunta-Respuesta, etc. Como resultado de esta importancia, la atención para dar solución o mejorar la precisión de algoritmos existentes es cada vez más creciente en la comunidad de Lingüística Computacional. La tarea de DSP consiste en seleccionar el sentido correcto de una palabra ambigua considerando el contexto en el que se encuentra. Enfoques actuales complementan la información extraída desde el contexto con otros recursos tales como bases de conocimiento léxico, diccionarios, la Web, etc., para recuperar contextos auxiliares donde ocurre la palabra ambigua con el fin de realizar un análisis estadístico que permita identificar el sentido correcto para la palabra objetivo.
Recientemente se ha establecido que los sistemas de DSP entrenados sobre un conjunto de textos de propósito general tienden a bajar su desempeño cuando son evaluados en textos de dominio específico. Aunado a esta aseveración y dado que el contenido textual disponible en la Web está orientado a dominio específico (blogs, noticias, wikipedia, etc), algunos algoritmos proponen el uso de dicha información para que los algoritmos de DSP conserven su desempeño al ser evaluados en diferentes dominios del conocimiento.
En esta tesis se presentan dos métodos para abordar el problema de DSP en dominios específicos para texto en inglés. El primer método implementa un enfoque basado en grafos semánticos, el cual es evaluado en el dominio de Medio Ambiente. El segundo está basado en similitud semántica y es evaluado en los dominios de Deportes, Finanzas y en uno de propósito general, el BNC. Ambos enfoques usan la Web como recurso lingüístico y Similitud Distribucional para obtener la similitud semántica entre pares de palabras. La información extraída desde la Web y del contexto en el que ocurre la palabra ambigua son integrados para determinar el sentido correcto de la palabra ambigua. Los experimentos y resultados obtenidos en diferentes dominios del conocimiento demuestran que una adecuada combinación de la información proporcionada por el contexto en el que ocurre la palabra ambigua y la adquirida desde documentos de dominio específico puede producir un algoritmo que mejore los resultados reportados hasta el momento en el estado del arte.