Tesis "Búsqueda Web Temática Sobre Dominios Específicos"
Alumno: Daniel Osuna Ontiveros
Asesor: Dr. Iván López Arévalo
Sinodales: Dra. Xiaoou Li, Dr. Javier Rubio Loyola y Dr. Iván López Arévalo
Hoy en día los usuarios de dispositivos electrónicos almacenan una gran cantidad de información en la Web. Por esta razón, Internet es un buen lugar para buscar información sobre cualquier tema. Debido a esta gran cantidad de información, los usuarios de Internet requieren buscar información en sitios web específicos que consideren de interés (por ejemplo, sitios de noticias, enciclopedias, etc.). Los modelos tradicionales de representación de documentos contenidos en la Web representan páginas web basándose en la frecuencia de términos y en la estructura de los enlaces entre páginas web con el fin de asignar un peso o importancia a los sitios web.
Este trabajo presenta un modelo de representación de sitios web basado en temas que permite modelar información de la Web de manera semántica. Dicho modelo de representación representa documentos web mediante temas y no mediante el enfoque tradicional basado en términos. Esta propuesta integra algoritmos de minería de texto basado en procesamiento de lenguaje natural y modelos tradicionales de representación con el objetivo de mejorar la calidad de las páginas web recuperadas en las búsquedas. Cada página del sitio web se representa como un vector de temas, en lugar de un vector de términos. De manera similar, la consulta se representa como un vector de temas. Por lo tanto, una medida de similitud se aplica sobre el vector de la consulta y los vectores de documentos con el fin de recuperar los documentos más relevantes semánticamente a dicha búsqueda.
El modelo de representación propuesto se evaluó usando un conjunto de documentos de prueba y un conjunto de sitios web. Se evaluó con un conjunto de documentos de prueba con el fin de observar su comportamiento en documentos que no fueran obtenidos directamente de la Web. Para evaluarlo como modelo de representación de documentos se utilizó un conjunto de documentos de prueba previamente categorizado (corpus reuters). Este modelo se comparó con la representación booleana y el modelo espacio vectorial. Para evaluar el desempeño del modelo de búsqueda orientada a sitios web se utilizaron sitios web relacionados al área de estadística, minería de datos y desarrollo social. El resultado se comparó con los buscadores: Google, Yahoo y Bing debido a que permiten realizar búsqueda en cualquier sitio web.