Tesis "Método Basado en Información Contextual para la Representación de Información de Dominio Abierto en RDF"
Sustentante: Julio Noé Hernández Torres.
Director: Dr. Iván López Arévalo, investigador Cinvestav Tamaulipas.
Sinodales: Dra. Maricela Claudia Bravo Contreras, Universidad Autónoma Metropolitana, Unidad Azcapotzalco; Dr. Hiram Galeana Zapién, investigador Cinvestav Tamaulipas; Dr. Javier Rubio Loyola, investigador Cinvestav Tamaulipas; Dr. José Luis González Compeán, investigador Cinvestav Tamaulipas.
Resumen:
Los documentos de texto son la forma más común de compartir información, siendo la Web uno de los mejores ejemplos. En este sentido, la extracción de información a partir de la Web y su representación como información estructurada es un reto en el campo de la Web Semántica. Uno de los objetivos de la Web Semántica es la creación de una base de conocimiento global extraída a partir de diferentes tipos de fuentes (corpus, bases de datos relacionales, etc.), por medio de representaciones RDF. El estándar RDF modela información estructurada, describiendo entidades nombradas a través de un conjunto de propiedades. La transformación de un texto a RDF requiere aplicar técnicas de procesamiento de lenguaje natural para extraer información valiosa como entidades nombradas, relaciones binarias o n-arias, temas, etc. Sin embargo, estas técnicas presentan problemas como la desambiguación de palabras, la resolución de correferencias y el análisis semántico. Sumado a lo anterior, los trabajos enfocados a la transformación de texto a RDF, omiten la identificación explícita del contexto de una sentencia para definir una tripleta RDF. Esta información contextual resulta importante para definir el marco en el que dos o más entidades nombradas se encuentran relacionadas. Usualmente, la relación entre dos entidades nombradas se establece a través de un predicado que se encuentra predefinido en una base de conocimiento de la Web Semántica. Sin embargo, la relación entre dos entidades nombradas no siempre está definida en alguna base de conocimiento debido a que su relación solo se cumple en la sentencia de origen, omitiendo la extracción y representación de este tipo de relaciones. Este trabajo de investigación tiene por objetivo identificar y representar el contexto de una sentencia de texto a través de una serie de reglas de contexto predefinidas, estableciendo la relación de contexto entre los elementos de tal sentencia, así como la representación de dichas relaciones a través de tripletas RDF.