Tesis "Método de Enriquecimiento de Texto a Partir de Recursos de la Web Semántica"
Alumno: Dishelt Francisco Torres Paz
Asesor: Dr. Iván López Arévalo
Sinodales: Dr. Hiram Galeana Zapién, Dr. Víctor Jesús Sosa Sosa
Resumen:
Actualmente con el incremento exponencial de la información textual que se genera día a día es cada vez más difícil transformar esa información en un activo útil. El procesamiento de dicha información se dificulta debido a que no tiene una estructura definida y por el poco conocimiento que se tiene sobre el texto. Al encontrarse la información de esa forma, el conocimiento obtenido es poco o inexistente. Una solución a la falta de conocimiento y el poco entendimiento es el enriquecimiento de texto. El enriquecimiento de texto provee conocimiento e información relacionada con el contenido del texto por medio de recursos externos. Existen diferentes maneras para enriquecer un texto, como obtener conocimiento desde definiciones hasta de bases de conocimiento semánticas. En este trabajo se presenta un método de enriquecimiento de texto a partir de recursos de la Web Semántica. El método básicamente sigue tres etapas. La primer etapa obtiene las partes del texto a enriquecer, identifica Entidades Nombradas contenidas en el mismo así como Entidades Nombradas relacionadas con el tema principal. La segunda etapa obtiene información relacionada acerca de las Entidades Nombradas identificadas. Dicha información se obtiene desde la base de conocimiento DBpedia. El tercer paso es la integración de la información obtenida con el texto original, dicha integración se denomina "texto enriquecido". Para evaluar el desempeño del método de enriquecimiento se realizaron diversos experimentos utilizando los datasets Reuters y 20 Newsgroups. El primer experimento es una evaluación de forma manual en el que se examina la información relacionada mientras que el segundo experimento muestra una comparación entre el texto original y enriquecido. En otro experimento se evaluó la Ganancia de Información (GI) en los datasets originales y enriquecidos. Por último se evaluó el desempeño de tareas de clasificación y clustering de texto utilizando los mismos datasets. El diseño, implementación y evaluación del método de enriquecimiento muestra que éste identifica relaciones de DBpedia, la cual provee información relacionada al texto obteniendo un mayor conocimiento y entendimiento acerca del mismo.
-------------------------------------------------
Abstract:
Nowadays the exponential growth of textual information makes difficult transforming that information in a helpful resource. The information processing is a difficult work because the lack of structure and knowledge about it. A solution to process text without knowledge and understanding is text enrichment. The text enrichment provides knowledge and extra information related with the text using external resources. There are many different ways to enrich a text, from definitions to semantic knowledge bases. This work presents a text enrichment method using Semantic Web resources, which basically follows three stages. The first stage gets text sections to identify Named Entities related with the main topic of the text. The second stage gets related information about the Named Entities previously identified. The information is extracted from the semantic knowledge base DBpedia. The third stage is the integration of the retrieved information with the original text, such integration is known as "enriched text". The evaluation was performed through several experiments, which used the Reuters and 20 Newsgroups datasets. The first experiment evaluates in a manual way the information retrieved by the text enrichment method. In the same way an experiment was performed comparing the original text and the enriched text. Another experiment evaluates the Information Gain (IG) in the original and enriched datasets. Finally, the performance in classification and clustering of text is shown in two different experiments. The design, implementation and evaluation show the text enrichment method.