Seminario "Análisis de Textos Cortos en la Web"
El análisis de información existente en Internet, específicamente en las redes sociales, es una tarea que ha recibido una amplia atención, debido a las implicaciones económicas que están involucradas. Los analistas intentan extraer una amplia variedad de información de estos textos con la finalidad de entender las necesidades de información de los usuarios de Internet, así como las intenciones, actitudes, mercado potencial de productos, etc. Dado que se trata de textos escritos en lenguaje natural y regularmente sin ninguna marca semántica, entonces se necesita hacer uso de técnicas de PLN.
Uno de los problemas más complicados es que regularmente los textos de las redes sociales tienen una longitud pequeña (tweets, SMS, chats, noticias, FAQs, etc), en consecuencia, la frecuencia de las palabras es baja y por tanto, los métodos estadísticos de PLN regularmente fallan al intentar inferir cierto comportamiento relacionado con algún fenómeno del lenguaje. En este sentido, es necesario hacer un tipo de tratamiento especial a los textos cortos para poder entender mejor su significado, lo cual hace que esta línea de trabajo sea de gran complejidad.
En esta plática se abordan diversas técnicas expuestas en artículos seleccionados por su importancia en el tratamiento estadístico de textos cortos. Dichos artículos han sido evaluados e incluidos en una edición especial de la revista Language Resources and Evaluation, de la cual, el ponente participó como editor invitado. Adicionalmente, se discuten trabajos que son fundamentales en las técnicas de enriquecimiento terminológico, basados en la tesis doctoral del ponente: “On Clustering and Evaluation of Narrow Domain Short-Text Corpora”.
Impartido por el Dr. David Eduardo Pinto Avendaño, de la Facultad de Ciencias de la Computación, Benemérita Universidad Autónoma de Puebla.