Tesis "Modelo de lenguaje para la detección de misoginia en el discurso escrito en español"
Sustentante: Yuridia Guadalupe Montelongo Padilla
Director: Dr. Edwin Javier Aldaba Bobadilla, Conacyt - Cinvestav Unidad Tamaulipas
Sinodales: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwin Javier Aldaba Bobadilla, Conacyt - Cinvestav Unidad Tamaulipas; Dr. Alejandro Molina Villegas, Centro de Investigación en Ciencias de Información Geoespacial, A.C..
Resumen:
Por lo general, el término de discurso de odio puede definirse como cualquier tipo de comunicación en el habla, la escritura o el comportamiento, que ataca o utiliza un lenguaje peyorativo o discriminatorio con referencia a una persona o un grupo en función de quiénes son. Este trabajo está especialmente enfocado a las formas escritas de discurso misógino que pueden estar presentes en diferentes foros de Internet, redes sociales, grupos de discusión, entre otros. La creación de mecanismos efectivos para detectar la misoginia en línea representa automáticamente importantes desafíos científicos y tecnológicos. La complejidad de reconocer la misoginia a través de modelos informáticos radica en que es un tipo de violencia sutil, no siempre es explícitamente agresiva, e incluso puede esconderse detrás de palabras aparentemente halagadoras, chistes, parodias y otras expresiones. Actualmente, incluso es difícil tener una cifra exacta de la tasa de comentarios misóginos en línea porque, a diferencia de otros tipos de violencia -como la violencia física-, estos eventos no son registrados por ningún sistema estadístico. Proponemos un modelo computacional que es capaz de reconocer elementos misóginos en la escritura del habla. Este modelo va más allá de los métodos de extracción de características que se centran en la presencia o ausencia de lo que para varias personas podrían ser palabras ofensivas. En cambio, nuestro modelo se basa en enfoques de última generación que nos permiten extraer los elementos de la oración asociados con su contexto y semántica. A partir de esto, obtenemos un modelo predictivo que es capaz de cuantificar el grado de misoginia de una oración dada. Para evaluar la efectividad de nuestro modelo, utilizamos un conjunto de datos del mundo real en español que muestra resultados prometedores. Esto contribuye al desarrollo de modelos para la detección automática de textos misóginos en español latinoamericano y contribuye al diseño de metodologías de aumento de datos desde la cantidad de datos necesarios para los modelos de aprendizaje profundo es considerable.