Tesis "Ensamble Auto-Adaptable de Métodos de Clustering"
Sustentante: José Marco Fuentes Escamilla
Director: Dr. Edwin Javier Aldaba Bobadilla, Conacyt - Cinvestav Unidad Tamaulipas
Sinodales: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwin Javier Aldaba Bobadilla, Conacyt - Cinvestav Unidad Tamaulipas; Dr. Alejandro Molina Villegas, Centro de Investigación en Ciencias de Información Geoespacial, A.C..
Resumen:
Un ensamble de clustering tiene como objetivo integrar diferentes particiones obtenidas por métodos de agrupamiento (clustering) que pueden ser independientes y heterogéneos o presentar alguna sincronía y ser estructuralmente homogéneos en el sentido del enfoque en el que realizan la búsqueda de la partición. El objetivo del ensamble es encontrar una partición cuya calidad supere a las obtenidas por los métodos del ensamble de manera individual. Dicha calidad puede ser definida en términos de una métrica o criterio de calidad. Nuestra propuesta incluye los siguientes elementos: 1) un conjunto de enfoques de clustering heterogéneos que brindan una diversidad de soluciones que se unifican a través de 2) un conjunto de estrategias de consenso y criterios de calidad definidos en términos de índices de validez y 3) un mecanismo de ajuste de hiper-parámetros que permite encontrar iterativamente los parámetros de los miembros del ensamble que mejoran las soluciones encontradas. En este trabajo mostramos que nuestro enfoque logra mejorar sustancialmente las soluciones de problemas ampliamente usados para propósitos de la evaluación del desempeño de métodos de clustering. Finalmente mostramos un caso de estudio en el contexto de Procesamiento de Lenguaje Natural en donde nuestro método logró encontrar grupos de documentos representados como vectores de características.