Tesis "Método de Clustering Basado en la Optimización de Índices de Validez"
Sustentante: Melesio Crespo Sánchez
Directores: Dr. Iván López Arévalo, Dr. Edwyn Javier Aldana Bobadilla
Sinodales: Dr. Ricardo Landa Becerra, Dr. Víctor Jesús Sosa Sosa
Resumen:
El clustering es una tarea importante en análisis de datos que nos permite encontrar aquellos elementos en un dataset no etiquetado que comparten propiedades en común, comúnmente llamados clusters. El proceso de encontrar dichos clusters es conocido como método de clustering. Dicho proceso es guiado típicamente por un criterio de similitud basado en una métrica o medida de distancia. La bondad de los resultados de clustering son evaluados típicamente mediante medidas de calidad conocidas como índices de validez. Un índice de validez mide las propiedades deseadas de los clusters. En este trabajo proponemos un método de clustering que es guiado directamente mediante un índice de validez. Ya que este enfoque implica un amplio espacio de soluciones, hacemos uso de una meta-heurística apropiada que explorar dicho espacio eficientemente. Nuestra propuesta de clustering es invariante a un índice de validez en particular, esto resulta en un método generalizado de clustering que puede encontrar la mejor partición relativa a un amplio espectro de índices. A diferencia de métodos de clustering tradicionales, nuestra propuesta no carece de capacidad explicativa, ya que provee un modelo matemático para cada subconjunto en la partición, que nos permite asignar nuevos elementos al subconjunto más apropiado sin realizar nuevamente el proceso de búsqueda.