Tesis "Estrategias de Selección de Instancias mediante Optimización Global y Multiobjetivo para Problemas de Aprendizaje Supervisado"
Sustentante: Samuel Omar Tovías Alanís
Directores: Dr. Wilfrido Gómez Flores, Cinvestav Unidad Tamaulipas; Dr. Gregorio Toscano Pulido, Cinvestav Unidad Tamaulipas.
Sinodales: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwyn Javier Aldana Bobadilla, Cinvestav Unidad Tamaulipas; Dr. José Juan García Hernández, Cinvestav Unidad Tamaulipas; Dr. Ricardo Landa Becerra, Cinvestav Unidad Tamaulipas; Dr. Wilfrido Gómez Flores, Cinvestav Unidad Tamaulipas; Dr. Gregorio Toscano Pulido, Cinvestav Unidad Tamaulipas; Dr. Marco Aurelio Nuño Maganda, Universidad Politécnica de Victoria.
Resumen:
Hoy en día, los datos pueden generarse muy fácilmente, de tal forma que las empresas producen rápidamente grandes cantidades de datos. Sin embargo, el uso de un gran volumen de datos suele ser un obstáculo para los algoritmos de aprendizaje supervisado, ya que la complejidad en tiempo de estos métodos depende del número de operaciones que deben realizarse sobre las instancias, por lo que el tiempo de entrenamiento se incrementa considerablemente. La selección de instancias (IS, por sus siglas en inglés) es un método de eficacia probada para reducir el conjunto de entrenamiento, ya que elige patrones representativos del conjunto de datos original. Estos métodos se dividen en wrapper y filter. El primero utiliza un criterio de selección basado en el rendimiento de un clasificador, mientras que el segundo se centra en preservar la información estadística. Por otra parte, aunque en la literatura se han propuesto varias técnicas de IS basadas en algoritmos evolutivos (EAs, por sus siglas en inglés), los subconjuntos obtenidos por los EAs de tipo wrapper se ajustan a las características del clasificador, disminuyendo su rendimiento en el entrenamiento de otros algoritmos de aprendizaje supervisado. Además, estos métodos emplean una representación binaria que codifica explícitamente los patrones de entrenamiento. Por consiguiente, el espacio de búsqueda crece exponencialmente en función del número de instancias. Debido a ello, esta investigación propone estrategias IS de tipo filter basadas en EAs que maximizan la preservación de la función de densidad de probabilidad (PDF, por sus siglas en inglés) y la tasa de reducción de instancias mediante optimización global y multi-objetivo. Además, este trabajo también propone una nueva representación de las soluciones de EAs basada en árboles de enlace, la cual puede reducir considerablemente el tamaño del espacio de búsqueda. Asimismo, se definen cuatro índices de rendimiento y dos tipos de evaluaciones de la exactitud de clasificación para medir la calidad de los subconjuntos seleccionados y su re-utilización en diferentes clasificadores. Por último, las estrategias propuestas se compararon con un algoritmo de tipo wrapper basado en EAs y cuatro técnicas clásicas de IS. Los resultados indican que los subconjuntos seleccionados por los métodos propuestos pueden ser utilizados en la etapa de entrenamiento de diferentes tipos de clasificadores sin disminuir la capacidad de generalización de los modelos obtenidos. Además, las instancias seleccionadas alcanzan altas tasas de reducción y preservación de la PDF, además de resultados competitivos en términos de la exactitud de clasificación.