Tesis "Método para la transformación de datos mixtos en tareas de aprendizaje automático"
Sustentante: Gerardo Saúl Gausin Valle.
Directores: Dr. Edwyn Javier Aldana Bobadilla y Dr. Iván López Arévalo, investigadores Cinvestav Tamaulipas.
Sinodales: Dr. José Luis González Compeán, Cinvestav Unidad Tamaulipas;Dr. Hiram Galeana Zapién, Cinvestav Unidad Tamaulipas.
Resumen:
Los métodos de aprendizaje automático más comunes resuelven problemas de clasificación y agrupamiento basados en conjuntos de datos en los que las características o propiedades del problema pertenecen a un espacio numérico. Sin embargo, muchos problemas a menudo incluyen datos donde coexisten características numéricas, nominales y ordinales. Dado que los datos nominales representan etiquetas codificadas por valores discretos sin un ordenamiento significativo, varias tareas de preprocesamiento son obligatorias. Si se ignoran estas tareas, podemos obtener resultados no deseados cuando se realiza métodos de aprendizaje automático. Los métodos como la codificación one-hot encoding son comúnmente usados para tratar este problema. El principal inconveniente de estos enfoque es la "maldición de la dimensionalidad" debido a una gran cantidad de atributos adicionales que se pueden introducir (dependiendo de los valores nominales distintos). En este trabajo proponemos un enfoque que codifica cada instancia en el conjunto de datos (con atributos numéricos y categóricos) como un código de caracteres numéricos. Este código induce un espacio discreto en el que se pueden realizar agrupación o clasificación, mejorando la efectividad lograda mediante la codificación tradicional. Esto se logra sin aumentar el número de atributos o características de las instancias en el conjunto de datos.