Tesis "Método de remuestreo basado en la matriz de correlación para datos multivariantes con instancias atípicas"
Sustentante: Jesús Carlos Carmona Frausto.
Director: Dr. Iván López Arévalo, investigador Cinvestav Tamaulipas.
Sinodales: Dr. Nicandro Cruz Ramírez, Centro de Investigación en Inteligencia Artificial, Universidad Veracruzana; Dr. Almicar Meneses Viveros, Departamento de Computación, Cinvestav; Dr. Wilfrido Gómez Flores, CINVESTAV Unidad Tamaulipas; Dr. Gregorio Toscano Pulido, CINVESTAV Unidad Tamaulipas.
Resumen:
Tareas de análisis de datos como clasificación, agrupación y regresión requieren tratar adecuadamente los datos para obtener resultados más precisos. Para llevar a cabo ésto se requiere el uso de estimadores estadísticos. Una estimación es una aproximación de una medida estadística obtenida desde un subconjunto que pertenece a un conjunto de datos completo. Estimaciones clásicas como la media, la mediana y la varianza, entre otras, son sesgadas por instancias atípicas, incluso por una sola, y con frecuencia no proporcionan buenos ajustes al conjunto de datos real. Existen diferentes maneras de aproximar el valor de un estimador estadístico; una de ellas es mediante técnicas remuestreo. El remuestreo es una técnica que consiste en extraer muestras desde el conjunto de datos original.
Las técnicas de remuestreo existentes en la literatura para estimar la precisión de un estimador obtienen medidas muy sesgadas cuando el conjunto de datos, desde el que muestrean, contiene instancias atípicas por lo que la estimación realizada por la técnica de remuestreo puede conducir a malas conclusiones en la tarea final en la que se utilicen. Así que antes de hacer uso del remuestreo para aproximar el valor de un estimador estadístico se debe asegurar que los datos estén libres de instancias atípicas o que la técnica aplicada es resistente al sesgo provocado por éstas. Este trabajo presenta un método de remuestreo capaz de lidiar con elementos atípicos en los conjuntos de datos multivariantes y alcanzar una buena aproximación de los estimadores estadísticos que se están calculando. El método propuesto se comparó con técnicas de remuestreo del estado del arte en conjunto con técnicas de detección de elementos atípicos. Los resultados obtenidos demuestran la viabilidad del método propuesto.