Seminario "Modelo de Muestreo Multidimensional Basado en la Entropía de Shannon y Algoritmos Genéticos"
Una tarea común en el análisis de datos es encontrar una muestra adecuada cuyas propiedades permitan inferir parámetros de la población. En este sentido, uno de los inconvenientes es cómo determinar el tamaño óptimo de la muestra. Esto usualmente se resuelve recurriendo a métodos basados en los resultados asintóticos del Teorema del Límite Central. La eficiencia de tales métodos es cuestionable ya que dichos métodos están restringidos por diversas consideraciones como: la estrategia de muestreo (simple, estratificado, basado en clusters, etc.), el tamaño de la población o la dimensionalidad del espacio de los datos.
A fin de evitar estas restricciones, se propone un método basado en la información del conjunto de datos en términos de la Entropía de Shannon. Para esto se propone encontrar una muestra óptima de tamaño N, cuya cantidad de información sea lo más cercana posible a la cantidad de información de la población P, y satisfaga ciertos criterios de calidad (desde el punto de vista estadístico). Ya que existen muchas formas de seleccionar una muestra de tamaño N de P, se tiene un problema combinatorio con un espacio de factibilidad que requiere ser explorado con una técnica heurística. Se decidió usar un algoritmo genético denominado Algoritmo Genético Ecléctico (EGA) que ha demostrado resolver eficientemente un amplio acervo de problemas. Planteado el problema de muestreo como un problema de optimización y determinada la heurística para resolverlo se realizó un conjunto de experimentos utilizando datos sintéticos y de problemas reales. Dichos experimentos mostraron una gran efectividad del método permitiendo además inferir múltiples escenarios de aplicación.
Impartido por el Dr. Edwyn Javier Aldana Bobadilla, investigador en Cinvestav Tamaulipas.