Tesis "Clasificación Multiclase con Aprendizaje Especializado en Parejas de Clases Orientado al BI-RADS para Ultrasonografía"
Sustentante: Arturo Rodríguez Cristerna
Directores: Dr. Wagner Coelho de Albuquerque Pereira, Dr. Wilfrido Gómez Flores
Sinodales: Dr. Edgar Tello Leal, Dr. Hiram Galeana Zapién, Dr. Iván López Arévalo, Dr. Arturo Díaz Pérez
Resumen:
Para abordar problemas de clasificación complejos se ha propuesto unir las respuestas de múltiples clasificadores en lugar de usar la salida de un solo clasificador. Las técnicas que abordan el problema multiclase con múltiples clasificadores se dividen en descomposición binaria y ensamble de clasificadores. En la mayoría de los enfoques que emplean múltiples clasificadores se utiliza el mismo algoritmo de clasificación base, el cual es entrenado con el mismo espacio de características para discriminar a todas las clases. Sin embargo, distinguir parejas de clases utilizando sus propios espacios de características podría mejorar el desempeño de clasificación en problemas donde las distintas clases presentan un alto grado de traslape.
El diagnóstico de cáncer de mama es un ejemplo notable en donde diferentes etapas de malignidad pueden describirse con distintas características físicas de los tumores. En este problema, la clasificación de tumores se realiza en categorías BI-RADS, de modo que se puede tratar como un problema de clasificación multiclase. En esta tesis se aborda el problema de clasificación multiclase mediante la unión de las respuestas de múltiples clasificadores que utilizan conjuntos de características especializados en parejas de clases, tomando como caso de estudio el problema de clasificación BI-RADS de lesiones de mama en ultrasonografía.
Para abordar el problema de investigación, primero se realizó un estudio de separabilidad de clases BI-RADS en enfoques de descomposición binaria, en el que se encontró que las características cuantitativas tienen un diferente nivel discriminante entre diferentes parejas de clases, por lo que es más conveniente describir cada pareja de clases con su propio conjunto de características. También se encontró que las características son más discriminantes en la descomposición uno-contra-uno (OVO), por lo que dicha descomposición binaria fue utilizada como parte de dos clasificadores multiclase propuestos en esta tesis. Adicionalmente, en este estudio se determinaron los límites (inferior y superior) del desempeño de clasificación de Bayes.
Los clasificadores propuestos en esta tesis fueron denominados S-LDA y B-LDA. El clasificador S-LDA se basa en la descomposición binaria OVO, selección de características para cada pareja de clases basada en una metaheurística, y análisis linear discriminante (LDA) como clasificador base. El clasificador B-LDA está basado en un ensamble de clasificadores multiclase OVO con características específicas para separar cada pareja de clases y clasificadores base LDA. Además, en el clasificador B-LDA se utilizan los mecanismos de generación de diversidad bagging y subespacio aleatorio para obtener una baja correlación entre los errores de los clasificadores base.
Los clasificadores propuestos fueron comparados con el único enfoque de clasificación BI-RADS presente en la literatura, denominado Shen_2007, y con un clasificador basado en la descomposición binaria OVO con clasificadores base LDA entrenados con el mismo conjunto de características, denominado OVO-LDA. Los resultados indicaron que los clasificadores propuestos S-LDA y B-LDA fueron los únicos dentro los límites de desempeño de clasificación. Además, S-LDA y B-LDA obtuvieron un significativo mejor desempeño de clasificación en términos del coeficiente de correlación de Matthews, con una media de 0.449 y 0.494, respectivamente, en comparación con Shen_2007 y OVO-LDA, los cuales obtuvieron una media de 0.340 y 0.430, respectivamente. También se encontró que B-LDA obtuvo un desempeño de clasificación significativamente mejor que sus contrapartes. Los resultados obtenidos también indicaron que el ensamble de clasificadores B-LDA es más adecuado para el problema de clasificación BI-RADS en comparación con el clasificador S-LDA. Estos resultados sugieren que el uso de diferentes características para separar cada pareja de clases mejora el desempeño de clasificación BI-RADS, en comparación con utilizar el mismo conjunto de características para separar todas las parejas de clases.