Tesis "Caracterización de enfermedades en Español mediante word-embeddings"
Sustentante: Fher Francisco Torres Paz
Director: Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas
Sinodales: Dr. José Luis González Compeán, Cinvestav Unidad Tamaulipas; Dr. Iván López Arévalo, Cinvestav Unidad Tamaulipas; Dr. Edwin Javier Aldaba Bobadilla, Conacyt - Cinvestav Unidad Tamaulipas.
Resumen:
Las unidades médicas (hospitales, clínicas, centros de salud, etc.) registran datos de los pacientes que reciben en notas clínicas. En ellas se registran datos mediante texto escrito en lenguaje natural. Estas notas son muy importantes para apoyar la toma de decisiones en aspectos como remitir al paciente a determinada área, suministrar determinado medicamento, asignar tratamiento, etc. Dicho apoyo es posible a través de modelos matemáticos que representen la relación entre el texto de la nota clínica y la condición de un paciente (enfermedad). No obstante, las notas clínicas no son fáciles de procesar debido a que contienen texto escrito en lenguaje natural. Ya que los modelos matemáticos típicamente están definidos en espacios métricos (e.g. espacio euclideo), modelar un problema basado en texto requiere una transformación de dicho texto a un espacio numérico en el cual se conserven relaciones intrínsecas entre palabras o n-gramas del texto. Estas relaciones están definidas en términos de una métrica o medida de similitud.
Una manera de abordar este mapeo es mediante el enfoque de word-embeddings, estos modelos han demostrado ser apropiados en representar adecuadamente textos en Inglés, pero, según la revisión realizada en el estado del arte, sólo existe un trabajo reportado para idioma español aplicado a artículos relacionados a medicina, no a notas clínicas.
En este proyecto de tesis se plantea la obtención de un modelo a partir de documentos médicos que permita la categorización de notas clínicas en español. Este modelo se obtiene con el enfoque de word-embeddings. Se plantea utilizar el enfoque de word-embeddings para ser alimentado por documentos médicos. Con los modelos de word-embeddings generados es posible la categorización de notas clínicas, de tal forma que sea posible apoyar a la toma de decisiones asociadas a la derivación subsecuente del paciente a otras áreas y su posible diagnóstico. Se aborda un caso de estudio real con información suministrada por entidades de salud pública.