La gran cantidad de registros de salud electrónicos existentes se puede aprovechar para mejorar la eficiencia y la precisión de los profesionales médicos. Los sistemas de ayuda al diagnóstico o los detectores preventivos de riesgo para la salud son posibles hoy en día gracias a la disponibilidad de grandes repositorios de datos y de potentes técnicas de aprendizaje automático. Nuestro objetivo es explorar enfoques que permitan la extracción de patrones de evolución del paciente a partir de historias clínicas escritas en español, catalán o inglés. Los patrones obtenidos podrían ser útiles para el desarrollo de asistentes de diagnóstico o políticas de prevención. Para lograr los objetivos descritos anteriormente, nos centraremos en el estudio de diferentes aspectos: – Extracción de información médica de historias clínicas. Nos centramos en: Reconocimiento de entidades médicas (diagnósticos, procedimientos, signos/síntomas, medicamentos, parte_de_cuerpo, etc.), codificación de entidades médicas usando diferentes codificaciones (CIE10, CIAP2, Snomed, ATC) y extracción de relaciones (p.e., ocurre entre un diagnóstico y una parte_de_cuerpo). Exploraremos arquitecturas de joint deep learning y emsemble deep learning, así como los efectos de aplicar word embeddings médico, y de combinar ML semisupervisado con deep learning para lograr modelos efectivos a partir de conjuntos pequeños de entrenamiento. – Detección de negación y especulación. No todas las entidades médicas reconocidas en texto tienen la misma certeza: algunas son especulativas y otras están negadas. Por lo tanto, la detección de estos casos es un paso crucial para realizar una extracción de información precisa sobre el texto médico. Se explorarán diferentes enfoques. Por un lado, con respecto al modelado del problema: detectar relaciones o clasificar entidades reconocidas en neg, pos, espec. Por otro lado, aunque se aplicarán métodos de aprendizaje profundo de vanguardia, también se considerarán las soluciones clásicas de aprendizaje automático. – Enriquecimiento y búsqueda de términos aproximados en ontologías médicas. Para permitir la representación de conceptos médicos en cualquiera de los sistemas de codificación relevantes para el proyecto y para español y catalán, exploraremos técnicas para integrar y enriquecer los recursos y ontologías médicas existentes (metamap, snomed, UMLS, BioPortal, …) . También desarrollaremos técnicas eficientes basadas en similitudes para la búsqueda de las entradas ontologicas más similares a un término detectado en texto médico (ya sea escrito con gramática estándar o con gramática no estándar). – Inferencia de patrones para la predicción de riesgos en pacientes multimórbidos. Dichos tipos de pacientes son altamente prevalentes en contextos clínicos como la atención primaria, pero hay poca evidencia sobre cómo tratar con dichos pacientes. En colaboración con IDIAP JGol, nuestro objetivo es inferir automáticamente patrones mediante los cuales los médicos puedan predecir el riesgo de nuevas enfermedades para un paciente multimórbido dada su historia clínica. Nos centraremos en el estudio de diferentes técnicas de minería de datos que exploten la información médica extraida de historiales de pacientes multimórbidos.