Se sientan las bases para el análisis automático de textos clínicos en español
Los textos clínicos son una fuente de información relevante para la práctica médica. Y el análisis de grandes volúmenes de estos textos, utilizando técnicas de Procesamiento del Lenguaje Natural (PLN), se ha convertido en una oportunidad para extraer todo el valor posible a casos clínicos y otros documentos del sector salud.
Sin embargo, el análisis automático de textos necesita de una anotación previa que etiquete lingüísticamente y estructure la información escrita, en este caso, por los profesionales de la salud. Una tarea que se ve dificultada por la terminología, abreviaturas y expresiones alfanuméricas que se utilizan en el lenguaje médico.
Con el objetivo de avanzar hacia una herramienta capaz de analizar este lenguaje de forma automática en español, el equipo de lingüistas computacionales del Instituto de Ingeniería del Conocimiento (IIC) ha trabajado con casos clínicos anonimizados procedentes del Centro Nacional de Investigaciones Oncológicas (CNIO).
Su labor, en concreto, ha consistido en estudiar a fondo los casos del CNIO y anotarlos manualmente para identificar la terminología clínica y tratar los posibles problemas de procesamiento del lenguaje. De esta forma, se puede configurar el etiquetado automático de narrativa clínica con técnicas de PLN mediante el enriquecimiento de las herramientas de análisis estándar en español, pues hasta ahora solo existían herramientas lingüísticas adaptadas al dominio médico en inglés.
El equipo de lingüistas computacionales del IIC ha alcanzado la calidad de anotación exigida por los expertos en narrativa clínica del CNIO. En total, se han anotado más de 300.000 palabras, 64.000 oraciones y 18.000 lemas diferentes, con el objetivo de poner a disposición de la comunidad científica y la industria médica una rigurosa metodología de anotación y sentar las bases de esta nueva herramienta adaptada al dominio médico en nuestro idioma.
Con esta herramienta, se conseguiría una información clínica estructurada que permitiría su inclusión en bases de datos, y a partir de las cuales ya sí sería posible hacer búsquedas avanzadas o detectar relaciones entre enfermedades, síntomas o medicamentos, teniendo en cuenta el background de casos clínicos. Así se facilitaría en un futuro a los profesionales la toma de decisiones basada en el análisis de toda la información conservada en texto.
Este estudio sobre narrativa clínica se enmarca en el Plan Nacional de Impulso de las Tecnologías del Lenguaje, con el apoyo de la Secretaría de Estado para el Avance Digital.