Herramienta de análisis del español de AWS y la RAE, mejor proyecto de Inteligencia Artificial
El ambicioso y galardonado proyecto desarrollado por AWS y la RAE competía con el proyecto de anticipación del comportamiento en el terreno de Sacyr Innovación y el proyecto AIS de Neoris y Santillana España, que resultaron finalistas.
Amazon Web Services (AWS) y la Real Academia Española (RAE) presentaron el pasado 26 de mayo de 2022 la herramienta de análisis del español que han creado conjuntamente. Este sistema, desarrollado a partir de las tecnologías nativas de la nube de AWS y con el asesoramiento de la RAE, servirá como barómetro de distintos parámetros. En su fase inicial permite identificar extranjerismos, medir la riqueza léxica de un escrito y detectar errores lingüísticos.
La colaboración entre la AWS y RAE se enmarca en el proyecto Lengua Española e Inteligencia Artificial (LEIA). El objetivo principal del proyecto LEIA, del que Amazon Web Services forma parte, es enseñar a las máquinas a hablar un correcto español y cuidar el uso de la lengua en los medios tecnológicos, evitando así que se pierda la unidad que permite a más de 585 millones de hablantes comunicarse en nuestra lengua sin dificultades. En su primera versión beta, la herramienta contiene 8.745.563 documentos de España y todos los países hispanohablantes de América. Por el momento, las fuentes se centran en el español digital espontáneo actual, especialmente el propio de textos informales obtenidos de redes sociales, foros o plataformas de venta en línea, pero también se ha incluido una representación de textos periodísticos para poder observar las diferencias entre un tipo de lenguaje y otro. Actualmente, la herramienta está dividida en tres grandes bloques. En primer lugar, incluye el estudio de extranjerismos, detectando su proporción en los textos para que su incorporación sea ordenada y unitaria. En segundo lugar, el análisis de la riqueza léxica, midiendo la diversidad de palabras a través del sistema MTLD (del inglés measure of textual lexical diversity ‘medida de la diversidad léxica textual’).
Por último, un radar de errores lingüísticos que los identifica y clasifica como ortográficos, gramaticales, léxicos, de estilo y tipográficos. El desarrollo permitirá, entre otras acciones futuras, el análisis de la claridad del lenguaje administrativo, la comparación de calidad del español por épocas o la detección de errores comunes en asistentes de voz y otros dispositivos de IA. Esta herramienta sigue una arquitectura «sin servidor» y orientada a eventos. Su proceso de análisis de fuentes de datos tiene 3 fases. En una primera fase, los documentos de las fuentes de datos se indexan mediante AWS Lambda, un servicio en la nube que permite ejecutar código sin aprovisionar ni administrar servidores, en Amazon OpenSearch Service, un sistema altamente escalable para proporcionar acceso rápido, análisis y búsqueda a volúmenes grandes de datos. En una segunda fase, atendiendo a distintos criterios como el cálculo de estadísticas generales respecto a la variabilidad, frecuencia y riqueza del texto, así como el cálculo de errores mediante algoritmos de procesamiento de lenguaje natural, se obtienen métricas que caracterizan los textos de las distintas fuentes de datos.
La tercera de las fases de esta herramienta es la indexación de los resultados del análisis para su visualización, de nuevo, mediante AWS Lambda.