El proyecto ‘TeresIA’ es una iniciativa coordinada por el Consejo Superior de Investigaciones CientÃficas (CSIC) cuyo objetivo es la creación de un metabuscador de acceso a terminologÃas en español de alcance panhispánico aplicando herramientas novedosas de inteligencia artificial. Su principal aplicación será la de facilitar las traducciones y redacciones de textos.
El proyecto, que ha sido presentado este lunes, 11 de diciembre de 2023, en Bruselas, está financiado con con 1,4 millones de euros por la SecretarÃa de Estado de Digitalización e Inteligencia Artificial del Ministerio de Transformación Digital.
La concesión de estos fondos se enmarca, concretamente, como parte de la Estrategia Nacional de Inteligencia Artificial (ENIA), recogida en el componente 16 del Plan de Recuperación, Transformación y Resiliencia. El proyecto está enmarcado, además, en PERTE de la Nueva EconomÃa de la Lengua, un Proyecto Estratégico que se plantea como una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional en áreas como la inteligencia artificial, la traducción, el aprendizaje, la divulgación cultural, la producción audiovisual, la investigación y la ciencia.
Para ello, cuenta con un presupuesto de 1.100 millones de euros de inversión pública, con el objetivo de movilizar otros 1.000 millones de inversión privada.
¿Qué es TeresIA?
TeresIA’ es un punto de encuentro (metabuscador) para las terminologÃas en español –con perspectiva panhispánica- como respuesta a:
- La dispersión de las terminologÃas ya existentes de los ámbitos especializados.
- La necesidad de disponer de terminologÃas validadas y de calidad en español.
Nace con la vocación de convertirse en una herramienta de gran utilidad para traductores e intérpretes del y al español y permitirá crear un metabuscador para terminologÃas en español –con vocabulario de todo el espectro panhispánico– como respuesta a la dispersión de las terminologÃas procedentes de ámbitos especializados (jurÃdico, médico, y otros).
También pondrá a disposición de organismos e instituciones un portal de tecnologÃas de inteligencia artificial que permitirán validar nuevas terminologÃas que se irán incorporando al metabuscador y garantizar su interoperabilidad.
Además, TeresIA creará un corpus de literatura cientÃfica en español; diseñará una metodologÃa de extracción de información aplicando técnicas de inteligencia artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.
El proyecto se configura como un portal de tecnologÃas de Inteligencia Artificial a disposición de organismos e instituciones con la finalidad de:
- Generar, validar y sancionar nuevas terminologÃas (que se incorporarán también al metabuscador).
- Garantizar la interoperabilidad de recursos existentes.
- Garantizar la visibilidad de los recursos generados.
¿Por qué es importante TeresIA?
Identificar términos de una especialidad implica determinar la forma de una palabra para un significado concreto en un campo cientÃfico. Sin términos asentados o validados no existe no existe un vocabulario fiable, armonizado o normalizado para la disciplina cientÃfica. Solo mediante ese vocabulario normalizado que es la terminologÃa en una lengua se pueden:
- Organizar grandes volúmenes de texto existentes en las bases de datos y sistemas de información.
- Indizar automáticamente documentos pues las técnicas que lo permiten necesitan de terminologÃas validadas.
- Visibilizar con ello la producción cientÃfica generada en español, al poderse describir adecuadamente los ingentes volúmenes de información cientÃfica y volcarlos a la red en formato de web de datos.
- Realizar búsquedas semánticas de documentos relacionados por el tema, tanto en el mismo idioma -utilizando terminologÃa en español-, como en otros –utilizando terminologÃas multilingües conectadas con técnicas de la web de datos. Las búsquedas eficientes de información cientÃfica dependen de la existencia de terminologÃas en los distintos idiomas.
- Servir de base a la traducción automática y a la humana, aportando eficiencia y garantizando precisión en las equivalencias que se hacen entre los términos y conceptos de un idioma a otro.
- Incorporar correctamente el lenguaje de cada disciplina cientÃfica a los modelos de lenguaje, que aprenderán a hablar mejor de ciencia en español.
- Favorecer una enseñanza rigurosa del español técnico.
- Favorecer el uso adecuado del lenguaje cientÃfico en la comunicación y divulgación de la ciencia.
¿En qué consiste TeresIA?
‘TeresIA’ es un proyecto de nueva generación en el ámbito de la terminologÃa, que reúne las siguientes caracterÃsticas:
- Es una infraestructura digital interoperable de terminologÃa en español completa, validada y actualizada.
- Está basada en modelos de lenguaje y aprendizaje profundo y en el trabajo cualitativo de especialistas en distintos ámbitos.
- Combina el intelecto de los humanos y la potencia de las máquinas.
- Está desarrollada según principios de la Ciencia Abierta, diseñada con perspectiva panhispánica y con aplicaciones previstas que permiten prever un alto impacto en algunas comunidades profesionales como las de traducción, aprendizaje del español, difusión, descubribilidad y visibilidad de los contenidos cientÃficos en español, participación en infraestructuras digitales e interconexión con recursos cientÃficos multilingües, entre otros.
- Nace con vocación de apertura del proyecto a un ámbito transnacional a medida que crezca y se consolide.
- Se asienta en los valores del multilingüismo en la comunicación cientÃfica.
Un proyecto interdisciplinar
‘TeresIA’ es un proyecto ambicioso que requiere del trabajo interdisciplinar y de la colaboración interinstitucional. Esta propuesta ha sido desarrollada por un consorcio del que forman parte:
- La Plataforma Temática Interdisciplinar ES CIENCIA, Consejo Superior de Investigaciones CientÃficas (CSIC), que es la institución coordinadora del proyecto.
- La Dirección General de Traducción de la Comisión Europea (DGT).
- El Instituto Cervantes (IC).
- La Asociación Española de TerminologÃa (AETER).
- El Ontology Engineering Group (OEG),
- La Universidad Politécnica de Madrid (UPM).
- El Barcelona Supercomputing Center (BSC).
- La Real Academia de IngenierÃa (RAI).
La idea primigenia de TeresIA surgió hace más de quince años. El nombre del proyecto quiere reconocer el destacado trabajo de Teresa Cabré en la definición y planteamiento de esta iniciativa.
La colaboración interinstitucional, los procesos innovadores introducidos en el proyecto, la visión polÃtica para apoyarlo y la oportunidad de los fondos europeos NextGenerationEU del Plan de Recuperación, han hecho que, finalmente, pueda ejecutarse.
Más información
El pasado 9 de enero de 2024 el programa 'A golpe de Bit' de Radie Exterior de España (RNE), dedico parta de su tiempo a descubrir y explicar este proyecto con la participación de Elea Giménez Toledo, investigadora del CSIC, coordinadora de la plataforma interdisciplinar Esciencia sobre el español como lengua de comunicación cientÃfica e investigadora responsable del proyecto TeresIA, y a Cristina Gallach, comisionada especial para el PERTE de la Nueva EconomÃa de la Lengua,
Se puede acceder al podcast del programa en el siguiente enlace.
El pasado 20 de enero de 2024, el programa 'Un idioma sin fronteras' de RNE entrevistó a Elea Giménez, cientÃfica titular del CSIC que está al frente del Grupo de Investigación sobre el Libro Académico, del proyecto de investigación CartografÃa de la Edición Académica Iberoamericana, del Comité CientÃfico de la Infraestructura Europea sobre Comunicación CientÃfica en Abierto y de TERESIA, el metabuscador que nos facilitará el acceso a la terminologÃa cientÃfica en español.
Se puede acceder al podcast del programa en el siguiente enlace.