Conoce el proyecto ‘TeresIA’ para la traducción de terminología en español mediante Inteligencia Artificial

15.12.2023
la cara de una mujer sobre un fondo de trama de líneas conectándose generadas en 3D

El proyecto ‘TeresIA’ es una iniciativa coordinada por el Consejo Superior de Investigaciones Científicas (CSIC) cuyo objetivo es la creación de un metabuscador de acceso a terminologías en español de alcance panhispánico aplicando herramientas novedosas de inteligencia artificial. Su principal aplicación será la de facilitar las traducciones y redacciones de textos.

El proyecto, que ha sido presentado este lunes, 11 de diciembre de 2023, en Bruselas, está financiado con con 1,4 millones de euros por la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Transformación Digital.

La concesión de estos fondos se enmarca, concretamente, como parte de la Estrategia Nacional de Inteligencia Artificial (ENIA), recogida en el componente 16 del Plan de Recuperación, Transformación y Resiliencia. El proyecto está enmarcado, además, en PERTE de la Nueva Economía de la Lengua, un Proyecto Estratégico que se plantea como una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional en áreas como la inteligencia artificial, la traducción, el aprendizaje, la divulgación cultural, la producción audiovisual, la investigación y la ciencia.

Para ello, cuenta con un presupuesto de 1.100 millones de euros de inversión pública, con el objetivo de movilizar otros 1.000 millones de inversión privada.

¿Qué es TeresIA?

TeresIA’ es un punto de encuentro (metabuscador) para las terminologías en español –con perspectiva panhispánica- como respuesta a:

  • La dispersión de las terminologías ya existentes de los ámbitos especializados.
  • La necesidad de disponer de terminologías validadas y de calidad en español.

Nace con la vocación de convertirse en una herramienta de gran utilidad para traductores e intérpretes del y al español y permitirá crear un metabuscador para terminologías en español –con vocabulario de todo el espectro panhispánico– como respuesta a la dispersión de las terminologías procedentes de ámbitos especializados (jurídico, médico, y otros).

También pondrá a disposición de organismos e instituciones un portal de tecnologías de inteligencia artificial que permitirán validar nuevas terminologías que se irán incorporando al metabuscador y garantizar su interoperabilidad.

Además, TeresIA creará un corpus de literatura científica en español; diseñará una metodología de extracción de información aplicando técnicas de inteligencia artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.

El proyecto se configura como un portal de tecnologías de Inteligencia Artificial a disposición de organismos e instituciones con la finalidad de:

  • Generar, validar y sancionar nuevas terminologías (que se incorporarán también al metabuscador).
  • Garantizar la interoperabilidad de recursos existentes.
  • Garantizar la visibilidad de los recursos generados.

¿Por qué es importante TeresIA?

Identificar términos de una especialidad implica determinar la forma de una palabra para un significado concreto en un campo científico. Sin términos asentados o validados no existe no existe un vocabulario fiable, armonizado o normalizado para la disciplina científica. Solo mediante ese vocabulario normalizado que es la terminología en una lengua se pueden:

  • Organizar grandes volúmenes de texto existentes en las bases de datos y sistemas de información.
  • Indizar automáticamente documentos pues las técnicas que lo permiten necesitan de terminologías validadas.
  • Visibilizar con ello la producción científica generada en español, al poderse describir adecuadamente los ingentes volúmenes de información científica y volcarlos a la red en formato de web de datos.
  • Realizar búsquedas semánticas de documentos relacionados por el tema, tanto en el mismo idioma -utilizando terminología en español-, como en otros –utilizando terminologías multilingües conectadas con técnicas de la web de datos. Las búsquedas eficientes de información científica dependen de la existencia de terminologías en los distintos idiomas.
  • Servir de base a la traducción automática y a la humana, aportando eficiencia y garantizando precisión en las equivalencias que se hacen entre los términos y conceptos de un idioma a otro.
  • Incorporar correctamente el lenguaje de cada disciplina científica a los modelos de lenguaje, que aprenderán a hablar mejor de ciencia en español.
  • Favorecer una enseñanza rigurosa del español técnico.
  • Favorecer el uso adecuado del lenguaje científico en la comunicación y divulgación de la ciencia.

¿En qué consiste TeresIA?

‘TeresIA’ es un proyecto de nueva generación en el ámbito de la terminología, que reúne las siguientes características:

  • Es una infraestructura digital interoperable de terminología en español completa, validada y actualizada.
  • Está basada en modelos de lenguaje y aprendizaje profundo y en el trabajo cualitativo de especialistas en distintos ámbitos.
  • Combina el intelecto de los humanos y la potencia de las máquinas.
  • Está desarrollada según principios de la Ciencia Abierta, diseñada con perspectiva panhispánica y con aplicaciones previstas que permiten prever un alto impacto en algunas comunidades profesionales como las de traducción, aprendizaje del español, difusión, descubribilidad y visibilidad de los contenidos científicos en español, participación en infraestructuras digitales e interconexión con recursos científicos multilingües, entre otros.
  • Nace con vocación de apertura del proyecto a un ámbito transnacional a medida que crezca y se consolide.
  • Se asienta en los valores del multilingüismo en la comunicación científica.

Un proyecto interdisciplinar

‘TeresIA’ es un proyecto ambicioso que requiere del trabajo interdisciplinar y de la colaboración interinstitucional. Esta propuesta ha sido desarrollada por un consorcio del que forman parte:

La idea primigenia de TeresIA surgió hace más de quince años. El nombre del proyecto quiere reconocer el destacado trabajo de Teresa Cabré en la definición y planteamiento de esta iniciativa.

La colaboración interinstitucional, los procesos innovadores introducidos en el proyecto, la visión política para apoyarlo y la oportunidad de los fondos europeos NextGenerationEU del Plan de Recuperación, han hecho que, finalmente, pueda ejecutarse.

Más información

El pasado 9 de enero de 2024 el programa 'A golpe de Bit' de Radie Exterior de España (RNE), dedico parta de su tiempo a descubrir y explicar este proyecto con la participación de Elea Giménez Toledo, investigadora del CSIC, coordinadora de la plataforma interdisciplinar Esciencia sobre el español como lengua de comunicación científica e investigadora responsable del proyecto TeresIA, y a Cristina Gallach, comisionada especial para el PERTE de la Nueva Economía de la Lengua,

Se puede acceder al podcast del programa en el siguiente enlace.

El pasado 20 de enero de 2024, el programa 'Un idioma sin fronteras' de RNE entrevistó a Elea Giménez, científica titular del CSIC que está al frente del Grupo de Investigación sobre el Libro Académico, del proyecto de investigación Cartografía de la Edición Académica Iberoamericana, del Comité Científico de la Infraestructura Europea sobre Comunicación Científica en Abierto y de TERESIA, el metabuscador que nos facilitará el acceso a la terminología científica en español.

Se puede acceder al podcast del programa en el siguiente enlace.