MarIA: la Biblioteca Nacional y el BSC crean un sistema especializado en el idioma español para mejorar las respuestas de las IA en nuestra lengua

28 julio, 2021 Enrique Pérez 0 comentarios

El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España han presentado hoy un nuevo proyecto que combina inteligencia artificial y el estudio de nuestro idioma. Se trata de MarIA, un modelo de IA disponible en abierto que tiene como objetivo mejorar el uso del idioma español por parte de otros sistemas de inteligencia artificial.

El proyecto ha sido entrenado en el superordenador MareNostrum y se han utilizado archivos de datos de la Biblioteca Nacional. Un trabajo para el que se han utilizado fondos del Plan de Tecnologías del Lenguaje y ha sido liderado por la investigadora Marta Villegas, del grupo de minería de textos del BSC-CNS.

En Xataka

«Con MareNostrum 5 podríamos quedar entre los tres supercomputadores más rápidos del mundo, pero no es nuestro objetivo», Mateo Valero, director del BSC

Procesando 59 TB del archivo de la Biblioteca Nacional

Las posibles aplicaciones de MarIA van desde “los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros”, explican los responsables del proyecto. Estamos ante un modelo abierto que puede servir para entrenar a otros sistemas a mejorar su uso del idioma español, básicamente permitiéndoles “acceder” a todo el conocimiento ya procesado por MarIA.

Esto es así porque mientras MarIA sí se ofrece de manera abierta, muchos de los textos y archivos en los que se basa no lo están. No es sino este proyecto una manera de la Biblioteca Nacional de flexibilizar el acceso a sus sistemas para aquellos profesionales o proyectos que busquen ofrecer respuesta en español.

Nace MarIA, un sistema de IA experto en comprender y escribir español. Ha sido entrenado en MareNostrum con datos de la @BNE_biblioteca y ha contado con financiación del Plan-TL @SEDIAgob @carmeartigas @_minecogob y del Future Computing Center 👉🏻 https://t.co/S87I6j3hD7 pic.twitter.com/RH4Q4CsznQ

— BSC-CNS (@BSC_CNS) July 28, 2021

MarIA es un conjunto de redes neuronales entrenadas para comprender la lengua, su léxico y los mecanismos para expresar el significado. Según describen, el modelo logra “trabajar con interdependencias cortas y largas y son capaces de entender, no sólo conceptos abstractos, sino también el contexto de los mismos“.

Para desarrollar este modelo se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional. Se procesaron para eliminar números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas y frases en otros idiomas y se enviaron al superordenador MareNostrum para pasarlo a limpio tras 6.910.000 horas en paralelo de los procesadores. El resultado fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

En Xataka

En Álava quieren crear el centro de referencia europeo en entrenamiento de IA: 13.000 m2, 150 científicos y 18 millones de euros

Según defienden los responsables, este modelo es varias ordenes de magnitud más grande y mejor que los modelos de la lengua española disponibles en la actualidad. Una vez obtenido el archivo se utilizó tecnología basada en Transformer, ya probada con el inglés, para que la IA aprenda a adivinar el contexto de cada palabra. MarIA dispone, en sus dos modelos liberados, de hasta 125 y 355 millones de parámetros.

Tras crear este modelo, el trabajo del equipo de investigación pasa por ampliar la fuente de archivos con textos y archivos adicionales, como las publicaciones científicas del CSIC. Adicionalmente está prevista la creación de un modelo parecido en catalán, gallego, euskera, portugués y español de Hispanoamérica. Habrá que ver qué curioso nombre reciben en cada uno de ellos.

Imagen | Gabriel Sollmann

–
La noticia

MarIA: la Biblioteca Nacional y el BSC crean un sistema especializado en el idioma español para mejorar las respuestas de las IA en nuestra lengua

fue publicada originalmente en

Xataka

por
Enrique Pérez

.

Deja un comentario Cancelar respuesta

#Coronavirus: los concesionarios y talleres Jeep que ya reabrieron

7 mayo, 2020 zerofershu 0

FCA Argentina da cuenta de la reapertura de los primeros concesionarios y talleres luego de que se flexibilizara la cuarentena por coronavirus en algunas zonas del país. Los salones de ventas y talleres que volvieron a operar corresponden a las provincias de Corrientes, Entre Ríos, Salta, y Tandil en la provincia de Buenos Aires.

Los salones que volvieron a atender son:
Cabowe S.A., de Tandil
Dallas Motors S.A., de Corrientes
Grand Car S.A., Concordia, Entre Ríos
Rolcar S.A., Salta

La reapertura se realiza adoptando el protocolo FCA de Regreso de Actividades de Concesionarios, para garantizar la protección de sus clientes y empleados y que fue diseñado en línea con todas las recomendaciones y pautas de la Organización Mundial de la Salud (OMS).

Cabe destacar que la totalidad de concesionarios de la red continúan trabajando de forma virtual a través de diferentes herramientas y redes sociales. Y que MOPAR, continúa ofreciendo una atención excepcional de emergencia mecánica en diferentes talleres oficiales a lo largo de todo el país para asegurar el normal funcionamiento de las unidades que se encuentran autorizadas a circular -ambulancias, patrulleros, bomberos, vehículos de médicos y enfermeros.

Por otro lado es importante destacar que se extenderá la vigencia y/o el kilometraje Por otro lado es importante destacar que se extenderá la vigencia y/o el kilometraje de garantía y servicio obligatorio, a quienes tenían que realizarlo durante el período de la cuarentena, extendiendo las mismas al tiempo que dure la medida.

Pasado ese período, se deberá coordinar un nuevo turno con el concesionario Oficial de preferencia para realizar los servicios que correspondan, asegurando así el funcionamiento óptimo de la unidad y la continuidad de la garantía del mismo.

coronavirus COVID-19 Empresas FCA Ferreyra Fiat General Internet Otros