La nueva y sorprendente IA de Facebook es capaz de transcribir de voz a texto sin haber sido entrenada con transcripciones

24 mayo, 2021 Jose García 0 comentarios

Cuando se entrena un sistema de inteligencia artificial para transcribir de voz a texto es necesario usar muchos pares de audio y texto. Es decir, le damos a la IA el sonido “esto es un gato” y ese mismo sonido transcrito, de forma que sea capaz de asociar cada palabra a un sonido. Eso es perfecto para lenguajes muy extendidos, como el inglés o el español, pero no para los idiomas más minoritarios. Facebook, sin embargo, asegura haber encontrado una solución: wav2vec-U, con “U” de “Unsupervised”.

¿Qué es wav2vez-U? Es una forma de construir un sistema de reconocimiento de voz que no requiere ningún tipo de par transcrito. Simplemente aprende del audio y de texto desemparejado, lo que elimina por completo la necesidad de tener audio transcrito. Para ello, el sistema se vale de una GAN (red generativa antagónica) que, de acuerdo a Facebook, compite de tú a tú con los mejores sistemas supervisados de hace unos años.

En Xataka

He probado a transcribir una entrevista con Transcripción instantánea de Google y ha sido un desastre, pero no todo está perdido

Un mundo de posibilidades para transcribir lenguajes minoritarios

Tal y como detallan Alexei Baevski, Wei-Ning Hsu, Alexis Conneu y Michael Auli en el blog de Facebook AI, su método comienza con el aprendizaje de la estructura del habla a partir de audio sin etiquetar. Usando su modelo anterior, wav2vec 2.0, segmentaron la grabación de voz en unidades de voz que se corresponden con sonidos individuales. Por ejemplo, “cat”, gato en inglés, tiene tres sonidos: “/K/”, “/AE/” y “/T/”.

Para enseñar al sistema a entender las palabras en un audio, usaron una GAN que, como todas las GAN, consiste en un generador y un discriminador. El generador selecciona cada fragmento de audio, predice el fonema correspondiente al sonido en cada idioma e intenta engañar al discriminador. Este es, en sí mismo, otra red neuronal que ha sido entrenada con las salidas de texto del generador y texto real de diferentes fuentes dividido en fonemas. Esto es importante: texto real de diferentes fuentes, no transcripciones del texto que estamos intentando transcribir.

La labor del discriminador es evaluar si las secuencias de fonemas predichas (“/K/”, “/AE/” y “/T/” si hablamos de “cat”) parecen realistas. Las primeras transcripciones del generador son malísimas, pero con tiempo y el feedback de discriminador, se vuelven más y más precisas. Y es todo un logro, ya que el sistema en sí no sabe que “gato” se transcribe como “gato”, sino que entiende que, por los sonidos que componen la palabra, debe escribirse así.

Para poner a prueba el sistema, Facebook usó los tests TIMIT y Librispeech y asegura que “wav2vec-U es tan preciso como el estado del arte de hace solos unos años, sin utilizar ningún dato de entrenamiento etiquetado. Todo sea dicho, estos dos benchmarks miden el rendimiento en habla inglesa, un idioma con mucho corpus de texto hablado y tranascrito. El sistema de Facebook, sin embargo, es más interesante para idiomas minoritarios, como el suajili, el tártaro o el kirguís, cuyo corpus de datos es más reducido.

Es, sin duda, un gran paso adelante en lo que a transcribir voz se refiere. Ahora tocará ver cómo lo implementa Facebook, si es que llega a hacerlo. Por otro lado, la compañía de Zuckerberg ha publicado el código necesario para construir este sistema de reconocimiento de voz. Puede encontrarse en Github y cualquier persona puede acceder a él para trastear y probarlo.

Más información | Facebook AI

–
La noticia

La nueva y sorprendente IA de Facebook es capaz de transcribir de voz a texto sin haber sido entrenada con transcripciones

fue publicada originalmente en

Xataka

por
Jose García

.

Deja un comentario Cancelar respuesta

#Coronavirus: los concesionarios y talleres Jeep que ya reabrieron

7 mayo, 2020 zerofershu 0

FCA Argentina da cuenta de la reapertura de los primeros concesionarios y talleres luego de que se flexibilizara la cuarentena por coronavirus en algunas zonas del país. Los salones de ventas y talleres que volvieron a operar corresponden a las provincias de Corrientes, Entre Ríos, Salta, y Tandil en la provincia de Buenos Aires.

Los salones que volvieron a atender son:
Cabowe S.A., de Tandil
Dallas Motors S.A., de Corrientes
Grand Car S.A., Concordia, Entre Ríos
Rolcar S.A., Salta

La reapertura se realiza adoptando el protocolo FCA de Regreso de Actividades de Concesionarios, para garantizar la protección de sus clientes y empleados y que fue diseñado en línea con todas las recomendaciones y pautas de la Organización Mundial de la Salud (OMS).

Cabe destacar que la totalidad de concesionarios de la red continúan trabajando de forma virtual a través de diferentes herramientas y redes sociales. Y que MOPAR, continúa ofreciendo una atención excepcional de emergencia mecánica en diferentes talleres oficiales a lo largo de todo el país para asegurar el normal funcionamiento de las unidades que se encuentran autorizadas a circular -ambulancias, patrulleros, bomberos, vehículos de médicos y enfermeros.

Por otro lado es importante destacar que se extenderá la vigencia y/o el kilometraje Por otro lado es importante destacar que se extenderá la vigencia y/o el kilometraje de garantía y servicio obligatorio, a quienes tenían que realizarlo durante el período de la cuarentena, extendiendo las mismas al tiempo que dure la medida.

Pasado ese período, se deberá coordinar un nuevo turno con el concesionario Oficial de preferencia para realizar los servicios que correspondan, asegurando así el funcionamiento óptimo de la unidad y la continuidad de la garantía del mismo.

coronavirus COVID-19 Empresas FCA Ferreyra Fiat General Internet Otros