"No Language Left Behind": la nueva IA de Meta capaz de traducir 200 idiomas diferentes para llevar el contenido a cualquier lengua

Meta AI, la división de Inteligencia Artificial de la compañía, ha dado a dado a conocer NLLB-200, "No Language Left Behind", un modelo que catalogan como "único", pues es capaz de traducir 200 idiomas diferentes con calidad de primer nivel, algo validado con evaluaciones en cada uno de ellos.

De acuerdo con la compañía, este desarrollo no solo ayudará a potenciar el desarrollo de las IAs, sino que se aplicará de forma activa para mejorar las traducciones tanto en Facebook, Instagram y hasta los artículos de Wikipedia, además de que junto a otras inteligencias menos potentes, abrirán su código con la intención de ayudar a otros equipos de investigación a mejorar sus herramientas y aprovechar el trabajo de Meta.

La división de IA de Meta señala que hasta ahora hay cientos de idiomas que no cuentan con herramientas de traducción de calidad, lo que impide a miles de millones de personas acceder a contenido digital o participar en conversaciones y comunidades online en sus lenguas maternas o idiomas de su preferencia, como en el caso de quienes hablan alguno de los idiomas de África o Asia.

El beneficio de este modelo de traducción

Meta detalla que "No Language Left Behind" es una IA que puede traducir muchos de los idiomas que anteriormente no se admitían correctamente o no estaban soportados en las herramientas de traducción disponibles actualmente, generando resultados de baja calidad. Esto permite a NLLB-200 aceptar por ejemplo, 55 idiomas africanos con "excelente respuesta", siendo hasta 70% superior respecto a otros sistemas recientes.

Además el código del modelo será abierto y se publicarán las herramientas de investigación, para que eventualmente se puedan incluir más idiomas y derivar en tecnologías más inclusivas.

Los avances en NLLB se utilizarán para proporcionar más de 25,000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y otras plataformas, para que cualquiera pueda entender en su propio idioma con resultados precios, pero también para detectar contenido dañino e información errónea, proteger la integridad en temporada de elecciones y hasta frenar casos de explotación sexual y trata de personas en línea.

Otra posible aplicación es para los sistemas que utilizan los editores de Wikipedia, facilitando que más personas tengan acceso al contenido en internet, que puedan hacer contribuciones y compartan información en todos los idiomas.

La diferencia de contenido en sueco contra el disponible en lingala

En este último apartado Meta menciona que se asociaron con Wikimedia Foundation, así como con otros proyectos de conocimiento libre, para ayudar a mejorar sus sistemas de traducción, llevando los artículos a más de 20 idiomas de bajos recursos, es decir aquellos que no contaban con amplios conjuntos de datos para entrenar sistemas de IA, incluidos 10 que no estaban soportados en ninguna herramienta en la plataforma.

Retos y complicaciones

El gran problema es que al igual que el resto de sistemas de traducción automática, los modelos necesitan entrenar con datos, pero al no existir grandes volúmenes de datos entre algunos idiomas, los modelos de traducción intentan solucionarlo recopilando datos de internet, lo que significa resultados de baja calidad por que el texto de origen es distinto en cada idioma, con problemas en la forma de escribir, siendo incoherentes, con falta de tildes u otros signos diacríticos.

Otro detalle importante es que se debe optimizar un solo modelo para funcionar en cientos de idiomas sin comprometer su rendimiento o calidad, algo que normalmente se ve perjudicado en la medida en que se agregan más idiomas.

errores difíciles de detectar, pues al basarse en redes neuronales para la generación de textos, pueden generar alucinaciones (es decir, afirmar con seguridad algo como verdadero aunque no lo sea), premisas erróneas y hasta contenido no seguro, pues hay menos puntos de referencia y conjuntos de datos en idiomas de bajos recursos, lo que dificulta probar y mejorarlos.

Optimizando el entrenamiento de la IA

Por otro lado, Meta detalla que la ventaja de usar un sistema de traducción multilingüe es que permite que idiomas similares compartan datos durante su entrenamiento, mejorando así su calidad de traducción en idiomas de bajos recursos si se les empareja con alguno parecido con altos recursos. También se pueden realizar experimentos de una forma más fácil que si fuera un modelo para cada idioma.

Esto también derivó en algunos problemas, principalmente en los idiomas de bajos recursos, por lo que se necesitó implementar una serie de metodologías de aprendizaje para evitar que el sistema se enviciara con la falta de contenido, mantuviera su nivel de calidad y mejorara su rendimiento general.

Para entrenar a NLLB-200 con 54,000 millones de parámetros, Meta utilizó su supercomputadora de IA recién construida, Research SuperCluster, que se encuentra entre las más rápidas del mundo.

Filtros adicionales y usos potenciales en el metaverso

Para evaluar y mejorar el modelo NLLB-200, se desarrolló FLORES-200, un conjunto de datos de evaluación que permite a los equipos de investigación calificar el rendimiento en 40,000 direcciones lingüísticas diferentes.

Además el sistema se puede usar para analizar modelos de traducción en otros casos, como folletos de salud, películas, libros y contenido online en países o regiones con idiomas de bajos recursos.

El abordar 200 idiomas también implicó administrar los riesgos a generar contenido tóxico, para lo que se generaron listas de toxicidad en todas las lenguas admitidas, con la intención de detectar y filtrar groserías, así como contenido potencialmente ofensivo, y Meta señala que está trabajando de forma responsable con un equipo interdisciplinario compuesto por lingüistas, sociólogos y especialistas en ética con la intención de aprender más sobre los idiomas que se tienen en cuenta.

Por último la división de IA señala que NLLB no solo servirá para preservar un idioma tal y como fue creado para comunicarse, sino que también será útil para otras tareas, como la creación de asistentes que funcionen en algunos idiomas, generación de subtítulos precisos y en el caso del metaverso, para crear tecnologías que funcionen en cientos y miles de idiomas para "democratizar el acceso" a nuevas experiencias envolventes en mundos virtuales, sin que se vean comprometidas por la barrera del lenguaje.

El beneficio de este modelo de traducción

Retos y complicaciones

Optimizando el entrenamiento de la IA

Filtros adicionales y usos potenciales en el metaverso

RECIBE "", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios