Una IA capaz de expresarse con burlas y hasta con coqueteos. Esa es la capacidad de la voz generada con Inteligencia artificial de Sonantic, que ha logrado imitar aspectos más complejos del habla humana para hacerse más convincente.
De acuerdo con la compañía, la clave es que esta IA incorpora sonidos que no son directamente del habla, pues está entrenada para recrear detalles como pequeñas exhalaciones (donde se puede burlar o reír) que le dan a su voz una mayor autenticidad.
Aquí puedes escuchar la voz de la IA de Sonantic
De acuerdo con el Cofundador de Sonantic, John Flynn, el objetivo de su investigación era ver si podían modelar emociones sutiles, que no fueran tan fáciles de capturar. En el video, se puede apreciar cómo la IA puede extender la duración de algunas palabras, reírse y agregar exhalaciones para que sea más amigable con quien lo está escuchando (pareciendo por momentos la voz de una persona).
Ajustando cada detalle de la expresión
Según la directora ejecutiva, Zeena Qureshi, su IA es como si se comparara "un Photoshop para la voz”, donde la interfaz permite a los usuarios escribir el discurso que debe sintetizar, y ajustar el estado de ánimo, además de seleccionar un catálogo de voces, que en su mayoría están hechas copiando las de actores humanos reales.
Entre las opciones de configuración se puede ajustar ira, miedo, tristeza, felicidad, alegría y con su última actualización también coquetería, timidez, burlas y hasta la capacidad de jactarse. Incluso cuenta con un modo director que tiene mayor control de la voz, pudiendo modificar el tono, la intensidad y vocalizaciones que no se pronuncian, como risas y respiraciones.
La intención de esta tecnología es utilizar la referencia real del audio que sale directamente de sus modelos de aprendizaje, y no de productos que ya están pulidos y listos para demostraciones públicas. Sin embargo, el discurso sintetizado para el video, según Flynn, requirió muy poco ajuste manual, que se realizó a través de un ciclo de representaciones diferentes, hasta que dieron con el mejor resultado.
El parecido con la voz de Scarlett Johansson es a propósito
La voz de la IA del video está inspirada en la voz de Samantha (interpretada por Scarlett Johansson) de la película Her de Spike Jonze de 2013, donde el protagonista se enamora de su asistente virtual. Sonantic también señala que son conscientes de los dilemas éticos que plantea esta tecnología y que son cuidadosos de cómo y dónde usan sus voces de IA.
Qureshi dice que hasta ahora se han enfocado en el apartado del entretenimiento, aunque esto no significa que no se pueda usar para generar voces con fines engañosos, aunque también se puede usar para otro tipo de entornos, por ejemplo para las voces de los chatbots con los que las personas ya interactúan, para hacer la comunicación más natural y orgánica.