La empresa tecnológica Meta, del millonario Mark Zuckerberg anunció que ha desarrollado una Inteligencia Artificial llamada Voicebox que es capaz de replicar voces humanas y realizar tareas de generación del lenguaje.
En el anuncio, la compañía asegura que la herramienta generadora de voz es capaz de hablar seis idiomas y que su producto es «un punto de inflexión en el desarrollo de IA generativas para el habla», dado que este modelo puede realizar tareas como editar, crear muestras y estilizar, e incluso aquellas para las que no fue entrenado específicamente mediante aprendizaje contextualizado.
¿Qué es lo que hace Voicebox?
Voicebox puede producir clips de audio de alta calidad a partir de una muestra de dos segundos, y editar audio pregrabado para recuperar en él la voz entrecortada por un ruido ambiente, como el ladrido de un perro.
Para el entrenamiento Voicebox, los investigadores de Meta han empleado más de 50.000 horas de grabaciones de audio y transcripciones procedentes de audiolibros de dominio gratuito en español, portugués, inglés, francés, alemán y polaco.
La compañía abundó que con este nuevo modelo muchas personas invidentes podrían leer mensajes de texto con asistentes que usarían las voces de sus amigos, o permitiría a los usuarios escuchar su propia voz pronunciando otros idiomas. La firma avanzaba además que esta tecnología permitía a los creadores editar pistas de audio para sus vídeos o crear asistentes virtuales con voces más naturales.
Voicebox es el primer paso para una herramienta que pueda dotar de voz natural a los asistentes virtuales y a los personajes no jugables del metaverso, pero también para ayudar a las personas con discapacidad auditiva los mensajes que reciben.
Sin embargo, la multinacional tecnológica ha explicado que no lanzará públicamente este modelo, señalando que tiene riesgos potenciales de ser usada para fines malintencionados.
Solo hay que tomar una de sus características para darse cuenta de lo peligrosa que puede ser: con solo dos segundos de audio, genera cualquier diálogo imitando a la perfección ese tono de voz.