Esta IA aprende e imita tu voz en 5 segundos

¿Alguna vez te has preguntado cuánto tiempo le tomaría a una IA aprender y replicar tu voz? Bueno, la respuesta a esta pregunta puede ser una sorpresa ya que una nueva IA logra imitar tu voz después de escucharla por solo 5 segundos.

Sí, lo leiste bien. Los investigadores de Google han desarrollado un sistema basado en redes neuronales para texto a voz (TTS) que logra replicar la voz de los hablantes, incluidos los que nunca se escucharon durante la capacitación de la IA, por supuesto.

El sistema propuesto consta de tres componentes principales: un codificador de altavoz , un sintetizador y un codificador de voz . El codificador de altavoz está entrenado en un conjunto de datos que contiene discursos de más de mil personas sin transcripciones. El sintetizador genera un "espectrograma mel" a partir del texto de entrada.

Se implementa una red de vocoder basada en WaveNet de DeepMind en la red para convertir los espectrogramas de mel generados por el sintetizador en muestras de forma de onda

Los investigadores probaron este sistema para determinar la naturalidad del discurso sintetizado generado. Para esto, crearon un conjunto de evaluación que contiene 100 frases que nunca antes se usaron en el conjunto de capacitación y que se probaron con dos conjuntos diferentes de oradores visibles y no visibles. El modelo propuesto obtuvo una puntuación media de 4.0 (MOS) con niveles de confianza del 95%.

Vale la pena señalar que el audio generado por su modelo de IA para altavoces invisibles sonaba tan natural como el audio generado para los altavoces vistos: los altavoces cuya voz se ha utilizado durante la fase de entrenamiento.

Fecha actualización el 2021-11-19. Fecha publicación el 2019-11-19. Categoría: IA Autor: Oscar olg Mapa del sitio Fuente: beebom Version movil