Doblaje automatizado de Amazon utiliza IA para copiar videos a idiomas extranjeros

Doblaje automatizado de Amazon utiliza IA para copiar videos a idiomas extranjeros

Con la popularidad de tantas plataformas de transmisión, el contenido se está volviendo muy diverso y diferente

Cada vez más personas ven programas en idiomas extranjeros como "Money Heist" y "Dark", ya que son buenos programas y están disponibles en todo el mundo. Sin embargo, a algunos de nosotros nos gusta ver nuestros programas en un idioma que entendemos. A veces los subtítulos no son suficientes. Dicho esto, copiar programas extranjeros a otro idioma puede llevar mucho tiempo y ser costoso para las productoras. Esta es la razón principal por la que muchos programas no son doblados en idiomas extranjeros. Bueno, los investigadores de Amazon pueden tener una solución a este problema.

En un artículo publicado en el servidor de preimpresión Arxiv.org, los investigadores de Amazon teorizaron y probaron una nueva tecnología de "voz a voz". Utiliza AI para convertir el discurso original en un discurso traducido y refinar el discurso traducido para que parezca más humano . Este es solo un primer paso hacia el desarrollo de una forma más fácil y mucho más barata de copiar programas y películas.

Cómo funciona

Esta tecnología de "voz a voz" es mucho más complicada de lo que parece. Traducir un discurso original a un discurso extranjero usando computadoras es una tarea agitada. No está traduciendo un idioma a otro solo desde el recurso de audio, pero hay varios pasos involucrados.

El proceso de doblaje automatizado esencialmente incluye 3 pasos. Primero, el discurso original debe convertirse en un formato de texto. El segundo paso consiste en traducir el texto al idioma deseado. Finalmente, el texto traducido genera el nuevo discurso.

Ahora, hay complicaciones de desarrollar el nuevo discurso a partir del texto traducido a voz. El discurso traducido debe coincidir con la velocidad y la emoción del discurso original. También debe llevar los sonidos de fondo y eliminar la reverberación.

Para hacer que este complicado proceso funcione, los investigadores de Amazon confirmaron que su tecnología de voz a voz ha sido entrenada en más de 150 millones de pares de frases inglés-italiano para determinar la velocidad de un segmento de voz del discurso traducido para que coincida con la velocidad de discurso original Este paso garantiza que las pausas y las pausas en el discurso traducido coincidan con el discurso original.

Un modelo en la fase de texto a voz se ha entrenado en 47 horas de grabaciones de voz. Este modelo genera una secuencia de contexto a partir del texto que se introduce en un codificador de voz previamente entrenado, que convierte la secuencia en una forma de onda de voz.

Esta tecnología también puede extraer sonidos de fondo del audio original y ponerlo en el audio traducido para que sea más similar al audio original. Por último, se aplica un paso separado llamado el paso de reverberación para agregar la reverberación del audio original al traducido.

Fecha actualización el 2021-02-09. Fecha publicación el 2020-02-09. Categoría: amazon Autor: Oscar olg Mapa del sitio Fuente: beebom Version movil