La técnica principal que se utiliza durante la comunicación cara a cara es el habla, pero esto implica mucho más que simplemente escuchar las palabras que dicen las personas.
Leer los labios de alguien también puede ser un aspecto crucial de esto, ya que puede ayudarlo a analizar el significado de sus palabras en situaciones en las que es posible que no pueda escucharlas con tanta claridad, y eso es algo que Meta parece estar tomando en cuenta cuando se trata de su IA.
Muchos estudios han revelado que sería mucho más difícil entender lo que sea que alguien esté tratando de decir si no puedes ver la forma en que se mueve la boca. Meta ha desarrollado un nuevo marco llamado AV-HuBERTque tendrá en cuenta ambos factores debido al hecho de que este es el tipo de cosas que potencialmente podrían terminar mejorando enormemente su potencial de reconocimiento de voz, aunque debe decirse que esto es solo una prueba en este momento.
Lo que Meta básicamente está tratando de hacer es ver si se puede ganar algo al permitir que la IA lea los labios, escuche grabaciones de audio y cosas por el estilo. Anteriormente, el software de reconocimiento de voz y voz funcionaba solo con audio. Monitorear el movimiento de los labios podría agregar otra forma de información que muy bien podría aumentar la capacidad de la IA para comprender a los seres humanos y contextualizar sus palabras, permitiendo así que dicha IA realice tareas de una manera mucho más eficiente después de haber sido completamente entrenada.
Habiendo dicho todo eso y ahora fuera del camino, es importante tener en cuenta que los resultados que se han obtenido para AV-HuBERT parecen ser bastante positivos con todas las cosas que se han considerado y tenido en cuenta. Meta afirma que su marco ha logrado una comprensión de las transcripciones un 75% más precisa que incluso los mejores marcos audiovisuales que se están utilizando actualmente, y lo que es más, según las afirmaciones de Meta, solo necesitaban el 10% de los datos para obtener estos resultados superiores. .
La mayoría de las situaciones en las que podría querer comunicarse con su IA serían bastante ruidosas, como cuando está en la calle o si está en una fiesta en la que todos hablan y se reproduce música a todo volumen. Este marco podría comprenderlo en estas situaciones, lo que lo hace superar la IA existente por un gran margen, y el hecho de que necesita muchos menos datos puede ayudar a que sea útil para idiomas que no tienen una gran cantidad de grabaciones que se puede introducir en el algoritmo.
Ya ha habido mucha innovación en este sentido. Por ejemplo, DeepMind, que es propiedad de Alphabet, usó miles de horas de contenido de programas de televisión para entrenarse y pudo traducir palabras con un 50% de precisión usando nada más que la lectura de labios. La Universidad de Oxford también ha avanzado un poco en esta área, y es probable que las contribuciones de Meta lleven este tipo de tecnología a un nivel completamente nuevo. Será emocionante ver a dónde van las cosas desde aquí.
Sin usted, esta web no existiria. Gracias por visitarme, espero que le haya gustado y vuelva. Gracias ☺️
Fecha actualizacion el 2022-01-13. Fecha publicacion el 2022-01-13. Categoria: facebook Autor: Oscar olg Mapa del sitio Fuente: digitalinformationworld