Amazon explica como Alexa aprende nuevos idiomas

amazon

El asistente de Alexa de Amazon recientemente aprendió a hablar nuevos idiomas a nivel mundial: hindi español de EEUU.

Y portugués de Brasil. Los datos sintéticos ayudaron sustancialmente en esto, explicó el gerente senior de ciencia de investigación de Amazon, Janet Slifka, en una publicación en el blog de Alexa esta mañana, pero no fue la solución final. Requerían nuevas herramientas de arranque.

Una de las herramientas en cuestión fue desarrollada por el grupo Alexa AI de Modelado Aplicado y Ciencia de Datos de Amazon, y utiliza una técnica llamada inducción gramatical para analizar las llamadas expresiones doradas (es decir, ejemplos canónicos de solicitudes de clientes propuestas por los equipos de características de Alexa) y producir Una serie de expresiones que pueden generar oraciones similares. El otro, remuestreo guiado, crea oraciones novedosas al combinar palabras y frases a partir de ejemplos en los datos disponibles, con énfasis en optimizar el volumen y la distribución de los tipos de oraciones.

Slifka señala que cuando una versión de Alexa en un nuevo idioma está en desarrollo activo, los equipos compilan datos de capacitación para los sistemas que detectan las intenciones de los clientes. Una parte proviene de los idiomas existentes traducidos por los modelos de IA, mientras que el resto generalmente proviene de multitud de trabajadores y de Cleo, una aplicación de voz de Alexa que les da a los clientes respuestas a las indicaciones.

Un sistema de gramáticas aprovecha una técnica conocida como fusión de modelo bayesiano para generar una gramática representativa, o un conjunto de reglas de reescritura para variar oraciones de plantilla básicas mediante inserciones, supresiones y sustituciones de palabras. Normalmente, el proceso puede llevar a un lingüista computacional al día con 50 enunciados de oro, pero la herramienta acorta el proceso a segundos al identificar patrones en listas de enunciados y usarlos para producir más de 100 reglas candidatas para miles de plantillas. Por ejemplo, si dos palabras (por ejemplo, "pop" y "rock") aparecen consistentemente en posiciones sintácticas similares, pero la redacción a su alrededor varía, podría sugerir una regla candidata de que "pop" y "rock" son intercambiables en algunos contextos.

De manera útil, el sistema de gramáticas puede determinar automáticamente qué reglas representan la mayor variación en los datos de la muestra (sin generalizar en exceso), que se convierten en variables elegibles en futuras iteraciones del proceso. Como beneficio adicional, puede aprovechar la ventaja de los catálogos existentes de Alexa de términos o frases que ocurren con frecuencia. Por ejemplo, si los enunciados dorados estaban relacionados con el deporte y determinaba que las palabras "Celtics" y "Lakers" eran intercambiables, concluiría que también eran intercambiables con "Warriors", "Spurs", "Knicks" y todos los otros nombres de equipos de la NBA conocidos por Alexa.

En cuanto a la herramienta de muestreo guiado, utiliza de manera similar los catálogos y ejemplos existentes para aumentar los datos de entrenamiento de comprensión del lenguaje natural. Específicamente, genera muestras de entrenamiento adicionales al intercambiar elementos en un enunciado, por ejemplo, "jugar Justin Bieber" y "¿puedes tocar una canción de Camila Cabello?", Usando lo que se conoce como el índice Jaccard para evaluar la similitud en pares entre los contenidos . (El índice Jaccard mide la superposición entre dos conjuntos, en este caso, el contenido en diferentes tipos de solicitudes). El resultado es un sistema que produce conjuntos de entrenamiento proporcionalmente más grandes para patrones de datos de enunciados más complejos, que según Slifka ayuda a los modelos de inteligencia artificial a lograr mayores actuación.

Fecha actualización el 2021-10-11. Fecha publicación el 2019-10-11. Categoría: amazon Autor: Oscar olg Mapa del sitio Fuente: venturebeat Version movil