Microsoft patenta un dispositivo AI con camara de ojo de pez

Microsoft a menudo ha resaltado la importancia de la IA en el pasado reciente, incluso prediciendo que sus diversas aplicaciones contribuirán con $ 5 billones al crecimiento del PIB mundial en los próximos años.

Muchas de las asociaciones de la compañía en los últimos meses también se han centrado en el mismo campo.

Ahora, ha surgido una nueva patente de Microsoft publicada este mes , que muestra un sistema de inteligencia artificial con una sola cámara de ojo de pez y múltiples micrófonos.

Las cámaras ojo de pez tienen lentes especiales que les permiten monitorear una vista completa de 360 grados. Aunque la tecnología no es nueva de ninguna manera, Microsoftplanea combinarlo con dispositivos de captura ambiental de una manera diferente. Tales sistemas de captura ambiental generalmente tienen múltiples cámaras para expandir su campo de visión. Esto requiere diseños complicados y también resulta en la necesidad de hardware adicional para fusionar múltiples flujos de datos audiovisuales.

Como tal, Microsoftha propuesto una cámara de ojo de pez hacia arriba para ser utilizada con estos dispositivos, junto con un conjunto de micrófonos. Esto resolvería las dificultades asociadas con la captura de objetos en movimiento o con el enfoque en el movimiento de un solo objeto entre múltiples objetivos. Se han descrito muchas técnicas con respecto a la colocación del hardware. Por ejemplo, la mayoría de los micrófonos se pueden colocar en un patrón circular o hexagonal, con otro lugar en el punto central en el mismo plano. Del mismo modo, es deseable que la cámara de ojo de pez se ubique cerca del conjunto de micrófonos, así como de una superficie de piso o mesa, para capturar datos de manera óptima.

Un modelo de fusión también puede funcionar como parte de este sistema, utilizando algoritmos de aprendizaje profundo para obtener una mejor intuición con respecto a los datos de audio y visuales que recopila. Como ejemplo, se puede implementar una red neuronal recurrente de memoria corta a largo plazo (LSTM). Por su naturaleza inherente, este tipo de red puede almacenar información contextual e histórica, haciendo que cualquier análisis realizado sea mucho más útil para futuros casos de uso también.

Según el modelo descrito, se observa que los usos del dispositivo podrían ampliarse aún más, como reconocer el habla de un hablante humano identificado. Esto esencialmente significa que la tecnología también puede incorporarse con asistentes digitales como Cortana. Microsoftseñala que la configuración descrita puede permitir a los asistentes digitales grabar información más rica con respecto a su entorno, al tiempo que reconoce y actúa simultáneamente sobre las señales de sonido y video de mayor calidad recibidas de los usuarios con relativa facilidad. La cámara de ojo de pez y la matriz de micrófonos servirían como parte integral de esta aplicación. Los datos recopilados a partir de estos podrían aprovechar los modelos LSTM antes mencionados para llevar a cabo un análisis o fusión adicionales en un servidor de nube AI, después de almacenarlos en forma comprimida localmente.

Fecha actualización el 2021-08-05. Fecha publicación el 2019-08-05. Categoría: microsoft Autor: Oscar olg Mapa del sitio Fuente: neowin Version movil