La nueva tecnología de reconocimiento de voz de Microsoft puede traducir su voz natural en otro idioma [video]

Hay una pequeña batalla de comando de voz en este momento en el espacio móvil, con el asistente digital de Siri de Apple y la búsqueda de voz de Google Usando ir a la luz unos contra otros por los afectos de los usuarios. Ambos vienen con su propio conjunto de pros y contras y solo mejorarán a medida que avanzamos hacia el futuro, pero parece que los equipos de investigación y desarrollo de Microsoft han estado trabajando en algo de voz basada en sus propias escenas que podrían cambiar la forma Los humanos interactúan entre ellos.

Aunque Siri es mucho más poderoso que la búsqueda de voz de Google en la plataforma iOS, ambos generalmente funcionan de la misma manera capturando comandos audibles del usuario antes de publicar y procesar ese comando en un servidor de fondo antes de escupir el resultado Volver al usuario y actuar en la solicitud. Microsoft ha publicado un video con una presentación de Rick Rashid que describe las mejoras que la compañía ha realizado en el campo de las interfaces de usuario naturales utilizando el habla humana.

Los sistemas basados ​​en computadora que entienden el habla humana no es una invención nueva. Hemos visto muchos lanzamientos a lo largo de los años que muestran un progreso significativo en este campo, con Siri y Google Voice Search como un par de ejemplos más recientes de cómo esta tecnología se puede aplicar en el mundo real. Sin embargo, Microsoft ha estado intentando en silencio tomar las cosas algunos pasos adicionalmente mediante la construcción de un sistema en torno a las tecnologías que no solo pueden reconocer el habla humana, sino que también lo traducir en texto de un idioma extranjero y luego repetir las palabras en ese idioma usando una voz sintetizada generada para sonar como el altavoz.

La demostración en el escenario con el director de investigación de Microsoft muestra la tecnología en acción al reconocer sus palabras en inglés habladas, convirtiéndolas en chino en la pantalla proyectada y luego anunciando audiblemente la misma oración en mandarín. Todo eso es lo suficientemente alucinante, pero luego las cosas se toman un poco además cuando te das cuenta de que Rashid y sus colegas han alimentado el sistema con más de una hora de sus propios datos de voz para permitir que el sistema repita la oración en mandarín usando su ¡propia voz!

La tecnología no es mejor y todavía comete errores, pero es realmente asombroso darse cuenta de que esto es posible. El futuro de la interacción humana está absolutamente en el horizonte.

(a través de TechnetBlog)

Puede seguirnos en Twitter, agregarnos a su círculo en Google+ o Me gusta nuestra página de Facebook para mantenerse actualizado sobre todo lo actual de Microsoft, Google, Apple y la web.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post