Reconocimiento de voz: Que es, cómo funciona y programas que existen

Ana González

hace 6 años

La tecnología de reconocimiento de voz es algo con lo que se ha soñado y trabajado durante décadas.

Desde el pitido de R2-D2 en Star Wars hasta la voz incorpórea pero conmovedora de Samantha en Ella, los escritores de ciencia ficción han tenido un papel muy importante en la construcción de expectativas y predicciones sobre cómo podría ser el reconocimiento de voz en nuestro mundo.

Sin embargo, para todos los avances de la tecnología moderna, el control por voz ha sido un asunto bastante poco sofisticado.

Lo que supuestamente apunta a simplificar nuestras vidas, en cambio, históricamente ha sido frustrantemente torpe y nada más que una novedad. Es decir, hasta el momento en el que el big data, el aprendizaje profundo, la inteligencia artificial y el aprendizaje automático empezaron a abrirse camino para mejorar la tecnología.

Analizaremos aquí qué es el reconocimiento de voz, cómo funciona y las principales aplicaciones existentes.

¿Qué es el reconocimiento de voz?

El reconocimiento de voz es la capacidad de una máquina o programa para identificar palabras y frases en lenguaje hablado y convertirlas a un formato legible por máquina.

El software de reconocimiento de voz rudimentario tiene un vocabulario limitado de palabras y frases, y solo puede identificarlas si se hablan con mucha claridad. Un software más sofisticado tiene la capacidad de aceptar el habla natural.

El primer intento registrado en la tecnología de reconocimiento de voz se remonta a 1,000 AD a través del desarrollo de un instrumento que supuestamente podría responder «sí» o «no» a preguntas directas.

Aunque este experimento técnicamente no involucró el procesamiento de voz de ninguna forma, la idea detrás de esto sigue siendo parte de la base de la tecnología de reconocimiento de voz: usar el lenguaje natural como entrada para desencadenar una acción.

Siglos después, los laboratorios Bell trabajaron para desarrollar «Audrey», un sistema capaz de reconocer los números del 1 al 9 pronunciados por una sola voz.

Más tarde, IBM desarrolló un dispositivo que podía reconocer y diferenciar entre 16 palabras habladas.

Estos éxitos provocaron una mayor prevalencia de empresas de tecnología centradas en tecnologías relacionadas con el habla. De hecho, incluso el Departamento de Defensa quería participar en la acción. Lento pero seguro, los desarrolladores avanzaron hacia el objetivo de permitir que las máquinas entiendan y respondan cada vez más a nuestros comandos verbalizados.

La historia de la tecnología de reconocimiento de voz ha sido larga y sinuosa. Sin embargo, los asistentes de voz actuales como Amazon Alexa, Google Voice, Microsoft Cortana y Siri de Apple no se encontrarían donde están sin los primeros pioneros que simplificaron el camino.

Gracias a la integración de nuevas tecnologías, como el procesamiento basado en la nube, así como los proyectos de recopilación de datos en curso, estos sistemas de voz han mejorado continuamente su capacidad de «escuchar» y comprender una mayor variedad de palabras, idiomas y acentos.

¿Cómo funciona?

Rodeado de teléfonos inteligentes, automóviles inteligentes, electrodomésticos inteligentes, asistentes de voz y más, es fácil dar por sentado cómo funciona realmente la tecnología de reconocimiento de voz.

¿Por qué?

Porque la simplicidad de poder hablar con asistentes digitales es engañosa. El reconocimiento de voz es realmente increíblemente complicado, incluso ahora.

Piensa en cómo un niño aprende un idioma.

Desde el primer día, escuchan palabras que se usan a su alrededor. Los padres hablan con sus hijos y, aunque el niño no responde, absorben todo tipo de señales verbales; entonación, inflexión y pronunciación; su cerebro forma patrones y conexiones basadas en cómo sus padres usan el lenguaje.

Aunque parezca que los humanos están programados para escuchar y comprender, en realidad hemos estado entrenando toda nuestra vida para desarrollar esta llamada habilidad natural.

La tecnología de reconocimiento de voz funciona esencialmente de la misma manera. Mientras que los humanos han refinado nuestro proceso, todavía estamos descubriendo las mejores prácticas para las computadoras. Tenemos que entrenarlos de la misma manera que nuestros padres y maestros nos capacitaron. Y esa capacitación involucra mucho pensamiento innovador, mano de obra e investigación.

A partir de mayo de 2017, los algoritmos de inteligencia artificial de Google han alcanzado una tasa de precisión de palabras del 95% para el idioma inglés.

El reconocimiento de voz según el canal de comunicación

El reconocimiento de voz robusto trata con desajustes entre entrenamiento y pruebas. Frente a una amplia gama de condiciones adversas inesperadas, los sistemas deben ser mejorados para hacer frente a las variaciones que provienen del altavoz, el tipo, dirección y posición del micrófono, el canal de transmisión y el entorno acústico.

La variabilidad relacionada con el hablante es uno de los principales factores que influyen en los sistemas de reconocimiento de voz actuales.

Los grupos de edad son algunos ejemplos de variaciones acústicas relacionadas con el hablante. Entre ellos, fenómenos inducidos por el estrés, diferencias de grupos de edad y producciones de habla no nativas, constituyen desafíos reales para el reconocimiento de voz que, desafortunadamente, funcionan razonablemente bien solo para condiciones cuidadosamente seleccionadas.

Los micrófonos actúan como filtros lineales en la señal de voz y deben tener en cuenta los diferentes grados de pendiente espectral
dependiendo de las características del micrófono. Este tipo de distorsión está involucrado con la señal del habla. Como la distancia del micrófono al que habla es a menudo diferente, también se observa variación.

El reconocimiento de voz con manos libres es un problema desafiante para el cual no hay soluciones completamente satisfactorias. El interés en el reconocimiento de voz con manos libres llegó principalmente por el uso del habla por teléfono y en un coche.

En el caso del reconocimiento de voz con manos libres, la distancia y la dirección al micrófono varían. la señal de voz se degrada debido a los ecos y al ruido ambiente y la falta de coincidencia entre el entrenamiento y las pruebas es siempre variable.

El reconocimiento de voz para generar contraseñas

El software de reconocimiento de voz también es utilizado para generar contraseñas.

La voz es inherentemente diferente del teclado porque las personas pueden saber cuál es tu contraseña cuando la dices en voz alta. Y cuando la contraseña es impronunciable, terminas deletreando, lo cual es inseguro y tedioso.

Hay personas que utilizan la solución no tan excelente de asignar una contraseña críptica a algo pronunciable utilizando el administrador de vocabulario de Dragon o la función de Lista de entrada del comando Utter. Ninguno de los métodos es muy seguro, porque el mapeo se encuentra en una utilidad que alguien simplemente puede mirar.

La mejor solución es marcar «Recordar contraseña» en tu navegador y cuando escribas tu nombre de usuario, la contraseña se completará automáticamente. Establece una contraseña maestra en tu navegador para proteger la lista de contraseñas.

Así, puedes configurar tu contraseña de acceso por voz y, al tener la opción de recordar contraseña, no tendrás que volver a decirla cada vez que accedas.

El papel de la biometría en el reconocimiento por voz

A diferencia de la biometría tradicional, como la huella digital, la cara y el iris, la voz es una combinación de biometría fisiológica y conductual. Los aspectos fisiológicos se basan en el tamaño y la forma de la boca, garganta, laringe, cavidad nasal, peso y otros factores de cada persona. Estos dan como resultado nuestro tono y timbre naturales.

Las propiedades de comportamiento son aquellas formadas en base al lenguaje, la educación / influencia y la geografía, lo que resulta en cadencia, inflexión, acento y dialecto del habla variables.

La biometría de voz tiene varias ventajas distintas como método para la autenticación de usuarios en dispositivos móviles, IoT y portátiles. Es muy natural que las personas produzcan para la autenticación móvil, y pueden seguir el éxito del éxito de la biometría de huellas digitales que se integra fácilmente en los teléfonos inteligentes emblemáticos.

La voz también es adecuada como solución de autenticación biométrica en una amplia gama de dispositivos IoT, incluidas tabletas, dispositivos portátiles, PC, sistemas de juegos, televisores inteligentes, incluso teléfonos de línea fija y automóviles.

El reconocimiento de voz ofrece una opción rentable y flexible en comparación con otras modalidades biométricas que pueden verse obstaculizadas por los esfuerzos de integración de hardware, particularmente en dispositivos móviles que requieren sensores de huellas digitales y cámaras de iris NIR.

Debido a su facilidad de integración, el reconocimiento de voz es diferente de otros métodos biométricos en que las muestras de voz se capturan dinámicamente o durante un corto período de tiempo, como unos pocos segundos. El análisis se realiza en un modelo que monitoriza los cambios a lo largo del tiempo, que es similar a otros datos biométricos de comportamiento como la firma dinámica, la marcha y el reconocimiento de pulsaciones de teclas.

El reconocimiento de voz de Google (programas y apps)

A fines de 2017, Google contaba con una tasa de precisión de palabras del 95% para el inglés de los Estados Unidos; el más alto de todos los asistentes de voz actualmente disponibles. Esto se traduce en una tasa de error de palabras del 4.9%, lo que hace que Google sea el primero del grupo en caer por debajo del umbral del 5%.

En lo que algunos llaman un intento de contraatacar en Amazon, Google ha lanzado muchos productos inquietantemente similares a Amazon. Por ejemplo, Google Home recuerda a Echo de Amazon, y Google Home Mini de Amazon Echo Dot.

Más recientemente, Google también anunció algunas asociaciones nuevas y clave con compañías como Lenovo, LG y Sony para lanzar una línea de «pantallas inteligentes» con el Asistente de Google, que una vez más parece «hacerse eco» de la imagen de Echo Show de Amazon.

Hey Google

Hey Google es el ayudante virtual de Google que te permite hacer las cosas más rápido. En lugar de realizar tareas manualmente tocando con el dedo en la pantalla miles de millones de veces, puedes hacer el trabajo utilizando comandos de voz.

Es inteligente y está muy bien integrado con Android. Puedes usarlo para abrir aplicaciones, enviar mensajes, hacer llamadas, reproducir una canción específica, verificar el clima y muchas otras cosas sin tocar la pantalla de tu teléfono.

Instrucciones paso a paso sobre cómo habilitar el Asistente:

Inicia la aplicación Google.
Toca la opción «Más» en la esquina inferior derecha.
Dirígete a Configuración> Asistente de Google .
Mover a la pestaña «Asistente».
Toca la opción «Teléfono» en la parte inferior.
Habilita la opción «Asistente de Google».
Habilita la opción «Hey Google».

Ahora que el Asistente está activado, es hora de probarlo. Puedes hacerlo diciendo «Ok, Google» o «Hey, Google», y luego indicando la acción. Un ejemplo de esto sería: «Ok Google, reproduce un divertido vídeo de gato en YouTube».

Ten en cuenta que tu teléfono debe estar desbloqueado para que esto funcione. Si la pantalla se apaga cuando dices un comando, el Asistente de Google lo escuchará pero te pedirá que desbloquees el teléfono antes de que pueda realizar la tarea solicitada. Es una característica molesta que está ahí por razones de seguridad.

Google Now

Ha habido bastante confusión sobre lo que realmente es Google Now. Es fácil describirlo como la versión de Google de Siri, pero en realidad es mucho más ambicioso que eso.

Claro, puedes usarlo para establecer recordatorios para comprar leche o cenar con amigos, y puedes hacerle preguntas básicas sobre el clima mañana o quién dirigió The Shining, pero la verdadera atracción radica en su capacidad para evitar sus deseos y necesidades.

Si dejas que Google Now aprenda sobre ti y tus hábitos, puede arrojar información que cree que podría interesarte. Las noticias, los resultados deportivos, el clima y la información del tráfico se muestran en tiempo real en función de tus movimientos y búsquedas anteriores.

Vale la pena pasar un tiempo en la configuración antes de comenzar a usar Google Now.

En Android, es probable que tengas una barra de búsqueda de Google en la pantalla de inicio y puedes tocarla para abrir Google Now, o puedes seleccionar Google en el cajón de aplicaciones. También podrás mantener presionado el botón Inicio o deslizar hacia arriba desde el botón Inicio para seleccionar rápidamente Google Now.

En iOS, querrás abrir la aplicación de Búsqueda de Google. Se lTe pedirá que lo configures la primera vez que lo uses, pero puedes volver a la aplicación e ingresar la configuración cuando lo desees, para modificar las cosas.

Dale vida a Google Now y encontrarás el menú en la esquina superior izquierda. Toca las tres líneas horizontales y elige Configuración. Puedes activar y desactivar Google Now aquí, y ajustar su comportamiento.

El reconocimiento de voz en Google Docs

En Google Docs, ahora puedes simplemente hablar por dictado de voz a texto si tu ordenador tiene un micrófono. El uso puede incluso pausar, emitir un comando, pausar nuevamente y reanudar el dictado.

A continuación, encontrarás algunas instrucciones iniciales para comenzar y algunos comandos comunes que puedes utilizar.

Comprueba que tu micrófono funciona.
Abre un documento en Google docs con un navegador Chrome.
Haz clic en Herramientas> Escritura de voz. Aparece una caja de micrófono.
Cuando estés listo para hablar, haz clic en el micrófono.
Habla con claridad, a un volumen y ritmo normales
Cuando termines, haz clic en el micrófono nuevamente.

Puedes usar comandos para editar y formatear tu documento cuando escribes por voz. Por ejemplo, «Seleccionar párrafo», «cursiva» o «Ir al final de la línea».

Dictation.io

Dictation.io es una aplicación web rápida y simple de voz a texto que se basa en el motor de reconocimiento de voz incorporado de Google Chrome para transformar tu voz en texto digital.

Esta aplicación gratuita no requiere registro. Funciona de forma muy parecida a Voice Typing en Google Docs. Para comenzar a dictar, haz clic en el dictado de inicio en la parte inferior de la aplicación y comienza a hablar.

Una vez que hayas terminado de dictar, revisa el texto en busca de errores tipográficos y de puntuación y, si estás satisfecho, haz clic en el botón Guardar.

Speechnotes

Speechnotes es una nueva aplicación de toma de notas y dictado de Android que utiliza la tecnología de reconocimiento de voz de Google. Agrega mucho valor extra con las características de capitalización automática y puntuación automática del desarrollador.

Han agregado ajustes especiales para mejorar los resultados de reconocimiento. Lo que esto significa es que obtienes transcripciones muy precisas y con poca o ninguna necesidad de editar tus notas habladas. También puedes usarlo sin conexión.

Lo primero que debes hacer es seleccionar su idioma. Asegúrate de tener habilitada la escritura de Google Voice en la configuración de Idioma y entrada de tu teléfono.

Si deseas utilizar Speechnotes sin conexión, puedes elegir los paquetes de idiomas sin conexión. Cada paquete tiene una descarga aproximada de 30 MB.

Una vez que se haya solucionado, toca el botón del micrófono de la aplicación y comienza a hablar. Habla despacio y claramente para empezar. Cuando hayas terminado, toca el botón de pausa. En la parte inferior de la pantalla, verás algunos botones de edición y un icono de teclado. Puedes usarlos para editar tus notas.

Reconocimiento de voz en Windows (programas y apps)

El reconocimiento de voz te permite escribir texto rápidamente con solo hablarle a tu teléfono. El reconocimiento de voz de Windows funciona en línea o sin conexión. La precisión varía según tu acento, lo rápido que hables, lo claro que pronuncies las cosas, los niveles de ruido circundante y la naturaleza del sujeto.

Puede ser una forma rápida de tomar notas, por ejemplo de un libro de texto, especialmente si no deseas tener que escribir cosas en un papel. Puedes escribir correos electrónicos o tareas directamente por voz sin tener la distracción de encontrar las claves correctas o la ortografía correcta. También puede ayudar si tienes dificultades de ortografía o escribes lentamente.

Para poder usarlo es necesario disponer de un PC con Windows que funcione con sistemas operativos de Windows 7 y superiores.

Windows Speech Recognition Voice

Windows Speech Recognition Voice puede utilizarse para:

realizar tareas (por ejemplo, abrir nuevos documentos) y
dictar texto directamente en un documento.

La calidad del reconocimiento de voz se puede mejorar entrenando el PC y también aumentando tu propia conciencia de tu velocidad y claridad al hablar.

El reconocimiento de voz elimina los errores de ortografía, pero puede haber varios errores de interpretación que necesitarás encontrar y corregir. Dependiendo de tus necesidades, esto podría ser más fácil y rápido que escribir todo manualmente.

Dragon Naturally Speaking

El software Dragon NaturallySpeaking es un programa de reconocimiento de voz que permite al usuario hablar por un micrófono en una computadora con el software que traduce las palabras habladas en texto en un programa de texto.

Con un programa de software como este, no es necesario escribir y el usuario puede eliminar un teclado. El usuario simplemente conecta un auricular de micrófono en el conector de micrófono apropiado, inicia DragonNaturally Speaking en su ordenador y pronuncia las palabras necesarias y el programa lo traducirá en texto.

Con el micrófono apropiado, el usuario puede obtener un alto grado de precisión con la traducción de voz a texto.

Para usar Dragon NaturallySpeaking, un usuario primero debe entrenar los auriculares para que el programa pueda saber la forma en que habla el usuario y si los auriculares son capaces de obtener un alto nivel. Durante esta capacitación, el usuario solo lee algunos párrafos mientras el ordenador comprende la forma en que habla.

Una vez que se completa la capacitación, el usuario puede comenzar a hablar y el programa traducirá las palabras en texto.

Braina

Braina es una aplicación de asistente personal inteligente para Microsoft Windows desarrollada por Brainasoft. Utiliza la interfaz de lenguaje natural y el reconocimiento de voz para interactuar con sus usuarios y les permite usar oraciones en inglés para realizar diversas tareas en su ordenador.

La aplicación puede encontrar información de Internet, reproducir canciones y vídeos a elección del usuario, tomar dictados, buscar y abrir archivos, configurar alarmas y recordatorios, realizar cálculos matemáticos, controlar ventanas y programas, etc. La aplicación de Android de Braina se puede utilizar para interactuar con sistema de forma remota a través de una red Wi-Fi.

El nombre Braina es una forma abreviada de cerebro artificial. El software se adapta al comportamiento del usuario con el tiempo para anticipar mejor las necesidades. El software también permite a los usuarios escribir comandos usando el teclado en lugar de decirlos. Braina viene en versión gratuita y de pago.

VoxCommando

VoxCommando es una utilidad de reconocimiento de voz y comando que te permite tomar el control de tu PC multimedia de cine en casa. Se puede ejecutar localmente, sin sacrificar la privacidad de los servicios basados en la nube.

Puedes usarlo como una herramienta de asistencia para acelerar las tareas cotidianas, reducir tu dependencia del teclado y el ratón, o simplemente porque es divertido de usar.

VoxCommando es diferente de otras aplicaciones de reconocimiento de voz en que es extremadamente personalizable. Está diseñado para funcionar con una amplia variedad de servicios de automatización del hogar y programas multimedia. Es capaz de lograr un reconocimiento de voz preciso porque ya sabe qué medios hay en tu biblioteca.

Cortana

Cortana es un asistente virtual controlado por voz para Microsoft Windows Phone 8.1. comparable a Siri, el asistente inteligente habilitado en dispositivos Apple, Cortana de Microsoft usará el motor de búsqueda Bing y los datos almacenados en el teléfono inteligente del usuario para hacer recomendaciones personalizadas.

Los usuarios podrán iniciar Cortana desde la pantalla de inicio, donde la asistente virtual femenina ofrecerá sugerencias para las tareas que el propietario quiera realizar en función de la ubicación y el comportamiento pasado. Los usuarios pueden indicar a Cortana que busque información, programe citas, establezca notificaciones y use las funciones de las aplicaciones instaladas en el dispositivo.

Cortana es personalizada, basada en gran medida en la cantidad de información que comparte el usuario. Por ejemplo, al permitir el acceso al calendario, correo electrónico, contactos e historial de navegación, el asistente virtual puede usar estos datos para tratar de anticipar las necesidades del usuario.

El reconocimiento de voz en Amazon (programas y apps)

Al igual que Google y Windows, Amazon también dispone de diversos programas que utilizan el reconocimiento de voz.

Analicemos los más importantes.

Amazon Transcribe

Amazon Transcribe es un servicio de reconocimiento automático de voz que facilita a los desarrolladores agregar capacidad de voz a texto a sus aplicaciones. Con la API de Amazon Transcribe, puedes analizar archivos de audio almacenados en Amazon S3 y hacer que el servicio devuelva un archivo de texto de la voz transcrita. También puedes enviar una transmisión de audio en vivo a Amazon Transcribe y recibir una transmisión de transcripciones en tiempo real.

Amazon Transcribe se puede utilizar para muchas aplicaciones comunes, incluida la transcripción de llamadas de servicio al cliente y la generación de subtítulos en contenido de audio y vídeo.

El servicio puede transcribir archivos de audio almacenados en formatos comunes, como WAV y MP3, con marcas de tiempo para cada palabra para que pueda localizar fácilmente el audio en la fuente original buscando el texto. Amazon Transcribe está continuamente aprendiendo y mejorando para mantener el ritmo de la evolución del lenguaje.

Alexa

Alexa es un asistente digital virtual desarrollado por Amazon para su línea de dispositivos informáticos Amazon Echo y Echo Dot . Las capacidades de Alexa imitan las de otros asistentes inteligentes como Apple Siri , Microsoft Cortana , Google Assistant y Samsung Bixby.

Alexa responde al control por voz devolviendo información sobre productos, música, noticias, clima, deportes y más. El motor de back-end para Alexa de Amazon se ejecuta en Amazon Web Services en la nube, lo que permite que Alexa conozca las preferencias de una persona o familia y expanda su funcionalidad con el tiempo.

Alexa recibe su nombre de la antigua biblioteca de Alejandría, y se puede activar diciendo primero una palabra de activación (ya sea «Alexa» de forma predeterminada o «Eco», «Amazon» o «Computadora», según sus preferencias), seguido de tu consulta o solicitud Alexa usa la interpretación del lenguaje natural para procesar y actuar sobre las solicitudes.

Además de devolver información, Alexa también permite que los dispositivos Echo funcionen como centros domésticos inteligentes que pueden controlar dispositivos conectados a Internet de las cosas como luces inteligentes, termostatos y dispositivos electrónicos.

Con más de 30,000 habilidades y creciendo, Alexa ciertamente supera a Siri, Google Voice y Cortana combinados en términos de integración de terceros. Con el incentivo de «Agregar voz a su gran idea y llegar a más clientes» no es de extrañar que los desarrolladores se apresuren a poner contenido en la plataforma de Habilidades.

¿Que otras aplicaciones y software puedo emplear para el reconocimiento de mi voz?

Aparte de las ya mencionadas, existen otras aplicaciones de reconocimiento de voz en el mercado actual. De todas ellas, debemos destacar Siri, de Apple.

Siri de Apple fue el primer asistente de voz creado por las principales compañías tecnológicas que se estrenó en 2011.

Desde entonces, se ha integrado en todos los iPhones, iPads, AppleWatch, HomePod, computadoras Mac y Apple TV.

A través de su teléfono, Siri incluso se está utilizando como la interfaz de usuario clave en el sistema de infoentretenimiento CarPlay de Apple para automóviles, así como en los auriculares inalámbricos AirPod.

Con el lanzamiento de SiriKit, una herramienta de desarrollo que permite a compañías externas integrarse con Siri y HomePod, el intento de Apple de tener un altavoz inteligente (luego del éxito de Amazon Echo y Google Home), las capacidades del asistente de voz se vuelven aún más sólidas.

Aunque Apple tuvo una gran ventaja con Siri, muchos usuarios expresaron su frustración por su aparente incapacidad para comprender e interpretar adecuadamente los comandos de voz.

Naturalmente, ser el primero con bastante frecuencia significa recibir la mayor parte de la falta de funcionalidad que podría no funcionar como se esperaba.

Pero, incluso hoy, Siri sigue siendo notoria por malentendidos comandos de voz.

Si le pides a Siri que envíe un mensaje de texto o realice una llamada en tu nombre, puede hacerlo fácilmente. Sin embargo, cuando se trata de interactuar con aplicaciones de terceros, Siri es un poco menos robusto en comparación con sus competidores, ya que solo trabaja con seis tipos de aplicaciones: transporte compartido e intercambio; mensajería y llamadas; búsqueda de fotos; pagos; aptitud; y sistemas de infoentretenimiento automático.

Siri está disponible en más de 30 países y 20 idiomas, y, en algunos casos, en varios dialectos diferentes.