¿Cómo funciona Alexa? La tecnología detrás del asistente virtual de Amazon, explicada

Tenemos bastantes guías para usar Amazon Alexa en Android Authority, pero es posible que sienta curiosidad por la tecnología subyacente del asistente de voz. Aquí hay una breve explicación de cómo funciona Alexa, desde su estructura general hasta cómo escucha y responde a los comandos de voz.
Cómo funciona Alexa: una descripción general
Los componentes básicos de Alexa, desde la perspectiva del usuario, son una cuenta de Amazon y un dispositivo habilitado para Alexa conectado a Internet, generalmente un altavoz o pantalla inteligente. La cuenta le permite crear un perfil, guardar configuraciones de software y hardware y vincular dispositivos, servicios y accesorios compatibles. Los dispositivos Alexa escuchan los comandos de voz, los suben a los servidores de Amazon para traducirlos y luego entregan los resultados en forma de audio o video. Algunos modelos también funcionan como concentradores Thread o Zigbee para productos compatibles con el hogar inteligente.
Todos los comandos de voz comienzan con una palabra de activación que le indica al dispositivo que escuche. Por supuesto, el valor predeterminado es “Alexa”, pero al usar la aplicación del asistente para Android o iPhone/iPad, puede cambiarlo a “Amazon”, “Computadora”, “Echo” o (en algunas regiones) “Ziggy”. De hecho, la aplicación es efectivamente un componente de tercera base, ya que es necesario para configurar el dispositivo y vincular cosas a su cuenta de Amazon.
Hay muchos, muchos comandos posibles de Alexa, por lo que no profundizaremos mucho aquí, pero estas son solicitudes de voz en lenguaje natural que cubren todo, desde preguntas de conocimiento general hasta reproducción de medios y control inteligente del hogar. Por ejemplo:
- “Alexa, ¿qué tiempo hace afuera?”
- “Alexa, reproduce aleatoriamente la mejor lista de reproducción ambiental que encontrarás en Spotify”.
- “Alexa, pon el termostato de la sala de estar a 72 grados”.
Algunas funciones requieren habilitar “habilidades”, ya sea a través del sitio web de Amazon o la aplicación Alexa. Usando los comandos anteriores como ejemplos, el del medio no funcionaría sin una habilidad que vincule su cuenta de Spotify, y el control del termostato requeriría una habilidad de marca apropiada como Ecobee o Nest.
La mayoría de las habilidades son gratuitas, ya que en realidad solo respaldan los productos y servicios existentes. Las habilidades pagas son raras, pero existen, y tienden a ser productos de entretenimiento autónomos como la voz de Samuel L. Jackson.
Relacionado: Las mejores habilidades y aplicaciones para Alexa
La aplicación Alexa también habilita rutinas, que es solo otra palabra para automatizaciones. Puedes conocer más sobre ellos en nuestra guía de rutinas. La versión corta es que son creados por el usuario y activan acciones basadas en comandos de voz o varias condiciones, como la ubicación, el estado de los accesorios o la hora del día. Una rutina de buenos días, por ejemplo, puede encender las luces, reproducir las noticias de NPR y calentar la cafetera a través de un enchufe inteligente cuando dices “Alexa, empieza mi día”.
Para ser controlados por Alexa, los accesorios para el hogar inteligente deben admitir específicamente la plataforma, al menos hasta que el estándar universal Matter entre en funcionamiento en el otoño de 2022. Sin embargo, casi cualquier tipo de accesorio está disponible. Además de enchufes, termostatos y bombillas inteligentes, puede obtener de todo, desde purificadores de aire hasta aspiradoras robotizadas. Estos se emparejan con la aplicación Alexa, independientemente de si se conectan a través de habilidades, Thread o Zigbee.
Más: Cómo usar Amazon Alexa
¿Cómo escucha Alexa?
Si bien todos los dispositivos equipados con Alexa tienen al menos un micrófono, a menudo son dos o más en altavoces y pantallas inteligentes. Esto facilita aislar las voces del ruido ambiental, ya que crea datos direccionales que se pueden comparar y filtrar a través de algoritmos de procesamiento de señales. Por supuesto, existen límites finitos: no puede pararse junto a un televisor o un lavavajillas ruidosos y esperar que un altavoz Echo lo entienda.
Al contrario de lo que te hayan dicho, Alexa no está grabando constantemente todo lo que dices. Continuamente escucha su palabra de activación y el audio subsiguiente (que finaliza después de que deja de hablar) normalmente se envía a Amazon para su interpretación. Decimos normalmente porque Amazon está presionando cada vez más hacia el procesamiento fuera de línea. Sin embargo, necesita dispositivos recientes como el Echo de cuarta generación o el Echo Show 10, que tienen el procesador AZ Neural Edge de la compañía. La función también debe habilitarse manualmente y los dispositivos seguirán cargando transcripciones.
Amazon dice que cifra las grabaciones de audio cargadas, pero las guarda de forma predeterminada y analiza “una muestra extremadamente pequeña” de clips anónimos para mejorar el rendimiento de Alexa. Las grabaciones se han utilizado en casos penales, y algunos sonidos o frases pueden malinterpretarse como palabras de activación, por lo que si le preocupa la privacidad, querrá optar por no guardar o eliminar regularmente su historial de voz. Lea nuestra guía de privacidad para el hogar inteligente para obtener más detalles y comparaciones.
Ver también: Cómo configurar Alexa para emergencias
¿Cómo responde Alexa?
La razón por la que Alexa ha dependido completamente de la nube hasta hace poco son las demandas del procesamiento del lenguaje natural. Cada comando se divide en unidades de voz individuales llamadas fonemas, y esas unidades luego se comparan con una base de datos para encontrar las palabras más parecidas. Además de eso, el software tiene que identificar la estructura de la oración, así como los términos relevantes para los diferentes subsistemas. Si dices “configura el termostato para que se enfríe”, Alexa sabe que debe reenviarlo a una API de hogar inteligente (interfaz de programación de aplicaciones).
Esta es la razón principal por la que Alexa puede distinguir entre acentos y dialectos. Hay bases de datos únicas para cada idioma compatible con Amazon, incluidas las variaciones regionales, y los usuarios deben seleccionarlas en la aplicación Alexa si su dispositivo no las incluye precargadas. Un hablante de American Echo no entenderá el alemán de inmediato, como puede atestiguar cualquiera que haya pedido canciones de Nachtmahr.
El aprendizaje automático juega un papel igualmente crítico, ya que el contexto y la historia le dan a Alexa una mejor oportunidad para adivinar tus intenciones. Es por eso que Amazon está tan involucrado en analizar grabaciones de clientes del mundo real. Los humanos tienden a usar el contexto y la historia para medir el significado de la conversación, y con solo la lógica de la computadora, Alexa podría interpretar algo como “tocar música de Chvrches” (la banda escocesa de synthpop) como una solicitud para escuchar música de los coros de la iglesia. Alexa puede cometer errores y los comete, pero los mares de datos que Amazon tiene disponibles significan que el asistente evoluciona con el tiempo.
Las respuestas usan voz sintetizada basada en muestras de voz grabadas. En privado, Amazon ha estado experimentando con la imitación de audio, incluso con voces muertas.
Continúa: Los mejores dispositivos compatibles con Alexa para tu hogar
Preguntas frecuentes
Efectivamente. Si bien algunos dispositivos pueden permitir el control de voz fuera de línea del volumen y los accesorios inteligentes para el hogar vinculados al concentrador, o verificar y cancelar cosas como temporizadores y recordatorios, casi todo lo demás requiere comunicarse con servidores de Amazon y/o servicios de terceros vinculados. Incluso los dispositivos que pueden procesar audio localmente siguen cargando transcripciones.
Sí, suponiendo que no haya silenciado los micrófonos de un dispositivo. Necesita hacerlo para reaccionar a su palabra de activación.
Sin embargo, lo más importante es que no está grabando todo. La grabación solo se activa después de que se detecta una palabra de activación y finaliza una vez que deja de hablar (o Alexa cree que lo ha hecho, de todos modos). Si le preocupa la privacidad, deberá optar por no guardar estas grabaciones o eliminar regularmente el historial de voz.
Según algunas definiciones. Es capaz de aprender y resolver problemas, por ejemplo, interpretar comandos de voz para los que no ha sido preprogramado.
Dicho esto, no muestra la misma flexibilidad o adaptabilidad que una mente humana o animal. No se puede tener una conversación genuina, y su aprendizaje ocurre de forma incremental en lugar de sobre la marcha. Ciertamente no es ni mucho menos consciente, no importa lo difícil que sea definirlo.