¿Cómo funciona Alexa? La tecnología detrás del asistente virtual de Amazon, explicó

Altavoz Amazon Echo Dot Alexa con anillo de luz en foto de stock 1

Édgar Cervantes / Autoridad Android

Tenemos algunas guías para usar Amazon Alexa en Android Authority, pero es posible que sienta curiosidad por la tecnología detrás del asistente de voz. Aquí hay una breve explicación de cómo funciona Alexa, desde su estructura general hasta cómo escucha y responde a los comandos de voz.

Cómo funciona Alexa: una descripción general

Amazon Echo Show 15 en una pared.

Los componentes básicos de Alexa, desde la perspectiva del usuario, son una cuenta de Amazon y un dispositivo habilitado para Alexa conectado a Internet, generalmente un altavoz o una pantalla inteligente. La cuenta le permite crear un perfil, guardar configuraciones de software y hardware y conectar dispositivos, servicios y accesorios compatibles. Los dispositivos Alexa escuchan los comandos de voz, los suben a los servidores de Amazon para traducirlos y luego entregan los resultados en forma de audio o video. Algunos modelos también actúan como un concentrador Thread o Zigbee para productos domésticos inteligentes compatibles.

Todos los comandos de voz comienzan con una palabra de activación que indica al dispositivo que escuche. El valor predeterminado es obviamente “Alexa”, pero usar la aplicación asistente para Androide o iPhone / iPad, puede cambiarlo a “Amazon”, “Computadora”, “Echo” o (en algunas regiones) “Ziggy”. De hecho, la aplicación es en realidad un tercer componente básico, ya que es necesario para configurar el dispositivo y vincular cosas a su cuenta de Amazon.

Hay muchos, muchos comandos posibles de Alexa, por lo que no iremos demasiado lejos aquí, pero estos son mensajes de voz en lenguaje natural que cubren todo, desde preguntas de conocimiento general hasta reproducción de medios y control inteligente del hogar. Por ejemplo:

Algunas funciones requieren que se habiliten “habilidades”, ya sea a través del sitio web de Amazon o mediante la aplicación Alexa. Usando los comandos anteriores como ejemplos, el del medio no funcionaría sin una habilidad que vincule su cuenta de Spotify, y controlar el termostato requeriría una habilidad de marca apropiada como Ecobee o Nest.

La aplicación Alexa también habilita rutinas, que es solo otra palabra para automatizaciones. Puedes conocer más sobre ellos en nuestra guía de rutinas. La versión corta es que son creados por el usuario y activan acciones basadas en comandos de voz o varias condiciones, como la ubicación, el estado de los accesorios o la hora del día. Una rutina de buenos días, por ejemplo, podría encender las luces, reproducir las noticias de NPR y calentar la máquina de café a través de un enchufe inteligente cuando dices “Alexa, comienza mi día”.

Para ser controlados por Alexa, los accesorios para el hogar inteligente deben admitir específicamente la plataforma, al menos hasta que el estándar Universal Matter esté operativo en el otoño de 2022. Sin embargo, prácticamente cualquier tipo de accesorio está disponible. Además de enchufes, termostatos y bombillas inteligentes, puede obtener de todo, desde purificadores de aire hasta aspiradoras robotizadas. Estos se emparejan a través de la aplicación Alexa, independientemente de si se conectan a través de Skill, Thread o Zigbee.

Es más: Cómo usar Amazon Alexa

¿Cómo se siente Alexa?

Perfil lateral de Amazon Echo Show 8 con controles de smarthome

Dhruv Butani / Autoridad de Android

Si bien todos los dispositivos habilitados para Alexa tienen al menos un micrófono, con mayor frecuencia hay dos o más en los parlantes y pantallas inteligentes. Esto facilita aislar las voces del ruido ambiental, ya que crea datos direccionales que se pueden comparar y filtrar mediante algoritmos de procesamiento de señales. Por supuesto, hay límites finitos: no puede pararse cerca de un televisor o un lavavajillas ruidosos y esperar que un altavoz Echo lo entienda.

Al contrario de lo que te han dicho, Alexa no graba constantemente todo lo que dices. Eso es escuchando continuamente su palabra de activación y el siguiente audio (que finaliza después de que deja de hablar) normalmente se envía a Amazon para su interpretación. Normalmente decimos por qué Amazon empuja cada vez más hacia el procesamiento fuera de línea. Eso sí, necesitas dispositivos recientes como el Echo de cuarta generación o el Echo Show 10, que cuentan con el procesador AZ Neural Edge de la compañía. La función también debe habilitarse manualmente y los dispositivos continuarán cargando transcripciones.

Amazon afirma cifrar las grabaciones de audio cargadas, pero las guarda de forma predeterminada y analiza “una muestra extremadamente pequeña” de clips anónimos para mejorar el rendimiento de Alexa. Las grabaciones se han utilizado en procesos penales y algunos sonidos o frases pueden malinterpretarse como palabras de alerta, por lo que si le preocupa la privacidad, le recomendamos que desactive guardar o elimine su historial de voz con regularidad. Lea nuestra guía de privacidad para el hogar inteligente para obtener más detalles y comparaciones.

Ver también: Cómo configurar Alexa para emergencias

¿Cómo responde Alexa?

Un Amazon Echo Dot de cuarta generación en 2020

La razón por la que Alexa ha dependido completamente de la nube hasta hace poco son las demandas del procesamiento del lenguaje natural. Cada comando se divide en unidades de voz individuales llamadas fonemas, y esas unidades luego se comparan con una base de datos para encontrar las palabras más parecidas. Además, el software debe identificar la estructura de la oración, así como los términos relevantes para los diferentes subsistemas. Si dices “configura el termostato para que se enfríe”, Alexa sabe que debe reenviarlo a una API de hogar inteligente (interfaz de programación de aplicaciones).

Esta es la razón principal por la que Alexa puede distinguir entre acentos y dialectos. Hay bases de datos únicas para cada idioma compatible con Amazon, incluidas las variaciones regionales, y los usuarios deben seleccionarlas en la aplicación Alexa si su dispositivo no las incluye precargadas. Un hablante estadounidense Echo no entenderá alemán fuera de la caja, como puede atestiguar cualquiera que haya pedido canciones de Nachtmahr.

El aprendizaje automático juega un papel igualmente crítico, ya que el contexto y la historia le dan a Alexa una mejor oportunidad de adivinar sus intenciones. Es por eso que Amazon está tan ocupado analizando los registros de clientes del mundo real. Los humanos tienden a usar el contexto y la historia para medir el significado de la conversación, y solo con la lógica de la computadora, Alexa podría interpretar algo como “tocar música de Chvrches” (la banda escocesa de synthpop) como una solicitud para escuchar la música de los coros de la iglesia. Alexa puede cometer errores y los comete, pero los mares de datos que Amazon tiene a su disposición significan que el asistente evoluciona con el tiempo.

Preguntas frecuentes

Realmente. Si bien algunos dispositivos pueden permitir el control de voz fuera de línea del volumen y los accesorios inteligentes para el hogar conectados al hub, o el control y la cancelación de cosas como temporizadores y recordatorios, casi todo lo demás requiere comunicación con servidores de Amazon y/o servicios de terceros relacionados. Incluso los dispositivos que pueden procesar audio localmente siguen cargando transcripciones.

Sí, suponiendo que no haya silenciado los micrófonos de un dispositivo. Lo necesita para reaccionar a su palabra de activación.

Básicamente, sin embargo, no está grabando todo. La grabación se activa solo después de que se detecta una palabra de activación y finaliza cuando deja de hablar (o Alexa cree que lo hizo). Si le preocupa la privacidad, deberá desactivar el guardado de estas grabaciones o eliminar su historial de voz con regularidad.

Según algunas definiciones. Puede aprender y resolver problemas, como interpretar comandos de voz para los que no ha sido preprogramado.

Dicho esto, no muestra la misma flexibilidad o adaptabilidad que una mente humana o animal. No se puede tener una conversación genuina, y el aprendizaje ocurre de forma incremental en lugar de sobre la marcha. Ciertamente no es ni mucho menos consciente, no importa lo difícil que sea definirlo.

Compruebe también

en vivo desde Droidcon, incluida la mayor actualización de Gemini en Android Studio y más lanzamientos del SDK de Android.

Acabamos de lanzar nuestro episodio de otoño de #TheAndroidShow en YouTube etcétera desarrollador.android.comy esta vez …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *