Il numero di applicazioni e l'importanza delle interfacce vocali sta crescendo rapidamente
Tecnologia

Il numero di applicazioni e l'importanza delle interfacce vocali sta crescendo rapidamente

Una famiglia americana di Portland, nell'Oregon, ha appreso di recente che l'assistente vocale di Alex ha registrato le loro chat private e le ha inviate a un amico. La proprietaria della casa, soprannominata Danielle dai media, ha detto ai giornalisti che "non avrebbe mai più collegato quel dispositivo perché non ci si può fidare di lei".

Alexa, fornito da altoparlanti Echo (1) e altri gadget in decine di milioni di case degli Stati Uniti, inizia a registrare quando sente il suo nome o "parola di chiamata" pronunciata dall'utente. Ciò significa che anche se la parola "Alexa" è menzionata in uno spot televisivo, il dispositivo potrebbe iniziare a registrare. Questo è esattamente quello che è successo in questo caso, afferma Amazon, il distributore di hardware.

"Il resto della conversazione è stato interpretato dall'assistente vocale come un comando per inviare un messaggio", ha affermato la società in una nota. "Ad un certo punto, Alexa ha chiesto ad alta voce: "A chi?" La continuazione della conversazione familiare sui pavimenti in legno avrebbe dovuto essere percepita dalla macchina come un elemento nell'elenco dei contatti del cliente". Almeno questo è ciò che pensa Amazon. Così, la traduzione si riduce a una serie di accidenti.

L'ansia, però, resta. Perché per qualche ragione, in una casa in cui ci sentivamo ancora a nostro agio, dobbiamo entrare in una sorta di "modalità vocale", guardare cosa diciamo, cosa trasmette la TV e, ovviamente, cosa questo nuovo altoparlante sul petto di cassetti dice. noi.

Tuttavia, Nonostante le imperfezioni tecnologiche e i problemi di privacy, con l'aumento della popolarità di dispositivi come Amazon Echo, le persone stanno iniziando ad abituarsi all'idea di interagire con i computer usando la loro voce..

Come ha osservato Werner Vogels, CTO di Amazon, durante la sua sessione AWS re:Invent alla fine del 2017, la tecnologia ha finora limitato la nostra capacità di interagire con i computer. Digitiamo le parole chiave in Google utilizzando la tastiera, poiché questo è ancora il modo più comune e più semplice per inserire informazioni in una macchina.

disse Vogels. -

i quattro grandi

Quando si utilizza il motore di ricerca di Google al telefono, probabilmente abbiamo notato un segnale del microfono con una chiamata per parlare molto tempo fa. Questo Google adesso (2), che può dettare una query di ricerca, inserire un messaggio vocale, ecc. Negli ultimi anni, Google, Apple e Amazon sono notevolmente migliorati tecnologia di riconoscimento vocale. Gli assistenti vocali come Alexa, Siri e Google Assistant non solo registrano la tua voce, ma capiscono anche cosa dici loro e rispondono alle domande.

Google Now è disponibile gratuitamente per tutti gli utenti Android. L'applicazione può, ad esempio, impostare un allarme, controllare le previsioni del tempo e controllare il percorso su Google Maps. Estensione colloquiale degli stati di Google Now Assistente Google () – assistenza virtuale all'utilizzatore dell'apparecchiatura. È disponibile principalmente su dispositivi mobili e smart home. A differenza di Google Now, può partecipare a uno scambio bidirezionale. L'assistente ha debuttato a maggio 2016 come parte dell'app di messaggistica di Google Allo, nonché nell'altoparlante vocale di Google Home (3).

3. Casa di Google

Il sistema IOS dispone anche di un proprio assistente virtuale, Siri, che è un programma incluso nei sistemi operativi Apple iOS, watchOS, tvOS homepod e macOS. Siri ha debuttato con iOS 5 e iPhone 4s nell'ottobre 2011 alla conferenza Let's Talk iPhone.

Il software si basa su un'interfaccia colloquiale: riconosce il parlato naturale dell'utente (con iOS 11 è anche possibile inserire comandi manualmente), risponde a domande e porta a termine compiti. Grazie all'introduzione del machine learning, un assistente nel tempo analizza le preferenze personali l'utente per fornire risultati e raccomandazioni più pertinenti. Siri richiede una connessione Internet costante: le principali fonti di informazioni qui sono Bing e Wolfram Alpha. iOS 10 ha introdotto il supporto per estensioni di terze parti.

Un altro dei quattro grandi Cortana. È un assistente personale intelligente creato da Microsoft. È supportato su piattaforme Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android e iOS. Cortana è stato presentato per la prima volta alla Microsoft Build Developer Conference nell'aprile 2014 a San Francisco. Il nome del programma deriva dal nome di un personaggio della serie di giochi Halo. Cortana è disponibile in inglese, italiano, spagnolo, francese, tedesco, cinese e giapponese.

Utenti del già citato programma Alexa devono anche considerare le restrizioni linguistiche: l'assistente digitale parla solo inglese, tedesco, francese e giapponese.

Amazon Virtual Assistant è stato utilizzato per la prima volta negli altoparlanti intelligenti Amazon Echo e Amazon Echo Dot sviluppati da Amazon Lab126. Consente l'interazione vocale, la riproduzione di musica, la creazione di elenchi di cose da fare, l'impostazione della sveglia, lo streaming di podcast, la riproduzione di audiolibri e informazioni su meteo, traffico, sport e altre notizie in tempo reale come le notizie (4). Alexa può controllare più dispositivi intelligenti per creare un sistema domotico. Può anche essere utilizzato per fare acquisti convenienti nel negozio Amazon.

4. Per cosa usano gli utenti Echo (secondo la ricerca)

Gli utenti possono migliorare l'esperienza di Alexa installando le "competenze" di Alexa (), funzionalità aggiuntive sviluppate da terze parti, più comunemente denominate app come programmi meteo e audio in altre impostazioni. La maggior parte dei dispositivi Alexa ti consente di attivare il tuo assistente virtuale con una password di riattivazione, chiamata .

Amazon domina definitivamente il mercato degli altoparlanti intelligenti oggi (5). IBM, che ha introdotto un nuovo servizio a marzo 2018, sta cercando di entrare tra i primi quattro L'assistente di Watson, pensato per le aziende che vogliono creare i propri sistemi di assistenti virtuali con controllo vocale. Qual è il vantaggio della soluzione IBM? Secondo i rappresentanti dell'azienda, in primis, su opportunità molto maggiori di personalizzazione e tutela della privacy.

Innanzitutto, Watson Assistant non è marchiato. Le aziende possono creare le proprie soluzioni su questa piattaforma e etichettarle con il proprio marchio.

In secondo luogo, possono addestrare i propri sistemi assistivi utilizzando i propri set di dati, che secondo IBM semplifica l'aggiunta di funzionalità e comandi a quel sistema rispetto ad altre tecnologie VUI (interfaccia utente vocale).

In terzo luogo, Watson Assistant non fornisce a IBM informazioni sull'attività degli utenti: gli sviluppatori di soluzioni sulla piattaforma possono solo tenere per sé dati preziosi. Nel frattempo, chiunque crei dispositivi, ad esempio con Alexa, dovrebbe essere consapevole che i suoi preziosi dati finiranno su Amazon.

Watson Assistant ha già diverse implementazioni. Il sistema è stato utilizzato, ad esempio, da Harman, che ha realizzato un assistente vocale per la concept car Maserati (6). All'aeroporto di Monaco, un assistente IBM alimenta un robot Pepper per aiutare i passeggeri a muoversi. Il terzo esempio è Chameleon Technologies, in cui la tecnologia vocale viene utilizzata in un contatore domestico intelligente.

6. Watson Assistant in una concept car Maserati

Vale la pena aggiungere che anche la tecnologia sottostante non è nuova. Watson Assistant include funzionalità di crittografia per i prodotti IBM esistenti, Watson Conversation e Watson Virtual Agent, nonché API per l'analisi linguistica e la chat.

Amazon non è solo leader nella tecnologia vocale intelligente, ma la sta trasformando in un business diretto. Tuttavia, alcune aziende hanno sperimentato l'integrazione di Echo molto prima. Sisense, un'azienda nel settore della BI e dell'analisi, ha introdotto l'integrazione Echo nel luglio 2016. A sua volta, la startup Roxy ha deciso di creare il proprio software e hardware con controllo vocale per il settore dell'ospitalità. All'inizio di quest'anno, Synqq ha introdotto un'app per prendere appunti che utilizza l'elaborazione vocale e del linguaggio naturale per aggiungere note e voci del calendario senza doverle digitare su una tastiera.

Tutte queste piccole imprese hanno grandi ambizioni. Soprattutto, però, hanno appreso che non tutti gli utenti vogliono trasferire i propri dati ad Amazon, Google, Apple o Microsoft, che sono gli attori più importanti nella costruzione di piattaforme di comunicazione vocale.

Gli americani vogliono comprare

Nel 2016, la ricerca vocale rappresentava il 20% di tutte le ricerche mobili di Google. Le persone che utilizzano questa tecnologia quotidianamente citano la sua praticità e il multitasking tra i suoi maggiori vantaggi. (ad esempio, la possibilità di utilizzare un motore di ricerca mentre si guida un'auto).

Gli analisti di Visiongain stimano l'attuale valore di mercato degli assistenti digitali intelligenti a 1,138 miliardi di dollari.Ci sono sempre più meccanismi di questo tipo. Secondo Gartner, già entro la fine del 2018 30% delle nostre interazioni con la tecnologia avverrà attraverso conversazioni con sistemi vocali.

La società di ricerca britannica IHS Markit stima che il mercato degli assistenti digitali basati sull'intelligenza artificiale raggiungerà i 4 miliardi di dispositivi entro la fine di quest'anno e che il numero potrebbe salire a 2020 miliardi entro il 7.

Secondo i rapporti di eMarketer e VoiceLabs, nel 2017 35,6 milioni di americani hanno utilizzato il controllo vocale almeno una volta al mese. Ciò significa un aumento di quasi il 130% rispetto all'anno precedente. Il mercato degli assistenti digitali da solo dovrebbe crescere del 2018% nel 23. Ciò significa che li utilizzerai già. 60,5 milioni di americani, che si tradurrà in denaro concreto per i loro produttori. RBC Capital Markets stima che l'interfaccia di Alexa genererà fino a 2020 miliardi di dollari di entrate per Amazon entro il 10.

Lava, inforna, pulisci!

Le interfacce vocali stanno entrando sempre più audacemente nei mercati degli elettrodomestici e dell'elettronica di consumo. Questo si poteva già vedere durante la fiera IFA 2017 dello scorso anno. L'azienda americana Neato Robotics ha presentato, ad esempio, un robot aspirapolvere che si collega a una delle numerose piattaforme di casa intelligente, incluso il sistema Amazon Echo. Parlando con l'altoparlante intelligente Echo, puoi istruire la macchina per pulire l'intera casa in orari specifici del giorno o della notte.

In fiera sono stati presentati altri prodotti ad attivazione vocale, dalle smart TV vendute con il marchio Toshiba dalla società turca Vestel alle coperte riscaldate dalla società tedesca Beurer. Molti di questi dispositivi elettronici possono essere attivati ​​anche da remoto tramite smartphone.

Tuttavia, secondo i rappresentanti di Bosch, è troppo presto per dire quale delle opzioni dell'assistente domestico diventerà dominante. All'IFA 2017, un gruppo tecnico tedesco ha presentato lavatrici (7), forni e macchine da caffè che si collegano a Echo. Bosch vuole anche che i suoi dispositivi siano compatibili con le piattaforme vocali di Google e Apple in futuro.

7. Lavatrice Bosch che si collega ad Amazon Echo

Aziende come Fujitsu, Sony e Panasonic stanno sviluppando le proprie soluzioni di assistente vocale basate sull'intelligenza artificiale. Sharp sta aggiungendo questa tecnologia ai forni e ai piccoli robot che entrano nel mercato. Nippon Telegraph & Telephone sta assumendo produttori di hardware e giocattoli per adattare un sistema di intelligenza artificiale a controllo vocale.

Vecchio concetto. È finalmente giunta la sua ora?

In effetti, il concetto di Voice User Interface (VUI) esiste da decenni. Chiunque abbia visto Star Trek o 2001: Odissea nello spazio anni fa probabilmente si aspettava che intorno all'anno 2000 avremmo tutti controllato i computer con le nostre voci. Inoltre, non sono stati solo gli scrittori di fantascienza a vedere il potenziale di questo tipo di interfaccia. Nel 1986, i ricercatori Nielsen hanno chiesto ai professionisti IT quale ritenessero sarebbe stato il più grande cambiamento nelle interfacce utente entro il 2000. Il più delle volte hanno indicato lo sviluppo di interfacce vocali.

Ci sono ragioni per sperare in una soluzione del genere. La comunicazione verbale è, dopo tutto, il modo più naturale per scambiare pensieri consapevolmente, quindi usarlo per l'interazione uomo-macchina sembra finora la soluzione migliore.

Una delle prime VUI, denominata scatola da scarpe, è stato creato nei primi anni '60 da IBM. È stato il precursore dei sistemi di riconoscimento vocale di oggi. Tuttavia, lo sviluppo di dispositivi VUI è stato limitato dai limiti della potenza di calcolo. L'analisi e l'interpretazione del linguaggio umano in tempo reale richiede un grande sforzo e ci sono voluti più di cinquant'anni per arrivare al punto in cui è diventato effettivamente possibile.

I dispositivi con un'interfaccia vocale iniziarono ad apparire nella produzione di massa a metà degli anni '90, ma non guadagnarono popolarità. Il primo telefono con controllo vocale (selezione) è stato Philips Scintillauscito nel 1996. Tuttavia, questo dispositivo innovativo e di facile utilizzo non era esente da limitazioni tecnologiche.

Altri telefoni dotati di forme di interfaccia vocale (create da aziende come RIM, Samsung o Motorola) arrivano regolarmente sul mercato, consentendo agli utenti di comporre a voce o inviare messaggi di testo. Tutti, però, richiedevano la memorizzazione di specifici comandi e la loro pronuncia in una forma forzata, artificiale, adattata alle capacità dei dispositivi dell'epoca. Ciò ha generato un gran numero di errori, che, a loro volta, hanno portato all'insoddisfazione degli utenti.

Tuttavia, stiamo entrando in una nuova era dell'informatica, in cui i progressi nell'apprendimento automatico e lo sviluppo dell'intelligenza artificiale stanno sbloccando il potenziale della conversazione come nuovo modo di interagire con la tecnologia (8). Il numero di dispositivi che supportano l'interazione vocale è diventato un fattore importante che ha avuto un grande impatto sullo sviluppo della VUI. Oggi quasi 1/3 della popolazione mondiale possiede già smartphone che possono essere utilizzati per questo tipo di comportamento. Sembra che la maggior parte degli utenti sia finalmente pronta per adattare le proprie interfacce vocali.

8. Storia moderna dello sviluppo dell'interfaccia vocale

Tuttavia, prima di poter parlare liberamente con un computer, come hanno fatto i personaggi di Odissea nello spazio, dobbiamo superare una serie di problemi. Le macchine non sono ancora molto brave a gestire le sfumature linguistiche. Oltretutto molte persone si sentono ancora a disagio nel dare comandi vocali a un motore di ricerca.

Le statistiche mostrano che gli assistenti vocali vengono utilizzati principalmente a casa o tra amici intimi. Nessuno degli intervistati ha ammesso di utilizzare la ricerca vocale in luoghi pubblici. Tuttavia, è probabile che questo blocco scompaia con la diffusione di questa tecnologia.

domanda tecnicamente difficile

Il problema che devono affrontare i sistemi (ASR) è estrarre dati utili da un segnale vocale e associarli a una determinata parola che ha un certo significato per una persona. I suoni prodotti sono ogni volta diversi.

Variabilità del segnale vocale è una sua proprietà naturale, grazie alla quale, ad esempio, riconosciamo un accento o un'intonazione. Ogni elemento del sistema di riconoscimento vocale ha un compito specifico. Sulla base del segnale elaborato e dei suoi parametri, viene creato un modello acustico, che è associato al modello linguistico. Il sistema di riconoscimento può funzionare sulla base di un numero piccolo o grande di schemi, che determina la dimensione del vocabolario con cui funziona. Possono essere piccoli dizionari nel caso di sistemi che riconoscono singole parole o comandi, nonché grandi banche dati contenente l'equivalente del set linguistico e tenendo conto del modello linguistico (grammatica).

I problemi affrontati dalle interfacce vocali in primo luogo capire correttamente il discorso, in cui, ad esempio, vengono spesso omesse intere sequenze grammaticali, si verificano errori linguistici e fonetici, errori, omissioni, difetti del linguaggio, omonimi, ripetizioni ingiustificate, ecc. Tutti questi sistemi ACP devono funzionare in modo rapido e affidabile. Almeno queste sono le aspettative.

La fonte delle difficoltà sono anche i segnali acustici diversi dal parlato riconosciuto che entrano nell'ingresso del sistema di riconoscimento, ad es. tutti i tipi interferenza e rumore. Nel caso più semplice, ne hai bisogno filtrare. Questo compito sembra di routine e facile: dopo tutto, vari segnali vengono filtrati e ogni ingegnere elettronico sa cosa fare in una situazione del genere. Tuttavia, questo deve essere fatto con molta attenzione e attenzione se il risultato del riconoscimento vocale deve soddisfare le nostre aspettative.

Il filtraggio attualmente utilizzato consente di rimuovere, insieme al segnale vocale, il rumore esterno captato dal microfono e le proprietà interne del segnale vocale stesso, che ne rendono difficile il riconoscimento. Tuttavia, un problema tecnico molto più complesso sorge quando l'interferenza sul segnale vocale analizzato è ... un altro segnale vocale, ovvero, ad esempio, discussioni ad alto volume in giro. Questa domanda è nota in letteratura come la cosiddetta . Ciò richiede già l'uso di metodi complessi, i cosiddetti. deconvoluzione (sbrogliando) il segnale.

I problemi con il riconoscimento vocale non finiscono qui. Vale la pena rendersi conto che il discorso trasporta molti diversi tipi di informazioni. La voce umana suggerisce il sesso, l'età, i diversi caratteri del proprietario o lo stato di salute. Esiste un ampio dipartimento di ingegneria biomedica che si occupa della diagnosi di varie malattie sulla base dei caratteristici fenomeni acustici riscontrati nel segnale vocale.

Esistono anche applicazioni in cui lo scopo principale dell'analisi acustica di un segnale vocale è identificare l'oratore o verificare che sia chi afferma di essere (voce invece di chiave, password o codice PUK). Questo può essere importante, soprattutto per le tecnologie di costruzione intelligente.

Il primo componente di un sistema di riconoscimento vocale è микрофон. Tuttavia, il segnale captato dal microfono di solito rimane di scarsa utilità. Gli studi dimostrano che la forma e il corso dell'onda sonora variano notevolmente a seconda della persona, della velocità del discorso e in parte dell'umore dell'interlocutore, mentre in piccola misura riflettono il contenuto stesso dei comandi pronunciati.

Pertanto, il segnale deve essere elaborato correttamente. L'acustica moderna, la fonetica e l'informatica insieme forniscono un ricco set di strumenti che possono essere utilizzati per elaborare, analizzare, riconoscere e comprendere un segnale vocale. Lo spettro dinamico del segnale, il cosiddetto spettrogrammi dinamici. Sono abbastanza facili da ottenere e il parlato presentato sotto forma di spettrogramma dinamico è relativamente facile da riconoscere utilizzando tecniche simili a quelle utilizzate nel riconoscimento delle immagini.

Semplici elementi del discorso (ad esempio comandi) possono essere riconosciuti dalla semplice somiglianza di interi spettrogrammi. Ad esempio, un dizionario per telefoni cellulari ad attivazione vocale contiene solo da poche decine a poche centinaia di parole e frasi, di solito pre-impilate in modo che possano essere identificate facilmente ed efficacemente. Ciò è sufficiente per semplici attività di controllo, ma limita fortemente l'applicazione complessiva. I sistemi costruiti secondo lo schema, di norma, supportano solo altoparlanti specifici per i quali le voci sono appositamente addestrate. Quindi, se c'è qualcuno di nuovo che vuole usare la propria voce per controllare il sistema, molto probabilmente non sarà accettato.

Viene chiamato il risultato di questa operazione Spettrogramma 2-W, cioè uno spettro bidimensionale. C'è un'altra attività in questo blocco a cui vale la pena prestare attenzione - segmentazione. In generale, si tratta di scomporre un segnale vocale continuo in parti che possono essere riconosciute separatamente. È solo da queste diagnosi individuali che si fa il riconoscimento del tutto. Questa procedura è necessaria perché non è possibile identificare un discorso lungo e complesso in una volta sola. Interi volumi sono già stati scritti su quali segmenti distinguere in un segnale vocale, quindi non decideremo ora se i segmenti distinti debbano essere fonemi (equivalenti sonori), sillabe o forse allofoni.

Il processo di riconoscimento automatico si riferisce sempre ad alcune caratteristiche degli oggetti. Centinaia di insiemi di parametri diversi sono stati testati per il segnale vocale, il segnale vocale sì suddiviso in frame riconosciuti e avere caratteristiche selezionateper cui questi frame sono presentati nel processo di riconoscimento, possiamo eseguire (per ogni frame separatamente) классификация, cioè. assegnando un identificatore al frame, che lo rappresenterà in futuro.

Fase successiva assemblaggio di cornici in parole separate - il più delle volte basato sul cosiddetto. modello dei modelli markoviani impliciti (HMM-). Poi arriva il montaggio delle parole frasi complete.

Ora possiamo tornare al sistema Alexa per un momento. Il suo esempio mostra un processo a più stadi di "comprensione" della macchina di una persona - più precisamente: un comando dato da lui o una domanda posta.

Comprendere le parole, comprendere il significato e comprendere l'intento dell'utente sono cose completamente diverse.

Pertanto, il passo successivo è il lavoro del modulo NLP (), il cui compito è riconoscimento dell'intento dell'utente, cioè. il significato del comando/domanda nel contesto in cui è stato pronunciato. Se l'intento è identificato, allora assegnazione delle cosiddette abilità e abilità, ovvero la funzionalità specifica supportata dall'assistente intelligente. Nel caso di una domanda sul tempo, vengono chiamate le fonti di dati meteorologici, che restano da elaborare in parlato (TTS - meccanismo). Di conseguenza, l'utente sente la risposta alla domanda posta.

Voce? Arti grafiche? O forse entrambi?

I moderni sistemi di interazione più conosciuti si basano su un intermediario chiamato Interfaccia grafica utente (interfaccia grafica). Sfortunatamente, la GUI non è il modo più ovvio per interagire con un prodotto digitale. Ciò richiede che gli utenti imparino prima come utilizzare l'interfaccia e ricordino queste informazioni ad ogni interazione successiva. In molte situazioni la voce è molto più comoda, perché puoi interagire con la VUI semplicemente parlando al dispositivo. Un'interfaccia che non obbliga gli utenti a memorizzare e memorizzare determinati comandi o metodi di interazione causa meno problemi.

Naturalmente, l'espansione della VUI non significa abbandonare le interfacce più tradizionali, ma saranno disponibili interfacce ibride che combinano diversi modi di interagire.

L'interfaccia vocale non è adatta a tutte le attività in un contesto mobile. Con esso chiameremo un amico alla guida di un'auto e gli invieremo persino un SMS, ma controllare gli ultimi trasferimenti può essere troppo difficile, a causa della quantità di informazioni trasmesse al sistema () e generate dal sistema (sistema). Come suggerisce Rachel Hinman nel suo libro Mobile Frontier, l'utilizzo della VUI diventa più efficace quando si eseguono attività in cui la quantità di informazioni di input e output è ridotta.

Uno smartphone connesso a Internet è comodo ma anche scomodo (9). Ogni volta che un utente desidera acquistare qualcosa o utilizzare un nuovo servizio, deve scaricare un'altra app e creare un nuovo account. Qui è stato creato un campo per l'uso e lo sviluppo di interfacce vocali. Invece di costringere gli utenti a installare molte app diverse o a creare account separati per ciascun servizio, gli esperti affermano che la VUI sposterà il carico di queste attività ingombranti su un assistente vocale basato sull'intelligenza artificiale. Gli sarà conveniente svolgere attività faticose. Gli daremo solo ordini.

9. Interfaccia vocale tramite smartphone

Oggi, più di un semplice telefono e un computer sono connessi a Internet. Alla rete sono collegati anche termostati intelligenti, luci, bollitori e molti altri dispositivi integrati nell'IoT (10). Pertanto, ci sono dispositivi wireless intorno a noi che riempiono le nostre vite, ma non tutti si adattano naturalmente all'interfaccia utente grafica. L'uso della VUI ti aiuterà a integrarli facilmente nel nostro ambiente.

10. Interfaccia vocale con Internet of Things

La creazione di un'interfaccia utente vocale diventerà presto un'abilità chiave del designer. Questo è un problema reale: la necessità di implementare sistemi vocali ti incoraggerà a concentrarti maggiormente sulla progettazione proattiva, ovvero cercare di capire le intenzioni iniziali dell'utente, anticipando le sue esigenze e aspettative in ogni fase della conversazione.

La voce è un modo efficiente per inserire i dati: consente agli utenti di inviare rapidamente comandi al sistema alle loro condizioni. D'altra parte, lo schermo fornisce un modo efficiente per visualizzare le informazioni: consente ai sistemi di visualizzare una grande quantità di informazioni contemporaneamente, riducendo il carico sulla memoria degli utenti. È logico che combinarli in un unico sistema suoni incoraggiante.

Gli altoparlanti intelligenti come Amazon Echo e Google Home non offrono affatto un display visivo. Migliorando significativamente la precisione del riconoscimento vocale a distanze moderate, consentono il funzionamento a mani libere, che a sua volta ne aumenta la flessibilità e l'efficienza: sono desiderabili anche per gli utenti che dispongono già di smartphone con controllo vocale. Tuttavia, la mancanza di uno schermo è un enorme limite.

Solo i segnali acustici possono essere utilizzati per informare gli utenti di possibili comandi e leggere l'output ad alta voce diventa noioso, tranne che per le attività più basilari. Impostare un timer con un comando vocale durante la cottura è fantastico, ma non è necessario farti chiedere quanto tempo è rimasto. Ottenere una previsione meteorologica regolare diventa un test di memoria per l'utente, che deve ascoltare e assorbire una serie di fatti per tutta la settimana, piuttosto che raccoglierli dallo schermo a colpo d'occhio.

I designer l'hanno già fatto soluzione ibrida, Echo Show (11), che ha aggiunto uno schermo di visualizzazione all'altoparlante intelligente Echo di base. Ciò amplia notevolmente la funzionalità dell'apparecchiatura. Tuttavia, l'Echo Show è ancora molto meno in grado di svolgere le funzioni di base che da tempo erano disponibili su smartphone e tablet. Ad esempio, non può (ancora) navigare sul Web, mostrare recensioni o visualizzare il contenuto di un carrello degli acquisti Amazon.

Un display visivo è intrinsecamente un modo più efficace per fornire alle persone una grande quantità di informazioni rispetto al semplice suono. Progettare con priorità vocale può migliorare notevolmente l'interazione vocale, ma a lungo termine, non utilizzare arbitrariamente il menu visivo per motivi di interazione sarà come combattere con una mano legata dietro la schiena. A causa dell'incombente complessità delle interfacce vocali e di visualizzazione intelligenti end-to-end, gli sviluppatori dovrebbero considerare seriamente un approccio ibrido alle interfacce.

L'aumento dell'efficienza e della velocità dei sistemi di generazione e riconoscimento vocale ha consentito di utilizzarli in applicazioni e ambiti quali, ad esempio:

• militari (comandi vocali su aerei o elicotteri, ad esempio F16 VISTA),

• trascrizione automatica del testo (speech to text),

• sistemi informativi interattivi (Prime Speech, portali vocali),

• dispositivi mobili (telefoni, smartphone, tablet),

• robotica (Cleverbot - sistemi ASR combinati con intelligenza artificiale),

• automotive (controllo a mani libere dei componenti dell'auto, come Blue & Me),

• applicazioni domestiche (sistemi domestici intelligenti).

Occhio alla sicurezza!

Automotive, elettrodomestici, sistemi di riscaldamento/raffreddamento e sicurezza domestica e una serie di elettrodomestici stanno iniziando a utilizzare interfacce vocali, spesso basate sull'intelligenza artificiale. In questa fase vengono inviati a nuvole informatiche. È chiaro che i marketer sono interessati a loro. E non solo loro.

Un recente rapporto degli esperti di sicurezza di Symantec consiglia agli utenti dei comandi vocali di non controllare le funzioni di sicurezza come le serrature delle porte, per non parlare dei sistemi di sicurezza domestica. Lo stesso vale per la memorizzazione di password o informazioni riservate. La sicurezza dell'intelligenza artificiale e dei prodotti intelligenti non è stata ancora sufficientemente studiata.

Quando i dispositivi in ​​tutta la casa ascoltano ogni parola, il rischio di hackeraggio e uso improprio del sistema diventa un problema estremamente importante. Se un utente malintenzionato ottiene l'accesso alla rete locale o ai suoi indirizzi e-mail associati, le impostazioni del dispositivo smart possono essere modificate o ripristinate alle impostazioni di fabbrica, il che comporterà la perdita di informazioni preziose e l'eliminazione della cronologia degli utenti.

In altre parole, i professionisti della sicurezza temono che l'IA e la VUI guidate dalla voce non siano ancora abbastanza intelligenti da proteggerci da potenziali minacce e tenere la bocca chiusa quando un estraneo chiede qualcosa.

Aggiungi un commento