Zinsdetectie is slechts een deel van het proces.
"Ok Google" roepen vanuit de andere kamer om de muziek te veranderen of de lichten in een kamer uit te doen, voelt zeker ongelooflijk, maar dit ogenschijnlijk eenvoudige proces wordt aangedreven door een ingewikkeld web van technologieën die achter de scènes.
Vrijwel elke grote virtuele assistent op de markt heeft een oproepzin die u gebruikt om de assistent wakker te maken en een gesprek te voeren. Maar hoe weten stemassistenten wanneer je met ze praat?
Hoe werkt frasedetectie?
Zoals hierboven vermeld, heeft elke stemassistent een "triggerfrase" of wekwoord waarmee u de assistent wekt en verdere opdrachten geeft. Het proces van het detecteren van deze frase is min of meer hetzelfde bij elke assistent, met uitzondering van kleine nuances. Dat gezegd hebbende, deze nuances kunnen het verschil betekenen tussen het terloops zeggen van het wekcommando en het meerdere keren schreeuwen keer alleen voor de assistent om te blijven slapen, iets wat soms erg vervelend kan zijn, vooral als je dat bent je stemassistent gebruiken om te kalmeren.
Over het algemeen hebben de meeste "slimme" luidsprekers een klein circuit waarvan de enige taak is om het wekcommando te detecteren en vervolgens de rest van de hardware in actie te krijgen. Het grootste deel van de verwerking gebeurt in de cloud, maar de zinsdetectie is om voor de hand liggende privacyredenen op het apparaat. Zinsdetectie op telefoons werkt min of meer op dezelfde manier.
De details zijn grotendeels verborgen, maar deze detectiesystemen gebruiken machine learning en diepe neurale netwerken (DNN's) om AI-modellen te trainen om uw stem te detecteren en een sleutel te vormen. Deze sleutel wordt vervolgens gebruikt om te verifiëren wanneer je een bepaalde zin hebt gezegd, en al het andere wordt naar de cloud gestuurd voor verdere verwerking.
Google Assistent
Telefoons die "OK Google"-detectie ondersteunen, worden meestal geleverd met een systeem voor het spotten van zoekwoorden (KWS) dat de zin detecteert en vervolgens de rest van uw zoekopdracht naar de cloud patcht. Aangezien mobiele apparaten een beperkte rekenkracht hebben en een beperkte levensduur van de batterij hebben, zijn deze systemen meestal niet zo goed als de systemen die je op Google Nest-speakers aantreft.
Dit KWS-systeem op het apparaat pikt continu audio op van de microfoons van het apparaat en brengt een verbinding met de server tot stand wanneer het een triggerzin detecteert. Google gebruikt ook Contextual Automatic Speech Recognition (ASR) aan de serverzijde om de algehele nauwkeurigheid van zijn KWS-systeem te verbeteren. Je leest er meer over in Onderzoeksdocument van Google [PDF].
Siri
Siri werkt hetzelfde als Google Assistant wat betreft "Hey Siri" detectie. Apple is verrassend open geweest over hoe het systeem werkt, waarbij een "zeer kleine" spraakherkenner betrokken is die op de achtergrond draait en alleen naar die twee woorden luistert. Deze detector gebruikt een DNN om het akoestische patroon van uw stem dat over elke instantie is opgenomen, om te zetten in een kansverdeling over spraakgeluiden, wat in wezen een betrouwbaarheidsscore genereert.
Je iPhone of Apple Watch doet dit door je stem te veranderen in een stroom golfvormvoorbeelden met een snelheid van 16.000 per seconde. Dit wordt vervolgens teruggebracht tot een reeks frames die een geluidsspectrum van ongeveer 0,01 seconde beslaat. Vervolgens worden in totaal 20 van deze frames ingevoerd in het detectiemodel, dat deze patronen omzet in een waarschijnlijkheid.
Als het systeem met voldoende zekerheid vaststelt dat je "Hey Siri" hebt gezegd, wordt Siri wakker en stuurt de rest van de vraag naar de cloud, waar verdere analyse plaatsvindt en de gevraagde actie wordt uitgevoerd uitgevoerd.
Er zijn natuurlijk extra maatregelen toegevoegd om het geheugen en de batterij-efficiëntie te waarborgen. De Always On Processor (AOP) van je iPhone heeft om deze reden toegang tot de microfoons van het apparaat (op iPhone 6S en nieuwer), en een klein deel van de verwerkingskracht is gereserveerd om de DNN uit te voeren. Apple duikt diep in het hele systeem op zijn machine learning-website, machinelearning.apple.
Alexa
Net als Google Assistant en Siri, huisvest Alexa ook niet het grootste deel van zijn verwerkingskracht op een van de Echo-luidsprekers die je kunt kopen. In plaats daarvan gebruiken de sprekers wat Amazon Automatic Speech Recognition (ASR) noemt, dat gesproken woorden in wezen omzet in tekst, waardoor het onderliggende systeem ze kan interpreteren en dienovereenkomstig kan handelen.
ASR vormt de basis van hoe Alexa werkt. Nogmaals, er is een systeem aan boord dat luistert naar de wake-woorden, in dit geval "Alexa", "Amazon", "Echo" of "Computer" en activeert de rest van het systeem wanneer het door de gebruiker vooraf bepaalde wake-word gedetecteerd. Je kan zelfs maak je Alexa-apparaat wakker met "Hey Disney" als je wil.
Net als Google Assistant kun je het onderliggende AI-model van Alexa trainen om je stem beter te detecteren. Dit proces omvat het maken van een basislijn "sleutel" waarmee het gesproken wake-word wordt vergeleken, en wanneer een overeenkomst wordt gevonden, reageert het apparaat dienovereenkomstig.
Luisteren spraakassistenten altijd?
Zoals je waarschijnlijk al kunt raden, ja, dat zijn ze. Anders zouden ze de wake-words onmogelijk kunnen detecteren. U hoeft echter nog niet al uw slimme luidsprekers weg te gooien vanwege privacykwesties.
Luisteren naar alles wat de gebruikers zeggen, het terugsturen naar een externe server en het analyseren (of opslaan). vereist enorme hardware en financiële middelen tot het punt waarop het vanuit praktisch oogpunt niet logisch is perspectief. Voeg daarbij de enorme zorgen over privacy waar bedrijven als Google, Apple en Amazon al mee te maken hebben, en het idee slaat nergens op.
Dit heeft ook een enorme invloed op de prestaties van telefoons en de levensduur van de batterij met wake-word-detectiefuncties, met name Google Pixels en iPhones. Als uw telefoon continu luistert naar wat u zegt en die audio terugstuurt naar een externe server, raakt uw batterij leeg en worden de prestaties van het apparaat bereikt.
Wie heeft de meest efficiënte woordgroepdetectie en waarom?
Het is niet eenvoudig om objectief te vergelijken welke virtuele assistent objectief de beste zinsdetectie heeft, aangezien ze allemaal iets andere implementaties van hetzelfde algemene concept gebruiken. Google lijkt echter een consistentere zinsdetectie te hebben dankzij de voorsprong van Google Assistant in vergelijking met Siri en Alexa.
Ondanks dat apps die gebruikmaken van grote taalmodellen (LLM's) zoals ChatGPT en Bing Chat mainstream worden, behoudt Google Assistant zijn positie als een van de meest populaire virtuele assistenten simpelweg omdat het een tik verwijderd is op elk Android-apparaat, variërend van smart-tv's tot autoradio's en natuurlijk smartphones.
Siri en Alexa hebben wat in te halen op die afdeling, maar wat betreft zinsdetectie zijn ze niet zo ver weg. Toch heb je een grotere kans om de Google Assistent op je Pixel vanuit de andere kamer te wekken dan met Siri op je iPhone, hoewel je dat wel kunt vergroot de mogelijkheden van Siri met de Super Siri-modus. Aangezien Alexa meestal wordt gebruikt op de Echo-luidsprekerlijn van Amazon, heeft het hier een klein voordeel, aangezien deze luidsprekers zijn ontworpen om de stem van de gebruiker op te vangen.
AI is net zo spookachtig als handig
Het kan erg handig zijn om je AI-assistent met alleen je stem op te roepen. Voor een functie die naadloos in ons leven integreert, gebeurt er veel achter de schermen waar de meesten van ons vaak niet bij stilstaan.
Dat gezegd hebbende, brengt dit gemak ook het ongemak met zich mee dat uw apparaat altijd luistert naar wat u zegt. Tot nu toe staan spraakherkenners en wake-words op het apparaat tussen wat uw virtuele assistent hoort en wat u zegt.