Spraakherkenning is geweldig, maar hoe is het zo goed geworden?

Spraakherkenningstechnologie heeft een rijke ontwikkelingsgeschiedenis die het heeft geleid tot wat het nu is. Het vormt de kern van het moderne leven en geeft ons de mogelijkheid om taken uit te voeren door gewoon tegen een apparaat te praten. Dus, hoe is deze verbazingwekkende technologie in de loop der jaren geëvolueerd? Laten we kijken.

1952: Het Audrey-systeem

De eerste stap in spraakherkenning kwam tot stand in het begin van de jaren vijftig. Bell Laboratories ontwikkelde de eerste machine die de menselijke stem kon verstaan in 1952, en werd het Audrey-systeem genoemd. De naam Audrey was een soort samentrekking van de uitdrukking Automatic Digit Recognition. Hoewel dit een belangrijke innovatie was, had het enkele belangrijke beperkingen.

Het meest opvallende was dat Audrey alleen de numerieke cijfers 0-9 kon herkennen, geen woorden. Audrey zou feedback geven wanneer de spreker een nummer zei door 1 van de 10 gloeilampen te laten branden, elk corresponderend met een cijfer.

Afbeelding tegoed: metamorwerken/Shutterstock.com

instagram viewer

Hoewel het de cijfers met een nauwkeurigheid van 90% kon begrijpen, was Audrey beperkt tot een specifiek stemtype. Daarom was de enige persoon die het echt zou gebruiken HK Davis, een van de ontwikkelaars. Wanneer een nummer werd uitgesproken, moest de spreker minstens 300 milliseconden wachten voordat hij het volgende zei.

Het was niet alleen beperkt in functionaliteit, maar het was ook beperkt in bruikbaarheid. Een machine die alleen cijfers kon begrijpen, had niet veel nut. Een mogelijk gebruik was het kiezen van telefoonnummers, maar het was veel sneller en gemakkelijker om de nummers met de hand te bellen. Hoewel Audrey geen gracieus bestaan had, staat het nog steeds als een grote mijlpaal in de menselijke prestatie.

Verwant: Spraakgestuurd typen gebruiken in Microsoft Word

1962: IBM's schoenendoos

Een decennium na Audrey probeerde IBM een spraakherkenningssysteem te ontwikkelen. Op de Wereldtentoonstelling van 1962 toonde IBM een spraakherkenningssysteem genaamd Showbox. Net als Audrey was zijn belangrijkste taak het begrijpen van de cijfers 0-9, maar hij kon ook zes woorden begrijpen: plus, min, false, total, subtotal en off.

Shoebox was een rekenmachine die eenvoudige rekenproblemen kon oplossen. Wat feedback betreft, in plaats van lichten, kon Shoebox de resultaten op papier afdrukken. Dit maakte het handig als rekenmachine, hoewel de spreker nog steeds moet pauzeren tussen elk nummer/woord.

1971: Automatische oproepidentificatie van IBM

Na Audrey en Shoebox ontwikkelden andere laboratoria over de hele wereld spraakherkenningstechnologie. Het kwam echter pas in de jaren zeventig van de grond, toen IBM in 1971 de eerste uitvinding in zijn soort op de markt bracht. Het heette het Automatic Call Identification-systeem. Het was het eerste spraakherkenningssysteem dat via het telefoonsysteem werd gebruikt.

Ingenieurs zouden bellen en verbonden worden met een computer in Raleigh, North Carolina. De beller zou dan een van de 5000 woorden in zijn vocabulaire uitspreken en een "gesproken" antwoord krijgen als antwoord.

Verwant: Spraakdictatie gebruiken op Macs

1976: Harpij

In het begin van de jaren zeventig was het Amerikaanse ministerie van Defensie geïnteresseerd in spraakherkenning. DARPA (Defence Advanced Research Projects Agency) ontwikkelde in 1971 het Speech Understanding Research (SUR)-programma. Dit programma financierde verschillende bedrijven en universiteiten om onderzoek en ontwikkeling op het gebied van spraakherkenning te ondersteunen.

In 1976 ontwikkelde Carnegie Mellon University vanwege SUR het Harpy-systeem. Dit was een grote sprong voorwaarts in de spraakherkenningstechnologie. De systemen tot dat moment waren in staat om woorden en cijfers te begrijpen, maar Harpy was uniek omdat het volledige zinnen kon begrijpen.

Het had een woordenschat van ongeveer 1.011 woorden, wat volgens een publicatie van B. Lagere en R. Reddy, gelijkgesteld aan meer dan een biljoen verschillende mogelijke zinnen. De publicatie stelt vervolgens dat Harpy woorden kon begrijpen met een nauwkeurigheid van 93,77%.

De jaren tachtig waren een cruciale tijd voor spraakherkenningstechnologie, aangezien dit het decennium is waarin spraak herkenningstechnologie, aangezien dit het decennium was waarin we kennismaakten met de Hidden Markov-methode (HMM). De belangrijkste drijvende kracht achter HMM is: waarschijnlijkheid.

Telkens wanneer een systeem een foneem (het kleinste spraakelement) registreert, is er een zekere kans op wat het volgende zal zijn. HMM gebruikt deze kansen om te bepalen welk foneem het meest waarschijnlijk als volgende zal komen en de meest waarschijnlijke woorden zal vormen. De meeste spraakherkenningssystemen gebruiken tegenwoordig nog steeds HMM om spraak te verstaan.

De jaren negentig: spraakherkenning bereikt de consumentenmarkt

Sinds de conceptie van spraakherkenningstechnologie is het op reis geweest om een plek op de consumentenmarkt te vinden. In de jaren tachtig presenteerde IBM een prototype computer die spraak-naar-tekst kon dicteren. Het was echter pas in het begin van de jaren negentig dat mensen dergelijke toepassingen in hun huis begonnen te zien.

In 1990 introduceerde Dragon Systems de eerste spraak-naar-tekst dicteersoftware. Het heette Dragon Dictate en werd oorspronkelijk uitgebracht voor Windows. Dit programma van $ 9.000 was revolutionair om spraakherkenningstechnologie naar de massa te brengen, maar er was één fout. De gebruikte software discreet dictaat, wat betekent dat de gebruiker tussen elk woord moet pauzeren zodat het programma ze kan oppikken.

In 1996 droeg IBM opnieuw bij aan de industrie met Medspeak. Dit was ook een spraak-naar-tekst dicteerprogramma, maar het had geen last van discrete dictatie zoals Dragon Dictate deed. In plaats daarvan kon dit programma continue spraak dicteren, waardoor het een aantrekkelijker product werd.

Verwant: Google Assistent gebruiken met een koptelefoon

2010: Een meisje genaamd Siri

Gedurende de jaren 2000 explodeerde de spraakherkenningstechnologie in populariteit. Het werd geïmplementeerd in meer software en hardware dan ooit tevoren, en een cruciale stap in de evolutie van spraakherkenning was Siri, de digitale assistent. In 2010 introduceerde een bedrijf met de naam Siri de virtuele assistent als een iOS-app.

In die tijd was Siri een indrukwekkend stuk software dat kon dicteren wat de spreker zei en een weloverwogen en geestig antwoord kon geven. Dit programma was zo indrukwekkend dat Apple het bedrijf datzelfde jaar overnam en Siri een beetje een revisie gaf, waardoor het in de richting van de digitale assistent werd geduwd die we vandaag kennen.

Het was via Apple dat Siri zijn iconische stem (stem van Susan Benett) en een groot aantal nieuwe functies kreeg. Het gebruikt natuurlijke taalverwerking om de meeste functies van het systeem te bedienen.

De jaren 2010: de grote 4 digitale assistenten

Zoals het er nu uitziet, domineren vier grote digitale assistenten de spraakherkenning en aanvullende software.

Siri is aanwezig in bijna alle producten van Apple: iPhones, iPods, iPads en de Mac-familie van computers.
Google Assistent is aanwezig op de meeste van de 3 miljard + Android-apparaten op de markt. Bovendien kunnen gebruikers opdrachten in veel Google-services, zoals Google Home.
Amazon Alexa heeft niet echt een speciaal platform waar het leeft, maar het is nog steeds een prominente assistent. Het kan worden gedownload en gebruikt op Android-apparaten, Apple-apparaten. en zelfs Lenovo-laptops selecteren
Bixby is de nieuwste vermelding op de lijst met digitale assistenten. Het is de digitale assistent van Samsung van eigen bodem en is aanwezig bij de telefoons en tablets van het bedrijf.

Een gesproken geschiedenis

Spraakherkenning heeft een lange weg afgelegd sinds de tijd van Audrey. Het boekt grote winsten op meerdere gebieden; bijvoorbeeld volgens Wis brug mobiel, profiteerde het medische veld van spraakgestuurde chatbots tijdens de pandemie in 2020. Van het alleen kunnen begrijpen van getallen tot het begrijpen van verschillende variaties van volledige zinnen, spraakherkenning blijkt een van de meest bruikbare technologieën van onze moderne tijd te zijn.

DeelTweetenE-mail

Hoe werkt spraakherkenning?

We gebruiken de hele tijd spraakherkenning, maar hoe werkt het?

Lees volgende

Gerelateerde onderwerpen

Technologie uitgelegd
Siri
Google Assistent
Alexa
Bixby
Spraakopdrachten

Over de auteur

Arthur Brown (31 artikelen gepubliceerd)

Arthur is een tech-journalist en muzikant die in Amerika woont. Hij zit al bijna tien jaar in de branche en heeft geschreven voor online publicaties zoals Android Headlines. Hij heeft een grondige kennis van Android en ChromeOS. Naast het schrijven van informatieve artikelen, is hij ook bedreven in het rapporteren van technisch nieuws.

Meer van Arthur Brown

Abonneer op onze nieuwsbrief

Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!

Klik hier om je te abonneren

About Technology - denizatm.com

Spraakherkenning is geweldig, maar hoe is het zo goed geworden?

1952: Het Audrey-systeem

1962: IBM's schoenendoos

1971: Automatische oproepidentificatie van IBM

1976: Harpij

De jaren negentig: spraakherkenning bereikt de consumentenmarkt

2010: Een meisje genaamd Siri

De jaren 2010: de grote 4 digitale assistenten

Een gesproken geschiedenis

Abonneer op onze nieuwsbrief

Categorieën

Recent Post

Maak kennis met grootsheid: 4 manieren waarop u online met geweldige mensen kunt praten

Samsung herinnert miljoenen exploderende wasmachines

Duolingo Chatbots helpen u een nieuwe taal te leren