De makers van ChatGPT hebben nog een tool die tot doel heeft uw vingers te ontlasten.

Dezelfde mensen achter ChatGPT hebben nog een op AI gebaseerde tool gemaakt die u vandaag kunt gebruiken om uw productiviteit te verhogen. We hebben het over Whisper, een spraak-naar-tekst-oplossing die alle vergelijkbare oplossingen die eraan voorafgingen, overschaduwde.

U kunt Whisper gebruiken in uw programma's of de opdrachtregel. En toch verslaat dat zijn eigenlijke doel: typen zonder toetsenbord. Als je moet typen om het te gebruiken, waarom zou je het dan gebruiken om typen te vermijden? Gelukkig kun je Whisper nu gebruiken via een desktop-GUI. Sterker nog, het kan uw stem bijna in realtime transcriberen. Laten we eens kijken hoe u met uw stem kunt typen met Whisper Desktop.

Wat is de Whisper van OpenAI?

Whisper van OpenAI is een Automatic Speech Recognition-systeem (afgekort ASR) of, simpel gezegd, een oplossing voor het omzetten van gesproken taal in tekst.

In tegenstelling tot oudere dicteer- en transcriptiesystemen is Whisper echter een AI-oplossing die is getraind op meer dan 680.000 uur spraak in verschillende talen. Whisper biedt ongeëvenaarde nauwkeurigheid en, behoorlijk indrukwekkend, is niet alleen meertalig, maar het kan ook tussen talen vertalen.

instagram viewer

Wat nog belangrijker is, het is gratis en beschikbaar als open source. Dankzij dat hebben veel ontwikkelaars de code gesplitst in hun eigen projecten of apps gemaakt die erop vertrouwen, zoals Whisper Desktop.

Als je de voorkeur geeft aan de "vanilla"-versie van Whisper en de veelzijdigheid van de terminal in plaats van onhandige GUI's, lees dan ons artikel over hoe u uw stem in tekst kunt veranderen met Whisper voor Windows van OpenAI.

Zijn Whisper en Whisper Desktop hetzelfde?

Ondanks zijn officieel klinkende naam, is Whisper Desktop een GUI van derden voor Whisper, gemaakt voor iedereen die liever op knoppen klikt in plaats van commando's te typen.

Whisper Desktop is een stand-alone oplossing die niet afhankelijk is van een bestaande Whisper-installatie. Als bonus gebruikt het een alternatieve, geoptimaliseerde versie van Whisper, dus het zou beter moeten presteren dan de stand-alone versie.

U bevindt zich aan de andere kant van het spectrum en in plaats van een gemakkelijkere manier te zoeken om Whisper te gebruiken dan de terminal, zoekt u naar manieren om het in uw eigen oplossingen te implementeren? Verheug u, voor OpenAI heeft de toegang tot ChatGPT en Whisper API's geopend.

Whisper Desktop downloaden en installeren

Hoewel Whisper Desktop gemakkelijker te gebruiken is dan de stand-alone Whisper, is de installatie ingewikkelder dan herhaaldelijk klikken op Volgende in een wizard.

  1. Bezoek De officiële Github-pagina van Whisper Desktop. Kijk rechts, en klik op de nieuwste versie hieronder Uitgaven.
  2. Onder Activa, Klik WhisperDesktop.zip en download het naar uw pc.
  3. Pak het gedownloade archief uit in een map en gebruik uw bestandsbeheerder om het te bezoeken. Binnenin vind je de Whisper Desktop-applicatie. Dubbelklik erop om het uit te voeren.
  4. Je hebt ook een Whisper-taalmodel nodig GCML binair formaat. Whisper Desktop zal u voorzien van twee links om er een aan te schaffen. Sla de tweede link voor het genereren van uw eigen model over, aangezien dit een ingewikkelder proces is. Klik op Knuffelend gezicht om die pagina in uw standaardbrowser te openen, van waaruit u een kant-en-klaar bestand kunt downloaden.
  5. De versie van Whisper Desktop die we gebruikten tijdens het schrijven van dit artikel bevatte een link naar een verouderde repository bij Hugging Face. Als u hetzelfde probleem tegenkomt, ziet u een link naar een nieuwe locatie. Klik erop om de nieuwe repository te bezoeken.
  6. Klik op de link die u naar de beschikbare zal leiden modellen.
  7. Klik in die lijst op de ggml-medium.bin of ggml-medium.en.bin, afhankelijk van of u meertalige of alleen Engelstalige ondersteuning wilt in Whisper.
  8. Eindelijk zou je je bestemming moeten hebben bereikt. Let op de regel die aangeeft dat dit bestand is opgeslagen met Git LFS en te groot is om weer te geven, maar je kunt het nog steeds downloaden. Klik op downloaden om precies dat te doen.
  9. Wanneer het downloaden van het bestand is voltooid, gebruikt u uw favoriete bestandsbeheerder (File Explorer is voldoende) om het gedownloade taalmodelbestand naar dezelfde map als Whisper Desktop te verplaatsen.

Transcriberen met Whisper Desktop

Transcriberen met Whisper Desktop is eenvoudig, maar het kan zijn dat je nog steeds een of twee klikken nodig hebt om de app te gebruiken.

Voer Whisper Desktop opnieuw uit. Mis je (nog) het juiste pad naar je gedownloade taalmodel? Klik op de knop met de drie stippen aan de rechterkant van het veld en selecteer handmatig het bestand dat je hebt gedownload van Hugging Face.

Vanaf deze plek kunt u ook het vervolgkeuzemenu naast gebruiken Modelimplementatie om te kiezen of u Whisper op uw GPU wilt uitvoeren (GPU), op zowel de CPU als GPU (Hybride), of alleen op de CPU (Referentie).

De Geavanceerd knop leidt naar meer opties die van invloed zijn op hoe Whisper op uw hardware zal werken. Aangezien de knop echter duidelijk aangeeft dat ze geavanceerd zijn, raden we u aan ze alleen aan te passen als u problemen oplost of weet wat u doet. Als u hier de verkeerde optiewaarden instelt, kan dit een prestatieverlies opleggen of de app onbruikbaar maken.

Klik op OK om naar de hoofdinterface van de app te gaan.

Als je al een opname hebt van je stem die je wilt omzetten in geschreven tekst, klik dan op Bestand transcriberen en selecteer het. Toch zullen we Whisper Desktop gebruiken voor live transcriptie voor dit artikel.

De aangeboden opties zijn eenvoudig. U kunt de taal Whisper zal gebruiken, kies als je wilt vertalen tussen talen en schakel de app's in Foutopsporingsconsole.

De meeste Engelssprekende gebruikers kunnen deze opties veilig overslaan en zorgen er alleen voor dat de juiste audio-invoer is geselecteerd in het vervolgkeuzemenu ernaast Opnameapparaat.

Zorg ervoor dat Opslaan in tekstbestand En Voeg toe aan dat bestand zijn ingeschakeld om Whisper Desktop de uitvoer naar een bestand te laten opslaan zonder de inhoud te overschrijven. Gebruik de knop met de drie stippen aan de rechterkant van het padveld van het bestand om het tekstbestand te definiëren.

Klik op Vastlegging om te beginnen met het transcriberen van uw spraak naar tekst.

Whisper Desktop toont u drie indicatoren voor wanneer het spraakactiviteit detecteert, wanneer het actief aan het transcriberen is en wanneer het proces is vastgelopen.

Je kunt zo lang blijven praten als je wilt, en je zou af en toe de eerste twee indicatoren moeten zien knipperen terwijl de app je stem in tekst verandert. Klik Stop wanneer klaar.

Het tekstbestand dat u hebt geselecteerd, wordt geopend in uw standaardteksteditor en bevat in geschreven vorm alles wat u zei totdat u klikte Stop.

We moeten er rekening mee houden dat u ook het tegenovergestelde kunt doen van wat we hier zagen: elke tekst omzetten in spraak. Op deze manier kun je naar alles luisteren alsof het een podcast is in plaats van je ogen te vermoeien door naar schermen te turen. Voor meer informatie hierover, bekijk ons ​​artikel over enkele van de beste gratis online tools om tekst-naar-spraak als MP3-audio te downloaden.

Tips voor spraakgestuurd typen op Whisper Desktop

Hoewel Whisper Desktop een redder in nood kan zijn, doordat je veel sneller met je stem kunt schrijven dan typen, is het verre van perfect.

Tijdens onze tests ontdekten we dat het af en toe stottert, woorden overslaat, niet transcribeert totdat jij het doet handmatig stoppen en het proces opnieuw starten, of vast komen te zitten in een lus en steeds dezelfde zin opnieuw transcriberen herhaaldelijk.

We denken dat dit tijdelijke problemen zijn die zullen worden verholpen, aangezien de stand-alone Whisper niet dezelfde problemen vertoont.

Afgezien van die kleine hobbels, zou het omzetten van uw stem in tekst moeiteloos moeten zijn met Whisper Desktop. Toch ontdekten we tijdens onze tests dat het nog beter kan presteren als...

  1. In plaats van slechts twee of drie woorden uit te spreken en dan te pauzeren, kan Whisper je beter begrijpen als je langer doorgaat. Probeer het in ieder geval een hele zin tegelijk te geven.
  2. Vermijd om dezelfde reden het herhaaldelijk starten en stoppen van het transcriptieproces.
  3. Telkens wanneer u zich realiseert dat u een fout heeft gemaakt, negeert u deze en gaat u door. Het laden en lossen van het taalmodel lijkt het meest tijdrovende deel van het proces te zijn met de huidige staat van Whisper en onze beschikbare hardware. Het is dus sneller om te blijven praten en daarna je fouten uit te werken.
  4. Net als bij de stand-alone versie van Whisper kun je het beste het optimale taalmodel gebruiken voor je beschikbare hardware. U kunt maximaal de medium model als uw GPU 8 GB VRAM heeft. Ga voor minder VRAM voor de kleinere modellen. Kies alleen de iets nauwkeuriger maar ook veel veeleisender groot model als u een GPU gebruikt met 16 GB VRAM of meer.
  5. Onthoud dat hoe groter het taalmodel, hoe langzamer het transcriptieproces. Ga niet voor een model dat groter is dan nodig. U zult waarschijnlijk merken dat Whisper Desktop u meestal al "begrijpt" met de middelgrote of kleinere modellen, met slechts een of twee fouten per alinea.

Ben je nog aan het typen? Gebruik je stem met Whisper

Ondanks dat het enige tijd kost om het in te stellen, zoals je zult zien als je het probeert, presteert Whisper Desktop veel beter dan de meeste alternatieven, met een veel hogere nauwkeurigheid en hogere snelheid.

Nadat u het begint te gebruiken om met uw stem te typen, ziet uw toetsenbord er misschien uit als een overblijfsel uit lang vervlogen tijden.