OpenAI's Whisper is een nieuwe AI-aangedreven oplossing die je stem in tekst kan veranderen. Het beste van alles is dat het gratis is.
Er is echter een addertje onder het gras: het is een grotere uitdaging om te installeren en te gebruiken dan uw gemiddelde Windows-hulpprogramma. Vooral als je de Tensor Cores van je Nvidia GPU wilt gebruiken om het een mooie boost te geven.
Maak je echter geen zorgen. Daarom zijn we hier! Lees verder om erachter te komen hoe u het installeert en gebruikt, maar ook, als u er een heeft, om Whisper te laten profiteren van uw Nvidia GPU.
Wat is de Whisper van OpenAI?
ChatGPT is tegenwoordig een ware rage, en dat hebben we al gezien hoe u ChatGPT van OpenAI kunt gebruiken. En toch is het niet het enige interessante project van OpenAI.
Aangedreven door deep learning en neurale netwerken, is Whisper een natuurlijk taalverwerkingssysteem dat spraak kan "begrijpen" en omzetten in tekst. Maar het is ook zijn eigen ding, op een plek zitten tussen alle vergelijkbare oplossingen:
- Whisper is een AI-oplossing "getraind" op natuurlijke taal. Het is dus beter in het begrijpen van "normale" menselijke spraak dan oudere oplossingen.
- Whisper wordt niet geleverd met een interface en kan ook geen audio opnemen. Het kan alleen bestaande audiobestanden gebruiken en tekstbestanden uitvoeren.
- Omdat Whisper goed is in het "begrijpen van taal", heeft Whisper ook de superkracht van automatische vertaling in één enkele stap.
- Whisper is geen online dienst en kan volledig offline werken.
- Als je een relatief moderne Nvidia GPU (GTX970 of nieuwer) hebt, kan Whisper in "hardware-versnelde modus" draaien om de snelheid te verhogen.
- U hoeft zich niet te registreren, een licentie aan te schaffen of een abonnement te kopen.
Waarom worden AMD GPU's niet ondersteund?
Om GPU's voor meer dan alleen grafische toepassingen te kunnen gebruiken, zouden ze moeten fungeren als volledig programmeerbare processors. Daarom heeft Nvidia CUDA gemaakt, officieel beschouwd als "een parallel computerplatform en programmeermodel". Lees ons artikel op voor meer informatie over CUDA en gerelateerde hardware ("CUDA-kernen") wat zijn CUDA-kernen en hoe ze pc-gaming verbeteren.
CUDA is eigen Nvidia-technologie, alleen compatibel met Nvidia GPU's. De dichtstbijzijnde alternatieven voor AMD's hardware zijn OpenCL en Radeon Compute Platform. Raadpleeg ons artikel op voor meer informatie over hoe de oplossingen van elk bedrijf zich verhouden AMD rekeneenheden vs. Nvidia CUDA-kernen.
In vergelijking met de alternatieven wordt CUDA als volwassener, performanter en gebruiksvriendelijker beschouwd. De meeste ontwikkelaars richten zich dus alleen op CUDA, wat op zijn beurt betekent dat hun software alleen profiteert van de hardwarefuncties op Nvidia GPU's. En daar hoort Whisper ook bij.
Whisper downloaden en installeren
Helaas is Whisper geen zelfstandige app die u kunt downloaden, installeren en uitvoeren. Het is afhankelijk van andere software, die ook moet worden geïnstalleerd.
Voor Windows, om deze handleiding eenvoudig te houden, zullen we Chocolatey uitgebreid gebruiken voor het installeren van de meeste benodigde software-onderdelen. Bekijk onze gids op de snelste manier om Windows-software te installeren voor meer informatie over Chocolatey.
Voor Linux en Macs zou het installatieproces (exclusief de Windows-padvariabele en gebruiksvriendelijke batchbestanden die we zullen maken) vergelijkbaar moeten zijn.
- Om Whisper te installeren en te gebruiken, moet u beschikken over Python en zijn PIP tool geïnstalleerd en toegevoegd aan de Windows "Path" variabele. Voor meer informatie hierover, bekijk ons artikel over hoe Python PIP te installeren op Windows, Mac en Linux.
- Installeren FFMPEG door Chocolatey met dit commando:
Installeer ook de Python-versie met:choco installeren ffmpeg
pip3 installeren python-ffmpeg
- Installeer ten slotte Whisper vanaf de Github-pagina met:
pip3 installeer git+https://github.com/openai/whisper.git
Whisper's CUDA-enabled versie verkrijgen
Hoewel Whisper geen Nvidia GPU's gebruikt, is de fakkel pakket waarop het vertrouwt, biedt een CUDA-versnelde versie. Als u deze gebruikt in plaats van de "gewone" versie, kan Whisper zijn transcripties veel sneller voltooien met behulp van uw Nvidia GPU.
Whisper de CUDA-kernen van uw Nvidia GPU laten gebruiken:
- Als je al de "vanilla"-versie van torch hebt geïnstalleerd, verwijder en verwijder de restanten ervan dan met:
Als het klaar is, volgt u het op met:pip3 verwijderen fakkel
Pip cachezuiveren
- Installeer de CUDA-compatibele versie van de zaklamp met:
pip3 installeren zaklamp torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Gebruik om te controleren of Whisper uw Nvidia GPU kan gebruiken:
Je zou moeten zien (standaard: cuda) in plaats van (standaard: cpu).fluisteren --helpen | vindstr -i pytorch
Wat te doen als Torch niet kan worden geïnstalleerd
Als u de foutmelding "geen versie gevonden" tegenkomt tijdens het installeren van torch, moet u mogelijk een oudere versie van Python parallel aan uw huidige versie installeren.
Gebruik hiervoor deze opdracht:
choco installeren Python --versie OLDER_VERSION --naast elkaar
Vervang "OLDER_VERSION" door een versie, zoals 3.10.
Gebruik vervolgens het pad van de secundaire versie voor alle "algemene" Whisper-opdrachten (bijv. "c:\Python310\Scripts\pip.exe" in plaats van alleen "pip").
Hoe u uw stem kunt opnemen
U kunt elke geluidsopname-app gebruiken om uw stem om te zetten in een WAV- of MP3-bestand. Windows bevat zo'n app. Zie voor meer informatie hierover hoe u de Windows 10 Voice Recorder-app gebruikt.
Probeer het voor een meer complete optie Durf. Leer hoe u dit moet doen met onze gids op hoe Audacity te gebruiken om audio op te nemen op Windows en Mac.
Hoe te beginnen met transcriberen met Whisper
Hoewel Whisper niet wordt geleverd met een gebruiksvriendelijke GUI, is het gebruik ervan uiterst eenvoudig.
Laten we zeggen dat we het bestand hebben LatestNote.mp3 die spraak in het Grieks bevat, in map c:\MijnAudiobestanden, en wil het naar het Engels vertalen en transcriberen in een tekstbestand.
- We beginnen met hardlopen Opdrachtprompt of PowerShell.
- We "veranderen de map" waar het audiobestand is opgeslagen met deze opdracht:
CD C:\MijnAudiobestanden
- We ontketenen Whisper op het dossier met:
fluisteren--modelbaseren--taalgr--taakvertalenNieuwsteOpmerking.mp3
Na verwerking verschijnt het tekstbestand (met de naam "LatestNote.mp3.txt") in dezelfde map. Open het in een teksteditor zoals Kladblok om de vertaalde tekst te bekijken.
We hebben een vertaalvoorbeeld gebruikt omdat Engelse transcriptie nog eenvoudiger is: u hoeft alleen de markeringen "--language" en "-task" te "verliezen". Voor gewone transcriptie zou het bovenstaande commando dus zijn:
fluisteren--modelbaserenNieuwsteOpmerking.mp3
De vlag "model" is vereist omdat Whisper een van de verschillende opties gebruikt. Laten we ze verder uitdiepen om u te helpen bij het kiezen van het beste voor uw behoeften.
Welk model te kiezen?
Whisper biedt verschillende taalmodellen aan. Hoe groter het model, hoe beter de nauwkeurigheid, maar ook hoe hoger de hardwarevereisten. Zij zijn:
- Klein.
- Baseren.
- Klein.
- Medium.
- Groot.
De meeste moedertaalsprekers Engels zouden het goed moeten vinden klein of baseren modellen. Niet-moedertaalsprekers van het Engels zien mogelijk betere resultaten met grotere modellen, zoals klein En medium.
Houd er echter rekening mee dat de middelgrote en grote modellen meer dan 8 GB VRAM nodig hebben (dat wil zeggen "uw GPU-geheugen").
Om er een te selecteren, geeft u het model op na de schakeloptie "--model" in de opdracht:
fluisteren --model klein/klein/middelgroot/groot [bestand]
Bijvoorbeeld:
fluisteren--modelkleinMijn_Voice_Note.mp3
Hoe u uw transcriptie stroomlijnt
Elke keer dat je wat audio wilt transcriberen het hele Whisper-commando moeten typen, kan snel saai worden. Laten we een wereldwijd toegankelijk batchbestand maken om het proces te stroomlijnen.
- Loop Windows Explorer en bezoek je C: schijf.
- Maak een map voor uw scripts en kopieer het pad naar het klembord.
- Zoek in het Windows Start-menu naar "pad" en selecteer Bewerk de systeemomgevingsvariabelen.
- Vind de Pad variabel onder Gebruikersvariabelen voor UW_USERNAME. Dubbelklik erop om het te bewerken. Klik op Nieuw, en plak het pad naar uw map scripts. Klik op OK om de wijzigingen te accepteren.
- Keer terug naar uw map met scripts in Windows Verkenner. Maak daar een nieuw batchbestand met de naam "wht.bat". "In" het, plaats deze opdracht:
fluisteren --model tiny --language nl %1
- Maak nog twee batchbestanden, "whs" en "whm".
- Plaats dit in het eerste script:
fluisteren --model klein --language nl %1
- Plaats dit in de tweede:
fluisteren --model medium --language nl %1
Gefeliciteerd, je hebt nu drie scripts om de kleine, kleine en middelgrote modellen van Whisper gemakkelijk te gebruiken met je audiobestanden! Om een audiobestand naar tekst te transcriberen:
- Zoek het bestand met Windows Verkenner.
- Klik met de rechtermuisknop op een lege plek en kies Openen in Terminal.
- Typ deze opdracht en vervang "wht" door "whs" of "whm" om de kleine of middelgrote taalmodellen te gebruiken:
watUW_AUDIO_BESTAND.mp3
Typen met de snelheid van geluid met Whisper
Zelfs de snelste blindtypisten kunnen de snelheid waarmee we spreken niet evenaren. Tot voor kort was praten in plaats van typen echter niet optimaal voor het maken van documenten.
De meeste voice-to-text-oplossingen leverden middelmatige resultaten op. Je zou een paar oplossingen kunnen vinden die het proberen waard zijn, maar ze waren ingewikkeld in het gebruik of duur. Gelukkig heeft Whisper dat allemaal veranderd.
Na de bovenstaande stappen zou u klaar moeten zijn om uw stem met hoge nauwkeurigheid te transcriberen of te vertalen, met slechts één enkele opdracht.