Deepfake-muziek bootst de stijl van een bepaalde artiest na, inclusief hun stem. Hoe is het mogelijk dat het zo echt klinkt?
Lange tijd kon muziek de wereld van deepfakes vermijden omdat het simpelweg te ingewikkeld was om iemands stem te synthetiseren. Dat veranderde allemaal met de vooruitgang in AI-technologie. Het heeft geresulteerd in stemklonen van beroemde artiesten die kunnen worden gebruikt om nieuwe vocale tracks te produceren.
Nu AI-tools toegankelijker worden voor gewone mensen, is deepfake-muziek een groeiend probleem. Dit is wat het is en hoe het is gemaakt.
De evolutie van deepfake muziek
Als je je favoriete artiest op Spotify of YouTube hoort zingen, denk je nauwelijks dat het nep kan zijn, maar AI-vooruitgang heeft dit werkelijkheid gemaakt. Naast nepafbeeldingen en -video's bestaat er ook deepfake muziek.
AI-tools kunnen de zangstem van een persoon getrouw reproduceren door een AI-model te trainen op audiofragmenten van hun stem. Gemaakt door fans van de artiest of fans van AI-technologie, proberen steeds meer mensen vocale dubbelgangers te creëren.
Mensen proberen al jaren de stem te synthetiseren met behulp van een computer, al in 1961 toen de IBM 7094 de eerste computer was die zong. Je hoort de computergegenereerde stem die Daisy Bell zingt in een YouTube-clip en probeer je voor te stellen hoe geweldig dit moment was.
Snel vooruit naar de 21e eeuw en AI-technologie heeft beide de kwaliteit van gesynthetiseerde stem verbeterd en stelde ons in staat dingen te doen die de meesten van ons tot nu toe nooit voor mogelijk hadden gehouden, zoals het klonen van de stemmen van mensen.
Kijk maar eens naar deze clip van Roberto Nickson die zijn stem transformeert in de artiest en rapper Kanye West. Het kijken naar de video voelt griezelig, het klinkt echt net als Kanye, maar het is ook ongemakkelijk om naar te kijken. Zonder al te veel na te denken over hoe de artiest zou kunnen denken of voelen, en zonder toestemming, zou het kunnen worden gezien als het toe-eigenen van iemands stem.
In tegenstelling tot de computerweergave van Daisy Bell, kan AI-vocaal klonen de exacte gelijkenis reproduceren van iemands stem, die alle subtiele verschillen in timbre omvat die ons helpen iemands unieke stem te identificeren profiel. Zonder licentie en zonder toestemming heeft deepfake-muziek echter een aantal ernstige problemen, waar we later op terugkomen.
Hoe deepfake-nummers worden gemaakt
Er worden verschillende methoden gebruikt om deepfake-nummers te maken, maar velen van hen gebruiken AI-technologie. Open-sourceprojecten zoals SoftVC VITS Singing Voice Conversion-project op GitHubhebben bijvoorbeeld een AI-model ontwikkeld dat doet wat het in zijn naam zegt: een audiofragment omzetten in een zangstem.
Dit model neemt een bestaand audiobestand van iemand die zingt en converteert dit naar de stem van iemand anders. Dingen zoals de songtekst en het ritme van de originele stem blijven behouden, maar de toon, het timbre en de persoonlijke vocale kwaliteiten worden geconverteerd naar de stem die wordt gespecificeerd door de trainingsdataset.
Houd er rekening mee dat andere delen van het nummer nog steeds handmatig kunnen worden geproduceerd, zoals het creëren van beats en melodieën in dezelfde stijl en hetzelfde genre als de originele artiest.
Om een deepfake van de stem van Kanye West te creëren, moest een dataset van een derde partij worden ingevoerd in het SoftVC VITS-model, dat samples van de echte Kanye's stem zou bevatten. Het bestand met de dataset is sindsdien door de auteur verwijderd, wat niet verwonderlijk is gezien het duistere juridische territorium dat ongeautoriseerde datasets met zich mee kunnen brengen.
Hoewel het geen commerciële app is geworden, kun je een versie van de SoftVC VITS-model op Google Collab dat is gebruiksvriendelijker.
Totdat de ethische en wettelijke grenzen zijn vastgesteld, is het mogelijk dat meer gebruiksvriendelijke apps voor het klonen van stemmen dat zullen doen pop-up - niet veel anders dan de Drayk.it-app die een tekstbeschrijving veranderde in liedjes die waren gestileerd naar de artiest Mannetjeseend. Het werd later stilgelegd.
Enkele andere tools die worden gebruikt om deepfake-muziek te maken, zijn grote taalmodellen zoals ChatGPT, die kan worden gebruikt om songteksten te schrijven in de stijl van een beroemde artiest; En De Jukebox van OpenAI En MuziekLM van Google, dit zijn generatieve AI-modellen die volledig vanaf het begin muziek in onbewerkte audiovorm kunnen creëren.
Kun je het verschil horen?
Een nummer gemaakt door een anonieme gebruiker genaamd Ghostwriter ging viraal op TikTok in april 2023, niet in de laatste plaats omdat het songteksten bevatte die werden gezongen door de artiesten Drake en The Weeknd. Natuurlijk waren dit niet de echte stemmen van de artiesten, maar neppe.
Als de zang niet zo'n goede kopie van het origineel was geweest, was het misschien geen hit geworden. Met een beetje speurwerk kon je er vrij snel achter komen of het echt was of niet, maar met alleen je oren kon je alleen maar raden of het authentiek was.
Als je wilt identificeer een door AI gegenereerde afbeelding er zijn op zijn minst een paar visuele afwijkingen waar je naar op zoek zou kunnen zijn. Wat audio betreft, betekenen tekenen als low-fidelity audio of glitches in de track niet veel, aangezien dit creatieve keuzes zijn die de hele tijd bij muziekproductie worden gebruikt.
Wat nog interessanter is, is dat veel mensen het nummer echt leuk vinden, zelfs nadat ze ontdekten dat het niet de echte stemmen van Drake of The Weeknd waren. Bewonderaars wezen erop dat niet alles simpelweg met AI werd gegenereerd, en dat echte vaardigheid en werk ging zitten in het schrijven van de teksten, het componeren van de beats en het samenstellen van het geheel.
Het nummer bereikte Spotify en YouTube voordat het in de dagen erna werd verwijderd, maar niet voordat fans het nummer als mp3 hadden gedownload. Je kunt nog steeds exemplaren van het nummer online vinden als je zoekt op "Heart On My Sleeve, Drake ft. Het weekend".
Al snel zal het bijna onmogelijk worden om het verschil te zien tussen door AI gegenereerde vocale klonen en de echte menselijke stem. Met dat in gedachten vragen mensen zich af of dit in de eerste plaats een goed gebruik van AI-technologie is, of zelfs een legaal gebruik ervan.
Problemen met deepfake-muziek
Aan de ene kant luisteren mensen graag naar door fans gemaakte mashups van hun favoriete artiesten en respecteren ze de creativiteit die nodig is om het te realiseren. Maar de mogelijkheid om vocale klonen te hebben, is in de eerste plaats afhankelijk van al dan niet geautoriseerde datasets.
Zonder toestemming worden samples van iemands stem verzameld in een dataset die vervolgens wordt gebruikt om een AI-stemconversiemodel te trainen. Het is vergelijkbaar met het probleem waarmee wordt geconfronteerd artiesten die hun afbeeldingen willen verwijderen uit trainingsdatasets die worden gebruikt om AI-beeldgeneratoren zoals Dall-E of Midjourney te trainen.
Ook het auteursrecht is niet helemaal voorbereid op het omgaan met deepfake muziek. In 2020 slaagde de artiest Jay-Z er niet in om YouTube te dwingen om door AI gegenereerde audio van hem rappende regels uit William Shakespeare's "To Be or Not to Be" monoloog te verwijderen.
Wanneer een deepfake-nummer wordt geüpload naar Spotify of YouTube, is het ook de vraag wie er geld verdient. Moet je geld kunnen verdienen aan een nummer dat bijna exact de stem van iemand anders kopieert?
Hulst Herndon is een artiest die heeft geprobeerd een systeem te creëren waarmee mensen haar kunnen compenseren in ruil voor het gebruik van haar stemmodel om origineel werk te maken. Terwijl andere artiesten zoals Nick Cave dat wel hebben uitgesproken tegen AI, schrijven:
Liederen komen voort uit lijden, waarmee ik bedoel dat ze zijn gebaseerd op de complexe, interne menselijke strijd van creatie en, nou ja, voor zover ik weet, voelen algoritmen niet.
Soms, Door AI gegenereerde tekst kan creativiteit missen maar ze staan nog steeds online. AI zou kunnen resulteren in veel slechte muziek waar heel weinig moeite in is gestoken.
Een balans vinden tussen muziek en AI
Deepfake-muziek wordt gemaakt met behulp van AI-tools en AI-modellen die zijn getraind op ongeautoriseerde datasets. Sommige modellen zijn open source en vrij toegankelijk, andere hebben pogingen ondernomen om ze te verpakken in een gebruiksvriendelijke app.
Naarmate meer mensen deepfake muziekmodellen of apps in handen krijgen, is het de moeite waard om na te denken over de impact op de artiest. Toestemming krijgen voor het trainen van datasets en compensatie voor de artiest zijn slechts enkele van de problemen die opdoemen met AI-muziektechnologie.