Google's MusicLM leek veelbelovend met zijn vermogen om muziek te genereren op basis van tekstprompts. Maar na het op de proef te hebben gesteld, leverde het niet helemaal op.
In januari 2023 kondigde Google MusicLM aan, een experimentele AI-tool die muziek kan genereren op basis van tekstbeschrijvingen. Naast het nieuws bracht Google een verbluffend onderzoeksdocument uit voor MusicLM dat veel mensen verbaasd deed staan over het vermogen om muziek uit het niets te toveren.
Na een tekstprompt beloofde het model high-fidelity-muziek te produceren die allerlei beschrijvingen zou opleveren, van genre tot instrument tot abstracte bijschriften die beroemde kunstwerken beschrijven. Nu MusicLM open is voor het publiek, hebben we besloten om het op de proef te stellen.
Google's poging om een AI-muziekgenerator te maken
Het omzetten van een tekstprompt als "ontspannende jazz" in een kant-en-klaar nummer is misschien wel de heilige graal van experimenten in AI-muziek. Net als bij beroemde AI-beeldgeneratoren zoals Dall-E of Midjourney, hoef je geen greintje muziekkennis te hebben om een nummer met een melodie en beat te produceren.
In mei 2023 konden degenen die zich hadden aangemeld voor de AI Test Kitchen van Google de demo voor het eerst uitproberen. Begroet door een gebruiksvriendelijke webpagina en een paar leidende regels - elektronisch en klassiek instrumenten werken het beste, en vergeet niet een "vibe" te specificeren - het produceren van een muziekfragment is dat wel onvoorstelbaar eenvoudig.
Snelheid is een van de weinige dingen waar MusicLM echt in slaagt, naast samples met een relatief hoge getrouwheid. De echte test kon echter niet alleen met een stopwatch worden gemeten. Kan MusicLM echte, luisterbare muziek produceren op basis van een paar woorden? Niet precies (we komen hier zo op terug).
Hoe MusicLM te gebruiken in de AI-testkeuken van Google
Het gebruik van MusicLM is eenvoudig, u kunt zich aanmelden voor de wachtlijst De AI-testkeuken van Google als je het een kans wilt geven.
Op de web-app ziet u een tekstvak waarin u een prompt kunt samenstellen van een paar woorden tot een paar zinnen die het soort muziek beschrijven dat u wilt horen. Voor de beste resultaten raadt Google je aan om "heel beschrijvend te zijn", eraan toevoegend dat je moet proberen de sfeer en emotie van de muziek op te nemen.
Als je klaar bent, druk je op Enter om de verwerking te starten. Binnen ongeveer 30 seconden zijn er twee audiofragmenten beschikbaar die je kunt beluisteren. Van de twee heb je de mogelijkheid om een trofee toe te kennen aan het beste voorbeeld dat overeenkomt met je prompt, wat Google op zijn beurt helpt het model te trainen en de output te verbeteren.
Hoe MusicLM klinkt
Mensen maken al minstens 40.000 jaar geleden muziek zonder een definitief idee of muziek vóór, na of tegelijkertijd met de ontwikkeling van taal kwam. Dus in sommige opzichten is het niet verwonderlijk dat MusicLM de code van deze oude universele kunst nog niet helemaal heeft gekraakt.
Google's MusicLM-onderzoeksdocument suggereerde dat MusicLM muziek zou kunnen genereren uit bijschriften die bij beroemde kunstwerken horen, en volgen instructies zoals het op een soepele manier veranderen van genre of stemming na een reeks verschillende aanwijzingen.
Voordat we echter aan zulke grote bestellingen toekwamen, ontdekten we dat MusicLM eerst verschillende fundamentele problemen moest overwinnen.
Moeite om vast te houden aan het tempo
De meest basale taak van elke muzikant is gewoon op tijd spelen. Met andere woorden, hou je aan het tempo. Verrassend genoeg is dat niet iets dat MusicLM 100% van de tijd kan doen.
In feite, door 10 keer dezelfde prompt te gebruiken, wat 20 muzieknummers oplevert, waren er slechts drie in de tijd. De overige 17 samples waren sneller of langzamer dan het opgegeven tempo dat was geschreven in "beats per minute", een veelgebruikte term om muziek te beschrijven.
In dit voorbeeld gebruikten we de prompt "solo klassieke piano gespeeld met 80 slagen per minuut, vredig en meditatief". Bij nader luisteren versnelde of vertraagde de muziek vaak binnen de kleine samplelengte.
De muziek miste ook een sterke beat en klonk alsof iemand halverwege het stuk op play had gedrukt. Of dit nu opzettelijk was of niet, het maakt het moeilijk om te beoordelen of MusicLM daadwerkelijk een goed begin of einde van een muziekstuk kan componeren bovenop het vasthouden aan de maat.
Willekeurige instrumentselectie
Misschien had MusicLM nog niet geleerd om in strikte timing te spelen, dus gingen we verder met een andere veelgebruikte muziekparameter. We wilden zien of het ons verzoek om bepaalde instrumenten zou honoreren.
We schreven verschillende prompts met beschrijvingen als "Solo-synthesizer" en "Solo-basgitaar". Anderen waren grotere ensembles zoals "Strijkkwartet" of "Jazzband". Over het algemeen leek het een kans van 50:50 dat je zou krijgen waar je om vroeg.
Een theorie is dat het model sommige instrumenten associeert met populaire muziekgenres. Neem bijvoorbeeld de prompt "Solosynthesizer, akkoordprogressie. Levendig en vrolijk". In plaats van alleen een synthesizergeluid te krijgen, produceerde MusicLM een elektronische track compleet met drums en bas.
Het is mogelijk dat het model gewoon niet genoeg gegevens en onvoldoende training heeft gehad om het specifieke verzoek om een instrument te begrijpen.
De zang valt buiten de vergelijking
Volgens de toenmalige restricties zou het model geen muziek met zang produceren. De netelige auteursrechtkwesties en de foutieve zang van MusicLM is een waarschijnlijke factor waarom Google ervoor koos om op veilig te spelen door deze beperking in te stellen.
Maar na enige tijd met MusicLM te hebben geëxperimenteerd, realiseerden we ons dat de controle van Google over de uitvoer van het model niet bepaald ijzersterk was. Vreemd genoeg zou een prompt als "akoestische gitaar" een nummer produceren met spookachtige zang op de achtergrond die gedempt en afstandelijk klonk.
Hoewel dit niet vaak voorkomt, vraag je je toch af of MusicLM überhaupt in staat is om overtuigende zang te creëren.
Met software als VOCALOID en Synthesizer V voorop AI-ondersteunde vocale synthesetechnologie, laat het weglaten van vocalen van het huidige model ons afvragen of het nog niet goed genoeg is om te concurreren met bestaande technologie. MusicLM heeft misschien nog een lange weg te gaan voordat muzikanten zijn lof zingen.
De toekomst van AI-muziekgeneratoren
Hoewel MusicLM generatieve AI-muziektechnologie vooruit heeft geholpen, moet het terug naar school en nog een paar dingen leren voordat het praktisch werk in de muziekindustrie kan aannemen.
Voorheen was de beste poging tot generatieve AI-muziek een model genaamd JukeboxAI van OpenAI. Het was niet bepaald in een gebruiksklare staat en het kostte maar liefst negen uur om slechts één minuut muziek weer te geven.
Voor je inspanningen zou je waarschijnlijk een echt buitenaards klinkend nummer terugkrijgen vol met audiovervorming en artefacten. Aan de positieve kant, je zou je niet vervelen luisterend naar de bizarre creaties die Jukebox tovert.
In het licht hiervan heeft MusicLM een aantal belangrijke vorderingen gemaakt in de richting van een gebruiksvriendelijke AI-muziekgenerator. We zouden het model bijna kunnen vergeven voor zijn willekeurige uitvoer als je even stilstaat bij hoe enorm ingewikkeld het is om muziek in onbewerkte audiovorm te genereren.
Nadat het model aan het werk was gezet, voelt MusicLM zich echter halfbakken in vergelijking met wat Google in zijn eerste onderzoekspaper publiceerde. Zelden krijgt een AI-beeldgenerator het beeld van een Apple verkeerd, evenzo zou een AI-muziekgenerator een paar basisprincipes goed moeten krijgen, zoals tempo en instrumenten.
Google's MusicLM voldoet niet aan de verwachtingen
Met technologiebedrijven die racen om elkaar te verslaan op het gebied van AI, voelt MusicLM alsof het openbare proeven is ingegaan voordat het klaar was. In plaats van de basis goed te krijgen, lijkt het model een veel vagere en subjectievere benadering te hanteren bij het produceren van muziek.
Google kan je aanmoedigen om specifiek te zijn met je prompt, maar het kan het tempo niet goed aan en het is niet gegarandeerd dat je elke keer de instrumenten krijgt waar je om vroeg. MusicLM is misschien interessant en een goede demonstratie van krachtige AI-ontwikkelingen, maar als muziek het einddoel is, heeft het nog een lange weg te gaan.