Nog maar een paar maanden geleden, als je ergens een foto van wilde maken, moest je kunnen schetsen, schilderen of een van de Photoshop-tools gebruiken waar anderen het steeds over hebben. Na 2022 veranderde echter alles, allemaal dankzij AI - ja, zoals in 'kunstmatige intelligentie'.
In plaats van te proberen de wereld te domineren, kunnen artistiek ingestelde AI-tools alles wat je ze beschrijft in een afbeelding veranderen.
Ga met ons mee als we de wereld van AI-aangedreven tekstvisualisatie betreden en zie hoe je dergelijke tools kunt gebruiken om je gedachten om te zetten in echte afbeeldingen door simpelweg te typen wat je in gedachten hebt.
Dall-E: de artistieke kant van OpenAI's GPT-3
De eerste AI-aangedreven tools die populair werden, waren gebaseerd op OpenAI's GPT-3. Een van de redenen was de openheid van het project voor externe toegang, wat leidde tot enkele suggesties die: GPT-3 is de toekomst van creatief werk.
Vandaag kun je de officiële tools gebruiken die je kunt vinden op
De bètasite van OpenAI of oplossingen van derden die profiteren van zijn taalkundige superkrachten. U kunt GPT-3 bijvoorbeeld vragen om een concept voor een bericht te bedenken, eenvoudige vragen te beantwoorden of zelfs tekst te herzien of te vertalen.In 2022 onthulde OpenAI dat GPT-3 even goed was in het maken van afbeeldingen. Het DALL-E-project, een spel met Pixar's WALL-E-film en de naam van Dali, gebruikt GPT-3 niet om met tekst te werken, maar als een motor voor het maken van afbeeldingen.
Net als bij GPT-3 en tekst is DALL-E niet echt een creatief genie, die beelden uit het niets materialiseert. In plaats daarvan is het "getraind" op miljoenen afbeeldingen die al online bestaan. Zijn AI-krachten liggen in het analyseren van die afbeeldingen, er elementen uit halen, tweaken, morphen, aanpassen en uiteindelijk combineren tot nieuwe beelden.
Dat is tenminste een vereenvoudigde versie van wat er op de achtergrond gebeurt. De meeste mensen geven alleen om wat ze voor zich zien, en dat is een tekstvak waarin je iets kunt typen en het na een paar minuten in een afbeelding ziet veranderen.
Google's Imagen Antwoord
Google is een van de top drie "spelers" in AI-onderzoek. Toch is hun voortgang niet gemakkelijk waarneembaar, en de implementatie ervan in producten is ook niet zo toegankelijk als het aanbod van OpenAI.
Een van de eerste algemeen beschikbare implementaties van Google AI was in Google Docs en Gmail, in de vorm van intelligenter automatisch aanvullen en suggesties, bekend als Smart Compose. We zullen niet in details duiken omdat we het eerder hebben behandeld Smart Compose (en hoe je het kunt gebruiken).
Wanneer deze functies actief zijn, vergelijken de webapps van Google wat de gebruiker typt met wat miljoenen anderen in het verleden schreven. Vervolgens stelt het voor wat ze daarna hebben getypt.
Het is het bewijs dat we, ondanks wat we graag geloven, niet zo verschillend zijn. Als 99 van de 100 mensen 'later' typen na 'tot ziens', zouden we dat waarschijnlijk ook blijven typen.
We hebben allemaal een of andere vorm van automatisch aanvullen gebruikt, zelfs van vroeger in het T9 voorspellende tekstsysteem van het "dumbphone"-tijdperk. Daarom leken de AI-tools van Google niet zo intelligent als de GPT-3 van OpenAI. Ze voelden niet zo veel meer in gebruik dan een beter T9-systeem verbeterd voor de 21e eeuw. En daarom was de onthulling van Imagen ook een beetje een schok.
Net als een DALL-E op steroïden, is Imagen een hulpmiddel voor tekstvisualisatie. Op basis van wat er vandaag beschikbaar is, kan Imagen "schonere" en levendigere beelden produceren, terwijl het ook weet hoe om te gaan met geavanceerde functies zoals diffusie en transparantie.
Helaas blijft de toegang tot Imagen op het moment van schrijven beperkt, dus we konden het niet uitproberen.
DALL-E Mini en vrienden: open voor bedrijven
U hebt nog geen vrije toegang tot DALL-E en Imagen. Toch zijn er al veel alternatieven beschikbaar als je wilt rommelen met AI-aangedreven tekstuele beeldgeneratie.
Rekening houdend met het feit dat dit de begindagen zijn en de resultaten of gebruikerservaring die ze bieden misschien verre van optimaal zijn, is het toch de moeite waard om enkele van de volgende dingen te bekijken.
Memes maken met Dall-E Mini
Dankzij een combinatie van meer dan voldoende resultaten en een gebruiksvriendelijke interface, maar nog belangrijker, de brede beschikbaarheid, werd DALL-E mini een van de meest populaire AI-tekstvisualizers.
Verre van perfect, soms kunnen de resultaten van de DALL-E mini abstracter zijn dan bedoeld.
Andere keren kan het misschien niet creëren wat je in gedachten had, maar het kan behoorlijk dichtbij komen.
Na zijn explosie in populariteit hebben de makers van DALL-E mini hem naar een nieuw huis verhuisd onder een nieuwe branding. Nu kunt u de nieuwste versie van de DALL-E mini vinden als Craiyon op zijn eigen site.
Het gebruik van Craiyon is tegenwoordig net zo eenvoudig als online zoeken naar een bestaande afbeelding. U kunt de site bezoeken, een beschrijving van uw afbeelding in het tekstveld typen en op Enter drukken. Na een tijdje zie je de resultaten op je scherm.
Wat opvalt, is hoe goed Craiyon en soortgelijke tools visuele stijlen nabootsen. We hebben het bijvoorbeeld gevraagd om afbeeldingen van een puppy op een skateboard te toveren:
Vervolgens gebruikten we de exacte zin, maar voegden er een "Pixar-stijl" aan toe. Na een tijdje toonde Craiyon een raster van meer "cartoonachtige" beelden, dichter bij wat we waarnemen als Pixar's ray-traced graphics in hun geliefde films.
Craiyon gaf ons nog betere resultaten toen we "Pixar-stijl" vervingen door "anime-stijl" in dezelfde prompt.
Anime ziet er meer gestileerd uit dan de meer realistische beelden van Pixar, wat Craiyon lijkt te hebben geholpen om bijna gebruiksklare afbeeldingen te maken.
Voor de gek houden met latente diffusie
Het Latent Diffusion-model dat is getraind op de LAION-400M-dataset is een andere interessante AI-tekstvisualizer. Het is echter ook ingewikkelder in het gebruik ervan. Je moet het online op een virtuele machine draaien en met de verschillende parameters spelen in plaats van alleen maar in een tekstveld te typen. Toch is het makkelijker dan het klinkt.
- Bezoek de Google Latent Diffusion colab-ruimte dat is momenteel zijn thuis.
- Scroll een beetje naar beneden en zie de Snel veld onder Parameters:. Vervang de standaardprompt door wat u wilt dat uw afbeelding weergeeft.
- Kiezen Alles uitvoeren van de Runtime menu, of druk op CTRL + F9.
- Als u de geproduceerde afbeeldingen rechtstreeks vanuit de tool wilt kunnen exporteren, antwoord dan positief wanneer u wordt gevraagd of u deze wilt koppelen aan uw Google Drive-account. De tool heeft enige tijd nodig om de configuratie te voltooien en moet tijdens het proces enkele bestanden downloaden.
De waarden verhogen voor Stappen, iteraties, en Samples_in_parallel, kan leiden tot meer gedetailleerde resultaten. De tool is echter extreem veeleisend wat betreft bronnen op de servers van Google. Als gevolg hiervan kan het crashen als u die waarden te veel verhoogt, of het proces van het maken van een bepaalde afbeelding ingewikkelder wordt dan verwacht.
Interessante alternatieven
We hebben veel tijd besteed aan het testen van DALL-E mini en Latent Diffusion. Onze wetenschappelijke methode bestond uit twee verschillende delen. Eerst moesten we concepten bedenken die nauwkeurig als gestoord konden worden omschreven. Vraag die AI-visualizers vervolgens om ze in afbeeldingen om te zetten. Vaker dan verwacht, slaagden ze erin en kwamen ze in de buurt van de algemene opzet die we voor ogen hadden.
We hebben ook enkele van de beschikbare alternatieven voor dit artikel geprobeerd. We wachten nog steeds op toegang tot anderen. Enkele die het bekijken waard zijn, zijn (in willekeurige volgorde):
- Tussendoortje
- MindsEye bèta
- StarryAI
- Droom
- Disco-verspreiding
Zal AI-gegenereerde kunst de beeldende kunst vervangen?
De overvloed en de voortdurend toenemende populariteit van beeldgenererende AI-aangedreven tools leiden velen tot de conclusie dat beeldende kunst binnenkort zal sterven. Wat heeft het voor zin om tijd en energie te investeren om te leren tekenen of ingewikkelde software te gebruiken om dingen te visualiseren als een AI het sneller (en binnenkort beter) kan doen dan jij?
Als het je is opgevallen, zijn die tools allemaal 'getraind in datasets'. In gewoon Engels betekent dit dat ze doen wat ze doen dankzij mensen die hetzelfde al eerder hebben gedaan.
Dat is de hint waarom die tools het menselijke kunstenaarschap, creativiteit en vindingrijkheid niet kunnen vervangen. Het zijn nabootsers, slimme replicators. Zonder de door mensen geproduceerde originelen waarop ze zijn getraind, zouden ze geen uitvoer kunnen produceren.
Toch is dat het nu, en we geven toe dat we niet weten wat de toekomst in petto heeft. Voorlopig kunnen beeldend kunstenaars veilig slapen. In het tempo dat AI evolueert, zijn veel specialisten op dit gebied het erover eens dat het niet de vraag is of het ooit het werk van mensen zoals die van u zal vervangen. Het is alleen een kwestie van wanneer.
Maar goed, het is niet allemaal kommer en kwel. Terwijl Skynet zich voorbereidt om onze banen over te nemen, kunnen we in ieder geval onze stemming opvrolijken door moeiteloos afbeeldingen van puppy's op skateboards te maken!