AI kan ons misleiden zodat we gegenereerde kunst verwarren met echte foto's. Dus waarom zijn handen zo'n grote uitdaging?

AI-generatoren evolueren voor onze ogen in een angstaanjagend tempo, maar ze hebben nog steeds gebreken. Het spotten van vreemde details in AI-beelden is eigenlijk best grappig. Dat is de reden waarom Midjourney-handen een hot topic werden, een probleem dat veel voorkomt bij veel motoren.

Laten we eens kijken waarom handen AI-beeldgeneratoren zo uitdagen. Hun programmeurs zijn dit meme-waardige probleem al aan het oplossen, maar het is interessant om na te denken over hoe kunstmatige intelligentie leert, om nog maar te zwijgen over wat het in de weg staat.

Waarom AI-gegenereerde handen voor opschudding zorgden

Iedereen die AI-engines gebruikt om afbeeldingen te maken, heeft misschien gemerkt dat handen zelden goed uitkomen, maar de kwestie trok de aandacht toen er een heleboel "foto's" op Twitter verschenen.

Bij nader inzien gaven de rare handen van de mensen ze weg als door AI gegenereerde afbeeldingen. Het feit dat dit de poging van Midjourney was, maakte de situatie interessanter.

instagram viewer

Een van de beste AI-engines kon de complexiteit van menselijke handen niet aan, dus werden de capaciteiten van Midjourney en zijn concurrenten op de proef gesteld. Het is waar dat zelfs DALL-E vatbaar is voor onrealistische vingers en nagels.

De hype was buiten proportie, gezien het feit dat door AI gegenereerde handen altijd een probleem zijn geweest, maar de extra aandacht leidde wel tot de release van Midjourney v5 om v4 te verbeteren.

De nieuwe versie maakte een punt van het verbeteren van handontwerp, een duidelijke indicatie dat AI-ingenieurs aandacht schonken aan de hilarische opschudding en besloten om de mogelijkheden van de software te upgraden.

Andere motoren zijn traag om het voorbeeld van Midjourney te volgen, dus AI-kunst repareren met Photoshop blijft een vaardigheid van onschatbare waarde. De grootste hindernis voor programmeurs is hoe ingewikkeld het is om kunstmatige intelligentie te trainen om overtuigende handen te trekken.

Waarom worstelen AI-beeldgeneratoren met handen?

AI-engines gebruiken generatieve adversarial networks (GAN's) of Stable Diffusion om afbeeldingen te produceren. Beide technologieën vereisen uitgebreide bronmaterialen, training en verwerkingskracht om zelfs de meest elementaire kunstwerken te maken.

Omdat reeds bestaande afbeeldingen centraal staan ​​in de training van een AI, moeten programmeurs hun software duizenden, zo niet miljoenen afbeeldingen geven naast prompts - het proces keer op keer herhalen totdat de engine begrijpt waarnaar een bepaald woord verwijst en hoe dat moet worden weergegeven voorwerp.

Maar de bronafbeeldingen waarvan een AI leert, zijn voornamelijk 2D, waarbij handen in verschillende posities worden afgebeeld. Of het nu recht of gekruld is, met vijf of drie vingers.

Aan het eind van de dag begrijpt een machine het concept van handen niet echt, en de afbeeldingen waaruit het leert, tonen de handen niet altijd duidelijk of consistent genoeg. Daarom kunnen Midjourney-handen zo lelijk zijn: AI-verwarring.

Zo geldig als De zorgen van Elon Musk over de ontwikkeling van AI kan zijn, hebben sommige delen van de technologie nog veel te leren. En hun obstakels gaan verder dan onvoldoende voorbeelden van handen.

Andere redenen waarom AI-beeldgeneratoren traag verbeteren

Kijken naar Modellen van Midjourney, v5 biedt geavanceerde coherentie tussen tekstprompts en geproduceerde afbeeldingen, evenals een hogere resolutie en aanvullende tools. Maar dergelijke prestaties zijn niet goedkoop.

Een AI trainen om het beter met handen te doen, vereist betere afbeeldingen, vooral in 3D. Dat betekent dat er veel tijd en mankracht wordt besteed aan processen, van het verkrijgen van bronmateriaal tot het verbeteren van de codering en het herhalen van de training totdat de AI het goed doet.

Zelfs dan kan de software fouten maken in anders verbluffende kunstwerken. Behalve dat het een enorme en complexe klus is, is het ook duur. Dus verwacht niet gratis AI tekst-naar-afbeelding generatoren om nog maar net het kaliber van Midjourney te bereiken.

Simpel gezegd, het probleem met AI-engines gaat niet alleen over het onvermogen van deze computerprogramma's om volledig te begrijpen hoe menselijke kenmerken zoals handen en voeten eruit zien of werken. Het komt ook neer op wat het kost, en de toegang van de technologie tot 3D-beelden en machine learning-technieken die generatoren kunnen helpen een realistischer beeld te krijgen van de wereld om hen heen.

AI-beeldgeneratoren zullen niet eeuwig worstelen

Handen zijn een lastig concept voor kunstmatige intelligentie om zijn binaire hoofd rond te wikkelen, maar er zijn al oplossingen voor het probleem aan het werk. Midjourney, DALL-E 2 en andere platforms zullen uiteindelijk in staat zijn eigenzinnige vingers tot een minimum te beperken, zo niet volledig uit te roeien.

Vooruitgang op andere AI-gebieden zorgt ervoor dat de technologie voortdurend evolueert en dat de ontwikkelaars altijd nieuwe manieren leren om deze toe te passen en te verbeteren.