GPT-4 is er, en dit zijn de nieuwe functies die u zou moeten bekijken.
OpenAI heeft eindelijk zijn langverwachte GPT-update gelanceerd, GPT-4. Het Large Language Model (LLM) wordt geleverd met een aantal krachtige nieuwe functies en mogelijkheden die gebruikers wereldwijd al hebben geschokt.
Behalve dat het aanzienlijk beter is dan GPT-3.5, kan de bestaande LLM die OpenAI's virale chatbot ChatGPT aandrijft, GPT-4 begrijpt complexere invoer, heeft een veel grotere tekeninvoerlimiet, heeft multimodale mogelijkheden en is naar verluidt veiliger gebruik.
1. GPT-4 kan complexere invoer begrijpen
Een van de grootste nieuwe functies van GPT-4 is de mogelijkheid om meer complexe en genuanceerde prompts te begrijpen. Volgens AI openen, GPT-4 "toont prestaties op menselijk niveau op verschillende professionele en academische benchmarks."
Dit werd aangetoond door GPT-4 te onderwerpen aan verschillende examens op menselijk niveau en gestandaardiseerde tests, zoals de SAT, BAR en GRE, zonder specifieke training. GTP-4 begreep en loste deze tests niet alleen op met een relatief hoge score over de hele linie, maar versloeg ook elke keer zijn voorganger, GPT-3.5.
De mogelijkheid om meer genuanceerde invoerprompts te begrijpen, wordt ook ondersteund door het feit dat GPT-4 een veel grotere woordlimiet heeft. Het nieuwe model kan invoerprompts van maximaal 25.000 woorden verwerken (voor context was GPT-3.5 beperkt tot 8.000 woorden). Dit heeft een directe invloed op de details die gebruikers in hun prompts kunnen stoppen, waardoor het model veel meer informatie krijgt om mee te werken en langere uitvoer produceert.
GPT-4 ondersteunt ook meer dan 26 talen, waaronder talen met weinig middelen zoals Lets, Welsh en Swahili. Bij benchmarking op driepuntsnauwkeurigheid op de MMLU-benchmark, versloeg GPT-4 GPT-3.5 en andere toonaangevende LLM's zoals PaLM en Chinchilla in termen van Engelstalige prestaties in 24 talen.
2. Multimodale mogelijkheden
De vorige versie van ChatGPT was beperkt tot alleen tekstprompts. Een van de nieuwste functies van GPT-4 daarentegen zijn de multimodale mogelijkheden. Het model kan zowel tekst- als beeldprompts accepteren.
Dit betekent dat de AI een afbeelding als invoer kan accepteren en interpreteren en begrijpen, net als een tekstprompt. Deze mogelijkheid omvat alle formaten en soorten afbeeldingen en tekst, inclusief documenten die de twee combineren, handgetekende schetsen en zelfs schermafbeeldingen.
De beeldleesmogelijkheden van de GPT-4 gaan echter verder dan alleen het interpreteren ervan. OpenAI demonstreerde dit in zijn ontwikkelaarsstroom (hierboven), waar ze GPT-4 voorzagen van een handgetekende mockup van een grapwebsite. Het model kreeg de opdracht om HTML- en JavaScript-code te schrijven om van de mockup een website te maken en de grappen te vervangen door echte.
GPT-4 schreef de code met behulp van de lay-out die in de mockup is gespecificeerd. Na het testen produceerde de code een werkende site met, zoals je kunt raden, echte grappen. Betekent dat AI-vooruitgang betekent het einde van programmeren? Niet helemaal, maar het is nog steeds een functie die van pas zal komen bij het helpen van programmeurs.
Hoe veelbelovend deze functie ook lijkt, hij bevindt zich nog steeds in de onderzoekspreview en is niet openbaar beschikbaar. Bovendien kost het model veel tijd om visuele invoer te verwerken, waarbij OpenAI zelf aangeeft dat het werk en tijd kan kosten om sneller te worden.
3. Grotere bestuurbaarheid
OpenAI beweert ook dat GPT-4 een hoge mate van bestuurbaarheid heeft. Het heeft het ook moeilijker gemaakt voor de AI om karakters te breken, wat betekent dat het minder waarschijnlijk is dat het mislukt wanneer het in een app wordt geïmplementeerd om een bepaald karakter te spelen.
Ontwikkelaars kunnen de stijl en taak van hun AI voorschrijven door de richting in het "systeem"-bericht te beschrijven. Met deze berichten kunnen API-gebruikers de gebruikerservaring binnen bepaalde grenzen sterk aanpassen. Aangezien deze berichten ook de gemakkelijkste manier zijn om het model te "jailbreaken", werken ze er ook aan om ze veiliger te maken. De demo voor GPT-4 heeft dit punt duidelijk gemaakt door een gebruiker ertoe te brengen te proberen GPT-4 ervan te weerhouden een Socratische tutor te zijn en hun vraag te beantwoorden. Het model weigerde echter het karakter te breken.
4. Veiligheid
OpenAI heeft zes maanden besteed aan het maken van GPT-4 veiliger en beter afgestemd. Het bedrijf beweert dat het 82% minder waarschijnlijk is om te reageren op verzoeken om ongepaste of anderszins niet-toegestane inhoud, 29% meer kans om reageren in overeenstemming met het beleid van OpenAI op gevoelige verzoeken, en 40% meer kans om feitelijke antwoorden te produceren in vergelijking met GPT-3.5.
Het is niet perfect, en je kunt nog steeds verwachten dat het van tijd tot tijd "hallucineert" en het kan verkeerd zijn in zijn voorspellingen. Natuurlijk, GPT-4 heeft betere percepties en voorspellingskracht, maar je moet de AI nog steeds niet blindelings vertrouwen.
5. Prestatieverbeteringen
Naast het evalueren van de prestaties van het model op menselijke examens, evalueerde OpenAI de bot ook op traditionele benchmarks die zijn ontworpen voor machine learning-modellen.
Het beweert dat GPT-4 "aanzienlijk beter presteert" dan bestaande LLM's en "de meeste geavanceerde modellen". Deze benchmarks omvatten de eerder genoemde MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval en Drop, die allemaal individuele capaciteiten testen.
Vergelijkbare resultaten vindt u bij het vergelijken van prestaties op academische visiebenchmarks. De uitgevoerde tests omvatten VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA en LSMDC, die allemaal GPT-4-tops zijn. OpenAI heeft echter verklaard dat de resultaten van GPT-4 in deze tests "niet volledig de omvang van zijn mogelijkheden weergeven", aangezien onderzoekers steeds nieuwe en meer uitdagende dingen vinden die het model aankan.
Small Step voor GPT-4, Giant Leap voor AI
Met meer nauwkeurigheid, gebruiksveiligheid en geavanceerde mogelijkheden, is GPT-4 vrijgegeven voor het publiek via het ChatGPT+ maandabonnement dat 20 euro per maand kost. Bovendien werkt OpenAI samen met verschillende organisaties om te beginnen met het bouwen van consumentgerichte producten met GPT-4. Onder andere Microsoft Bing, Duolingo, Stripe, Be My Eyes en Khan Academy hebben GPT-4 al in hun producten geïmplementeerd.
GPT-4 is misschien een incrementele update ten opzichte van GPT-3.5, maar het is een enorme overwinning voor AI in het algemeen. Naarmate het model toegankelijker wordt, zowel voor de gemiddelde gebruiker als voor ontwikkelaars via de API, lijkt het erop dat het een goede zaak zal zijn voor LLM-implementaties in verschillende velden.