Je hebt waarschijnlijk wel eens gehoord van de GPT van OpenAI, maar dit zijn niet de enige LLM's in de buurt.

Belangrijkste leerpunten

  • OpenAI's GPT-4 is het meest geavanceerde en meest gebruikte grote taalmodel, met 1,76 biljoen parameters en multimodale mogelijkheden.
  • Claude 2 van Anthropic concurreert met GPT-4 op het gebied van creatieve schrijftaken en houdt stand ondanks minder middelen.
  • Google's PaLM 2 is weliswaar geen GPT-4-killer, maar is een krachtig taalmodel met sterke meertalige en creatieve vaardigheden. Falcon-180B is een open-sourcemodel dat kan wedijveren met commerciële giganten en het kan opnemen tegen GPT-3.5.

Het is het AI-seizoen en technologiebedrijven produceren grote taalmodellen zoals brood uit een bakkerij. Nieuwe modellen worden snel uitgebracht en het wordt te moeilijk om bij te houden.

Maar te midden van de stroom aan nieuwe releases zijn slechts een paar modellen naar de top gestegen en hebben zij zichzelf bewezen als echte kanshebbers op het gebied van grote taalmodellen. Nu we het einde van 2023 naderen, hebben we de zes meest indrukwekkende grote taalmodellen samengesteld die u zou moeten proberen.

instagram viewer

1. GPT-4 van OpenAI

GPT-4 is het meest geavanceerde, publiekelijk beschikbare grote-taalmodel tot nu toe. Ontwikkeld door OpenAI en uitgebracht in maart 2023, GPT-4 is de nieuwste versie in de Generative Pre-trained Transformer-serie dat begon in 2018. Met zijn enorme mogelijkheden is GPT-4 een van de meest gebruikte en populairste grote-taalmodellen ter wereld geworden.

Hoewel niet officieel bevestigd, schatten bronnen dat GPT-4 maar liefst 1,76 biljoen parameters kan bevatten. ongeveer tien keer meer dan zijn voorganger, GPT-3.5, en vijf keer groter dan het vlaggenschip van Google, PaLM 2. Deze enorme schaal maakt de multimodale mogelijkheden van GPT-4 mogelijk, waardoor het zowel tekst als afbeeldingen als invoer kan verwerken. Als gevolg hiervan kan GPT-4 naast tekst ook visuele informatie zoals diagrammen en schermafbeeldingen interpreteren en beschrijven. Het multimodale karakter ervan zorgt voor een meer menselijk begrip van gegevens uit de echte wereld.

In wetenschappelijke benchmarks presteert GPT-4 aanzienlijk beter dan andere hedendaagse modellen in verschillende tests. Hoewel benchmarks alleen de sterke punten van een model niet volledig aantonen, hebben praktijkvoorbeelden aangetoond dat GPT-4 uitzonderlijk bedreven is in het intuïtief oplossen van praktische problemen. GPT-4 wordt momenteel gefactureerd voor $ 20 per maand toegankelijk via het Plus-abonnement van ChatGPT.

2. Claude 2 van Anthropic

Beeldcredits: Antropisch

Hoewel niet zo populair als GPT-4, kan Claude 2, ontwikkeld door Anthropic AI, op verschillende gebieden de technische benchmarks en real-world prestaties van GPT -4 evenaren. In sommige gestandaardiseerde tests, waaronder geselecteerde examens, presteert Claude 2 beter dan GPT-4. Het AI-taalmodel heeft ook een veel beter contextvenster van ongeveer 100.000 tokens, vergeleken met de 8k- en 32k-tokensmodellen van GPT -4. Hoewel een grotere contextlengte zich niet altijd vertaalt in betere prestaties, biedt de uitgebreide capaciteit van Claude 2 duidelijke voordelen, zoals het verwerken van volledige boeken van 75.000 woorden voor analyse.

Wat de algehele prestaties betreft, blijft GPT-4 superieur, maar Uit onze interne tests blijkt dat Claude 2 deze overtreft in verschillende creatieve schrijftaken. Claude 2 loopt ook achter op GPT-4 wat betreft programmeer- en wiskundige vaardigheden op basis van onze evaluaties, maar blinkt uit in het geven van mensachtige, creatieve antwoorden. Toen we alle modellen op deze lijst vroegen om een ​​creatief stuk te schrijven of te herschrijven, kozen we zes van de tien keer voor het resultaat van Claude 2 vanwege de natuurlijk klinkende, mensachtige resultaten. Momenteel, Claude 2 is gratis beschikbaar via de Claude AI-chatbot. Er is ook een betaald abonnement van $ 20 voor toegang tot extra functies.

Ondanks dat het minder financiële steun heeft dan giganten als OpenAI en Microsoft, houdt het Claude 2 AI-model van Anthropic stand tegenover de populaire GPT-modellen en de PaLM-serie van Google. Voor een AI met minder middelen is Claude 2 indrukwekkend competitief. Als je gedwongen wordt te wedden op welk bestaand model de beste kans heeft om in de nabije toekomst te concurreren met GPT, lijkt Claude 2 de veiligste weddenschap. Hoewel hij qua financiering achterblijft, suggereren de geavanceerde mogelijkheden van Claude 2 dat hij het zelfs met elkaar kan opnemen goed gefinancierde giganten (hoewel het vermeldenswaard is dat Google verschillende grote bijdragen heeft geleverd aan Antropisch). Het model overtreft zijn gewichtsklasse en is veelbelovend als opkomende uitdager.

3. GPT-3.5 van OpenAI

Beeldcredits: Marcelo Mollaretti/Shutterstock

Hoewel overschaduwd door de introductie van GPT-4, mogen GPT-3.5 en zijn 175 miljard parameters niet worden onderschat. Door iteratieve verfijning en upgrades gericht op prestaties, nauwkeurigheid en veiligheid heeft GPT-3.5 een lange weg afgelegd ten opzichte van het originele GPT-3-model. Hoewel het de multimodale mogelijkheden van GPT -4 mist en achterblijft wat betreft contextlengte en aantal parameters, GPT-3.5 blijft zeer capabel, waarbij GPT-4 het enige model is dat zijn allround prestaties kan overtreffen beslissend.

Ondanks dat het een tweederangsmodel is in de GPT-familie, kan GPT-3.5 zich staande houden en zelfs beter presteren dan de vlaggenschipmodellen van Google en Meta op verschillende benchmarks. Bij het naast elkaar testen van wiskundige en programmeervaardigheden met Google's PaLM 2 waren de verschillen niet groot, waarbij GPT-3.5 in sommige gevallen zelfs een klein voordeel had. Meer creatieve taken zoals humor en verhalend schrijven zorgden ervoor dat GPT-3.5 een beslissende vooruitgang boekte.

Dus hoewel GPT-4 een nieuwe mijlpaal in AI markeert, blijft GPT-3.5 een indrukwekkend krachtig model, dat in staat is om te concurreren met en soms zelfs de meest geavanceerde alternatieven te overtreffen. De voortdurende verfijning zorgt ervoor dat hij relevant blijft, zelfs naast flitsende modellen van de volgende generatie.

4. PaLM2 van Google

Beeldcredits: Googlen

Bij het evalueren van de mogelijkheden van een AI-model is de beproefde formule om het technische rapport te lezen en controleer benchmarkscores, maar neem alles wat u hebt geleerd met een korreltje zout en test het model jezelf. Hoe contra-intuïtief het ook mag lijken, de benchmarkresultaten komen voor sommige AI-modellen niet altijd overeen met de prestaties in de echte wereld. Op papier zou PaLM 2 van Google de GPT-4-moordenaar zijn, waarbij officiële testresultaten suggereren dat het in sommige benchmarks overeenkomt met GPT-4. In het dagelijks gebruik ontstaat echter een ander beeld.

Op het gebied van logisch redeneren, wiskunde en creativiteit schiet PaLM 2 achter bij GPT-4. Het blijft ook achter op Claude van Anthropic wat betreft een reeks creatieve schrijftaken. Hoewel het er echter niet in slaagt zijn reputatie als GPT-4-moordenaar waar te maken, Google's PaLM 2 blijft een krachtig taalmodel op zichzelf, met enorme mogelijkheden. Een groot deel van het negatieve sentiment eromheen komt voort uit vergelijkingen met modellen als GPT-4 en niet zozeer uit ronduit slechte prestaties.

Met 340 miljard parameters behoort PaLM 2 tot de grootste modellen ter wereld. Het blinkt vooral uit in meertalige taken en beschikt over sterke wiskundige en programmeervaardigheden. Hoewel PaLM 2 er niet de beste in is, is het ook behoorlijk efficiënt in creatieve taken zoals schrijven. Dus hoewel benchmarks een optimistisch beeld schetsten dat niet volledig werkelijkheid werd, demonstreert PaLM 2 nog steeds indrukwekkende AI-vaardigheden, ook al overtreft het niet alle concurrenten over de hele linie.

5. TII's Falcon-180B

Tenzij u het snelle tempo van de release van AI-taalmodellen hebt bijgehouden, bent u Falcon-180B waarschijnlijk nog nooit tegengekomen. De 180 miljard parameter Falcon-180, ontwikkeld door het Technology Innovation Institute van de VAE, is een van de krachtigste open-source taalmodellen die er zijn, ook al ontbreekt de naamsbekendheid van GPT-modellen of het wijdverbreide gebruik van Meta's Lama 2. Maar vergis je niet: de Falcon-180B kan zich meten met de beste in zijn klasse.

Uit benchmarkresultaten blijkt dat Falcon-180B beter presteert dan de meeste open-sourcemodellen en concurreert met commerciële grootmachten als PaLM 2 en GPT-3.5. Bij het testen van wiskunde, coderen, redeneren en creatief schrijven overtrof het zelfs GPT-3.5 en PaLM 2 op keer. Als we GPT-4, GPT-3.5 en Falcon-180B rangschikken, zouden we Falcon-180B precies tussen GPT-4 en GPT-3.5 plaatsen vanwege zijn sterke punten in verschillende gebruiksscenario's.

Hoewel we niet met zekerheid kunnen zeggen dat het qua algehele prestaties beter is dan GPT-3.5, pleit het voor zichzelf. Hoewel onduidelijk, verdient dit model aandacht omdat het de mogelijkheden van bekendere alternatieven evenaart of overtreft. U kunt het Falcon-180B-model uitproberen op Knuffelend gezicht (een open-source LLM-platform).

Llama 2, het grote taalmodel van Meta AI met 70 miljard parameters, bouwt voort op zijn voorganger, Llama 1. Hoewel kleiner dan toonaangevende modellen, presteert Llama 2 aanzienlijk beter dan de meeste openbaar beschikbare open-source LLM's in benchmarks en in de echte wereld. Een uitzondering zou de Falcon-180B zijn.

We hebben Llama 2 getest met GPT-4, GPT-3.5, Claude 2 en PaLM 2 om de mogelijkheden ervan te meten. Het is niet verrassend dat GPT-4 Llama 2 op bijna alle parameters overtrof. Llama 2 hield zich echter in verschillende evaluaties staande ten opzichte van GPT-3.5 en PaLM 2. Hoewel het onjuist zou zijn om te beweren dat Llama 2 superieur is aan PaLM 2, loste Llama 2 veel problemen op waar PaLM 2 moeite mee had, inclusief codeertaken. Claude 2 en GPT-3.5 versloegen Llama 2 op sommige gebieden, maar waren slechts beslissend beter in een beperkt aantal taken.

Dus hoewel de mogelijkheden van de grootste bedrijfseigen modellen niet worden overschreden, open-source Llama 2 slaat boven zijn gewichtsklasse. Voor een openlijk verkrijgbaar model demonstreert het indrukwekkende prestaties en concurreert het in geselecteerde evaluaties met AI-giganten als PaLM 2. Llama 2 biedt een glimp van het toekomstige potentieel van open-source taalmodellen.

De prestatiekloof tussen AI-modellen wordt kleiner

Hoewel het AI-landschap zich in een razendsnel tempo ontwikkelt, blijft OpenAI's GPT-4 de leider van het peloton. Hoewel GPT-4 qua schaal en prestaties ongeëvenaard blijft, laten modellen als Claude 2 zien dat kleinere modellen met voldoende vaardigheden op bepaalde gebieden kunnen concurreren. Google's PaLM 2 vertoont, ondanks dat het niet aan enkele hooggespannen verwachtingen voldoet, nog steeds diepgaande mogelijkheden. En Falcon-180B bewijst dat open-source-initiatieven schouder aan schouder kunnen staan ​​met titanen uit de industrie die over voldoende middelen beschikken.