Gebruikers hebben doorgaans toegang tot grote taalmodellen (LLM's) via het gebruik van een gebruikersinterface via een API. Hoewel het gebruik van API's verschillende voordelen biedt, brengt het ook beperkingen met zich mee, zoals de behoefte aan constant internet verbinding, beperkte aanpassingen, mogelijke beveiligingsproblemen en bedrijven die modelmogelijkheden beperken door middel van een betaalmuur.

Met gekwantiseerde LLM's die nu beschikbaar zijn op HuggingFace en AI-ecosystemen zoals H20, Text Gen en GPT4All zodat u LLM-gewichten op uw computer kunt laden, heeft u nu een optie voor een gratis, flexibele en veilige AI.

Om u op weg te helpen, zijn hier zeven van de beste lokale/offline LLM's die u nu kunt gebruiken!

1. Hermes GPTQ

Een state-of-the-art taalmodel, verfijnd met behulp van een dataset van 300.000 instructies door Nous Research. Hermes is gebaseerd op Meta's LlaMA2 LLM en is verfijnd met voornamelijk synthetische GPT-4-uitgangen.

Model

Hermes 13b GPTQ

Modelgrootte

7,26GB

Parameters

13 miljard

Kwantisering

4-bits

Type

LaMA2

Licentie

GPL 3

instagram viewer

Door het gebruik van LlaMA2 als basismodel kan Hermes de contextgrootte of een maximale tokengrootte van 4.096 verdubbelen. Door de lange contextgrootte en een encoderarchitectuur te combineren, staat Hermes erom bekend lange reacties en lage hallucinaties te geven. Dit maakt Hermes een geweldig model voor verschillende natuurlijke taalverwerking (NLP) taken, zoals het schrijven van code, het maken van inhoud en het zijn van een chatbot.

Er zijn verschillende kwantisaties en versies van de nieuwe Hermes GPTQ. We raden u aan eerst het Hermes-Llama2 13B-GPTQ-model uit te proberen, omdat dit de gemakkelijkste versie is om te implementeren en toch geweldige prestaties levert.

2. Falcon instrueert GPTQ

Afbeelding tegoed: John Schnobrich/Unsplash

Deze gekwantiseerde versie van Falcon is gebaseerd op de architectuur met alleen decoders, verfijnd bovenop het onbewerkte Flacon-7b-model van TII. Het basis Falcon-model is getraind met behulp van een uitstekende 1,5 biljoen tokens afkomstig van het openbare internet. Falcon Instruct is een op instructies gebaseerd model met alleen een decoder en gelicentieerd onder Apache 2. Het is perfect voor kleine bedrijven die op zoek zijn naar een model dat ze kunnen gebruiken voor taalvertaling en gegevensinvoer.

Model

Falcon-7B-Instrueren

Modelgrootte

7,58GB

Parameters

7 miljard

Kwantisering

4-bits

Type

Valk

Licentie

Apache 2.0

Deze versie van Falcon is echter niet ideaal voor fijnafstemming en is alleen bedoeld voor inferenties. Als u Falcon wilt verfijnen, moet u het onbewerkte model gebruiken, waarvoor mogelijk toegang nodig is tot trainingshardware op ondernemingsniveau, zoals NVIDIA DGX of AMD Instinct AI-versnellers.

3.GPT4ALL-J Groovy

Afbeelding tegoed: Nubelson Fernandes/Unplashen

GPT4All-J Groovy is een model met alleen een decoder, verfijnd door Nomic AI en gelicentieerd onder Apache 2.0. GPT4ALL-J Groovy is gebaseerd op het originele GPT-J-model, waarvan bekend is dat het geweldig is in het genereren van tekst van aanwijzingen. GPT4ALL -J Groovy is verfijnd als een chatmodel, wat geweldig is voor snelle en creatieve toepassingen voor het genereren van tekst. Dit maakt GPT4All-J Groovy ideaal voor makers van inhoud om hen te helpen bij het schrijven en creatieve werken, of het nu gaat om poëzie, muziek of verhalen.

Model

GPT4ALL-J Groovy

Modelgrootte

3,53GB

Parameters

7 miljard

Kwantisering

4-bits

Type

GPT-J

Licentie

Apache 2.0

Helaas is het GPT-J-basismodel getraind op een dataset die alleen in het Engels is, wat betekent dat zelfs dit verfijnde GPT4ALL-J-model alleen kan chatten en tekstgenererende applicaties in het Engels kan uitvoeren.

4.WizardCoder-15B-GPTQ

Afbeelding tegoed: James Harrison/Unsplash

Op zoek naar een model dat specifiek is afgestemd op coderen? Ondanks zijn aanzienlijk kleinere formaat, staat WizardCoder bekend als een van de beste coderingsmodellen die andere modellen zoals LlaMA-65B, InstructCodeT5+ en CodeGeeX overtreft. Dit model is getraind met behulp van een coderingsspecifieke Evol-Instruct-methode, die uw prompts automatisch bewerkt tot een effectievere coderingsgerelateerde prompt die het model beter kan begrijpen.

Model

WizardCoder-15B-GPTQ

Modelgrootte

7,58GB

Parameters

15 miljard

Kwantisering

4-bits

Type

Lama

Licentie

bigcode-openrail-m

WizardCoder is gekwantiseerd in een 4-bits model en kan nu worden gebruikt op gewone pc's, waar individuen het kunnen gebruiken voor experimenten en als codeerassistent voor eenvoudigere programma's en scripts.

5. Wizard Vicuna Ongecensureerd-GPTQ

Wizard-Vicuna GPTQ is een gekwantiseerde versie van Wizard Vicuna gebaseerd op het LlaMA-model. In tegenstelling tot de meeste LLM's die voor het publiek zijn vrijgegeven, is Wizard-Vicuna een ongecensureerd model waarvan de uitlijning is verwijderd. Dit betekent dat het model niet dezelfde veiligheids- en morele normen heeft als de meeste modellen.

Model

Wizard-Vicuna-30B-Ongecensureerd-GPTQ

Modelgrootte

16,94GB

Parameters

30 miljard

Kwantisering

4-bits

Type

Lama

Licentie

GPL 3

Hoewel mogelijk poseren een Probleem met AI-uitlijning, haalt het hebben van een ongecensureerde LLM ook het beste uit het model naar boven door onbeperkt te mogen antwoorden. Hierdoor kunnen gebruikers ook hun aangepaste afstemming toevoegen over hoe de AI moet handelen of antwoorden op basis van een bepaalde prompt.

6. Orka Mini-GPTQ

Afbeelding tegoed: Alex Kondratiev/Unsplash

Wil je experimenteren met een model dat getraind is op een unieke leermethode? Orca Mini is een niet-officiële modelimplementatie van de Orca-onderzoeksdocumenten van Microsoft. Het werd getraind met behulp van de leermethode leraar-leerling, waarbij de dataset vol stond met uitleg in plaats van alleen prompts en antwoorden. Dit zou in theorie moeten resulteren in een slimmere student, waarbij het model het probleem kan begrijpen in plaats van alleen te zoeken naar invoer- en uitvoerparen, zoals hoe typische LLM's werken.

Model

Orka Mini-GPTQ

Modelgrootte

8,11GB

Parameters

3 miljard

Kwantisering

4-bits

Type

Lama

Licentie

MIT

Met slechts drie miljard parameters is Orca Mini GPTQ eenvoudig te gebruiken, zelfs op minder krachtige systemen. Dit model mag echter niet voor professionele doeleinden worden gebruikt, omdat het valse informatie, bevooroordeelde en aanstootgevende reacties genereert. Dit model moet worden gebruikt om te leren en te experimenteren met Orca en zijn methoden.

7.LlaMA 2 Chat-GPTQ

LlaMA 2 is de opvolger van de originele LlaMA LLM, waaruit de meeste modellen op deze lijst voortkwamen. LlaMA 2 is een verzameling van verschillende LLM's, elk getraind met behulp van 7-70 miljard parameters. In totaal was LlaMA 2 vooraf getraind met behulp van 2 biljoen tokens aan gegevens uit openbaar beschikbare instructiedatasets.

Model

Falcon-40B-Instruct-GPTQ

Modelgrootte

7,26GB

Parameters

3 miljard

Kwantisering

4-bits

Type

OpenLlaMA

Licentie

EULA (Meta-licentie)

LlaMA 2 is bedoeld voor commercieel gebruik en onderzoeksdoeleinden. Als zodanig kan dit model het best worden gebruikt na fijnafstemming voor betere prestaties bij specifieke taken. Dit specifieke LlaMA 2 chat GPTQ-model is verfijnd en geoptimaliseerd voor Engelse dialogen, waardoor het het perfecte model voor bedrijven en organisaties om als chatbot te werken met weinig tot geen extra training vereist. Volgens de voorwaarden kunnen bedrijven met minder dan 700 miljoen gebruikers LlaMA 2 gebruiken zonder licentiekosten van Meta of Microsoft te betalen.

Probeer vandaag nog lokale grote taalmodellen

Sommige van de hierboven genoemde modellen hebben verschillende versies qua parameters. Over het algemeen leveren hogere parameterversies betere resultaten op, maar vereisen ze krachtigere hardware, terwijl lagere parameterversies resultaten van lagere kwaliteit zullen genereren, maar kunnen worden uitgevoerd op lagere hardware. Als u niet zeker weet of uw pc het model aankan, probeer dan eerst de lagere parameterversie te gebruiken en ga dan door totdat u voelt dat de prestatiedaling niet langer acceptabel is.

Aangezien de gekwantiseerde modellen in deze lijst slechts enkele gigabytes aan ruimte in beslag nemen en modelimplementatieplatforms zoals GPT4All en Text-Generation-WebUI kan eenvoudig worden geïnstalleerd via hun installatieprogramma's met één klik, het uitproberen van verschillende modellen en modelversies zou niet moeten duren veel tijd en moeite.

Dus waar wacht je op? Probeer vandaag nog een lokaal model!