Gebruikers hebben doorgaans toegang tot grote taalmodellen (LLM's) via het gebruik van een gebruikersinterface via een API. Hoewel het gebruik van API's verschillende voordelen biedt, brengt het ook beperkingen met zich mee, zoals de behoefte aan constant internet verbinding, beperkte aanpassingen, mogelijke beveiligingsproblemen en bedrijven die modelmogelijkheden beperken door middel van een betaalmuur.
Met gekwantiseerde LLM's die nu beschikbaar zijn op HuggingFace en AI-ecosystemen zoals H20, Text Gen en GPT4All zodat u LLM-gewichten op uw computer kunt laden, heeft u nu een optie voor een gratis, flexibele en veilige AI.
Om u op weg te helpen, zijn hier zeven van de beste lokale/offline LLM's die u nu kunt gebruiken!
1. Hermes GPTQ
Een state-of-the-art taalmodel, verfijnd met behulp van een dataset van 300.000 instructies door Nous Research. Hermes is gebaseerd op Meta's LlaMA2 LLM en is verfijnd met voornamelijk synthetische GPT-4-uitgangen.
Model |
Hermes 13b GPTQ |
Modelgrootte |
7,26GB |
Parameters |
13 miljard |
Kwantisering |
4-bits |
Type |
LaMA2 |
Licentie |
GPL 3 |
Door het gebruik van LlaMA2 als basismodel kan Hermes de contextgrootte of een maximale tokengrootte van 4.096 verdubbelen. Door de lange contextgrootte en een encoderarchitectuur te combineren, staat Hermes erom bekend lange reacties en lage hallucinaties te geven. Dit maakt Hermes een geweldig model voor verschillende natuurlijke taalverwerking (NLP) taken, zoals het schrijven van code, het maken van inhoud en het zijn van een chatbot.
Er zijn verschillende kwantisaties en versies van de nieuwe Hermes GPTQ. We raden u aan eerst het Hermes-Llama2 13B-GPTQ-model uit te proberen, omdat dit de gemakkelijkste versie is om te implementeren en toch geweldige prestaties levert.
2. Falcon instrueert GPTQ
Deze gekwantiseerde versie van Falcon is gebaseerd op de architectuur met alleen decoders, verfijnd bovenop het onbewerkte Flacon-7b-model van TII. Het basis Falcon-model is getraind met behulp van een uitstekende 1,5 biljoen tokens afkomstig van het openbare internet. Falcon Instruct is een op instructies gebaseerd model met alleen een decoder en gelicentieerd onder Apache 2. Het is perfect voor kleine bedrijven die op zoek zijn naar een model dat ze kunnen gebruiken voor taalvertaling en gegevensinvoer.
Model |
Falcon-7B-Instrueren |
Modelgrootte |
7,58GB |
Parameters |
7 miljard |
Kwantisering |
4-bits |
Type |
Valk |
Licentie |
Apache 2.0 |
Deze versie van Falcon is echter niet ideaal voor fijnafstemming en is alleen bedoeld voor inferenties. Als u Falcon wilt verfijnen, moet u het onbewerkte model gebruiken, waarvoor mogelijk toegang nodig is tot trainingshardware op ondernemingsniveau, zoals NVIDIA DGX of AMD Instinct AI-versnellers.
3.GPT4ALL-J Groovy
GPT4All-J Groovy is een model met alleen een decoder, verfijnd door Nomic AI en gelicentieerd onder Apache 2.0. GPT4ALL-J Groovy is gebaseerd op het originele GPT-J-model, waarvan bekend is dat het geweldig is in het genereren van tekst van aanwijzingen. GPT4ALL -J Groovy is verfijnd als een chatmodel, wat geweldig is voor snelle en creatieve toepassingen voor het genereren van tekst. Dit maakt GPT4All-J Groovy ideaal voor makers van inhoud om hen te helpen bij het schrijven en creatieve werken, of het nu gaat om poëzie, muziek of verhalen.
Model |
GPT4ALL-J Groovy |
Modelgrootte |
3,53GB |
Parameters |
7 miljard |
Kwantisering |
4-bits |
Type |
GPT-J |
Licentie |
Apache 2.0 |
Helaas is het GPT-J-basismodel getraind op een dataset die alleen in het Engels is, wat betekent dat zelfs dit verfijnde GPT4ALL-J-model alleen kan chatten en tekstgenererende applicaties in het Engels kan uitvoeren.
4.WizardCoder-15B-GPTQ
Op zoek naar een model dat specifiek is afgestemd op coderen? Ondanks zijn aanzienlijk kleinere formaat, staat WizardCoder bekend als een van de beste coderingsmodellen die andere modellen zoals LlaMA-65B, InstructCodeT5+ en CodeGeeX overtreft. Dit model is getraind met behulp van een coderingsspecifieke Evol-Instruct-methode, die uw prompts automatisch bewerkt tot een effectievere coderingsgerelateerde prompt die het model beter kan begrijpen.
Model |
WizardCoder-15B-GPTQ |
Modelgrootte |
7,58GB |
Parameters |
15 miljard |
Kwantisering |
4-bits |
Type |
Lama |
Licentie |
bigcode-openrail-m |
WizardCoder is gekwantiseerd in een 4-bits model en kan nu worden gebruikt op gewone pc's, waar individuen het kunnen gebruiken voor experimenten en als codeerassistent voor eenvoudigere programma's en scripts.
5. Wizard Vicuna Ongecensureerd-GPTQ
Wizard-Vicuna GPTQ is een gekwantiseerde versie van Wizard Vicuna gebaseerd op het LlaMA-model. In tegenstelling tot de meeste LLM's die voor het publiek zijn vrijgegeven, is Wizard-Vicuna een ongecensureerd model waarvan de uitlijning is verwijderd. Dit betekent dat het model niet dezelfde veiligheids- en morele normen heeft als de meeste modellen.
Model |
Wizard-Vicuna-30B-Ongecensureerd-GPTQ |
Modelgrootte |
16,94GB |
Parameters |
30 miljard |
Kwantisering |
4-bits |
Type |
Lama |
Licentie |
GPL 3 |
Hoewel mogelijk poseren een Probleem met AI-uitlijning, haalt het hebben van een ongecensureerde LLM ook het beste uit het model naar boven door onbeperkt te mogen antwoorden. Hierdoor kunnen gebruikers ook hun aangepaste afstemming toevoegen over hoe de AI moet handelen of antwoorden op basis van een bepaalde prompt.
6. Orka Mini-GPTQ
Wil je experimenteren met een model dat getraind is op een unieke leermethode? Orca Mini is een niet-officiële modelimplementatie van de Orca-onderzoeksdocumenten van Microsoft. Het werd getraind met behulp van de leermethode leraar-leerling, waarbij de dataset vol stond met uitleg in plaats van alleen prompts en antwoorden. Dit zou in theorie moeten resulteren in een slimmere student, waarbij het model het probleem kan begrijpen in plaats van alleen te zoeken naar invoer- en uitvoerparen, zoals hoe typische LLM's werken.
Model |
Orka Mini-GPTQ |
Modelgrootte |
8,11GB |
Parameters |
3 miljard |
Kwantisering |
4-bits |
Type |
Lama |
Licentie |
MIT |
Met slechts drie miljard parameters is Orca Mini GPTQ eenvoudig te gebruiken, zelfs op minder krachtige systemen. Dit model mag echter niet voor professionele doeleinden worden gebruikt, omdat het valse informatie, bevooroordeelde en aanstootgevende reacties genereert. Dit model moet worden gebruikt om te leren en te experimenteren met Orca en zijn methoden.
7.LlaMA 2 Chat-GPTQ
LlaMA 2 is de opvolger van de originele LlaMA LLM, waaruit de meeste modellen op deze lijst voortkwamen. LlaMA 2 is een verzameling van verschillende LLM's, elk getraind met behulp van 7-70 miljard parameters. In totaal was LlaMA 2 vooraf getraind met behulp van 2 biljoen tokens aan gegevens uit openbaar beschikbare instructiedatasets.
Model |
Falcon-40B-Instruct-GPTQ |
Modelgrootte |
7,26GB |
Parameters |
3 miljard |
Kwantisering |
4-bits |
Type |
OpenLlaMA |
Licentie |
EULA (Meta-licentie) |
LlaMA 2 is bedoeld voor commercieel gebruik en onderzoeksdoeleinden. Als zodanig kan dit model het best worden gebruikt na fijnafstemming voor betere prestaties bij specifieke taken. Dit specifieke LlaMA 2 chat GPTQ-model is verfijnd en geoptimaliseerd voor Engelse dialogen, waardoor het het perfecte model voor bedrijven en organisaties om als chatbot te werken met weinig tot geen extra training vereist. Volgens de voorwaarden kunnen bedrijven met minder dan 700 miljoen gebruikers LlaMA 2 gebruiken zonder licentiekosten van Meta of Microsoft te betalen.
Probeer vandaag nog lokale grote taalmodellen
Sommige van de hierboven genoemde modellen hebben verschillende versies qua parameters. Over het algemeen leveren hogere parameterversies betere resultaten op, maar vereisen ze krachtigere hardware, terwijl lagere parameterversies resultaten van lagere kwaliteit zullen genereren, maar kunnen worden uitgevoerd op lagere hardware. Als u niet zeker weet of uw pc het model aankan, probeer dan eerst de lagere parameterversie te gebruiken en ga dan door totdat u voelt dat de prestatiedaling niet langer acceptabel is.
Aangezien de gekwantiseerde modellen in deze lijst slechts enkele gigabytes aan ruimte in beslag nemen en modelimplementatieplatforms zoals GPT4All en Text-Generation-WebUI kan eenvoudig worden geïnstalleerd via hun installatieprogramma's met één klik, het uitproberen van verschillende modellen en modelversies zou niet moeten duren veel tijd en moeite.
Dus waar wacht je op? Probeer vandaag nog een lokaal model!