U kunt Meta's Llama 2 online gebruiken, maar u kunt de ervaring aanpassen en personaliseren als u deze op uw lokale computer installeert.
Meta bracht Llama 2 uit in de zomer van 2023. De nieuwe versie van Llama is verfijnd met 40% meer tokens dan het originele Llama-model, waardoor de contextlengte wordt verdubbeld en aanzienlijk beter presteert dan andere beschikbare open source-modellen. De snelste en gemakkelijkste manier om toegang te krijgen tot Llama 2 is via een API via een online platform. Als je echter de beste ervaring wilt, is het het beste om Llama 2 rechtstreeks op je computer te installeren en te laden.
Met dat in gedachten hebben we een stapsgewijze handleiding gemaakt over hoe u Text-Generation-WebUI kunt gebruiken om een gekwantiseerde Llama 2 LLM lokaal op uw computer te laden.
Waarom Llama 2 lokaal installeren
Er zijn veel redenen waarom mensen ervoor kiezen om Llama 2 rechtstreeks uit te voeren. Sommigen doen het vanwege privacyoverwegingen, sommigen vanwege maatwerk en anderen vanwege offline mogelijkheden. Als je Llama 2 voor je projecten onderzoekt, verfijnt of integreert, dan is toegang tot Llama 2 via API misschien niet iets voor jou. Het doel van het lokaal uitvoeren van een LLM op uw pc is om de afhankelijkheid van
AI-tools van derden en gebruik AI altijd en overal, zonder u zorgen te hoeven maken over het lekken van potentieel gevoelige gegevens naar bedrijven en andere organisaties.Dat gezegd hebbende, laten we beginnen met de stapsgewijze handleiding voor het lokaal installeren van Llama 2.
Om de zaken te vereenvoudigen, zullen we een installatieprogramma met één klik gebruiken voor Text-Generation-WebUI (het programma dat wordt gebruikt om Llama 2 met GUI te laden). Om dit installatieprogramma te laten werken, moet u echter de Visual Studio 2019 Build Tool downloaden en de benodigde bronnen installeren.
Downloaden:Visuele Studio 2019 (Vrij)
- Ga je gang en download de communityeditie van de software.
- Installeer nu Visual Studio 2019 en open vervolgens de software. Eenmaal geopend, vinkt u het vakje aan Desktopontwikkeling met C++ en druk op installeren.
Nu u Desktop-ontwikkeling met C++ hebt geïnstalleerd, is het tijd om het Text-Generation-WebUI-installatieprogramma met één klik te downloaden.
Stap 2: Installeer Text-Generation-WebUI
Het Text-Generation-WebUI-installatieprogramma met één klik is een script dat automatisch de vereiste mappen maakt en de Conda-omgeving en alle noodzakelijke vereisten instelt om een AI-model uit te voeren.
Om het script te installeren, downloadt u het installatieprogramma met één klik door op te klikken Code > ZIP downloaden.
Downloaden:Tekstgeneratie-WebUI-installatieprogramma (Vrij)
- Eenmaal gedownload, pak je het ZIP-bestand uit naar de gewenste locatie en open je vervolgens de uitgepakte map.
- Blader in de map naar beneden en zoek naar het juiste startprogramma voor uw besturingssysteem. Voer de programma's uit door te dubbelklikken op het juiste script.
- Als u Windows gebruikt, selecteert u start_windows batch bestand
- voor MacOS selecteert u start_macos shell-script
- voor Linux, start_linux shell-script.
- Uw antivirusprogramma kan een waarschuwing genereren; dit is goed. De prompt is slechts een antivirus vals positief voor het uitvoeren van een batchbestand of script. Klik op Toch maar rennen.
- Er wordt een terminal geopend en de installatie wordt gestart. In het begin wordt de installatie onderbroken en wordt u gevraagd welke GPU u gebruikt. Selecteer het juiste type GPU dat op uw computer is geïnstalleerd en druk op Enter. Voor degenen zonder een speciale grafische kaart, selecteer Geen (ik wil modellen in CPU-modus uitvoeren). Houd er rekening mee dat het uitvoeren van de CPU-modus veel langzamer is in vergelijking met het uitvoeren van het model met een speciale GPU.
- Zodra de installatie is voltooid, kunt u Text-Generation-WebUI nu lokaal starten. U kunt dit doen door de webbrowser van uw voorkeur te openen en het opgegeven IP-adres op de URL in te voeren.
- De WebUI is nu klaar voor gebruik.
Het programma is echter slechts een modellader. Laten we Llama 2 downloaden zodat de modellader wordt gestart.
Stap 3: Download het Llama 2-model
Er zijn nogal wat dingen waarmee u rekening moet houden bij het beslissen welke versie van Llama 2 u nodig heeft. Deze omvatten parameters, kwantisering, hardware-optimalisatie, grootte en gebruik. Al deze informatie vindt u terug in de naam van het model.
- Parameters: Het aantal parameters dat wordt gebruikt om het model te trainen. Grotere parameters zorgen voor capabelere modellen, maar dit gaat ten koste van de prestaties.
- Gebruik: Kan standaard zijn of chatten. Een chatmodel is geoptimaliseerd om te worden gebruikt als chatbot zoals ChatGPT, terwijl het standaardmodel het standaardmodel is.
- Hardware-optimalisatie: Verwijst naar welke hardware het model het beste uitvoert. GPTQ betekent dat het model is geoptimaliseerd voor gebruik op een speciale GPU, terwijl GGML is geoptimaliseerd voor gebruik op een CPU.
- Kwantisering: Geeft de nauwkeurigheid van gewichten en activeringen in een model aan. Voor gevolgtrekkingen is een nauwkeurigheid van q4 optimaal.
- Maat: Verwijst naar de maat van het specifieke model.
Houd er rekening mee dat bij sommige modellen de indeling anders kan zijn en dat niet eens dezelfde soort informatie wordt weergegeven. Dit type naamgevingsconventie is echter vrij gebruikelijk in de Knuffelend Gezicht Modelbibliotheek, dus het is nog steeds de moeite waard om te begrijpen.
In dit voorbeeld kan het model worden geïdentificeerd als een middelgroot Llama 2-model dat is getraind op 13 miljard parameters die zijn geoptimaliseerd voor chat-inferentie met behulp van een speciale CPU.
Voor degenen die op een speciale GPU werken, kies een GPTQ model, terwijl degenen die een CPU gebruiken, kiezen GGML. Als u met het model wilt chatten zoals u dat met ChatGPT zou doen, kiest u voor chatten, maar als je wilt experimenteren met het model met zijn volledige mogelijkheden, gebruik dan de standaard model. Wat de parameters betreft: weet dat het gebruik van grotere modellen betere resultaten zal opleveren, ten koste van de prestaties. Persoonlijk zou ik je aanraden om met een 7B-model te beginnen. Wat kwantisering betreft, gebruik q4, aangezien dit alleen voor gevolgtrekkingen is.
Downloaden:GGML (Vrij)
Downloaden:GPTQ (Vrij)
Nu je weet welke versie van Llama 2 je nodig hebt, kun je het gewenste model downloaden.
In mijn geval, aangezien ik dit op een ultrabook gebruik, gebruik ik een GGML-model dat is afgestemd op chatten. lama-2-7b-chat-ggmlv3.q4_K_S.bin.
Nadat het downloaden is voltooid, plaatst u het model in tekstgeneratie-webui-main > modellen.
Nu u uw model hebt gedownload en in de modelmap hebt geplaatst, is het tijd om de modellader te configureren.
Stap 4: Configureer Tekstgeneratie-WebUI
Laten we nu beginnen met de configuratiefase.
- Open nogmaals Text-Generation-WebUI door het bestand start_(uw besturingssysteem) bestand (zie de vorige stappen hierboven).
- Klik op de tabbladen boven de GUI Model. Klik op de knop Vernieuwen in het vervolgkeuzemenu Model en selecteer uw model.
- Klik nu op het vervolgkeuzemenu van de Modellader en selecteer AutoGPTQ voor degenen die een GTPQ-model gebruiken en ctransformatoren voor degenen die een GGML-model gebruiken. Klik ten slotte op Laden om uw model te laden.
- Om het model te gebruiken, opent u het tabblad Chat en begint u het model te testen.
Gefeliciteerd, je hebt Llama2 met succes op je lokale computer geladen!
Probeer andere LLM's uit
Nu u weet hoe u Llama 2 rechtstreeks op uw computer kunt uitvoeren met behulp van Text-Generation-WebUI, zou u naast Llama ook andere LLM's moeten kunnen uitvoeren. Onthoud gewoon de naamgevingsconventies van modellen en dat alleen gekwantiseerde versies van modellen (meestal Q4-precisie) op gewone pc's kunnen worden geladen. Er zijn veel gekwantiseerde LLM's beschikbaar op HuggingFace. Als je andere modellen wilt ontdekken, zoek dan naar TheBloke in de modellenbibliotheek van HuggingFace en je zult waarschijnlijk veel beschikbare modellen vinden.