8 belangrijke factoren waarmee u rekening moet houden bij het testen van AI-chatbots op nauwkeurigheid

U kunt verschillende AI-chatbots testen om te bepalen welke het beste werkt. Maar hoe moet je dit doen? Hier zijn enkele belangrijke factoren waarmee u rekening moet houden.

AI heeft een lange weg afgelegd van het produceren van irrelevante, onsamenhangende output. Moderne chatbots gebruiken geavanceerde taalmodellen die algemene kennisvragen beantwoorden, lange essays opstellen en code schrijven, naast andere complexe taken.

Houd er ondanks deze vorderingen rekening mee dat zelfs de meest geavanceerde systemen beperkingen hebben. AI maakt nog steeds fouten. Test hun nauwkeurigheid op basis van deze factoren om te bepalen welke chatbots het minst vatbaar zijn voor hallucinaties.

1. Rekenen

Voer wiskundige vergelijkingen uit via chatbots. Ze testen het vermogen van het platform om woordproblemen te analyseren, wiskundige concepten te vertalen en correcte formules toe te passen. Slechts een paar modellen laten betrouwbare rekenvaardigheid zien. Sterker nog, een van De ergste problemen van ChatGPT tijdens de eerste maanden waren zijn verschrikkelijke wiskundige begrip.

instagram viewer

De onderstaande afbeelding laat zien dat ChatGPT faalt bij basisstatistieken.

ChatGPT vertoonde daarna verbetering OpenAI heeft de updates van mei 2023 uitgerold. Maar gezien de beperkte datasets zult u nog steeds moeite hebben met gemiddelde tot geavanceerde wiskundige berekeningen.

Ondertussen laten Bing Chat en Google Bard een betere rekenvaardigheid zien. Ze voeren zoekopdrachten uit via hun respectieve zoekmachines, waardoor ze formules en antwoordbladen kunnen ophalen.

Probeer uw woordproblemen anders te formuleren. Vermijd lange zinnen en vervang zwakke werkwoorden; anders kunnen chatbots uw vragen verkeerd begrijpen.

2. Begrip

Moderne AI-systemen kunnen meerdere taken op zich nemen. Geavanceerde LLM's stellen hen in staat eerdere instructies te behouden en prompts per sectie te beantwoorden, terwijl oudere systemen enkelvoudige opdrachten verwerken. Siri beantwoordt bijvoorbeeld één vraag tegelijk.

Geef chatbots drie tot vijf taken tegelijk om te testen hoe goed ze complexe prompts analyseren. Minder geavanceerde modellen kunnen niet zoveel informatie verwerken. De onderstaande afbeelding laat zien dat HuggingChat niet goed functioneert bij een prompt in drie stappen: het stopt bij stap één en wijkt af van het onderwerp.

De laatste regels van HuggingChat zijn al onsamenhangend.

ChatGPT voltooit snel dezelfde prompt en genereert foutloze, intelligente antwoorden bij elke stap.

Bing Chat geeft een beknopt antwoord op de drie stappen. De rigide beperkingen verbieden onnodig lange outputs die verwerkingskracht verspillen.

3. Tijdigheid

Aangezien AI-training enorme middelen kost, beperken de meeste ontwikkelaars datasets tot specifieke perioden. Neem ChatGPT als voorbeeld. Het heeft een kennisgrens van september 2021: u kunt geen weerupdates, nieuwsberichten of recente ontwikkelingen opvragen. Hier is ChatGPT die zegt dat het geen toegang heeft tot realtime informatie.

Bard heeft toegang tot internet. Het haalt gegevens uit Google SERP's, zodat u een breder scala aan vragen kunt stellen, bijvoorbeeld recente gebeurtenissen, nieuws en voorspellingen.

Evenzo haalt Bing Chat realtime informatie uit zijn zoekmachine.

Bing Chat en Bard leveren tijdige, actuele informatie, maar de laatste geeft meer gedetailleerde antwoorden. Bing presenteert gegevens alleen zoals ze zijn. U zult merken dat de uitvoer ervan vaak woordelijk overeenkomt met de frasering en toon van de gekoppelde bronnen.

4. Relevantie

Chatbots moeten relevante output leveren. Ze moeten bij het reageren rekening houden met de letterlijke en contextuele betekenis van uw prompts. Neem dit gesprek als voorbeeld. Onze persona heeft een nieuwe telefoon nodig, maar heeft slechts $ 1.000 - ChatGPT overschrijdt het budget niet.

Probeer bij het testen op relevantie lange instructies te maken. Minder geavanceerde chatbots hebben de neiging om op een raaklijn te gaan wanneer ze verwarrende instructies krijgen. HuggingChat kan bijvoorbeeld fictieve verhalen samenstellen. Maar het kan afwijken van het hoofdonderwerp als u te veel regels en richtlijnen stelt.

5. Contextueel geheugen

Contextueel geheugen helpt AI nauwkeurige, betrouwbare uitvoer te produceren. In plaats van uw vragen op het eerste gezicht te nemen, rijgen ze de details die u noemt aan elkaar. Neem dit gesprek als voorbeeld. Bing Chat verbindt twee afzonderlijke berichten tot een nuttig, beknopt antwoord.

Evenzo stelt contextueel geheugen chatbots in staat om instructies te onthouden. Deze afbeelding toont ChatGPT die de manier nabootst van een fictief personage tijdens verschillende chats.

Test deze functie zelf door consequent te verwijzen naar eerdere verklaringen. Geef chatbots verschillende informatie en dwing ze vervolgens om deze in latere reacties op te roepen.

Contextueel geheugen is beperkt. Bing Chat start elke 20 beurten nieuwe gesprekken, terwijl ChatGPT geen prompts van meer dan 3.000 tokens kan verwerken.

6. Beveiligingsbeperkingen

AI doet niet altijd wat bedoeld is. Een verkeerde training kan de oorzaak zijn machine learning-technologieën om verschillende fouten te maken, van kleine rekenfouten tot problematische opmerkingen. Nemen Microsoft Tay als voorbeeld. Twitter-gebruikers maakten gebruik van het leermodel zonder toezicht en conditioneerden het om racistische uitlatingen te zeggen.

Gelukkig hebben wereldwijde technologieleiders geleerd van de blunder van Microsoft. Hoewel het kostenefficiënt en handig is, maakt leren zonder toezicht AI-systemen vatbaar voor misleiding. Daarom vertrouwen ontwikkelaars tegenwoordig voornamelijk op begeleid leren. Chatbots zoals ChatGPT leert nog steeds van gesprekken, maar hun trainers filteren eerst informatie.

Verwacht andere richtlijnen van AI-bedrijven. De minder rigide beperkingen van ChatGPT zijn geschikt voor een breder scala aan taken, maar zijn zwak tegen uitbuiting. Ondertussen volgt Bing Chat strengere limieten. Hoewel ze helpen bij het bestrijden van uitbuitingspogingen, belemmeren ze ook de functionaliteit. Bing sluit automatisch mogelijk schadelijke gesprekken af.

7. AI-vooroordelen

AI is inherent neutraal. Het gebrek aan voorkeuren en emoties maakt het niet in staat om meningen te vormen - het presenteert alleen informatie die het kent. Dit is hoe ChatGPT reageert op subjectieve onderwerpen.

Ondanks deze neutraliteit AI-vooroordelen nog ontstaan. Ze komen voort uit de patronen, datasets, algoritmen en modellen die ontwikkelaars gebruiken. AI is misschien onpartijdig, maar mensen zijn dat niet.

Bijvoorbeeld, De Brookings-instelling beweert dat ChatGPT blijk geeft van linkse politieke vooroordelen. OpenAI ontkent deze aantijgingen natuurlijk. Maar om soortgelijke problemen met nieuwere modellen te voorkomen, vermijdt ChatGPT eigenzinnige output helemaal.

Evenzo vermijdt Bing Chat gevoelige, subjectieve zaken.

Beoordeel zelf vooringenomenheid door AI door op meningen gebaseerde, open vragen te stellen. Praat over onderwerpen zonder goed of fout antwoord - minder geavanceerde chatbots zullen waarschijnlijk ongegronde voorkeuren ten opzichte van specifieke groepen vertonen.

8. Referenties

AI controleert feiten zelden dubbel. Het haalt alleen informatie uit zijn datasets en herformuleert ze door middel van taalmodellen. Helaas veroorzaakt beperkte training AI-hallucinaties. Je kunt nog steeds generatieve AI-tools gebruiken voor onderzoek, maar zorg ervoor dat je zelf de feiten verifieert. Neem de output met een korreltje zout.

Bing Chat vereenvoudigt het feitencontroleproces door na elke output de referenties weer te geven.

Bard AI vermeldt zijn bronnen niet, maar genereert bijgewerkte, diepgaande uitleg door Google-zoekopdrachten uit te voeren. U krijgt de belangrijkste punten van SERP's.

ChatGPT is gevoelig voor onnauwkeurigheden. De kennisgrens voor 2021 verhindert dat het vragen over recente gebeurtenissen en incidenten beantwoordt.

Creëer nieuwe manieren om chatbots te testen op nauwkeurigheid

AI is niet alles en nog wat van technologie. Terwijl geavanceerde AI-systemen en taalmodellen indrukwekkende prestaties leveren, maken ze ook fouten en inconsistenties. Bekijk chatbots met scepsis. U kunt AI-gestuurde platforms alleen gebruiken als u hun functies en beperkingen begrijpt.

Hoewel er tientallen chatbots zijn op verschillende platforms, kan hun betrouwbaarheid en precisie u teleurstellen. Je verspilt alleen maar tijd met het testen ervan. Om kwaliteitsresultaten te garanderen, raden we aan om je te concentreren op de drie meest robuuste modellen op de markt: ChatGPT, Bing AI en Google Bard.

About Technology - denizatm.com

8 belangrijke factoren waarmee u rekening moet houden bij het testen van AI-chatbots op nauwkeurigheid

1. Rekenen

2. Begrip

3. Tijdigheid

4. Relevantie

5. Contextueel geheugen

6. Beveiligingsbeperkingen

7. AI-vooroordelen

8. Referenties

Creëer nieuwe manieren om chatbots te testen op nauwkeurigheid

Categorieën

Recent Post

6 manieren om uw gezin te beschermen tegen loot boxes

5 tekenen dat u te veel technische gadgets bezit

Hoe u naar de veilige modus gaat om problemen met uw Xbox Series X|S op te lossen