Meer dan 70 jaar geleden, toen kunstmatige intelligentie werd geconceptualiseerd, publiceerde Alan Turing een artikel waarin werd beschreven hoe het te identificeren. Het werd later de Turing-test genoemd en wordt al tientallen jaren gebruikt om onderscheid te maken tussen een mens en een AI.

Met de introductie van geavanceerde AI-chatbots zoals ChatGPT en Google Bard wordt het echter steeds moeilijker om te zien of je met een AI praat. Het roept de vraag op; is de Turing-test verouderd? En zo ja, wat zijn de alternatieven?

Is de Turing-test achterhaald?

Afbeelding tegoed: Jezus Sanz/Shutterstock

Om te bepalen of de Turing-test verouderd is, moet u eerst begrijpen hoe het werkt. Wil een AI slagen voor de Turing-test, dan moet het een menselijke ondervrager ervan overtuigen dat het een mens is. Maar er zit een addertje onder het gras: de AI wordt samen met een mens geëvalueerd en moet reageren met tekst.

Zie het zo; als u de ondervrager bent en u online vragen stelt aan twee deelnemers met behulp van tekst, maar een van hen is een AI-model, zou u ze dan na vijf minuten uit elkaar houden? Houd er rekening mee dat het doel van de Turing-test niet is om het AI-model te identificeren op basis van de juiste antwoorden, maar om te evalueren of de AI kan denken of zich kan gedragen als een mens.

instagram viewer

Het probleem met de Turing-testbenadering om alleen mensachtige reacties te identificeren, is dat er geen rekening wordt gehouden met andere factoren. Bijvoorbeeld de intelligentie van het AI-model of de kennis van de ondervrager. Daarnaast is de Turing-test beperkt tot alleen tekst en wordt het steeds moeilijker om een ​​AI te identificeren die een menselijke stem genereert of deepfake-video's die menselijk gedrag nabootsen.

De huidige AI-modellen zoals ChatGPT-4 en Google Bard zijn echter nog niet zo ver gevorderd dat ze consequent de Turing-test kunnen doorstaan. Als u bekend bent met AI, kunt u dat zelfs spot AI-gegenereerde tekst.

De 5 beste Turing-testalternatieven

Het is mogelijk dat toekomstige AI-modellen zoals ChatGPT-5 de Turing-test zou kunnen doorstaan. Als dat gebeurt, hebben we verschillende tests nodig in combinatie met de Turing-test om vast te stellen of we met een AI of een mens praten. Dit zijn de beste Turing-testalternatieven:

1. De Marcus-test

Gary Marcus, een gerenommeerd cognitief wetenschapper en AI-onderzoeker, stelde een alternatief voor de Turing-test voor die werd gepubliceerd in de New Yorker om het cognitieve vermogen van een AI te identificeren. De test is eenvoudig: u beoordeelt een AI-model op basis van het vermogen om YouTube-video's en tv-programma's te bekijken en te begrijpen zonder ondertiteling of tekst. Wil de AI slagen voor de Marcus-test, dan moet hij sarcasme, humor, ironie en de verhaallijn begrijpen bij het bekijken van de video's en dit uitleggen als een mens.

Momenteel, GPT-4 kan afbeeldingen beschrijven, maar tot nu toe is er momenteel geen AI-model dat video's kan begrijpen zoals een mens. Zelfrijdende voertuigen komen in de buurt, maar ze zijn niet volledig autonoom en hebben sensoren nodig omdat ze niet alles in hun omgeving kunnen begrijpen.

2. De visuele Turing-test

Dat blijkt uit een onderzoekspaper gepubliceerd op PNAS, kan de visuele Turing-test worden gebruikt om vast te stellen of u met een mens of een AI praat met behulp van beeldvragenlijsten. Het werkt als de Turing-test, maar in plaats van vragen te beantwoorden met behulp van teksten, krijgen deelnemers afbeeldingen te zien en wordt verwacht dat ze eenvoudige vragen beantwoorden terwijl ze denken als een mens. echter, de visuele Turing-test is anders dan CAPTCHA's aangezien alle antwoorden correct zijn, maar om de test te doorstaan, moet de AI de beelden op dezelfde manier verwerken als een mens.

Bovendien, als een AI en een mens meerdere afbeeldingen naast elkaar te zien krijgen en worden gevraagd om realistische afbeeldingen te identificeren, zou de mens het cognitieve vermogen hebben om de test te doorstaan. Dit komt omdat AI-modellen het moeilijk vinden om afbeeldingen te onderscheiden die er niet uitzien alsof ze in de echte wereld zijn gemaakt. Dat is in feite de reden waarom je het kunt AI-gegenereerde afbeeldingen identificeren afwijkingen gebruiken die nergens op slaan.

3. De Lovelace 2.0-test

De theorie dat een computer geen originele ideeën kan creëren die verder gaan dan waarvoor hij is geprogrammeerd, werd voor het eerst geconceptualiseerd door Ada Lovelace vóór de Turing-test. Alan Turing maakte echter bezwaar tegen die theorie met het argument dat AI mensen nog steeds kan verrassen. Pas in 2001 werden de richtlijnen voor de Lovelace-test ontwikkeld om een ​​AI van een mens te onderscheiden. de Kurzwe-bibliotheek de regels werden later herzien in 2014.

Wil een AI slagen voor de Lovelace-test, dan moet hij aantonen dat hij originele ideeën kan genereren die zijn training te boven gaan. Huidige AI-modellen zoals GPT-4 hebben niet de mogelijkheid om met nieuwe uitvindingen te komen die onze bestaande kennis te boven gaan. Echter, kunstmatige algemene intelligentie kan dat vermogen bereiken en slagen voor de Lovelace-test.

4. Omgekeerde Turing-test

Hoe zit het met de Turing-test, maar dan omgekeerd? In plaats van te proberen erachter te komen of je met een mens praat, is het doel van de omgekeerde Turing-test is om de AI te laten geloven dat je een AI bent. Je hebt echter ook een ander AI-model nodig om dezelfde vragen met tekst te beantwoorden.

Als ChatGPT-4 bijvoorbeeld de ondervrager is, kunt u Google Bard en een ander mens inschrijven als deelnemers. Als het AI-model de menselijke deelnemer correct kan identificeren op basis van de antwoorden, is het geslaagd voor de test.

De keerzijde van de omgekeerde Turing-test is dat deze onbetrouwbaar is, vooral gezien dat soms AI kan geen onderscheid maken tussen door AI gegenereerde en door mensen geschreven inhoud.

5. AI-classificatiekader

Volgens het AI-classificatieraamwerk ontwikkeld door Chris Sad, is de Turing-test slechts één evaluatiemethode om te weten of je met een AI praat. Kort gezegd is het AI-classificatieraamwerk gebaseerd op de theorie van meervoudige intelligentie, die vereist dat menselijke intelligentie aan ten minste acht verschillende criteria voldoet, die omvatten: muzikaal ritme, logisch-wiskundige intelligentie, visuele identificatie, emotionele intelligentie, zelfreflectieve intelligentie, existentieel denkvermogen en lichaam beweging.

Aangezien de AI wordt beoordeeld op acht verschillende parameters, is het onwaarschijnlijk dat deze doorgaat voor een mens, ook al presteert hij beter dan gemiddeld in bepaalde benchmarks. Bijvoorbeeld, ChatGPT kan wiskundige problemen oplossen, beschrijf afbeeldingen en converseer in een natuurlijke taal zoals een mens, maar het zou niet voldoen aan andere categorieën die zijn gedefinieerd in het AI-classificatiekader.

De Turing-test is niet overtuigend

De Turing-test was meer bedoeld als een gedachte-experiment dan als een sluitende test om onderscheid te maken tussen mensen en AI. Toen het aanvankelijk werd voorgesteld, was het de belangrijkste maatstaf voor het meten van machine-intelligentie.

Met de recente ontwikkeling van AI-modellen met spraak-, visuele en gehoor-interactieve mogelijkheden schiet de Turing-test echter tekort omdat deze beperkt is tot tekstconversatie. De meest effectieve oplossing zou zijn om Turing-testalternatieven te introduceren die AI-modellen verder onderscheiden van mensen.