Bezorgd over AI-chatbots die uw website schrapen voor inhoud? Gelukkig kun je ze hiervan weerhouden. Hier is hoe.

Zoals de zaken er nu voorstaan, hebben AI-chatbots een gratis licentie om uw website te schrapen en de inhoud ervan te gebruiken zonder uw toestemming. Bezorgd over het feit dat uw inhoud door dergelijke tools wordt geschraapt?

Het goede nieuws is dat u kunt voorkomen dat AI-tools toegang krijgen tot uw website, maar er zijn enkele kanttekeningen. Hier laten we u zien hoe u de bots kunt blokkeren met behulp van het robots.txt-bestand voor uw website, plus de voor- en nadelen hiervan.

Hoe krijgen AI-chatbots toegang tot uw webinhoud?

AI-chatbots worden getraind met behulp van meerdere datasets, waarvan sommige open-source en openbaar beschikbaar zijn. Zo is GPT3 volgens vijf datasets getraind een onderzoekspaper gepubliceerd door OpenAI:

  1. Common Crawl (60% gewicht tijdens training)
  2. WebText2 (22% gewicht tijdens training)
  3. Boeken1 (8% gewicht tijdens training)
  4. Books2 (8% gewicht tijdens training)
  5. Wikipedia (3% gewicht tijdens training)

Gemeenschappelijke kruip omvat petabytes (duizenden TB's) aan gegevens van websites die sinds 2008 zijn verzameld, vergelijkbaar met hoe het zoekalgoritme van Google webinhoud doorzoekt. WebText2 is een dataset gemaakt door OpenAI, met ongeveer 45 miljoen webpagina's waarnaar wordt gelinkt vanuit Reddit-berichten met ten minste drie upvotes.

Dus in het geval van ChatGPT heeft de AI-bot geen directe toegang tot uw webpagina's en crawlt deze niet rechtstreeks, in ieder geval nog niet. Hoewel, OpenAI's aankondiging van een door ChatGPT gehoste webbrowser heeft de bezorgdheid geuit dat dit op het punt staat te veranderen.

In de tussentijd moeten website-eigenaren andere AI-chatbots in de gaten houden, aangezien er meer op de markt komen. Bard is de andere grote naam in het veld en er is heel weinig over bekend de datasets die worden gebruikt om het te trainen. Het is duidelijk dat we weten dat de zoekbots van Google constant webpagina's doorzoeken, maar dit betekent niet noodzakelijkerwijs dat Bard toegang heeft tot dezelfde gegevens.

Waarom zijn sommige website-eigenaren bezorgd?

De grootste zorg voor website-eigenaren is dat AI-bots zoals ChatGPT, Bard en Bing Chat hun inhoud devalueren. AI-bots gebruiken bestaande inhoud om hun antwoorden te genereren, maar verminderen ook de noodzaak voor gebruikers om toegang te krijgen tot de oorspronkelijke bron. In plaats van dat gebruikers websites bezoeken om toegang te krijgen tot informatie, kunnen ze eenvoudig Google of Bing een samenvatting laten genereren van de informatie die ze nodig hebben.

Als het gaat om AI-chatbots bij het zoeken, is de grootste zorg voor website-eigenaren het verliezen van verkeer. In het geval van Bard, de AI-bot neemt zelden citaten op in zijn generatieve reacties, gebruikers vertellen van welke pagina's het zijn informatie haalt.

Dus naast het vervangen van websitebezoeken door AI-reacties, neemt Bard vrijwel elke kans weg dat de bronwebsite verkeer ontvangt, zelfs als de gebruiker meer informatie wil. Bing Chat, aan de andere kant, linkt vaker naar informatiebronnen.

Met andere woorden, de huidige vloot van generatieve AI-tools is dat wel gebruikmakend van het werk van makers van inhoud om systematisch de behoefte aan makers van inhoud te vervangen. Uiteindelijk moet je het vragen welke stimulans dit website-eigenaren achterlaat om door te gaan met het publiceren van inhoud. En, bij uitbreiding, wat gebeurt er met AI-bots wanneer websites stoppen met het publiceren van de inhoud waarvan ze afhankelijk zijn om te functioneren?

Hoe AI-bots van uw website te blokkeren

Als u niet wilt dat AI-bots uw webinhoud gebruiken, kunt u ze de toegang tot uw site blokkeren met behulp van de robots.txt bestand. Helaas moet je elke individuele bot blokkeren en bij naam specificeren.

De bot van Common Crawl heet bijvoorbeeld CCBot en u kunt deze blokkeren door de volgende code toe te voegen aan uw robots.txt-bestand:

User-agent: CCBot
Niet toestaan: /

Hiermee wordt voorkomen dat Common Crawl uw website in de toekomst crawlt, maar er worden geen gegevens verwijderd die al zijn verzameld bij eerdere crawls.

Als u zich zorgen maakt over de nieuwe plug-ins van ChatGPT die toegang krijgen tot uw webinhoud, heeft OpenAI al gepubliceerd instructies voor het blokkeren van de bot. In dit geval heet de bot van ChatGPT ChatGPT-User en kun je deze blokkeren door de volgende code toe te voegen aan je robots.txt-bestand:

User-agent: ChatGPT-gebruiker
Niet toestaan: /

Het blokkeren van AI-bots van zoekmachines om uw inhoud te crawlen, is echter een heel ander probleem. Aangezien Google zeer geheimzinnig doet over de trainingsgegevens die het gebruikt, is het onmogelijk om vast te stellen welke bots u moet blokkeren en of ze zelfs de opdrachten in uw account zullen respecteren. robots.txt bestand (veel crawlers niet).

Hoe effectief is deze methode?

AI-bots blokkeren in uw robots.txt bestand is de meest effectieve methode die momenteel beschikbaar is, maar het is niet bijzonder betrouwbaar.

Het eerste probleem is dat je elke bot moet specificeren die je wilt blokkeren, maar wie kan bijhouden welke AI-bot op de markt komt? Het volgende probleem is dat opdrachten in uw robots.txt bestand zijn niet-verplichte instructies. Terwijl Common Crawl, ChatGPT en vele andere bots deze commando's respecteren, doen veel bots dat niet.

Het andere grote voorbehoud is dat je alleen kunt voorkomen dat AI-bots toekomstige crawls uitvoeren. U kunt geen gegevens van eerdere crawls verwijderen of verzoeken sturen naar bedrijven zoals OpenAI om al uw gegevens te wissen.

Helaas is er geen eenvoudige manier om alle AI-bots de toegang tot uw website te ontzeggen, en het handmatig blokkeren van elke afzonderlijke bot is bijna onmogelijk. Zelfs als je op de hoogte blijft van de nieuwste AI-bots die op internet rondzwerven, is er geen garantie dat ze zich allemaal zullen houden aan de opdrachten in je robots.txt bestand.

De echte vraag hier is of de resultaten de moeite waard zijn, en het korte antwoord is (vrijwel zeker) nee.

Er zijn ook potentiële nadelen aan het blokkeren van AI-bots van uw website. Bovenal zult u geen zinvolle gegevens kunnen verzamelen om te bewijzen of tools zoals Bard uw zoekmarketingstrategie ten goede komen of schade toebrengen.

Ja, je kunt ervan uitgaan dat een gebrek aan citaten schadelijk is, maar je gokt alleen als je de gegevens mist omdat je AI-bots de toegang tot je inhoud hebt geblokkeerd. Het was een soortgelijk verhaal toen Google voor het eerst werd geïntroduceerd uitgelichte fragmenten zoeken.

Voor relevante zoekopdrachten toont Google een fragment van de inhoud van webpagina's op de resultatenpagina, waarmee de vraag van de gebruiker wordt beantwoord. Dit betekent dat gebruikers niet hoeven door te klikken naar een website om het antwoord te krijgen waarnaar ze op zoek zijn. Dit veroorzaakte paniek onder website-eigenaren en SEO-experts die vertrouwen op het genereren van verkeer uit zoekopdrachten.

Het soort zoekopdrachten dat aanbevolen fragmenten activeert, zijn over het algemeen echter zoekopdrachten met een lage waarde, zoals "wat is X" of "hoe is het weer in New York". Iedereen die diepgaande informatie of een uitgebreid weerbericht wil, zal nog steeds doorklikken, en degenen die dat niet willen, waren in de eerste plaats nooit zo waardevol.

Misschien vind je het een soortgelijk verhaal met generatieve AI-tools, maar je hebt de gegevens nodig om het te bewijzen.

Overhaast niets

Eigenaren en uitgevers van websites zijn begrijpelijkerwijs bezorgd over AI-technologie en gefrustreerd door het idee dat bots hun inhoud gebruiken om onmiddellijke reacties te genereren. Dit is echter niet het moment om overhaaste tegenoffensieve bewegingen te maken. AI-technologie is een snel evoluerend veld en dingen zullen zich in hoog tempo blijven ontwikkelen. Grijp deze kans om te zien hoe de zaken verlopen en analyseer de potentiële bedreigingen en kansen die AI met zich meebrengt.

Het huidige systeem om te vertrouwen op het werk van makers van inhoud om ze te vervangen, is niet duurzaam. Of bedrijven als Google en OpenAI hun aanpak nu wijzigen of overheden nieuwe regelgeving introduceren, er moet iets gebeuren. Tegelijkertijd worden de negatieve implicaties van AI-chatbots voor het maken van content steeds duidelijker, waar website-eigenaren en contentmakers hun voordeel mee kunnen doen.