GPTBot is waarschijnlijk niet wat je denkt.

Belangrijkste leerpunten

  • OpenAI's GPTBot is een webcrawler die is ontworpen om gegevens van openbare websites te verzamelen, die vervolgens worden gebruikt om AI-modellen zoals GPT-4 en ChatGPT te trainen en te verbeteren.
  • Enkele van de grootste websites op internet blokkeren GPTBot omdat deze toegang krijgt tot auteursrechtelijk beschermde inhoud en deze gebruikt zonder toestemming of compensatie aan de makers.
  • Hoewel websites tools als robots.txt kunnen gebruiken om GPTBot te blokkeren, zijn er geen garanties dat OpenAI hieraan zal voldoen, waardoor ze controle krijgen over de toegang tot auteursrechtelijk beschermde gegevens.

In augustus 2023 kondigde OpenAI, de AI-krachtpatser die ChatGPT heeft ontwikkeld, GPTBot aan, een webcrawler die is ontworpen om het internet te doorkruisen en gegevens te verzamelen.

Niet lang na die aankondiging blokkeerden enkele van de grootste websites op internet de bot de toegang tot hun website. Maar waarom? Wat is de GPTBot van OpenAI? Waarom zijn de grote websites er bang voor, en waarom proberen ze het te blokkeren?

instagram viewer

Wat is de GPTBot van OpenAI?

GPTBot is een webcrawler gemaakt door OpenAI om op internet te zoeken en informatie te verzamelen voor de AI-ontwikkelingsdoelen van OpenAI. Het is geprogrammeerd om openbare websites te doorzoeken en de gegevens terug te sturen naar de servers van OpenAI. OpenAI gebruikt deze gegevens vervolgens om zijn AI-modellen te trainen en te verbeteren, met als doel steeds geavanceerdere kunstmatige-intelligentiesystemen te bouwen. Om geavanceerde AI-modellen zoals GPT-4 of onderliggende producten zoals ChatGPT te bouwen, zijn webcrawlers bijna onmisbaar.

Het trainen van een AI-model vereist een enorme hoeveelheid gegevens, en een van de meest effectieve manieren om deze gegevens te verzamelen is door tools zoals webcrawlers in te zetten. Crawlers kunnen systematisch op internet surfen, links volgen om grote hoeveelheden webpagina's te indexeren en belangrijke gegevens zoals tekst, afbeeldingen en metagegevens extraheren die overeenkomen met een vooraf gedefinieerd patroon.

Deze gegevens kunnen vervolgens worden gestructureerd en in AI-modellen worden ingevoerd om hun vaardigheden op het gebied van natuurlijke taalverwerking of beeldgeneratie te trainen of ze te trainen voor andere AI-taken. Met andere woorden: webcrawlers verzamelen de gegevens die het voor tools als ChatGPT of DALL-E mogelijk maken om te doen wat ze doen.

Webcrawlers zijn geen nieuw concept. Er zijn waarschijnlijk miljoenen van hen die de miljarden websites doorzoeken die tegenwoordig op internet beschikbaar zijn. En ze bestaan ​​al sinds het begin van de jaren negentig. GPTBot is slechts een van dergelijke crawlers die eigendom zijn van OpenAI. Wat veroorzaakt de controverse rond deze specifieke webcrawler?

Waarom blokkeren grote technische sites GPTBot?

Volgens Business insiderblokkeerden enkele van de grootste websites op internet actief de crawler van OpenAI op hun website. Dus als het uiteindelijke doel van GPTBot het bevorderen van de AI-ontwikkeling is, waarom zijn enkele van de grootste sites op internet, waarvan sommige op de een of andere manier hebben geprofiteerd van AI, er dan tegen?

Nou, hier is het punt. Sinds de heropleving van generatieve AI-technologieën in 2022 zijn er talloze debatten geweest over het recht van AI-bedrijven om maken vrijwel onbeperkt gebruik van gegevens afkomstig van internet, waarvan een aanzienlijk deel wettelijk beschermd is auteursrechten. Er zijn geen duidelijke wetten die bepalen hoe deze bedrijven gegevens verzamelen en gebruiken voor hun eigen gewin.

Dus in feite crawlen crawlers zoals GPTBot het internet en pakken ze het creatieve werk van mensen in de vorm van tekst, afbeeldingen of andere vormen van media, en deze gebruiken voor commerciële doeleinden zonder enige toestemming, licentie of compensatie voor het origineel te verkrijgen makers.

Het is een wild westen daarbuiten, en AI-bedrijven grijpen alles wat ze maar te pakken kunnen krijgen. Grote websites als Quora, CNN, de New York Times, Business Insider en Amazon zijn daar niet erg blij mee auteursrechtelijk beschermde inhoud wordt door deze crawlers verzameld, zodat OpenAI er financieel voordeel uit kan halen kosten.

Daarom gebruiken deze sites 'robots.txt', een tientallen jaren oude methode om webcrawlers te blokkeren. Volgens Open AI, zal GPTBot instructies opvolgen om websites te crawlen of te vermijden op basis van de regels die zijn ingebed in robots.txt, een klein tekstbestand dat webcrawlers vertelt hoe ze zich op een site moeten gedragen. Als u een eigen site heeft en wilt voorkomen dat GPTBot uw gegevens ophaalt, kunt u dit als volgt doen: blokkeer de crawlers van OpenAI om uw website te schrapen.

Kunnen websites GPTBot echt stoppen?

Terwijl crawlers als GPTBot onmisbaar zijn voor het verzamelen van de enorme hoeveelheden gegevens die daarvoor nodig zijn geavanceerde AI-systemen te trainen, zijn er terechte zorgen over auteursrecht en eerlijk gebruik die niet mogelijk zijn buiten beschouwing gelaten.

Zeker, er zijn eenvoudige tools zoals robots.txt die gebruikt kunnen worden om hiertegen te waken, maar of GPTBot de instructies in dit bestand opvolgt, is volledig ter beoordeling van OpenAI. Er zijn geen garanties dat ze dat zullen doen, en er is geen onmiddellijke waterdichte manier om te bepalen of ze dat hebben gedaan. In de strijd om GPTBot weg te houden van auteursrechtelijk beschermde gegevens heeft OpenAI de troeven in handen, althans voorlopig.