Kunstmatige intelligentiemodellen zoals ChatGPT en Bard worden getraind met behulp van gegevens die door mensen zijn gemaakt. Hoe meer gegevens ze binnenkrijgen, hoe slimmer ze worden in het imiteren van menselijke intelligentie en creativiteit. Grote spelers in de AI-industrie, zoals OpenAI en Meta, hebben grote taalmodellen ingezet die zijn getraind door tekst en online beschikbare boeken te schrapen om gegevens te extraheren.
Vanwege de manier waarop LLM's worden opgeleid, was het onvermijdelijk dat er een conflict zou ontstaan tussen auteursrechtwetgeving en kunstmatige intelligentie. Nu komen de kippen naar huis, terwijl Sarah Silverman en andere artiesten OpenAI en Meta aanklagen wegens inbreuk op het auteursrecht.
In een class action-rechtszaak [PDF] ingediend in Californië, cabaretier Sarah Silverman en andere schrijvers (Christopher Golden en Richard Kadrey) proberen schadevergoeding te vorderen van OpenAI en Meta wegens inbreuk op het auteursrecht. De rechtszaak beweert dat OpenAI en Meta auteursrechtelijk beschermde boeken van piratenwebsites hebben geschraapt om hun AI-modellen te trainen. Dit is het equivalent van een AI-model dat zijn trainingsdatasets van Piratebay downloadt zonder de auteurs te compenseren.
Toevallig, een afzonderlijke class action-rechtszaak [PDF] tegen OpenAI beweert dat het bedrijf ongeautoriseerde privé-informatie heeft gebruikt om ChatGPT te trainen. Google wordt ook geconfronteerd met een soortgelijke rechtszaak wegens het vermeende gebruik van gestolen gegevens om Google Bard te trainen. Dit is waarom je zou moeten maak er een gewoonte van om uw persoonlijke gegevens te beschermen, hoewel het publiceren van werk en privé-persoonsgegevens niet hetzelfde zijn.
Hoe groot is de kans dat Sarah Silverman de rechtszaak wint?
Silverman en andere artiesten beweren dat ChatGPT hun boeken nauwkeurig kan samenvatten wanneer daarom wordt gevraagd. De klacht stelt dat dit niet mogelijk zou zijn als het AI-model geen toegang zou hebben tot het auteursrechtelijk beschermde materiaal. Als ChatGPT echter was getraind met behulp van miljarden internetteksten, kwam het waarschijnlijk artikelen, commentaren en posts op sociale media tegen die de boeken bespraken.
Bovendien maakte Meta bekend waar het de boeken had gekocht die het gebruikte om zijn AI-model te trainen - de bron was te herleiden tot een e-book torrent-website. Evenzo maakt de class action-rechtszaak tegen OpenAI ook melding van illegale websites waarvan wordt vermoed dat OpenAI het auteursrechtelijk beschermde materiaal heeft verkregen, maar OpenAI moet zijn bronnen nog bevestigen.
Als bewezen is dat OpenAI en Meta illegale torrent-websites gebruikten om auteursrechtelijk beschermd materiaal te verwerven om hun AI-modellen te trainen, heeft Silverman misschien een kans om de rechtszaak te winnen. AI-modellen zijn echter onbekend terrein zonder precedent waarop rechtbanken zich kunnen baseren om een uitspraak te doen op basis van AI-auteursrechtschending. Sterker nog, dat is een van de redenen waarom de EU heeft een AI-wet voorgesteld.
Wat is de toekomst van AI-modellen en auteursrecht?
We bevinden ons nog in de begindagen van AI om te weten hoe het zich zal aanpassen aan de auteursrechtwetgeving. Het is nog ingewikkelder om erachter te komen wie bezit het auteursrecht op het maken van AI. Maar voor menselijke makers bestaan er regels om hen te beschermen tegen iemand anders die toegang heeft tot hun auteursrechtelijk beschermde materiaal zonder compensatie, toestemming of krediet. Als de regels er zijn voor mensen, zijn ze dan ook van toepassing op AI-modellen?
Het EU-parlement schetste een glimp van de toekomst van hoe AI-modellen zullen voldoen aan de auteursrechtwetgeving. Als de EU AI-wet in wet wordt goedgekeurd, zullen AI-modellen zoals ChatGPT en Bard verplicht zijn om al hun datasetbronnen en auteursrechtelijk beschermde gegevens die voor training worden gebruikt, te publiceren. Dit helpt eventuele verwarring weg te nemen als de AI-modellen toegang hadden tot auteursrechtelijk beschermde boeken, films, muziek en foto's voor training via illegale piraterijwebsites.
De AI Class Action-rechtszaak zal een juridisch precedent scheppen
Grote taalmodellen kunnen alle hoeken van het internet afzoeken naar gegevens die in training worden gebruikt. Maar zouden ze aansprakelijk zijn voor inbreuk op het auteursrecht als ze illegale torrent-websites bezoeken om de gegevens te verkrijgen? En als ze dat wel doen, kunt u dat dan bewijzen?
Ongeacht de uitkomst zullen de class action-rechtszaken tegen de technologiebedrijven die eigenaar zijn van de meest populaire AI-modellen een precedent scheppen dat in de toekomst relevant zal zijn.