AI-modellen zijn zo goed als de gegevens die erin gaan. Dat maakt deze gegevens een potentieel doelwit voor aanvallen.
Vorderingen in kunstmatige intelligentie hebben een aanzienlijke invloed gehad op verschillende gebieden. Dit heeft nogal wat tech-enthousiastelingen reden tot bezorgdheid gegeven. Naarmate deze technologieën zich uitbreiden naar verschillende toepassingen, kunnen ze leiden tot een toename van vijandige aanvallen.
Wat zijn vijandige aanvallen in kunstmatige intelligentie?
Tegenstrijdige aanvallen maken gebruik van specificaties en kwetsbaarheden binnen AI-modellen. Ze corrumperen de gegevens waarvan AI-modellen hebben geleerd en zorgen ervoor dat deze modellen onnauwkeurige output genereren.
Stel je voor dat een grappenmaker scrabble-tegels verandert die zijn gerangschikt als ananas om "appelpine" te worden. Dit is vergelijkbaar met wat er gebeurt bij vijandige aanvallen.
Een paar jaar geleden was het de norm om een paar onjuiste antwoorden of outputs van een AI-model te krijgen. Het omgekeerde is nu het geval, aangezien onnauwkeurigheden de uitzondering zijn geworden, waarbij AI-gebruikers bijna perfecte resultaten verwachten.
Wanneer deze AI-modellen worden toegepast op scenario's uit de echte wereld, kunnen onnauwkeurigheden fataal zijn, waardoor vijandige aanvallen zeer gevaarlijk worden. Zo kunnen stickers op verkeersborden een autonoom zelfrijdende auto verwarren en ervoor zorgen dat deze zich in het verkeer of direct tegen een obstakel begeeft.
Soorten vijandige aanvallen
Er zijn verschillende vormen van vijandige aanvallen. Met de toenemende integratie van AI in alledaagse toepassingen, zullen deze aanvallen waarschijnlijk erger en complexer worden.
Desalniettemin kunnen we vijandige aanvallen grofweg indelen in twee typen op basis van hoeveel de bedreigingsactor weet over het AI-model.
1. White Box-aanvallen
In witte doos aanvallenhebben dreigingsactoren volledige kennis van de interne werking van het AI-model. Ze kennen de specificaties, trainingsgegevens, verwerkingstechnieken en parameters. Deze kennis stelt hen in staat om specifiek voor het model een vijandige aanval te bouwen.
De eerste stap in een white box-aanval is het wijzigen van de oorspronkelijke trainingsgegevens, waardoor deze zo min mogelijk beschadigd raken. De gewijzigde gegevens zullen nog steeds sterk lijken op het origineel, maar significant genoeg om ervoor te zorgen dat het AI-model onnauwkeurige resultaten geeft.
Dat is niet alles. Na de aanval evalueert de bedreigingsactor de effectiviteit van het model door het voorbeelden van tegenstanders te geven:vervormde invoer die is ontworpen om ervoor te zorgen dat het model fouten maakt-en analyseert de uitvoer. Hoe onnauwkeuriger het resultaat, hoe succesvoller de aanval.
2. Black Box-aanvallen
In tegenstelling tot white box-aanvallen, waarbij de bedreigingsactor op de hoogte is van de innerlijke werking van het AI-model, kunnen daders van black box-aanvallen geen idee hoe het model werkt. Ze observeren het model gewoon vanuit een dode hoek en bewaken de invoer- en uitvoerwaarden.
De eerste stap in een black box-aanval is het selecteren van het invoerdoel dat het AI-model wil classificeren. De bedreigingsactor maakt vervolgens een kwaadaardige versie van de invoer door zorgvuldig vervaardigde ruis toe te voegen, verstoringen van de gegevens die onzichtbaar zijn voor het menselijk oog, maar die het AI-model wel kunnen veroorzaken storing.
De kwaadaardige versie wordt aan het model doorgegeven en de uitvoer wordt geobserveerd. De resultaten die door het model worden gegeven, helpen de dreigingsactor om de versie te blijven aanpassen totdat ze er zeker van zijn dat de ingevoerde gegevens verkeerd worden geclassificeerd.
Technieken die worden gebruikt bij vijandige aanvallen
Kwaadwillende entiteiten kunnen verschillende technieken gebruiken om vijandige aanvallen uit te voeren. Hier zijn enkele van deze technieken.
1. Vergiftiging
Aanvallers kunnen een klein deel van de invoergegevens van een AI-model manipuleren (vergiftigen) om de trainingsgegevenssets en nauwkeurigheid ervan in gevaar te brengen.
Er zijn verschillende vormen van vergiftiging. Een van de meest voorkomende is achterdeurvergiftiging, waarbij zeer weinig trainingsgegevens worden beïnvloed. Het AI-model blijft zeer nauwkeurige resultaten geven totdat het wordt "geactiveerd" om defect te raken bij contact met specifieke triggers.
2. Ontduiking
Deze techniek is nogal dodelijk, omdat het detectie vermijdt door achter het beveiligingssysteem van de AI aan te gaan.
De meeste AI-modellen zijn uitgerust met anomaliedetectiesystemen. Ontwijkingstechnieken maken gebruik van tegenstrijdige voorbeelden die direct achter deze systemen aan gaan.
Deze techniek kan vooral gevaarlijk zijn tegen klinische systemen zoals autonome auto's of medische diagnostische modellen. Dit zijn gebieden waar onnauwkeurigheden ernstige gevolgen kunnen hebben.
3. Overdraagbaarheid
Bedreigingsactoren die deze techniek gebruiken, hebben geen voorafgaande kennis van de parameters van het AI-model nodig. Ze gebruiken vijandige aanvallen die in het verleden succesvol zijn geweest tegen andere versies van het model.
Als een vijandige aanval er bijvoorbeeld voor zorgt dat een beeldclassificatiemodel een schildpad voor een geweer aanziet, kan de exacte aanval ervoor zorgen dat andere beeldclassificatiemodellen dezelfde fout maken. De andere modellen kunnen op een andere dataset zijn getraind en zelfs een andere architectuur hebben, maar kunnen nog steeds het slachtoffer worden van de aanval.
4. Draagmoederschap
In plaats van achter de beveiligingssystemen van het model aan te gaan met behulp van ontwijkingstechnieken of eerder succesvolle aanvallen, zou de bedreigingsactor een surrogaatmodel kunnen gebruiken.
Met deze techniek creëert de bedreigingsactor een identieke versie van het doelmodel, een surrogaatmodel. De resultaten, parameters en gedragingen van een surrogaat moeten identiek zijn aan het oorspronkelijke model dat is gekopieerd.
Het surrogaat zal nu worden onderworpen aan verschillende vijandige aanvallen totdat er een ervoor zorgt dat het een onnauwkeurige uitkomst oplevert of een verkeerde classificatie uitvoert. Vervolgens wordt deze aanval gebruikt op de oorspronkelijke doel-AI.
Hoe vijandige aanvallen te stoppen
Verdediging tegen vijandige aanvallen kan complex en tijdrovend zijn, aangezien bedreigingsactoren verschillende vormen en technieken gebruiken. De volgende stappen kunnen vijandige aanvallen echter voorkomen en stoppen.
1. Tegenstrijdige training
De meest effectieve stap die vijandige aanvallen kan voorkomen, is vijandige training, het trainen van AI-modellen en machines met vijandige voorbeelden. Dit verbetert de robuustheid van het model en zorgt ervoor dat het bestand is tegen de kleinste invoerverstoringen.
2. Regelmatige controle
Het is noodzakelijk om regelmatig te controleren op zwakke punten in het anomaliedetectiesysteem van een AI-model. Dit omvat het opzettelijk voeden van het model met vijandige voorbeelden en het monitoren van het gedrag van het model voor de kwaadwillende input.
3. Gegevensopschoning
Bij deze methode wordt gecontroleerd of er schadelijke invoer in het model wordt ingevoerd. Na identificatie moeten ze onmiddellijk worden verwijderd.
Deze gegevens kunnen worden geïdentificeerd met behulp van invoervalidatie, waarbij de gegevens worden gecontroleerd op patronen of handtekeningen van eerder bekende tegenstrijdige voorbeelden.
4. Beveiligingsupdates
Het zou moeilijk zijn om fout te gaan met beveiligingsupdates en patches. Meerlaagse beveiliging zoals firewalls, antimalwareprogramma's en inbraakdetectie- en preventiesystemen kan helpen externe inmenging van bedreigingsactoren die een AI-model willen vergiftigen, te blokkeren.
Tegengestelde aanvallen kunnen een waardige tegenstander zijn
Het concept van vijandige aanvallen vormt een probleem voor geavanceerd leren en machine learning.
Als gevolg hiervan moeten AI-modellen worden gewapend met verdedigingen zoals vijandige training, regelmatige audits, gegevensopschoning en relevante beveiligingsupdates.