Dit grote taalmodel is op het dark web getraind om cyberbeveiligingsbedreigingen te beoordelen. Dit is wat u moet weten.
De populariteit van grote taalmodellen (LLM's) neemt enorm toe en er komen voortdurend nieuwe bij. Deze modellen worden, net als ChatGPT, doorgaans getraind op verschillende internetbronnen, waaronder artikelen, websites, boeken en sociale media.
In een ongekende beweging ontwikkelde een team van Zuid-Koreaanse onderzoekers DarkBERT, een LLM die is getraind op datasets die exclusief van het dark web zijn gehaald. Hun doel was om een AI-tool te creëren die beter presteert dan bestaande taalmodellen en die dreigingsonderzoekers, wetshandhavers en cyberbeveiligingsprofessionals helpt bij het bestrijden van cyberdreigingen.
Wat is DarkBERT?
DarkBERT is een transformatorgebaseerd encodermodel op basis van de RoBERTa-architectuur. De LLM is getraind op miljoenen darkweb-pagina's, waaronder gegevens van hackforums, oplichtingswebsites en andere online bronnen die verband houden met illegale activiteiten.
De voorwaarde "dark web" verwijst naar een verborgen internetgedeelte niet toegankelijk via standaard webbrowsers. De onderafdeling staat bekend om het herbergen van anonieme websites en marktplaatsen die berucht zijn vanwege illegale activiteiten, zoals de handel in gestolen gegevens, drugs en wapens.
Om DarkBERT te trainen, wonnen de onderzoekers toegang tot het darkweb via het Tor-netwerk en verzamelde onbewerkte gegevens. Ze hebben deze gegevens zorgvuldig gefilterd met behulp van technieken zoals deduplicatie, balancering van categorieën en voorbewerking tot een verfijnde darkweb-database maken, die vervolgens in de loop van ongeveer 15 dagen aan RoBERTa werd doorgegeven om te creëren DonkerBERT.
Mogelijke toepassingen van DarkBERT in cyberbeveiliging
DarkBERT heeft een opmerkelijke kennis van de taal van cybercriminelen en blinkt uit in het opsporen van specifieke potentiële bedreigingen. Het kan het dark web onderzoeken en met succes cyberbeveiligingsbedreigingen zoals datalekken en ransomware identificeren en markeren, waardoor het een potentieel nuttig hulpmiddel is om cyberdreigingen te bestrijden.
Om de effectiviteit van DarkBERT te evalueren, vergeleken onderzoekers het met twee gerenommeerde NLP-modellen, BERT en RoBERTa, die hun prestaties beoordeelde in drie cruciale cyberbeveiligingsgerelateerde use-cases, het onderzoek, geplaatst op arxiv.org, duidt op.
1. Controleer darkweb-forums op mogelijk schadelijke threads
Het monitoren van darkweb-forums, die vaak worden gebruikt voor het uitwisselen van ongeoorloofde informatie, is cruciaal om potentieel gevaarlijke threads te identificeren. Het handmatig beoordelen hiervan kan echter tijdrovend zijn, waardoor automatisering van het proces gunstig is voor beveiligingsexperts.
De onderzoekers concentreerden zich op mogelijk schadelijke activiteiten op hackforums en stelden annotatierichtlijnen op voor opmerkelijke threads, waaronder het delen van vertrouwelijke gegevens en het verspreiden van kritieke malware of kwetsbaarheden.
DarkBERT presteerde beter dan andere taalmodellen op het gebied van precisie, herinnering en F1-score, en kwam naar voren als de superieure keuze voor het identificeren van opmerkelijke threads op het dark web.
2. Detecteer sites die vertrouwelijke informatie hosten
Hackers en ransomware-groepen gebruiken het dark web om leksites te creëren, waar ze vertrouwelijke gegevens publiceren die zijn gestolen van organisaties die weigeren te voldoen aan losgeldeisen. Andere cybercriminelen uploaden gewoon gelekte gevoelige gegevens, zoals wachtwoorden en financiële informatie, naar het dark web met de bedoeling deze te verkopen.
In hun studie verzamelden de onderzoekers gegevens van beruchte ransomware-groepen en analyseerde ransomware-leksites die privégegevens van organisaties publiceren. DarkBERT presteerde beter dan andere taalmodellen bij het identificeren en classificeren van dergelijke sites, wat aantoont dat het de taal begrijpt die wordt gebruikt in ondergrondse hackforums op het dark web.
DarkBERT maakt gebruik van de vulmaskerfunctie, een inherent kenmerk van BERT-taalmodellen, om nauwkeurig trefwoorden te identificeren die verband houden met illegale activiteiten, waaronder de verkoop van drugs op het dark web.
Wanneer het woord "MDMA" werd gemaskeerd op een drugsverkooppagina, genereerde DarkBERT drugsgerelateerde woorden, terwijl andere modellen algemene woorden en termen suggereerden die niets met drugs te maken hadden, zoals verschillende beroepen.
Het vermogen van DarkBERT om trefwoorden te identificeren die verband houden met illegale activiteiten kan waardevol zijn bij het opsporen en aanpakken van opkomende cyberdreigingen.
Is DarkBERT toegankelijk voor het grote publiek?
DarkBERT is momenteel niet beschikbaar voor het publiek, maar de onderzoekers staan open voor verzoeken om het voor academische doeleinden te gebruiken.
Benut de kracht van AI voor detectie en preventie van bedreigingen
DarkBERT is vooraf getraind op darkweb-gegevens en presteert beter dan bestaande taalmodellen in meerdere use-cases voor cyberbeveiliging, waardoor het zichzelf positioneert als een cruciaal hulpmiddel voor het bevorderen van darkweb-onderzoek.
De op het dark web getrainde AI kan worden gebruikt voor verschillende cyberbeveiligingstaken, waaronder het identificeren van gelekte websites vertrouwelijke gegevens, het monitoren van darkweb-forums om ongeoorloofde informatie-uitwisseling op te sporen en het identificeren van trefwoorden die verband houden met cyber gevaren.
Maar u moet altijd onthouden dat DarkBERT, net als andere LLM's, een werk in uitvoering is en dat de prestaties kunnen worden verbeterd door voortdurende training en fijnafstemming.