Gegevensextractie is een belangrijk onderdeel van het werken aan nieuwe en innovatieve projecten. Maar hoe kom je aan big data van overal op internet?
Handmatige gegevensverzameling is uitgesloten. Het is te tijdrovend en levert geen nauwkeurige of allesomvattende resultaten op. Maar tussen gespecialiseerde webscrapingsoftware en de speciale API van een website, welke route zorgt voor de beste kwaliteit van gegevens zonder in te boeten aan integriteit en moraliteit?
Wat is het oogsten van webgegevens?
Gegevensverzameling is het proces waarbij openbaar beschikbare gegevens rechtstreeks van online websites worden geëxtraheerd. In plaats van alleen te vertrouwen op officiële informatiebronnen, zoals eerdere onderzoeken en enquêtes van grote bedrijven en geloofwaardige instellingen, met gegevensverzameling kunt u gegevensverzameling tot uw eigen maken handen.
Het enige dat u nodig hebt, is een website die publiekelijk het type gegevens aanbiedt dat u zoekt, een hulpmiddel om het te extraheren en een database om het op te slaan.
De eerste en laatste stappen zijn vrij eenvoudig. U kunt zelfs een willekeurige website uitkiezen via Google en uw gegevens opslaan in een Excel-spreadsheet. Het extraheren van de gegevens is waar het lastig wordt.
Houd het legaal en ethisch
In termen van wettigheid, zolang je niet gaat voor black-hat-technieken om de gegevens in handen te krijgen of het privacybeleid van de website te schenden, ben je vrij. U moet ook voorkomen dat u iets illegaals doet met de gegevens die u verzamelt, zoals ongerechtvaardigde marketingcampagnes en schadelijke apps.
Het verzamelen van ethische gegevens is een iets gecompliceerdere zaak. Eerst en vooral moet u de rechten van de website-eigenaar op hun gegevens respecteren. Als ze robotuitsluitingsnormen hebben in sommige of alle delen van hun website, vermijd deze dan.
Het betekent dat ze niet willen dat iemand hun gegevens schrapt zonder expliciete toestemming, zelfs als deze openbaar beschikbaar is. Bovendien moet u voorkomen dat u te veel gegevens tegelijk downloadt, omdat hierdoor de servers van de website kunnen crashen en u als een DDoS-aanval.
Webscraping komt zo dicht mogelijk bij het in eigen handen nemen van het verzamelen van gegevens. Ze zijn de meest aanpasbare optie en maken het gegevensextractieproces eenvoudig en gebruiksvriendelijk, terwijl ze u onbeperkte toegang geven tot alle beschikbare gegevens van een website.
Hulpprogramma's voor webschrapen, of webschrapers, zijn software die is ontwikkeld voor gegevensextractie. Ze komen vaak in datavriendelijke programmeertalen zoals Python, Ruby, PHP en Node.js.
Webschrapers laden en lezen automatisch de hele website. Op die manier hebben ze niet alleen toegang tot gegevens op het oppervlak, maar kunnen ze ook de HTML-code van een website lezen, evenals CSS- en Javascript-elementen.
U kunt uw scraper instellen om een specifiek type gegevens van meerdere websites te verzamelen of hem opdracht geven om alle gegevens te lezen en te dupliceren die niet zijn versleuteld of beschermd door een Robot.txt-bestand.
Webschrapers werken via proxy's om te voorkomen dat ze worden geblokkeerd door de websitebeveiliging en antispam- en antibottechnologie. Ze gebruiken proxyservers om hun identiteit te verbergen en hun IP-adres te maskeren om te verschijnen als gewoon gebruikersverkeer.
Maar houd er rekening mee dat om volledig verborgen te zijn tijdens het schrapen, u uw tool moet instellen om gegevens op een veel langzamere snelheid te extraheren - een snelheid die overeenkomt met de snelheid van een menselijke gebruiker.
Makkelijk te gebruiken
Ondanks dat ze sterk afhankelijk zijn van complexe programmeertalen en bibliotheken, zijn webscraping-tools eenvoudig te gebruiken. Je hoeft geen expert in programmeren of datawetenschap te zijn om er het maximale uit te halen.
Bovendien bereiden webschrapers de gegevens voor u voor. De meeste webschrapers zetten de gegevens automatisch om in gebruiksvriendelijke formaten. Ze compileren het ook in kant-en-klare downloadbare pakketten voor gemakkelijke toegang.
API-gegevensextractie
API staat voor Application Programming Interface. Maar het is niet zozeer een hulpmiddel voor het extraheren van gegevens, het is een functie die eigenaren van websites en software kunnen kiezen om te implementeren. API's fungeren als tussenpersoon, waardoor websites en software kunnen communiceren en gegevens en informatie kunnen uitwisselen.
Tegenwoordig hebben de meeste websites die enorme hoeveelheden gegevens verwerken een speciale API, zoals Facebook, YouTube, Twitter en zelfs Wikipedia. Maar terwijl een webschraper een hulpmiddel is waarmee u door de meest afgelegen hoeken van een website kunt bladeren en zoeken naar gegevens, zijn API's gestructureerd in hun extractie van gegevens.
Hoe werkt API-gegevensextractie?
API's vragen data harvesters niet om hun privacy te respecteren. Ze dwingen het af in hun code. API's bestaan uit regels die structuur bouwen en beperkingen stellen aan de gebruikerservaring. Ze bepalen het type gegevens dat u kunt extraheren, welke gegevensbronnen openstaan voor oogsten en het type frequentie van uw verzoeken.
U kunt API's zien als het op maat gemaakte communicatieprotocol van een website of app. Het heeft bepaalde regels die moeten worden gevolgd en moet zijn taal spreken voordat je ermee kunt communiceren.
Een API gebruiken voor gegevensextractie
Om een API te gebruiken, heb je een behoorlijk kennisniveau nodig van de zoektaal die de website gebruikt om gegevens op te vragen met behulp van syntaxis. De meeste websites gebruiken JavaScript Object Notation, of JSON, in hun API's, dus je hebt wat nodig om je kennis aan te scherpen als je op API's gaat vertrouwen.
Maar daar houdt het niet op. Door de grote hoeveelheden data en de uiteenlopende doelstellingen die mensen vaak hebben, sturen API's meestal ruwe data uit. Hoewel het proces niet complex is en alleen kennis van databases op beginnersniveau vereist, moet u de gegevens eerst naar CVS of SQL converteren voordat u er iets mee kunt doen.
Gelukkig is het niet allemaal slecht om een API te gebruiken.
Omdat ze een officieel hulpmiddel zijn dat door de website wordt aangeboden, hoeft u zich geen zorgen te maken over het gebruik van een proxyserver of het blokkeren van uw IP-adres. En als je bang bent dat je een aantal ethische grenzen overschrijdt en gegevens schrapt die je niet mocht, geven API's je alleen toegang tot de gegevens die de eigenaar wil geven.
Afhankelijk van uw huidige vaardigheidsniveau, uw doelwebsites en uw doelen, moet u mogelijk zowel API's als webscrapingtools gebruiken. Als een website geen speciale API heeft, is het gebruik van een webschraper uw enige optie. Maar websites met een API, vooral als ze kosten in rekening brengen voor gegevenstoegang, maken scrapen met tools van derden vaak bijna onmogelijk.
Afbeelding tegoed: Joshua Sortino/Unsplash
Overweegt u een Android-tablet te kopen? Hier zijn redenen om alternatieve tablets te overwegen, plus een paar tabletaanbevelingen.
Lees volgende
- Technologie uitgelegd
- Programmeren
- Grote gegevens
- Gegevens verzamelen
- Webontwikkeling

Anina is een freelance schrijver over technologie en internetbeveiliging bij MakeUseOf. Ze begon 3 jaar geleden met schrijven over cyberbeveiliging in de hoop het toegankelijker te maken voor de gemiddelde persoon. Zin om nieuwe dingen te leren en een enorme astronomie-nerd.
Abonneer op onze nieuwsbrief
Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!
Klik hier om je te abonneren