Webscraping omvat het verzamelen van informatie in de vorm van gegevens van websites of pagina's. Hoewel de jouwe misschien geen bewuste handeling is, heb je het web op de een of andere manier ook geschraapt tijdens het verzamelen van informatie. Maar dat is meestal subtiel.
Webscraping of screenscraping is over het algemeen een doelgerichte handeling en professionals automatiseren het ontwerp om enorme gegevens te verzamelen. Of het nu gaat om het handmatig kopiëren van teksten op een website, het gebruik van speciale tools of het schrijven van scripts voor webscraping, webscrapers slaan soms hard op een website door meerdere verzoeken tegelijk in te dienen.
Maar hoewel veel bedrijven nu gebruikmaken van webscraping om concurrentievoordeel te behalen, is het dan wel legaal?
Welke websites moet je wel en niet schrapen?
Het internet is een pool van informatie die mensen toegang geeft tot oude en realtime gegevens. Webscraping of screenscraping bestaat al een tijdje. Maar hoeveel moet u gebruiken en welke websites kunt u schrapen?
Sommige websites zijn streng met webcrawlers of schermschrapers en blokkeren deze volledig. Het is dus overduidelijk dat u dergelijke websites niet moet schrapen. Maar mensen doen dat nog steeds.
Helaas kunnen dergelijke sites nauwelijks iets anders doen dan hun mazen in de wet herstellen.
Voordat u een website schraapt, moet u idealiter controleren of deze crawlen toestaat of niet. Meestal kunt u dat achterhalen door het robots.txt-bestand van de site te controleren. U kunt dit doen door "[website URL] /robots.txt" in te typen.
Een robots.txt stelt doorgaans regels in voor verschillende crawlers of user agents. Deze regels variëren echter, afhankelijk van de betrokken website. Hoewel sommige sites crawlen op alle pagina's toestaan, specificeren sommige de pagina's die een bot kan crawlen, en sommige blokkeren crawlers ronduit.
Een website die alle user agents blokkeert om alle pagina's te crawlen, stelt doorgaans de volgende regels:
user-agent: *
Niet toestaan: /
Een robots.txt-bestand dat alle bots blokkeert om bepaalde mappen of pagina's te crawlen, ziet er doorgaans als volgt uit:
user-agent: *
Disallow: / URL naar pagina 1
Disallow: / URL naar pagina 2
Als robots.txt de pagina die u wilt crawlen niet verbiedt, kunt u deze waarschijnlijk schrapen. Anders moet u zich terugtrekken of toestemming van de beheerder vragen. Ze kunnen u toegang verlenen.
Bovendien vermelden sommige websites in hun gebruiksvoorwaarden expliciet of ze crawlen wel of niet toestaan. Sommigen vermelden dit zelfs bovenaan hun robots.txt. Controleer dat ook altijd om er zeker van te zijn dat u het juiste doet.
Hoe webscraping wordt misbruikt
Dus als je spam-e-mails of sms-berichten hebt ontvangen van websites of mensen aan wie je nooit je persoonlijke gegevens hebt verstrekt, dan ben je waarschijnlijk ergens op de een of andere manier terechtgekomen. En meestal is het via een van uw social media-handvatten.
Dat gezegd hebbende, webscraping is soms meer dan alleen het verzamelen van gegevens die naar de voorkant worden weergegeven. Bij kwaadwillig gebruik kan het leiden tot het lekken van persoonlijke en geheime informatie.
Terwijl de meeste sociale-mediaplatforms ernaar fronsen, hebben kruipende bots nog steeds toegang tot de profielen van mensen en wordt hun contactgegevens gelekt en geschraapt.
Facebook, bijvoorbeeld, heeft naar verluidt kwetsbaarheden die in het verleden de contactgegevens van gebruikers hebben gelekt, ook al houden gebruikers deze privé.
Evenzo heeft LinkedIn onlangs een inbreuk op de beveiliging gehad die resulteerde in het lekken van persoonlijke gegevens behorend tot meer dan 500 miljoen accounts. Die kwetsbaarheid resulteerde dan ook in het delen van veel e-mailadressen en telefoonnummers zonder toestemming van de profieleigenaren.
Is het illegaal om een website te schrapen?
Er is nooit een conclusie getrokken over de wettigheid van webscraping. In plaats daarvan ligt de focus op hoe een crawler per geval werkt en waarvoor ze de verzamelde gegevens gebruiken.
Dus in plaats van te concluderen over de wettigheid ervan, is schrapen, wanneer het kwaadwillig wordt gedaan, illegaal. Maar als het oordeelkundig wordt gedaan, is het niet illegaal.
Maar zoals verwacht lijkt er een strikter beleid te zijn voor het schrapen en gebruiken van sociale mediadata, aangezien de privacy van gebruikers zo belangrijk is. Het komt echter allemaal neer op hoe mensen de gegevens schrapen.
De Blog over internet- en sociale mediarecht analyseerde de zaak van hiQ Labs, een gegevensschraapbedrijf dat in 2019 een rechtszaak tegen LinkedIn won nadat het probeerde te voorkomen dat hiQ Labs openbaar beschikbare gegevens van LinkedIn-gebruikers zou schrapen.
Nu hiQ Labs beweert dat de Computer Fraud and Abuse Act (CFAA) alleen ongeautoriseerde toegang verbiedt, Het oordeel bevestigde dat de gegevens van LinkedIn openbaar beschikbaar waren, dus iedereen die ze schraapte, deed dat omdat ze dat waren beschikbaar.
Bovendien gebruikte hiQ Labs de verzamelde gegevens alleen om bedrijven analytische oplossingen te bieden, zodat ze betere wervingsbeslissingen kunnen nemen.
Integendeel, Facebook heeft onlangs ontwikkelaars van Chrome-extensies aangeklaagd die de profielen van Facebook-gebruikers zonder hun toestemming heeft geschraapt.
Evenzo een copycat-site werd aangeklaagd door Facebook om de profielinformatie van verschillende Instagram-gebruikers te schrapen en deze vervolgens te gebruiken om klonen te maken. Volgens dat rapport ging Facebook vervolgens verder om een permanent gerechtelijk bevel tegen de dader te verkrijgen.
Dit zijn een paar gevallen waarin mensen mogelijk illegaal webschrapen hebben gebruikt. De genoemde bedrijven hebben op bedrieglijke wijze gegevens van Facebook-gebruikers verzameld, zonder de toestemming van de gebruikers. Het schond dus het privacybeleid.
Dus hoewel webscraping de site kan frustreren waarvan de gegevens afkomstig zijn, is er momenteel geen algemene regel die mensen ervan weerhoudt om te krijgen wat ze willen, zolang ze de internetwetten niet regelrecht overtreden.
Is webscraping synoniem aan hacken?
Er zijn een paar mythes rond webscraping. Een daarvan is de overtuiging dat het schrapen van een website betekent dat je deze hebt gehackt. Hoewel hacken uiteindelijk kan leiden tot het schrapen van gegevens, is de bewering dat de term zelf het hacken van een website betekent niet waar.
Bij webschrapen kan het gebruik van speciale crawl- of scraping-tools, Application Programming Interfaces (API's) of webscraping-scripts om gerenderde gegevens van een website te krijgen. In tegenstelling tot hacken brengt het de website die het schraapt niet in gevaar, noch verstoort het de ervaring van zijn gebruikers.
Verwant: Wat is webscraping? Gegevens verzamelen van websites
Dus terwijl hacken ongeautoriseerde toegang inhoudt, meestal tot de database van een website, is webscraping alleen gericht op gegevens die al zichtbaar zijn aan de voorkant. Hoewel mensen webschrapen kwaadwillig kunnen gebruiken, is het nog steeds niet hetzelfde als hacken.
Bovendien is opzettelijk en onethisch hacken, in tegenstelling tot webscraping, illegaal.
Wat zijn de pluspunten van webscraping?
Webscraping heeft veel positieve punten, en zelfs sommige technologiebedrijven bieden hun gegevens nu gratis aan via API's. Die informatie is meestal niet voldoende om zakelijke trends te beoordelen en beslissingen te nemen.
Bedrijven krijgen nu dus meer gegevens door het web te schrapen om werkwijzen te verbeteren en de verkoop te stimuleren. Bovendien voeden datawetenschappers algoritmen voor machine learning met gegevens die zijn verzameld via screen scraping.
Dergelijke gegevens kunnen afbeeldingen zijn die worden gebruikt bij beeldherkenning, platte teksten voor sentimentanalyse of directe productgegevens voor marktinformatie en analyse van consumentengedrag.
Verwant: Unieke manieren om datasets te krijgen voor uw machine learning-project
Webscraping is dus nog nuttiger, want als je toegang hebt tot informatie die je concurrent niet heeft, kun je ze verslaan.
Terwijl sommige sites fronsen naar webschrapers, maakt het voor sommige, zelfs voor e-commerceservices, niet uit of u hun gegevens schraapt of niet. Webreuzen zoals eBay en Salesforce begonnen hun API in 2000 en boden programmeurs voor het eerst toegang tot openbare gegevens.
Moet je het web echt schrapen?
We hebben vastgesteld dat webscraping niet illegaal is als het op de juiste manier wordt gedaan. Maar wat u doet met de gegevens die u schraapt, is ook een punt van zorg. Gebruik het dus in plaats van dit te misbruiken om meer inzichten te verkrijgen die u en anderen helpen om weloverwogen beslissingen te nemen.
Webschrapen als vaardigheid geeft u echter toegang tot grote brokken internetgegevens, waardoor u of uw bedrijf boven de zakelijke niche kunt blijven. Als datawetenschapper verbreedt het zelfs uw bereik en verbetert het uw coderings- en technische vaardigheden.
Python is bijvoorbeeld een van de programmeertalen waarmee u eenvoudig een website kunt schrapen met zijn Beautiful Soup-bibliotheek of Scrapy-framework.
Geïnteresseerd in webscraping? Hier leest u hoe u een website kunt schrapen voor inhoud en meer met de Beautiful Soup Python-bibliotheek.
Lees Volgende
- Veiligheid
- Programmeren
- Online beveiliging
- Web schrapen
Idowu is gepassioneerd door alles wat met slimme technologie en productiviteit te maken heeft. In zijn vrije tijd speelt hij met coderen en schakelt hij over naar het schaakbord als hij zich verveelt, maar hij houdt er ook van om af en toe de routine te doorbreken. Zijn passie om mensen de weg te wijzen in moderne technologie, motiveert hem om meer te schrijven.
Abonneer op onze nieuwsbrief
Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!
Nog een stap…!
Bevestig uw e-mailadres in de e-mail die we u zojuist hebben gestuurd.