Wat is een webcrawler/spider en hoe werkt het?

Zoekmachines zoals Google maken deel uit van wat internet zo krachtig maakt. Met een paar toetsaanslagen en een klik op de knop verschijnen de meest relevante antwoorden op uw vraag. Maar heb je je ooit afgevraagd hoe zoekmachines werken? Webcrawlers zijn een deel van het antwoord.

Dus, wat is een webcrawler en hoe werkt het?

Wat is een webcrawler?

Pixabay - geen toeschrijving vereist

Wanneer u iets zoekt in een zoekmachine, moet de engine snel miljoenen (of miljarden) webpagina's scannen om de meest relevante resultaten weer te geven. Webcrawlers (ook bekend als spiders of zoekmachine-bots) zijn geautomatiseerde programma's die het internet 'crawlen' en informatie over webpagina's op een gemakkelijk toegankelijke manier verzamelen.

Het woord 'crawlen' verwijst naar de manier waarop webcrawlers het internet doorkruisen. Webcrawlers worden ook wel 'spinnen' genoemd. Deze naam komt van de manier waarop ze door het web kruipen, zoals spinnen op hun spinnenwebben kruipen.

Webcrawlers beoordelen en verzamelen gegevens op zoveel mogelijk webpagina's. Ze doen dit zodat de gegevens gemakkelijk toegankelijk en doorzoekbaar zijn, daarom zijn ze zo belangrijk voor zoekmachines.

instagram viewer

Zie een webcrawler als de redacteur die de index aan het einde van het boek samenstelt. De taak van de index is om de lezer te informeren waar in het boek elk belangrijk onderwerp of elke zin voorkomt. Evenzo maakt een webcrawler een index die een zoekmachine gebruikt om snel relevante informatie over een zoekopdracht te vinden.

Wat is zoekindexering?

Zoals we al zeiden, is zoekindexering vergelijkbaar met het samenstellen van de index achter in een boek. In zekere zin is zoekindexering vergelijkbaar met het maken van een vereenvoudigde kaart van internet. Wanneer iemand een vraag aan een zoekmachine stelt, doorloopt de zoekmachine deze door hun index en verschijnen de meest relevante pagina's als eerste.

Maar hoe weet de zoekmachine welke pagina's relevant zijn?

Zoekindexering richt zich primair op twee dingen: de tekst op de pagina en de metadata van de pagina. De tekst is alles wat je als lezer ziet, terwijl de metadata informatie is over die pagina die door de maker van de pagina is ingevoerd, bekend als 'metatags'. De metatags bevatten zaken als de paginabeschrijving en metatitel, die in de zoekresultaten verschijnen resultaten.

Zoekmachines zoals Google indexeren alle tekst op een webpagina (met uitzondering van bepaalde woorden zoals "de" en "a" in sommige gevallen). Wanneer vervolgens een term wordt doorzocht in de zoekmachine, zal deze snel zijn index doorzoeken op de meest relevante pagina.

Hoe werkt een webcrawler?

Pixabay - geen toeschrijving vereist

Een webcrawler werkt zoals de naam al doet vermoeden. Ze beginnen bij een bekende webpagina of URL en indexeren elke pagina op die URL (meestal vragen website-eigenaren zoekmachines om bepaalde URL's te crawlen). Als ze hyperlinks op die pagina's tegenkomen, stellen ze een "to-do" -lijst samen met pagina's die ze vervolgens zullen crawlen. De webcrawler gaat hiermee voor onbepaalde tijd door, waarbij hij bepaalde regels volgt over welke pagina's moeten worden gecrawld en welke moeten worden genegeerd.

Webcrawlers crawlen niet elke pagina op internet. Er wordt zelfs geschat dat slechts 40-70% van het internet door de zoekresultaten is geïndexeerd (wat nog steeds miljarden pagina's zijn). Veel webcrawlers zijn ontworpen om zich te concentreren op pagina's die als meer 'gezaghebbend' worden beschouwd. gezaghebbend pagina's voldoen aan een handvol criteria waardoor de kans groter is dat ze van hoge kwaliteit of populair zijn informatie. Webcrawlers moeten pagina's ook consequent opnieuw bezoeken als ze worden bijgewerkt, verwijderd of verplaatst.

Een laatste factor die bepaalt welke pagina's een webcrawler crawlt, is het robots.txt-protocol of het robots-exclusieprotocol. De server van een webpagina host een robots.txt-bestand dat de regels bevat voor elke webcrawler of andere programma's die toegang hebben tot de pagina. Het bestand sluit uit dat bepaalde pagina's worden gecrawld en welke links de crawler kan volgen. Een doel van het robots.txt-bestand is om de belasting van bots op de server van de website te beperken.

Om te voorkomen dat een webcrawler toegang krijgt tot bepaalde pagina's op uw website, kunt u de tag “disallow” toevoegen via de robots.txt-bestand of voeg de. toe noindex metatag naar de betreffende pagina.

Wat is het verschil tussen kruipen en schrapen?

Webscraping is het gebruik van bots om gegevens van een website te downloaden zonder toestemming van die website. Vaak wordt webscraping om kwaadwillende redenen gebruikt. Webscraping neemt vaak alle HTML-code van specifieke websites, en meer geavanceerde scrapers nemen ook de CSS- en JavaScript-elementen. Hulpprogramma's voor webschrapen kan worden gebruikt om snel en eenvoudig informatie over bepaalde onderwerpen (bijvoorbeeld een productlijst) te verzamelen, maar kan ook worden gebruikt om grijze en illegale gebieden.

Webcrawling daarentegen is het indexeren van informatie op websites met toestemming, zodat ze gemakkelijk in zoekmachines kunnen verschijnen.

Voorbeelden van webcrawlers

Elke grote zoekmachine heeft een of meer webcrawlers. Bijvoorbeeld:

Google heeft Googlebot
Bing heeft Bingbot
DuckDuckGo heeft DuckDuckBot.

Grotere zoekmachines zoals Google hebben specifieke bots voor verschillende aandachtspunten, waaronder Googlebot Images, Googlebot Videos en AdsBot.

Welke invloed heeft webcrawling op SEO?

Pixabay - geen toeschrijving vereist

Als u wilt dat uw pagina wordt weergegeven in de resultaten van zoekmachines, moet de pagina toegankelijk zijn voor webcrawlers. Afhankelijk van uw websiteserver, wilt u misschien een bepaalde crawlfrequentie toewijzen, welke pagina's de crawler moet scannen en hoeveel druk ze op uw server kunnen uitoefenen.

Kortom, u wilt dat de webcrawlers zich concentreren op pagina's die gevuld zijn met inhoud, maar niet op pagina's zoals bedankberichten, beheerderspagina's en interne zoekresultaten.

Informatie binnen handbereik

Het gebruik van zoekmachines is voor de meesten van ons een tweede natuur geworden, maar de meesten van ons hebben geen idee hoe ze werken. Webcrawlers zijn een van de belangrijkste onderdelen van een effectieve zoekmachine en indexeren elke dag effectief informatie over miljoenen belangrijke websites. Ze zijn van onschatbare waarde voor website-eigenaren, bezoekers en zoekmachines.

DeelTweetenE-mail

Programmeren vs. Webontwikkeling: wat is het verschil?

Je zou misschien denken dat applicatieprogrammeurs en webontwikkelaars hetzelfde werk doen, maar dat is verre van waar. Dit zijn de belangrijkste verschillen tussen programmeurs en webontwikkelaars.

Lees volgende

Gerelateerde onderwerpen

Technologie uitgelegd
Zoeken op internet
Google zoeken
Zoektrucs

Over de auteur

Jake Harfield (25 artikelen gepubliceerd)

Jake Harfield is een freelance schrijver gevestigd in Perth, Australië. Als hij niet aan het schrijven is, is hij meestal in de bush om de plaatselijke fauna te fotograferen. Je kunt hem bezoeken op www.jakeharfield.com

Meer van Jake Harfield

Abonneer op onze nieuwsbrief

Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!

Klik hier om je te abonneren

About Technology - denizatm.com

Wat is een webcrawler/spider en hoe werkt het?