Wilt u webschrapen met Python leren, maar weet u niet of u Beautiful Soup, Selenium of Scrapy voor uw volgende project moet gebruiken? Hoewel al deze Python-bibliotheken en -frameworks op zichzelf al krachtig zijn, voldoen ze daar niet aan alle webscraping-behoeften, en daarom is het belangrijk om te weten welke tool u voor een bepaald moet gebruiken functie.
Laten we eens kijken naar de verschillen tussen Beautiful Soup, Scrapy en Selenium, zodat u een verstandige beslissing kunt nemen voordat u aan uw volgende Python-webscrapingproject begint.
1. Makkelijk te gebruiken
Als u een beginner bent, is uw eerste vereiste een bibliotheek die gemakkelijk te leren en te gebruiken is. Beautiful Soup biedt je alle rudimentaire tools die je nodig hebt om het web te schrapen, en dat is vooral zo handig voor mensen die minimale ervaring hebben met Python, maar een vliegende start willen maken met internet schrapen.
Het enige voorbehoud is dat Beautiful Soup vanwege zijn eenvoud niet zo krachtig is in vergelijking met Scrapy of Selenium. Programmeurs met ontwikkelingservaring kunnen zowel Scrapy als Selenium gemakkelijk beheersen, maar voor beginners is de eerste project kan veel tijd kosten om te bouwen als ze ervoor kiezen om met deze frameworks te gaan in plaats van Beautiful Soep.
Om de titeltag-inhoud op example.com te schrapen met Beautiful Soup, gebruikt u de volgende code:
URL = "https://example.com/"
res = aanvragen.get (url).tekst
soep = Mooie Soep (res, 'html.parser')
titel = soup.find("titel").tekst
afdrukken(titel)
Om vergelijkbare resultaten te bereiken met Selenium, zou je schrijven:
URL = "https://example.com"
stuurprogramma = webstuurprogramma. chroom("pad/naar/chromedriver")
bestuurder.krijgen(url)
titel = driver.find_element (Door. TAG_NAME, "titel").get_kenmerk('tekst')
afdrukken(titel)
De bestandsstructuur van een Scrapy-project bestaat uit meerdere bestanden, wat de complexiteit vergroot. De volgende code schrapt de titel van example.com:
importeren schraperigklasTitelSpider(schraperig. Spin):
naam = 'titel'
start_urls = ['https://example.com']
defontleed(zelf, reactie):
opbrengst {
'naam': antwoord.css('titel'),
}
Als u gegevens wilt extraheren van een service die een officiële API biedt, is het misschien een verstandige beslissing om dat te doen gebruik de API in plaats van een webschraper te ontwikkelen.
2. Schraapsnelheid en parallellisatie
Van de drie is Scrapy de duidelijke winnaar als het om snelheid gaat. Dit komt omdat het standaard parallellisatie ondersteunt. Met Scrapy kunt u meerdere HTTP-verzoeken tegelijk verzenden en wanneer het script de HTML-code voor de eerste reeks verzoeken heeft gedownload, is het klaar om nog een batch te verzenden.
Met Beautiful Soup kun je de threading-bibliotheek gebruiken om gelijktijdige HTTP-verzoeken te verzenden, maar dat is niet handig en je zult multithreading moeten leren om dit te doen. Op Selenium is het onmogelijk om parallellisatie te bereiken zonder meerdere browserinstanties te starten.
Als je deze drie webscraping-tools qua snelheid zou rangschikken, is Scrapy de snelste, gevolgd door Beautiful Soup en Selenium.
3. Geheugengebruik
Selenium is een API voor browserautomatisering, die zijn toepassingen heeft gevonden in het webschraapveld. Wanneer u Selenium gebruikt om een website te schrapen, wordt er een headless browserinstantie gegenereerd die op de achtergrond wordt uitgevoerd. Dit maakt Selenium een resource-intensief hulpmiddel in vergelijking met Beautiful Soup en Scrapy.
Omdat deze laatste volledig in de opdrachtregel werken, gebruiken ze minder systeembronnen en bieden ze betere prestaties dan Selenium.
4. Vereisten voor afhankelijkheid
Beautiful Soup is een verzameling analysetools waarmee u gegevens uit HTML- en XML-bestanden kunt extraheren. Het wordt met niets anders verzonden. Je moet bibliotheken gebruiken zoals aanvragen of urllib om HTTP-verzoeken te maken, ingebouwde parsers om de HTML/XML te ontleden en extra bibliotheken om proxy's of database-ondersteuning te implementeren.
Scrapy daarentegen komt met de hele mikmak. U krijgt tools om verzoeken te verzenden, de gedownloade code te ontleden, bewerkingen uit te voeren op de geëxtraheerde gegevens en de geschraapte informatie op te slaan. U kunt andere functionaliteiten aan Scrapy toevoegen met behulp van extensies en middleware, maar dat komt later.
Met Selenium download je een webdriver voor de browser die je wilt automatiseren. Om andere functies zoals gegevensopslag en proxy-ondersteuning te implementeren, hebt u modules van derden nodig.
5. Documentatie kwaliteit
Over het algemeen is elke projectdocumentatie goed gestructureerd en wordt elke methode beschreven aan de hand van voorbeelden. Maar de effectiviteit van de documentatie van een project hangt ook sterk af van de lezer.
De documentatie van Beautiful Soup is veel beter voor beginners die beginnen met webschrapen. Selenium en Scrapy hebben ongetwijfeld gedetailleerde documentatie, maar het technische jargon kan veel nieuwkomers overrompelen.
Als je ervaring hebt met programmeerconcepten en -terminologieën, dan is een van de drie documentatie een makkie om door te lezen.
6. Ondersteuning voor extensies en middleware
Scrapy is het meest uitbreidbare Python-framework voor webschrapen, punt uit. Het ondersteunt middleware, extensies, proxy's en meer, en helpt u bij het ontwikkelen van een crawler voor grootschalige projecten.
U kunt onfeilbare en efficiënte crawlers schrijven door middlewares in Scrapy te implementeren, wat in feite hooks zijn die aangepaste functionaliteit toevoegen aan het standaardmechanisme van het framework. De HttpErrorMiddleware zorgt bijvoorbeeld voor HTTP-fouten, zodat de spiders er niet mee te maken hebben tijdens het verwerken van verzoeken.
Middleware en extensies zijn exclusief voor Scrapy, maar u kunt vergelijkbare resultaten bereiken met Beautiful Soup en Selenium door aanvullende Python-bibliotheken te gebruiken.
7. JavaScript-weergave
Selenium heeft één use-case waarin het andere webscraping-bibliotheken overtreft, en dat is het scrapen van JavaScript-compatibele websites. Hoewel je JavaScript-elementen kunt schrapen met Scrapy-middlewares, is de Selenium-workflow de gemakkelijkste en handigste van allemaal.
U gebruikt een browser om een website te laden, ermee te communiceren door middel van klikken en indrukken van knoppen, en wanneer je hebt de inhoud die je nodig hebt om op het scherm te schrapen, extraheer het met behulp van Selenium's CSS en XPath selectors.
Beautiful Soup kan HTML-elementen selecteren met XPath- of CSS-kiezers. Het biedt echter geen functionaliteit om door JavaScript gerenderde elementen op een webpagina te schrapen.
Webschrapen gemakkelijk gemaakt met Python
Het internet staat vol met ruwe data. Webscraping helpt deze gegevens om te zetten in zinvolle informatie die goed kan worden gebruikt. Selenium is hoogstwaarschijnlijk uw veiligste gok als u een website met JavaScript wilt schrapen of een aantal elementen op het scherm moet activeren voordat u de gegevens extraheert.
Scrapy is een volwaardig webscraping-framework voor al uw behoeften, of u nu een kleine crawler wilt schrijven of een grootschalige scraper die herhaaldelijk het internet doorzoekt voor bijgewerkte gegevens.
Je kunt Beautiful Soup gebruiken als je een beginner bent of snel een schraper moet ontwikkelen. Met welk framework of welke bibliotheek u ook werkt, het is gemakkelijk om te beginnen met het leren van webschrapen met Python.