Advertentie

Als je de mentale karbonades, een flair voor programmeren en verhalen vertellen en oog voor design hebt, kun je erger doen dan in de wetenschap gaan. Het is het nieuwe grote ding in technologie; zeer trendy en zeer betaald, met datawetenschappers die worden gezocht door enkele van de grootste bedrijven ter wereld.

ScraperWiki is een bedrijf dat al lang geassocieerd is met het data science veld. De afgelopen jaren heeft deze startup uit Liverpool een platform geboden voor programmeurs om tools te schrijven die gegevens ophalen, opschonen en analyseren in de cloud.

Met een recente opfrisbeurt en de steeds toenemende vraag naar datawetenschappers in de onderneming, is het de moeite waard om ScraperWiki eens goed te bekijken.

Volledige openbaarmaking: ik liep afgelopen zomer stage bij ScraperWiki.

Wat doet ScraperWiki?

ScraperWiki vermarkt zichzelf als een plaats om gegevens te verzamelen, op te schonen en te analyseren, en het levert op elk van die punten. In zijn eenvoudigste vorm biedt het u - de gebruiker - een plaats waar u code kunt schrijven die gegevens uit een bron haalt, tools om te converteren het in een formaat dat gemakkelijk te analyseren is, en opslag om het te bewaren voor latere visualisatie - wat je ook kunt doen met ScraperWiki.

ScraperWiki-Home

Het wordt ook geleverd met een aantal vooraf gebouwde tools die repetitieve taken automatiseren, waaronder gegevens ophalen uit pdf's, die notoir moeilijk te decoderen zijn. Dit komt bovenop Twitter zoeken 5 coole Twitter-zoektrucs om te controleren wat mensen over u zeggenAls u een website bezit of als freelancer online geld probeert te verdienen, is het altijd goed om te weten wat mensen via internet over u zeggen. Mensen citeren misschien ... Lees verder en het schrapen van hulpprogramma's. Je hebt geen ervaring met softwareontwikkeling nodig om deze te gebruiken.

Kosten

Zoals eerder vermeld, omarmt ScraperWiki het freemium-prijsmodel en biedt een service met meerdere niveaus. Degenen die net zijn begonnen met data science of met beperkte behoeften kunnen gebruik maken van de gratis service. Dit geeft u drie datasets - waar u uw gegevens en code opslaat.

Degenen die van plan zijn om meerdere schrapers te schrijven of bergen data-analyse willen doen, kunnen wat geld verdienen voor een premium account. Deze beginnen bij $ 9 per maand en bieden 10 datasets. Als dat nog steeds niet genoeg is, kunt u altijd upgraden naar hun hoogste niveau, dat wordt geleverd met 100 datasets en $ 29 per maand kost.

Codering

Programmeurs zijn vaak heel kieskeurig als het gaat om hoe ze coderen. Sommigen geven de voorkeur aan scripttalen boven gecompileerde talen. Sommigen geven de voorkeur aan de sobere ervaring van een teksteditor boven die van een geïntegreerde ontwikkelomgeving (IDE). ScraperWiki herkent dat en geeft de gebruiker een enorme keuze als het gaat om hoe je je code schrijft.

scraperwiki-kiezen

Als je zo geneigd bent, kun je je code in de browser schrijven. Zoals je van professionele kwaliteit mag verwachten, webgebaseerd De top 3 browsergebaseerde IDE's om te coderen in de cloud Lees verder ontwikkeltool, dit wordt geleverd met functies die elke programmeur als essentieel zou beschouwen, zoals syntaxisaccentuering.

scraperwiki-coderingsbrowser

Er worden verschillende talen aangeboden. Deze omvatten Python De 5 beste websites om Python-programmeren te lerenWilt u Python-programmeren leren? Hier zijn de beste manieren om Python online te leren, waarvan er vele volledig gratis zijn. Lees verder , een populaire scripttaal die wordt gebruikt door Google en NASA; Robijn 3 Interactieve, leuke, gratis manieren om de programmeertaal Ruby te lerenRuby is een expressieve scripttaal van zeer hoog niveau. Het wordt op het web voornamelijk gebruikt als onderdeel van het Ruby on Rails-webontwikkelingsraamwerk, maar ook zelfstandig. Als je nieuwsgierig bent naar wat Ruby (niet ... Lees verder , dat een aantal populaire websites zoals Living Social aanstuurt; en de populaire taal voor statistische analyse, R.

scraperwiki-taal

Bovendien kun je ook code schrijven vanaf de opdrachtregel door SSH, Git en welke teksteditor je ook gebruikt te gebruiken. Ja, je leest het goed. SSH Wat SSH is en hoe het verschilt van FTP [Technologie verklaard] Lees verder . Elke box die je gebruikt is zijn eigen Linux-account en je kunt er verbinding mee maken zoals je zou doen met een VPS of een ander shell-account. Er zijn een aantal teksteditors beschikbaar, waaronder Vim De 7 belangrijkste redenen om de Vim-teksteditor een kans te gevenJarenlang heb ik de ene teksteditor na de andere geprobeerd. Noem maar op, ik heb het geprobeerd. Ik heb elk van deze editors meer dan twee maanden gebruikt als mijn belangrijkste dagelijkse editor. Op de een of andere manier ... Lees verder die kan worden uitgebreid met plug-ins en door de configuratie te bewerken. Degenen die geïntimideerd zijn door Vim kunnen Nano gebruiken, een lichtgewicht teksteditor op de opdrachtregel.

scraperwiki-vim

De geïnstalleerde bibliotheken moeten voldoende zijn voor het schrijven van tools om gegevens op te halen en te verwerken. Als je iets duisterder nodig hebt, kun je altijd een virtualenv maken vanaf de opdrachtregel. Zoals u kunt zien, wordt ontwikkelaars enorm veel flexibiliteit geboden.

Data visualisatie

Dus je hebt je gegevens. Je hebt het genormaliseerd. Je hebt het schoongemaakt. Je hebt het geanalyseerd. Nu is het tijd om wat visualisatie te doen en de wereld te laten zien wat je hebt geleerd.

Met ScraperWiki kunnen ontwikkelaars hun gegevens weergeven met webpagina's die zijn opgebouwd uit de bekende trifecta van HTML, CSS en JavaScript. Bovendien worden Bootstrap-componenten standaard ondersteund.

scraperwiki-visualisatie

Er zijn een aantal vooraf gemaakte visualisaties beschikbaar, waaronder visualisaties die uw gegevens op een kaart plotten en trends binnen uw bevindingen vinden. Om deze te gebruiken, moet je ervoor zorgen dat je gegevens zijn opgeslagen als SQLite-bestand met de bestandsnaam ‘scraperwiki.sqlite’. Vervolgens voegt u eenvoudig de visualisatie toe waarin u geïnteresseerd bent. Simpel toch?

Gevolgtrekking

ScraperWiki biedt veel aan ontwikkelaars die wat data-analyse willen doen zonder dat hun ontwikkelomgeving in de weg zit, terwijl ze de flexibiliteit hebben om zelfs de meest veeleisende gebruikers tevreden te stellen. Maar wat denk jij? Laat het me weten in de reacties hieronder.
Fotocredit: Rocket Science (Dan Brown)

Matthew Hughes is een softwareontwikkelaar en schrijver uit Liverpool, Engeland. Hij wordt zelden gevonden zonder een kopje sterke zwarte koffie in zijn hand en is dol op zijn Macbook Pro en zijn camera. Je kunt zijn blog lezen op http://www.matthewhughes.co.uk en volg hem op twitter op @matthewhughes.