Advertentie
Wat zou je zeggen als ik je zou vertellen dat je de tools tot je beschikking hebt om grensverleggend, wereldschokkend onderzoek te doen? Nou, dat doe je, en ik zal je laten zien hoe.
Overheden, academische instellingen en non-profit onderzoeksorganisaties publiceren tabellen vol met gegevens voor het publieke domein. Zonder dat iemand deze informatie gebruikt, zal de echte waarde ervan nooit bekend zijn. Helaas hebben maar weinig mensen het inzicht, de vaardigheden of de tools om de gegevens te nemen en interessante correlaties te maken tussen schijnbaar niet-verbonden informatie.
Achtergrond
Veel van het onderzoek dat ik voor mijn eigen blog doe, omvat het doorzoeken van wat bekend staat als de onzichtbaar web De 12 beste zoekmachines om het onzichtbare web te verkennenGoogle of Bing kan niet alles zoeken. Om het onzichtbare web te verkennen, moet je deze speciale zoekmachines gebruiken. Lees verder , om gegevens te ontdekken die zijn vrijgegeven voor het publiek, maar verborgen zijn voor
zoekmachines De 5 meest geavanceerde zoekmachines op internet Lees verder in een online database. Dit is de deep web TorSearch streeft ernaar Google te zijn voor het deep webTor is een verborgen service en maakt deel uit van het Deep Web. TorSearch is een nieuwe anonieme zoekmachine die oprichter Chris MacNaughton de "Google van Tor" wil maken. Lees verder , en het staat vol met waardevolle gegevens. Heel vaak kom ik webpagina's tegen die vol zitten met enkele van de meest waardevolle gegevens over onderwerpen die uiteenlopen van volkstellinggegevens tot epidemiologische onderzoeken naar zeldzame ziekten. Ik heb constant nieuwe ideeën over hoe ik die verschillende gegevensbronnen kan proberen te correleren met behulp van verschillende tools - en een van de meest waardevolle tools die ik heb gevonden, is de webquery binnen Microsoft Excel.Interessante gegevenscorrelaties vinden
Wat ik u vandaag laat zien, is een voorbeeld van hoe u Excel Web Queries kunt gebruiken om gegevens op te halen verschillende websites, en ze tegen elkaar in kaart brengen om te zoeken naar mogelijke correlaties tussen de gegevens.
De manier om een oefening als deze te starten, is door een interessante hypothese te bedenken. Om de zaken hier interessant te houden, ga ik bijvoorbeeld willekeurig postuleren dat de torenhoge autismecijfers in de Verenigde Staten stijgen worden veroorzaakt door vaccinaties of de toenemende aanwezigheid van elektromagnetische velden in en rond kinderen, zoals cellen telefoons. Het is een gekke hypothese zoals je die zult vinden op de meeste complottheorie-websites, maar dat maakt dit leuk. Dus laten we beginnen, zullen we?
Open eerst Excel, ga naar het gegevensmenu-item en zoek het pictogram "Van web" in het menulint.
Dit is wat u zult gebruiken om de verschillende gegevenstabellen te importeren van de vele websites die ze hebben gepubliceerd.
Webgegevens importeren in Excel
Vroeger moest je dus proberen om de gegevens uit die tabel op een webpagina te kopiëren, in Excel te plakken en vervolgens alle gekke opmaakproblemen die daarmee gepaard gaan aan te pakken. Totaal gedoe, en vaak is het de hoofdpijn niet waard. Welnu, met Excel Web Queries zijn die dagen voorbij. Voordat u de gegevens kunt importeren, moet u natuurlijk eerst op Google zoeken om de gegevens te vinden die u nodig heeft in tabelformaat. In mijn geval vond ik een website die de statistieken van het Department of Education had gepubliceerd voor het aantal Amerikaanse openbare scholieren waarvan werd vastgesteld dat ze autisme hadden. Daar stond een mooie tafel met nummers van 1994 tot en met 2006.
U klikt dus gewoon op "Van web", plakt de webpagina-URL in het veld voor het queryadres en scrolt dan naar beneden op de pagina totdat u de gele pijl naast de tabel ziet met de gegevens die u wilt importeren.
Klik op de pijl zodat deze een groen vinkje wordt.
Vertel ten slotte Excel in welk veld u de tabelgegevens in uw nieuwe spreadsheet wilt plakken.
Dan - Voila! De gegevens stromen automatisch rechtstreeks in uw spreadsheet.
Dus, met een trend van autisme op openbare scholen van 1996 tot 2006, is het tijd om ook op zoek te gaan naar trends op het gebied van vaccinatie en mobiele telefoongebruik.
Gelukkig vond ik van 1985 tot 2012 snel trends voor abonnees van mobiele telefoons in de Verenigde Staten. Uitstekende gegevens voor deze specifieke studie. Nogmaals, ik heb de Excel Web Query-tool gebruikt om die tabel te importeren.
Ik heb die tafel geïmporteerd in een schoon, nieuw blad. Vervolgens ontdekte ik vaccinatietrends voor het percentage schoolkinderen dat was gevaccineerd voor verschillende ziekten. Ik heb die tabel geïmporteerd met behulp van de Web Query-tool in een derde blad. Dus eindelijk had ik drie vellen met de drie tabellen gevuld met de schijnbaar niet-verbonden gegevens die ik op internet had ontdekt.
De volgende stap is Excel gebruiken om de gegevens te analyseren en eventuele correlaties te identificeren. Dat is waar een van mijn favoriete tools voor gegevensanalyse in het spel komt: de draaitabel.
Gegevens analyseren in Excel met de draaitabel
U kunt uw draaitabel het beste maken in een geheel nieuw, leeg blad. Je wilt de wizard gebruiken voor wat je gaat doen. Om de draaitabelwizard in Excel in te schakelen, moet u tegelijkertijd op Alt-D drukken totdat een meldingsvenster verschijnt. Laat die knoppen dan los en druk op de "P" -toets. Vervolgens zie je de wizard verschijnen.
In het eerste venster van de wizard wilt u 'Meerdere consolidatiebereiken' selecteren, waarmee u de gegevens kunt selecteren uit alle bladen die u heeft geïmporteerd. Door dit te doen, kunt u al die ogenschijnlijk niet-gerelateerde gegevens consolideren in één, krachtige draaibare. In sommige gevallen moet u mogelijk een deel van de gegevens masseren. Ik moest bijvoorbeeld het veld "Jaar" in de autismetabel corrigeren zodat het "1994" liet zien in plaats van "1994-95" - waardoor het beter aansluit bij de tafels op de andere bladen, die ook het eerste jaar hadden veld.
Dat gemeenschappelijke veld tussen gegevens is wat u nodig hebt om te proberen informatie te correleren, dus houd daar rekening mee wanneer u op internet op zoek bent naar uw gegevens.
Zodra de draaitabel klaar is en u alle verschillende gegevenswaarden in één tabel hebt weergegeven, is het tijd om een visuele analyse uit te voeren om te zien of er een voor de hand liggende verbinding is die op u springt.
Gegevens visualiseren is essentieel
Het hebben van een aantal cijfers in een tabel is geweldig als u een econoom bent, maar de snelste en gemakkelijkste manier om te hebben die "aha!" moment waarop je verbindingen probeert te vinden zoals een naald in een hooiberg, is via grafieken en grafieken. Zodra u uw draaigrafiek op zijn plaats hebt met alle gegevenssets die u hebt verzameld, is het tijd om uw grafiek te maken. Meestal doet een lijngrafiek het het beste, maar dit hangt af van de gegevens. Soms werkt een staafdiagram veel beter. Probeer te begrijpen naar wat voor soort gegevens je kijkt en welke vormvergelijkingen het beste werken.
In dit geval kijk ik naar gegevens in de loop van de tijd, dus een lijngrafiek is echt de beste manier om trends door de jaren heen te zien. Autistische percentages (groen) in kaart brengen tegen verlaagde vaccinatiesnelheden (donkerblauw), waterpokkenvaccins (lichtblauw) en het gebruik van mobiele telefoons (paars), verscheen er plotseling een vreemde correlatie in deze voorbeeldset met gegevens die ik aan het spelen was met.
Vreemd genoeg kwam de trend in het gebruik van mobiele telefoons van 1994 tot en met 2006 bijna perfect overeen met de stijging van de autismecijfers in dezelfde periode. Hoewel het patroon volledig onverwacht was, is het een perfect voorbeeld van hoe het samenbrengen van interessante gegevens fascinerende leads kan onthullen - waardoor u meer inzicht en motivatie krijgt om door te gaan en te zoeken naar meer gegevens die uw gegevens verder kunnen versterken hypothese.
Een dergelijke correlatie bewijst niets. Er zijn tal van trends die in de loop van de tijd toenemen - het patroon kan toeval zijn, maar het kan ook een belangrijke aanwijzing zijn in uw voortdurende zoektocht naar meer gegevens op internet. Gelukkig heb je een krachtige tool genaamd Excel Web Queries die die zoektocht een klein beetje gemakkelijker zal maken.
Fotocredit: Kevin Dooley via fotopincc
Ryan heeft een BSc-graad in elektrotechniek. Hij heeft 13 jaar in automatiseringstechniek gewerkt, 5 jaar in IT en is nu een Apps Engineer. Hij was een voormalig hoofdredacteur van MakeUseOf, hij sprak op nationale conferenties over datavisualisatie en was te zien op nationale tv en radio.