Advertentie

gegevens importeren in Google-spreadsheetAls het gaat om online databases en informatie die te vinden is in wat algemeen bekend staat als de "onzichtbaar web De 12 beste zoekmachines om het onzichtbare web te verkennenGoogle of Bing kan niet alles zoeken. Om het onzichtbare web te verkennen, moet je deze speciale zoekmachines gebruiken. Lees verder ", Ik ben niet jouw typische gebruiker. Natuurlijk besteed ik iets te veel van mijn tijd aan het doorzoeken van online databases op plaatsen zoals het Nationaal Archief en het lezen van de CIA FOIA ruimte, maar ik moet zeggen dat niets me meer opgewonden maakt dan wanneer ik een op HTML gebaseerde tabel vind vol met volumes van schijnbaar complexe en niet-verbonden gegevens.

Datatabellen zijn namelijk een goudmijn van belangrijke waarheden. Gegevens worden vaak verzameld door legers van gegevensverzamelende grunts met laarzen op de grond. Er zijn mensen van de Amerikaanse volkstelling die door het hele land reizen voor gezins- en gezinsinformatie. Je hebt milieugroepen zonder winstoogmerk die allerlei interessante informatie verzamelen over het milieu, vervuiling, opwarming van de aarde en meer. En als je van paranormaal of ufologie houdt, zijn er ook constant bijgewerkte tabellen met informatie over waarnemingen van vreemde objecten in de lucht boven ons.

Ironisch genoeg zou je denken dat elke regering ter wereld geïnteresseerd zou zijn om te weten wat voor soort buitenlandse vaartuigen worden in de lucht boven elk land gezien, maar blijkbaar niet - althans niet in de Verenigde Staten. in ieder geval. In Amerika is de verzameling ongebruikelijke waarnemingen van ambachten gedegradeerd tot teams van amateur-hobbyisten die massaal naar nieuwe UFO-waarnemingen komen, zoals motten tot een vlam. Mijn interesse in deze waarnemingen komt eigenlijk niet voort uit een fascinatie voor aliens of ambachten van andere planeten, maar uit een wetenschappelijke fascinatie voor patronen - waar en waarom meer mensen dingen in de lucht zien, en of die waarnemingen iets heel echts zouden kunnen weerspiegelen en veel meer nuchter gaan Aan.

Om de hoeveelheden gegevens die door teams van UFO-hobbyisten zijn verzameld, te verkennen, heb ik een manier ontwikkeld om grote HTML-tabellen te importeren gegevens in een Google-spreadsheet en manipuleer en analyseer vervolgens die gegevens om betekenisvol en belangrijk te extraheren en te ontdekken informatie. In dit artikel wil ik je laten zien hoe je hetzelfde kunt doen.

Belangrijke HTML-gegevens in Google-spreadsheet

In dit voorbeeld laat ik u zien hoe u gegevens die in een tabel op een website op internet zijn opgeslagen, kunt importeren in uw Google-spreadsheet. Denk eens aan de enorme hoeveelheid gegevens die tegenwoordig op internet beschikbaar is in de vorm van HTML-tabellen. Alleen Wikipedia heeft gegevens in tabellen voor onderwerpen als opwarming van de aardeheeft het Amerikaanse Census Bureau tonnen populatie-datasets, en een beetje Googlen brengt je nog veel meer.

In mijn voorbeeld begin ik met een database in het National UFO Reporting Center die er eigenlijk uitziet alsof het een query-achtige deep-web database is, maar als je de URL-structurering, het is eigenlijk een semi-complex webgebaseerd rapportagesysteem dat bestaat uit statische webpagina's en statische HTML-tabellen - precies wat we willen bij het zoeken naar gegevens voor importeren.
gegevens importeren in Google-spreadsheet
NUForc.org is een van die organisaties die dient als een van de grootste meldpunten voor UFO-waarnemingen. Het is niet de enige, maar hij is groot genoeg om elke maand nieuwe datasets te vinden met actuele waarnemingen. U kiest ervoor om de gegevens te bekijken gesorteerd op criteria zoals Staat of Datum, en elk van deze wordt geleverd in de vorm van een statische pagina. Als u op datum sorteert en vervolgens op de meest recente datum klikt, ziet u dat de vermelde tabel een statische webpagina met de naam volgens de datumnotatie heeft.
gegevens importeren in google docs
We hebben nu dus een patroon om regelmatig de laatste waarnemingen te extraheren uit deze op HTML gebaseerde database. Het enige wat u hoeft te doen is de eerste tabel importeren, gebruik de meest recente invoer (de bovenste) om de te identificeren laatste update en gebruik vervolgens de datum van dat bericht om de URL-link te bouwen waar de nieuwste HTML-gegevenstabel staat bestaat. Om dit te doen, zijn slechts enkele instanties van de ImportHTML-functie vereist, en vervolgens een paar creatieve toepassingen van tekstmanipulatiefuncties. Als u klaar bent, heeft u een van de coolste, zelfbijwerkende rapportagespreadsheets van uzelf. Laten we beginnen.

Tabellen importeren en gegevens manipuleren

De eerste stap is natuurlijk het maken van de nieuwe spreadsheet.
gegevens importeren in google docs
Dus, hoe importeer je HTML-tabellen? Het enige dat u nodig hebt, is de URL waar de tabel is opgeslagen en het nummer van de tabel op de pagina - meestal is de eerste die wordt vermeld 1, de tweede 2, enzovoort. Omdat ik de URL ken van die eerste tabel met datums en tellingen van vermelde waarnemingen, is het mogelijk om te importeren door de volgende functie in cel A1 te typen.

= importhtml (" http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)

H2 heeft de functie “= uur (nu ())“, Dus de tabel wordt elk uur bijgewerkt. Dit is waarschijnlijk extreem voor gegevens die dit niet vaak bijwerken, dus ik zou er waarschijnlijk dagelijks mee weg kunnen komen. Hoe dan ook, de bovenstaande ImportHTML-functie brengt de tabel zoals hieronder weergegeven.
UFOReport4
U moet op deze pagina een beetje gegevensmanipulatie uitvoeren voordat u de URL voor de tweede tabel kunt samenstellen met alle UFO-waarnemingen. Maar ga je gang en maak het tweede blad op de werkmap.
gegevens importeren in google docs
Voordat we proberen dat tweede blad te maken, is het tijd om de postdatum uit deze eerste tabel te halen, om de link naar de tweede tafel te maken. Het probleem is dat de datum wordt ingevoerd als een datumnotatie, niet als een tekenreeks. Dus eerst moet u de TEKST-functie gebruiken om de rapportdatum te converteren naar een string:

= tekst (A2, ”mm / dd / jj”)

In de volgende cel aan de rechterkant moet je de SPLIT-functie gebruiken met het scheidingsteken '/' om de datum op te splitsen in maand, dag en jaar.

= gesplitst (D2, ”/”)
importeren in Google-spreadsheet
Ziet er goed uit! Elk nummer moet echter worden geforceerd tot twee cijfers. U doet dit in de cellen direct eronder met behulp van de TEXT-opdracht opnieuw.

= tekst (E2, ”00 ″)

Een formaat van "00" (dat zijn nullen) dwingt twee cijfers of een "0" als tijdelijke aanduiding.
importeren in Google-spreadsheet
Nu bent u klaar om de volledige URL opnieuw op te bouwen naar de nieuwste HTML-tabel met nieuwe waarnemingen. U kunt dit doen door de CONCATENATE-functie te gebruiken en alle stukjes informatie samen te voegen die u zojuist uit de eerste tabel hebt gehaald.

= aaneengeschakeld (" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
importeren in Google-spreadsheet
Nu, op het nieuwe blad dat je hierboven hebt gemaakt (het lege blad), ga je een nieuwe "importhtml" -functie doen, maar deze keer voor de eerste URL-linkparameter, dus u gaat terug naar de eerste spreadsheet en klikt op de cel met de zojuist gemaakte URL-link.
UFOReport9
De tweede parameter is "tafel" en de laatste is "1" (omdat de waarnemingstabel de eerste is en alleen op de pagina). Druk op Enter en nu heb je zojuist het volledige aantal waarnemingen geïmporteerd dat op die specifieke datum is gepost.
UFOReport10
Dus je denkt waarschijnlijk dat dit een leuke nieuwigheidsact is en alles - ik bedoel, tenslotte, wat je hebt gedaan, wordt eruit gehaald bestaande informatie uit een tabel op internet en deze naar een andere tabel gemigreerd, zij het een privétabel in uw Google-documenten account. Ja dat is waar. Nu het echter in uw eigen privé Google Documenten-account staat, heeft u de tools en functies binnen handbereik om die gegevens beter te analyseren en geweldige verbanden te ontdekken.

Pivot-rapporten gebruiken om geïmporteerde gegevens te analyseren

Onlangs schreef ik een artikel over het gebruik Draairapporten in Google Spreadsheet Word 's nachts een deskundige data-analist met Google Spreadsheet Report ToolsWist je dat een van de beste tools om data-analyse uit te voeren eigenlijk Google Spreadsheet is? De reden hiervoor is niet alleen omdat het bijna alles kan doen wat je zou willen ... Lees verder om allerlei coole data-analyseprestaties uit te voeren. Welnu, u kunt dezelfde verbazingwekkende data-analyse-acrobatiek uitvoeren op de gegevens die u van internet heeft geïmporteerd - geeft u de mogelijkheid om interessante verbindingen te ontdekken die mogelijk niemand anders eerder heeft ontdekt u.

Ik zou bijvoorbeeld vanaf de laatste waarnemingstabel kunnen besluiten om een ​​pivotrapport te gebruiken om het aantal te bekijken verschillende unieke vormen gerapporteerd in elke staat, vergeleken met het totale aantal waarnemingen in die specifieke staat. Ten slotte filter ik ook alles weg wat "buitenaardse wezens" vermeldt in de commentarensectie, om hopelijk enkele van de meer vleugelnoot-inzendingen te verwijderen.
UFOReport11
Dit onthult eigenlijk meteen een aantal behoorlijk interessante dingen, zoals het feit dat Californië duidelijk het hoogste heeft aantal gerapporteerde waarnemingen van een andere staat, samen met het onderscheid tussen het rapporteren van het hoogste aantal ambachtelijke vormen in de land. Het laat ook zien dat Massachusetts, Florida en Illinois ook grote slagmannen zijn op de afdeling UFO-waarnemingen (althans in de meest recente gegevens).

Een ander cool ding over Google Spreadsheet is het brede scala aan grafieken die voor u beschikbaar zijn, inclusief een Geo-Map waarmee u leg "hotspots" van gegevens in een grafisch formaat dat echt opvalt en die verbindingen binnen de gegevens behoorlijk maakt voor de hand liggend.
gegevens importeren in Google-spreadsheet
Als je erover nadenkt, is dit eigenlijk slechts het topje van de ijsberg. Als u nu gegevens uit gegevenstabellen op elke pagina op internet kunt importeren, denk dan eens aan de mogelijkheden. Download de laatste voorraadnummers, of de meest recente top 10 boeken en auteurs op de bestsellerlijst van de New York Times, of de best verkochte auto's ter wereld. Er zijn HTML-tabellen over bijna elk onderwerp dat u maar kunt bedenken, en in veel gevallen worden die tabellen regelmatig bijgewerkt.

ImportHtml biedt u de mogelijkheid om uw Google-spreadsheet op internet aan te sluiten en de bestaande gegevens te voeden. Het kan uw eigen persoonlijke informatiecentrum worden dat u kunt gebruiken om te manipuleren en te masseren in een formaat waarmee u daadwerkelijk kunt werken. Het is nog iets heel cools om van te houden met Google Spreadsheet.

Heeft u ooit gegevens in uw spreadsheets geïmporteerd? Wat voor interessante dingen heb je ontdekt in die gegevens? Hoe heb je de gegevens gebruikt? Deel uw ervaringen en ideeën in de opmerkingen hieronder!

Afbeeldingscredits: Zakelijke grafiek

Ryan heeft een BSc-graad in elektrotechniek. Hij heeft 13 jaar in automatiseringstechniek gewerkt, 5 jaar in IT en is nu een Apps Engineer. Hij was een voormalig hoofdredacteur van MakeUseOf, hij sprak op nationale conferenties over datavisualisatie en was te zien op nationale tv en radio.