Om een dataset te analyseren, moet je eerst de data begrijpen. Soms heb je geen voorkennis van een dataset, waardoor je er niet het maximale uit haalt. Als data-analist kun je Exploratory data-analyse (EDA) gebruiken om kennis van je dataset op te doen voordat je diepgaande analyses uitvoert.
Verkennende data-analyse (EDA) onderzoekt een dataset om zinvolle inzichten te verkrijgen. Het proces van het uitvoeren van EDA omvat het opvragen van informatie over de structuur en inhoud van een dataset.
Het Gota-pakket installeren
Het Gota-pakket is het meest populair voor data-analyse in Ga; het is zoals de Python Pandas-pakket maar voor Go. Het Gota-pakket bevat veel methoden voor het analyseren van datasets en het lezen van JSON-, CSV- en HTML-formaten.
Voer deze opdracht uit op uw terminal in de map waar u een Go-modulebestand hebt geïnitialiseerd:
Gaan krijg -u github.com/Gaan-gota/gota
De opdracht installeert Gota in de lokale map, zodat u het pakket kunt importeren om het te gebruiken.
Net als Panda's ondersteunt Gota serie- en dataframe-bewerkingen. Er zijn twee subpakketten in het Gota-pakket: de serie en het dataframe-pakket. U kunt een van beide of beide importeren, afhankelijk van uw behoeften.
importeren (
"github.com/Gaan-gota/gota/serie"
"github.com/Gaan-gota/gota/dataframe"
)
Een dataset lezen met behulp van het Gota-pakket
U kunt elk CSV-bestand gebruiken dat u wilt, maar de volgende voorbeelden tonen resultaten van: een Kaggle-gegevensset, met prijsgegevens voor laptops.
Met Gota kunt u CSV-, JSON- en HTML-bestandsindelingen lezen om dataframes te maken met behulp van de CSV lezen, ReadJSON, en LeesHTML methoden. Zo laadt u een CSV-bestand in een dataframe-object:
bestand, err := os. Open("/pad/naar/csv-bestand.csv")
als fout != nul {
fmt. Println ("fout bij openen bestand")
}
dataFrame := dataframe. LeesCSV(bestand)
fmt. Println (dataFrame)
U kunt de Open methode van de os pakket om een CSV-bestand te openen. De ReadCSV-methode leest het bestandsobject en retourneert een dataframe-object.
Wanneer u dit object afdrukt, is de uitvoer in tabelvorm. U kunt het dataframe-object verder manipuleren met behulp van de verschillende methoden die Gota biedt.
Het object zal alleen enkele kolommen afdrukken als een dataset meer dan een ingestelde waarde heeft.
De dimensie van de dataset ophalen
De afmetingen van een dataframe zijn het aantal rijen en kolommen dat het bevat. U kunt deze afmetingen ophalen met de Dims methode van het dataframe-object.
var rijen, kolommen = dataFrame. Dimt()
Vervang een van de variabelen door een onderstrepingsteken om alleen de andere dimensie op te halen. U kunt het aantal rijen en kolommen ook afzonderlijk opvragen met de Nu en Ncol methoden.
var rijen = dataFrame. Nu()
var kolommen = dataFrame. Ncol()
De gegevenstypen van kolommen ophalen
U moet de samengestelde gegevenstypen in de kolommen van een gegevensset kennen om deze te kunnen analyseren. U kunt deze ophalen met behulp van de Soorten methode van uw dataframe-object:
var typen = dataFrame. Soorten()
fmt. Println (soorten)
De methode Types retourneert een segment met de gegevenstypen van de kolom:
De kolomnamen ophalen
U hebt de kolomnamen nodig om specifieke kolommen voor bewerkingen te selecteren. U kunt de Namen methode om ze op te halen.
var columnNames := dataFrame. Namen()
fmt. Println (kolomnamen)
De methode Namen retourneert een segment van de kolomnamen.
Controleren op ontbrekende waarden
Mogelijk hebt u een gegevensset die null- of niet-numerieke waarden bevat. U kunt op dergelijke waarden controleren met behulp van de HasNaN en IsNaN methoden van een serieobject:
aKol := dataFrame. Col("display_size")
var hasNull = aKol. HasNaN()
var isNotNumber = eenKol. IsNaN()
HasNan controleert of een kolom null-elementen bevat. IsNaN retourneert een segment booleans dat aangeeft of elke waarde in de kolom een getal is.
Beschrijvende statistische analyse uitvoeren
Beschrijvende statistische analyse helpt u de verdeling van numerieke kolommen te begrijpen. De... gebruiken Beschrijven methode kunt u een beschrijvende statistische analyse van uw dataset genereren:
beschrijving := dataFrame. Beschrijven()
fmt. Println (beschrijving)
De methode Beschrijven retourneert metrische gegevens zoals het gemiddelde, de standaarddeviatie en de maximale waarden van kolommen in een gegevensset. Het vat deze samen in tabelvorm.
U kunt ook specifiek zijn en zich concentreren op kolommen en statistieken door een bepaalde kolom te selecteren en vervolgens te zoeken naar de gewenste statistiek. U moet eerst de reeks ophalen die een specifieke kolom vertegenwoordigt en vervolgens de methoden als volgt gebruiken:
aKol := dataFrame. Col("display_size")
var gemiddelde = aKol. Gemeen()
var mediaan = aKol. Mediaan()
var minimum = aKol. Min()
var standaardDeviatie = aKol. StdDev()
var maximum = aKol. Maximaal()
var kwantielen25 = aKol. Kwantiel(25.0)
Deze methoden weerspiegelen de resultaten van de beschrijvende statistische analyse die Describe uitvoert.
De elementen in een kolom ophalen
Een van de laatste taken die u wilt uitvoeren, is het controleren van de waarden in een kolom voor een algemeen overzicht. U kunt de Records methode om de waarden van een kolom te bekijken.
aKol := dataFrame. Col("merk")
fmt. Println (een kol. Records())
Deze methode retourneert een stuk tekenreeksen met de waarden in de door u geselecteerde kolom:
Een Gota-dataframe exporteren naar een bestand
Als u ervoor kiest om verder te gaan en het Gota-pakket te gebruiken voor volledige gegevensanalyse, moet u gegevens in bestanden opslaan. U kunt de SchrijfCSV en SchrijfJSON methoden van dataframe om bestanden te exporteren. De methoden bevatten een bestand dat u maakt met behulp van de os pakketjes Creëren methode.
Hier leest u hoe u een dataframe kunt exporteren met behulp van het Gota-pakket.
dataFrame := dataframe. LeesCSV(bestand)
outputFile, err := os. Maken("output.csv")als fout != nul {
logboek. Fataal (fout)
}err = dataFrame. WriteCSV(outputFile)
als fout != nul {
logboek. Fatalln("Er is een fout opgetreden bij het schrijven van de dataframe-inhoud naar het bestand")
}
De dataFrame variabele is een weergave van het dataframe. Wanneer u de Creëren methode van de os pakket, maakt het een nieuw, leeg bestand met de opgegeven naam en retourneert het het bestand. De methode WriteCSV neemt de bestandsinstantie op en retourneert een fout of nul als er geen fout is.
Verkennende gegevensanalyse is belangrijk
Een goed begrip van data en datasets is essentieel voor data-analisten en machine learning-specialisten. Het is een cruciale operatie in hun werkcyclus en verkennende data-analyse is een van de technieken die ze gebruiken om dat te bereiken.
Er is meer aan het Gota-pakket. U kunt het gebruiken voor verschillende functies voor gegevensruzie op dezelfde manier waarop u de Python Pandas-bibliotheek zou gebruiken voor gegevensanalyse. Gota ondersteunt echter niet zo veel functionaliteit als Panda's.