De panda-bibliotheek maakt op python gebaseerde datawetenschap een gemakkelijke rit. Het is een populaire Python-bibliotheek voor het lezen, samenvoegen, sorteren, opschonen van gegevens en meer. Hoewel panda's gemakkelijk te gebruiken en toe te passen zijn op datasets, zijn er veel gegevensmanipulatiefuncties om te leren.
U kunt panda's misschien gebruiken, maar de kans is groot dat u deze te weinig gebruikt om gegevensgerelateerde problemen op te lossen. Hier is onze lijst met waardevolle gegevens die panda's-functies manipuleren die elke datawetenschapper zou moeten kennen.
Installeer panda's in uw virtuele omgeving
Voordat we verder gaan, moet je ervoor zorgen dat je panda's in je virtuele omgeving installeert met pip:
pip installeer panda's
Na installatie, import panda's bovenaan je script, en laten we verder gaan.
1. panda's. DataFrame
Je gebruikt panda's. DataFrame() om een DataFrame in panda's te maken. Er zijn twee manieren om deze functie te gebruiken.
U kunt kolomsgewijs een DataFrame vormen door een woordenboek door te geven aan de
panda's. DataFrame() functie. Hier is elke sleutel een kolom, terwijl de waarden de rijen zijn:panda's importeren
DataFrame = panda's. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
afdrukken (DataFrame)
De andere methode is om het DataFrame over rijen te vormen. Maar hier scheidt u de waarden (rijitems) van de kolommen. Het aantal gegevens in elke lijst (rijgegevens) moet ook overeenkomen met het aantal kolommen.
panda's importeren
DataFrame = panda's. DataFrame([[1, 4, 5], [7, 19, 13]], kolommen= ["J", "K", "L"])
afdrukken (DataFrame)
2. Lezen van en schrijven naar Excel of CSV in panda's
U kunt met panda's lezen of schrijven naar Excel- of CSV-bestanden.
Excel- of CSV-bestanden lezen
Een Excel-bestand lezen:
#Vervang voorbeeld.xlsx door het pad van uw Excel-bestand
DataFrame = DataFrame.read_excel("voorbeeld.xlsx")
Zo leest u een CSV-bestand:
#Vervang voorbeeld.csv door het pad van uw CSV-bestand
DataFrame = DataFrame.read_csv("voorbeeld.csv")
Schrijven naar Excel of CSV
Schrijven naar Excel of CSV is een bekende panda-bewerking. En het is handig om nieuw berekende tabellen op te slaan in aparte datasheets.
Om naar een Excel-blad te schrijven:
DataFrame.to_excel ("full_path_of_the_destination_folder/filename.xlsx")
Als u naar CSV wilt schrijven:
DataFrame.to_csv ("full_path_of_the_destination_folder/filename.csv")
U kunt ook de centrale tendensen van elke kolom in een DataFrame berekenen met behulp van panda's.
Ga als volgt te werk om de gemiddelde waarde van elke kolom te krijgen:
DataFrame.mean()
Voor de mediaan- of moduswaarde vervangt u gemeen() met mediaan() of modus().
4. DataFrame.transform
panda's DataFrame.transform() wijzigt de waarden van een DataFrame. Het accepteert een functie als argument.
De onderstaande code vermenigvuldigt bijvoorbeeld elke waarde in een DataFrame met drie met behulp van De lambda-functie van Python:
DataFrame = DataFrame.transform (lambda y: y*3)
afdrukken (DataFrame)
5. DataFrame.isnull
Deze functie retourneert een Booleaanse waarde en markeert alle rijen die null-waarden bevatten als Waar:
DataFrame.isnull()
Het resultaat van de bovenstaande code kan moeilijk te lezen zijn voor grotere datasets. Dus je kunt de isnull().sum() in plaats daarvan functioneren. Dit retourneert een samenvatting van alle ontbrekende waarden voor elke kolom:
DataFrame.isnull().sum()
6. Dataframe.info
De informatie() functie is een essentiële panda's operatie. Het retourneert in plaats daarvan de samenvatting van niet-ontbrekende waarden voor elke kolom:
DataFrame.info()
7. DataFrame.beschrijven
De beschrijven() functie geeft u de samenvattende statistiek van een DataFrame:
DataFrame.describe()
8. DataFrame.replace
De... gebruiken DataFrame.replace() methode in panda's, kunt u geselecteerde rijen vervangen door andere waarden.
Om bijvoorbeeld ongeldige rijen te verwisselen met Nan:
# Zorg ervoor dat u pip install numpy om dit te laten werken
import numpy
panda's importeren
# Door een inplace-trefwoord toe te voegen en dit in te stellen op True, worden de wijzigingen permanent:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
afdrukken (DataFrame)
9. DataFrame.fillna
Met deze functie kunt u lege rijen vullen met een bepaalde waarde. Je kunt alles vullen Nan rijen in een dataset met de gemiddelde waarde, bijvoorbeeld:
DataFrame.fillna (df.mean(), inplace = True)
afdrukken (DataFrame)
U kunt ook kolomspecifiek zijn:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
afdrukken (DataFrame)
10. DataFrame.dropna
De dropna() methode verwijdert alle rijen die null-waarden bevatten:
DataFrame.dropna (inplace = True)
afdrukken (DataFrame)
11. DataFrame.insert
Je kunt panda's gebruiken' invoegen() functie om een nieuwe kolom aan een DataFrame toe te voegen. Het accepteert drie trefwoorden, de kolomnaam, een lijst van zijn gegevens, en zijn plaats, wat een kolomindex is.
Zo werkt dat:
DataFrame.insert (kolom = 'C', waarde = [3, 4, 6, 7], loc=0)
afdrukken (DataFrame)
De bovenstaande code voegt de nieuwe kolom in op de nulkolomindex (het wordt de eerste kolom).
12. DataFrame.loc
Je kunt gebruiken plaats om de elementen in een bepaalde index te vinden. Om bijvoorbeeld alle items op de derde rij te bekijken:
DataFrame.loc[2]
13. DataFrame.pop
Met deze functie kunt u een opgegeven kolom verwijderen uit een pandas DataFrame.
Het accepteert een item trefwoord, retourneert de uitgeklapte kolom en scheidt deze van de rest van het DataFrame:
DataFrame.pop (item= 'kolomnaam')
afdrukken (DataFrame)
14. DataFrame.max, min
Het verkrijgen van de maximale en minimale waarden met panda's is eenvoudig:
DataFrame.min()
De bovenstaande code retourneert de minimumwaarde voor elke kolom. Vervang om het maximale te halen min met max.
15. DataFrame.join
De meedoen() Met de functie van panda's kunt u DataFrames samenvoegen met verschillende kolomnamen. U kunt de linker, rechter, binnenste of buitenste join gebruiken. Om met twee anderen links deel te nemen aan een DataFrame:
#Links voeg langere kolommen samen met kortere
newDataFrame = df1.join([df_shorter2, df_shorter3], how='links')
print (nieuwDataFrame)
Als u DataFrames met vergelijkbare kolomnamen wilt samenvoegen, kunt u ze onderscheiden door links of rechts een achtervoegsel op te nemen. Doe dit door de lachtervoegsel of achtervoegsel trefwoord:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
print (nieuwDataFrame)
16. DataFrame.combine
De combineren() functie is handig voor het samenvoegen van twee DataFrames met vergelijkbare kolomnamen op basis van ingestelde criteria. Het accepteert een functie trefwoord.
Als u bijvoorbeeld twee DataFrames met vergelijkbare kolomnamen wilt samenvoegen op basis van alleen de maximale waarden:
newDataFrame = df.combine (df2, numpy.minimum)
print (nieuwDataFrame)
Opmerking: U kunt ook een aangepaste selectiefunctie definiëren en invoegen numpy.minimum.
17. DataFrame.astype
De type() functie verandert het gegevenstype van een bepaalde kolom of DataFrame.
Om alle waarden in een DataFrame te veranderen in string, bijvoorbeeld:
DataFrame.astype (str)
18. DataFrame.sum
De som() functie in panda's retourneert de som van de waarden in elke kolom:
DataFrame.sum()
U kunt ook de cumulatieve som van alle items vinden met cumsum():
DataFrame.cumsum()
19. DataFrame.drop
panda's laten vallen() functie verwijdert specifieke rijen of kolommen in een DataFrame. U moet de kolomnamen of rij-index en een as opgeven om deze te gebruiken.
Om specifieke kolommen te verwijderen, bijvoorbeeld:
df.drop (kolommen=['kolom1', 'kolom2'], as=0)
Rijen neerzetten op indexen 1, 3 en 4, bijvoorbeeld:
df.drop([1, 3, 4], as=0)
20. DataFrame.corr
Wilt u de correlatie vinden tussen integer- of float-kolommen? panda's kunnen je daarbij helpen met de corr() functie:
DataFrame.corr()
De bovenstaande code retourneert een nieuw DataFrame met de correlatiereeks tussen alle integer- of float-kolommen.
21. DataFrame.add
De toevoegen() Met deze functie kunt u een specifiek getal toevoegen aan elke waarde in DataFrame. Het werkt door een DataFrame te doorlopen en op elk item te werken.
Verwant:Hoe te gebruiken voor lussen in Python
Om 20 toe te voegen aan elk van de waarden in een specifieke kolom die gehele getallen of floats bevat, bijvoorbeeld:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Net als de optelfunctie kunt u ook een getal aftrekken van elke waarde in een DataFrame of een specifieke kolom:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Dit is een vermenigvuldigingsversie van de optelfunctie van panda's:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Op dezelfde manier kunt u elk gegevenspunt in een kolom of DataFrame delen door een specifiek nummer:
DataFrame['interger_column'].div (20)
25. DataFrame.std
De... gebruiken soa() functie, kunt u met panda's ook de standaarddeviatie voor elke kolom in een DataFrame berekenen. Het werkt door elke kolom in een dataset te doorlopen en de standaarddeviatie voor elk te berekenen:
DataFrame.std()
26. DataFrame.sort_values
U kunt waarden ook oplopend of aflopend sorteren op basis van een bepaalde kolom. Een DataFrame in aflopende volgorde sorteren, bijvoorbeeld:
newDataFrame = DataFrame.sort_values (by = "colmun_name", aflopend = True)
27. DataFrame.melt
De smelten() functie in panda's draait de kolommen in een DataFrame om naar afzonderlijke rijen. Het is alsof je de anatomie van een DataFrame blootlegt. U kunt dus de waarde die aan elke kolom is toegewezen expliciet bekijken.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Deze functie retourneert het totale aantal items in elke kolom:
DataFrame.count()
29. DataFrame.query
panda's vraag() kunt u items bellen met behulp van hun indexnummer. Om de items in de derde rij te krijgen, bijvoorbeeld:
DataFrame.query('4') # Roep de query op de vierde index
30. DataFrame.waar
De waar() functie is een panda-query die een voorwaarde accepteert om specifieke waarden in een kolom te krijgen. Om bijvoorbeeld alle leeftijden onder de 30 te krijgen van een Leeftijd kolom:
DataFrame.where (DataFrame['Leeftijd'] < 30)
De bovenstaande code voert een DataFrame uit met alle leeftijden van minder dan 30 maar wijst Nan naar rijen die niet aan de voorwaarde voldoen.
Omgaan met gegevens als een professional met panda's
pandas is een schat aan functies en methoden voor het verwerken van kleine tot grootschalige datasets met Python. De bibliotheek is ook handig voor het opschonen, valideren en voorbereiden van gegevens voor analyse of machine learning.
De tijd nemen om het onder de knie te krijgen, maakt je leven als datawetenschapper zeker gemakkelijker, en het is zeker de moeite waard. Pak dus gerust alle functies op die je aan kunt.
De Python Standard Library bevat veel functies om u te helpen bij uw programmeertaken. Leer meer over de meest bruikbare en maak robuustere code.
Lees volgende
- Programmeren
- Python
- Programmeren
- database
Idowu is gepassioneerd door alles wat slimme technologie en productiviteit betreft. In zijn vrije tijd speelt hij met coderen en schakelt hij over naar het schaakbord als hij zich verveelt, maar hij vindt het ook heerlijk om af en toe uit de routine te stappen. Zijn passie om mensen de weg te wijzen in moderne technologie motiveert hem om meer te schrijven.
Abonneer op onze nieuwsbrief
Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!
Klik hier om je te abonneren