Maak gebruik van de PandasAI Python-bibliotheek om de kracht van kunstmatige intelligentie en grote taalmodellen te benutten om gegevensanalysetaken uit te voeren.

Panda's is de meest overheersende bibliotheek voor het manipuleren van datasets en dataframes. Dit is al heel lang de norm. Maar met de vooruitgang op het gebied van kunstmatige intelligentie wordt een nieuwe open-sourcebibliotheek genaamd PandasAI ontwikkeld die generatieve AI-mogelijkheden toevoegt aan Panda's.

PandasAI vervangt Panda's niet. In plaats daarvan geeft het zijn generatieve AI-mogelijkheden. Op deze manier kun je data-analyse uitvoeren door te chatten met PandasAI. Het abstraheert vervolgens wat er op de achtergrond gebeurt en geeft u de uitvoer van uw zoekopdracht.

PandasAI installeren

Panda'sAI is beschikbaar via PyPI (Python Package Index). Creëer een nieuwe virtuele omgeving als u een lokale IDE gebruikt. Dan gebruik de pip-pakketbeheerder om het te installeren.

pip pandasai installeren

Als u Google Colab gebruikt, kunt u een afhankelijkheidsconflict krijgen die vergelijkbaar is met de onderstaande fout.

instagram viewer

Downgrade de IPython-versie niet. Start gewoon uw runtime opnieuw en voer het codeblok opnieuw uit. Dit lost het probleem op.

De volledige broncode is beschikbaar in een GitHub-opslagplaats.

De voorbeeldgegevensset begrijpen

De voorbeelddataset die u gaat manipuleren met PandasAI is de California Housing Prices-dataset van Kaggle. Deze dataset bevat informatie over huisvesting uit de volkstelling van Californië in 1990. Het heeft tien kolommen met statistieken over deze huizen. De datakaart om u te helpen meer te weten te komen over deze dataset is beschikbaar op Kaggle. Hieronder staan ​​de eerste vijf rijen van de dataset.

Elke kolom vertegenwoordigt een enkele statistiek van een huis.

PandasAI verbinden met het grote taalmodel

Om PandasAI te verbinden met een groot taalmodel (LLM) zoals die van OpenAI, heb je toegang nodig tot de API-sleutel. Om er een te verkrijgen, gaat u naar de OpenAI-platform. Log dan in op uw account. Selecteer API onder de optiepagina die hierna verschijnt.

Klik daarna op uw profiel en selecteer de Bekijk API-sleutels keuze. Klik op de volgende pagina die verschijnt Nieuwe geheime sleutel maken knop. Geef ten slotte uw API-sleutel een naam.

OpenAI genereert uw API-sleutel. Kopieer het zoals je het nodig hebt tijdens het verbinden van PandasAI met OpenAI. Zorg ervoor dat u de sleutel geheim houdt, want iedereen die er toegang toe heeft, kan namens u bellen naar OpenAI. OpenAI brengt dan uw account in rekening voor de oproepen.

Nu je de API-sleutel hebt, maak je een nieuw Python-script en plak je de onderstaande code. U hoeft deze code niet te wijzigen, aangezien u er meestal op zult bouwen.

importeren panda's als pd
van panda'sai importeren Panda'sAI

# Vervang door uw dataset of dataframe
df = pd.read_csv("/content/behuizing.csv")

# Creëer een LLM
van pandasai.llm.openai importeren AI openen
llm = OpenAI(api_token="uw API-token")

pandas_ai = PandasAI(llm)

De bovenstaande code importeert zowel PandasAI als Pandas. Vervolgens leest het een dataset. Ten slotte wordt de OpenAI LLM geïnstantieerd.

U bent nu klaar om met uw gegevens te praten.

Eenvoudige taken uitvoeren met PandasAI

Om uw gegevens op te vragen, geeft u uw dataframe en uw prompt door aan de instantie van de PandasAI-klasse. Begin met het afdrukken van de eerste vijf rijen van uw dataset.

panda's_ai (df, prompt='Wat zijn de eerste vijf rijen van de dataset?')

De uitvoer van de bovenstaande prompt is als volgt:

Deze output is identiek aan die van het datasetoverzicht eerder. Hieruit blijkt dat PandasAI correcte resultaten oplevert en betrouwbaar is.

Controleer vervolgens het aantal kolommen in uw dataset.

panda's_ai (df, prompt='Hoeveel kolommen bevat de dataset? ')

Het retourneert 10, wat het juiste aantal kolommen is in de gegevensset California Housing.

Controleren of er ontbrekende waarden zijn in de dataset.

panda's_ai (df, prompt='Zijn er ontbrekende waarden in de dataset?')

PandasAI retourneert dat het totale_slaapkamers kolom heeft 207 ontbrekende waarden, wat weer correct is.

Er zijn veel eenvoudige taken die u kunt uitvoeren met PandasAI, u bent niet beperkt tot de bovenstaande.

Complexe query's uitvoeren met PandasAI

PandasAI ondersteunt niet alleen eenvoudige taken. U kunt het ook gebruiken om complexe queries op de dataset uit te voeren. Als u bijvoorbeeld in de woningdataset het aantal woningen wilt bepalen dat zich op een eiland, een waarde hebben van meer dan 100.000 dollar, en meer dan 10 kamers hebben kun je de prompt gebruiken onderstaand.

panda's_ai (df, prompt= "Hoeveel huizen hebben een waarde groter dan 100.000,"
" bevinden zich op een eiland en het totale aantal slaapkamers is meer dan 10?")

De juiste output is vijf. Dit is hetzelfde resultaat dat PandasAI uitvoert.

Complexe query's kunnen een data-analist enige tijd kosten om te schrijven en te debuggen. De bovenstaande prompt heeft slechts twee regels natuurlijke taal nodig om dezelfde taak uit te voeren. U hoeft alleen maar in gedachten te hebben wat u precies wilt bereiken, en PandasAI zorgt voor de rest.

Grafieken tekenen met PandasAI

Grafieken zijn een essentieel onderdeel van elk gegevensanalyseproces. Het helpt de data-analisten om de data op een mensvriendelijke manier te visualiseren. PandasAI heeft ook een functie voor het tekenen van grafieken. U hoeft alleen het dataframe en de instructie door te geven.

Begin met het maken van een histogram voor elke kolom in de dataset. Dit zal u helpen de verdeling van de variabelen te visualiseren.

panda's_ai (df, prompt= "Plot een histogram voor elke kolom in de dataset")

De uitvoer is als volgt:

PandasAI was in staat om het histogram van alle kolommen te tekenen zonder hun namen in de prompt door te geven.

PandasAI kan ook grafieken plotten zonder dat u expliciet aangeeft welke grafiek moet worden gebruikt. U wilt bijvoorbeeld de correlatie van de gegevens in de woningdataset achterhalen. Om dit te bereiken, kunt u als volgt een prompt doorgeven:

panda's_ai (df, prompt= "Plot de correlatie in de dataset")

PandasAI plot een correlatiematrix zoals hieronder weergegeven:

De bibliotheek kiest een heatmap en tekent een correlatiematrix uit.

Meerdere dataframes doorgeven aan de PandasAI-instantie

Werken met meerdere dataframes kan lastig zijn. Vooral voor iemand die nieuw is in data-analyse. PandasAI overbrugt deze kloof, want het enige wat u hoeft te doen is beide dataframes door te geven en prompts te gebruiken om de gegevens te manipuleren.

Maak twee dataframes met behulp van Panda's.

medewerkers_data = {
'WerknemerID': [1, 2, 3, 4, 5],
'Naam': ['John', 'Emma', 'Liam', 'Olivia', 'Willem'],
'Afdeling': ['HR', 'Verkoop', 'HET', 'Marketing', 'Financiën']
}

salarissen_data = {
'WerknemerID': [1, 2, 3, 4, 5],
'Salaris': [5000, 6000, 4500, 7000, 5500]
}

medewerkers_df = pd. DataFrame (employees_data)
salarissen_df = pd. DataFrame (salaries_data)

U kunt PandasAI een vraag stellen die beide dataframes doorsnijdt. U hoeft alleen beide dataframes door te geven aan de PandasAI-instantie.

pandas_ai([werknemers_df, salarissen_df], "Welke werknemer heeft het hoogste salaris?")

Het keert terug Olivia wat ook weer het juiste antwoord is.

Het uitvoeren van gegevensanalyse is nog nooit zo eenvoudig geweest, met PandasAI kunt u met uw gegevens chatten en deze gemakkelijk analyseren.

De technologie begrijpen die PandasAI aandrijft

PandasAI vereenvoudigt het proces van data-analyse en bespaart zo veel tijd voor data-analisten. Maar het abstraheert wat er op de achtergrond gebeurt. U moet vertrouwd raken met generatieve AI, zodat u een overzicht krijgt van hoe PandasAI onder de motorkap werkt. Zo blijf je ook op de hoogte van de nieuwste innovaties op het gebied van generatieve AI.