Python is als taal enorm waardevol, zeker als je met gestructureerde data wilt werken. Aangezien mensen veel gegevens opslaan in Excel-bestanden, is het noodzakelijk om meerdere bestanden te consolideren om tijd en moeite te besparen.

Python laat je precies dat doen; hoeveel Excel-bestanden u ook wilt combineren, u kunt het relatief eenvoudig doen. Gezien het scala aan bibliotheken en bronnen van derden, kunt u de veelzijdige tools van Python importeren en gebruiken om uw biedingen uit te voeren.

In deze handleiding moet u de Pandas-bibliotheken installeren en gebruiken om gegevens in Python te importeren voordat u deze consolideert.

Installeer Pandas-bibliotheken in Python

Pandas is een bibliotheek van derden die u in Python kunt installeren. In sommige IDE's zijn al Panda's geïnstalleerd.

Als u een IDE-versie dat komt niet met vooraf geïnstalleerde Panda's, wees gerust, je kunt het rechtstreeks in Python installeren.

Zo installeer je Panda's:

pip installeer panda's

Als u Jupyter Notebook gebruikt, kunt u Panda's rechtstreeks installeren met de

instagram viewer
PIP-opdracht. Meestal, als je Jupyter met Anaconda hebt geïnstalleerd, is de kans groot dat je al Panda's beschikbaar hebt voor direct gebruik.

Als u Panda's niet kunt bellen, kunt u de bovenstaande opdracht gebruiken om ze rechtstreeks te installeren.

Excel-bestanden combineren met Python

Eerst moet u een map maken op de gewenste locatie met alle Excel-bestanden. Zodra de map gereed is, kunt u beginnen met het schrijven van de code om de bibliotheken te importeren.

Je gebruikt twee variabelen in deze code:

  1. Panda's: De Pandas-bibliotheek biedt de dataframes om Excel-bestanden op te slaan.
  2. besturingssysteem: De bibliotheek is nuttig voor het lezen van gegevens uit de map van uw machine

Gebruik deze opdrachten om deze bibliotheken te importeren:

Panda's importeren als pd
Besturingssysteem importeren
  • Importeren: Python-syntaxis die wordt gebruikt om de bibliotheken in Python te importeren
  • Panda's: Naam van de bibliotheek
  • pd: Alias ​​gegeven aan de bibliotheek
  • besturingssysteem: Een bibliotheek om toegang te krijgen tot de systeemmap

Nadat u de bibliotheken hebt geïmporteerd, maakt u twee variabelen om het invoer- en uitvoerbestandspad op te slaan. Het invoerbestandspad is nodig om toegang te krijgen tot de bestandenmap. Het pad van het uitvoerbestand is nodig omdat het gecombineerde bestand daar wordt geëxporteerd.

Als je Python gebruikt, zorg er dan voor dat je de backslash verandert in forward-slash (\ naar /)

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel-bestanden/"
output_file_path = "C:/Gebruikers/gaurav/OneDrive/Desktop/"

Voeg de toe / aan het einde ook om de paden te voltooien.

De bestanden van de map zijn beschikbaar in een lijst. Maak een lijst om alle bestandsverwijzingen van de invoermap op te slaan met behulp van de lijstmap functie van de besturingssysteem bibliotheek.

Als u niet zeker weet welke functies beschikbaar zijn in een bibliotheek, kunt u de dir functie met de naam van de bibliotheek. Om bijvoorbeeld de exacte versie van de functie listdir te controleren, kunt u de opdracht als volgt gebruiken:

dir (OS)

De uitvoer zal bestaan ​​uit alle bijbehorende functies die beschikbaar zijn in de OS-bibliotheek. De listdir-functie is een van de vele functies die beschikbaar zijn in deze bibliotheek.

Maak een nieuwe variabele om de invoerbestanden uit de map op te slaan.

excel_file_list = os.listdir (input_file_path)

Druk deze variabele af om de namen te zien van de bestanden die in de map zijn opgeslagen. Alle bestanden die in de map zijn opgeslagen, worden weergegeven zodra u de afdrukfunctie gebruikt.

afdrukken (excel_file_list)

Vervolgens moet u een nieuw gegevensframe toevoegen om elk Excel-bestand op te slaan. Stel je een dataframe voor als een container voor het opslaan van gegevens. Hier is de opdracht voor het maken van een dataframe.

df = pd. DataFrame()
  • ff: Variabele om de waarde van het DataFrame op te slaan
  • pd: alias voor de Panda's bibliotheek
  • Gegevensframe: Standaardsyntaxis voor het toevoegen van een dataframe

De invoermap heeft drie .xlsx bestanden in dit voorbeeld. De bestandsnamen zijn:

Bestand1_excel.xlsx
Bestand2_excel.xlsx
Bestand3_excel.xlsx

Om elk bestand uit deze map te openen, moet u een lus uitvoeren. De lus wordt uitgevoerd voor elk van de bestanden in de lijst die hierboven is gemaakt.

Hier is hoe je het kunt doen:

voor excel_files in excel_file_list:

Vervolgens is het noodzakelijk om de extensies van de bestanden te controleren, aangezien de code alleen XLSX-bestanden opent. Om deze bestanden te controleren, kunt u een Als uitspraak.

Gebruik de eindigt met functie voor dit doel, als volgt:

voor excel_files in excel_file_list:

if excel_files.endswith(.xlsx"):

  • excel_files: Lijst met alle bestandswaarden
  • eindigt met: Functie om de extensie van de bestanden te controleren
  • (".xlsx"): Deze tekenreekswaarde kan veranderen, afhankelijk van waarnaar u wilt zoeken

Nu u de Excel-bestanden hebt geïdentificeerd, kunt u een nieuw gegevensframe maken om de bestanden afzonderlijk te lezen en op te slaan.

voor excel_files in excel_file_list:

if excel_files.endswith(.xlsx"):

df1 = pd.read_excel (input_file_path+excel_files)

  • df1: Nieuw dataframe
  • pd: Panda's bibliotheek
  • lees_excel: Functie om Excel-bestanden in de Pandas-bibliotheek te lezen
  • input_file_path: Pad van de map waarin de bestanden zijn opgeslagen
  • excel_files: Elke variabele die in de for-lus wordt gebruikt

Om te beginnen met het toevoegen van de bestanden, moet u de toevoegen functie.

voor excel_files in excel_file_list:

if excel_files.endswith(.xlsx"):

df1 = pd.read_excel (input_file_path+excel_files)
df = df.toevoegen (df1)

Eindelijk, nu het geconsolideerde gegevensframe gereed is, kunt u het exporteren naar de uitvoerlocatie. In dit geval exporteert u het dataframe naar een XLSX-bestand.

df.to_excel (output_file_path+"Consolidated_file.xlsx")
  • ff: Dataframe om te exporteren
  • naar_excel: Opdracht gebruikt om de gegevens te exporteren
  • output_file_path: Pad gedefinieerd voor het opslaan van de uitvoer
  • Geconsolideerd_bestand.xlsx: Naam van het geconsolideerde bestand

Laten we nu naar de laatste code kijken:

#Pandas wordt gebruikt als een dataframe om Excel-bestanden te verwerken
panda's importeren als pd
importeer os

# verander de schuine streep van "\" in "/", als u Windows-apparaten gebruikt

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel-bestanden/"
output_file_path = "C:/Gebruikers/gaurav/OneDrive/Desktop/"

#maak een lijst om alle bestandsreferenties van de invoermap op te slaan met behulp van de listdir-functie van de os-bibliotheek.
#Om de inhoud van een bibliotheek te zien (zoals de listdir-functie, kunt u de dir-functie op de bibliotheeknaam gebruiken).
#Gebruik dir (bibliotheeknaam) om inhoud weer te geven

excel_file_list = os.listdir (input_file_path)

#print alle bestanden die in de map zijn opgeslagen, na het definiëren van de lijst
excel_file_list

#Zodra elk bestand is geopend, gebruikt u de append-functie om de gegevens die in meerdere bestanden zijn opgeslagen te consolideren

#maak een nieuw, leeg dataframe om de import van Excel-bestanden af ​​te handelen
df = pd. DataFrame()

#Voer een for-lus uit om door elk bestand in de lijst te bladeren
voor excel_files in excel_file_list:
#controleer alleen op .xlsx-achtervoegselbestanden
if excel_files.endswith(.xlsx"):
#maak een nieuw dataframe om elk Excel-bestand te lezen/openen uit de lijst met bestanden die hierboven zijn gemaakt
df1 = pd.read_excel (input_file_path+excel_files)
#append elk bestand in het originele lege dataframe
df = df.toevoegen (df1)

#transfer de uiteindelijke uitvoer naar een Excel (xlsx)-bestand op het uitvoerpad
df.to_excel (output_file_path+"Consolidated_file.xlsx")

Python gebruiken om meerdere Excel-werkmappen te combineren

Python's Panda's is een uitstekende tool voor zowel beginners als gevorderden. De bibliotheek wordt veel gebruikt door ontwikkelaars die Python onder de knie willen krijgen.

Zelfs als je een beginner bent, kun je enorm profiteren door de nuances van Panda's te leren en hoe de bibliotheek binnen Python wordt gebruikt.

6 Panda's-operaties voor beginners

Leer Panda's onder de knie met deze beginnershandelingen.

Lees volgende

DelenTweetenE-mail
Gerelateerde onderwerpen
  • Programmeren
  • Python
  • Microsoft Excel
  • Spreadsheet
Over de auteur
Gaurav Siyal (59 artikelen gepubliceerd)

Gaurav Siyal heeft twee jaar schrijfervaring en schreef voor een reeks digitale marketingbedrijven en documenten over de levenscyclus van software.

Meer van Gaurav Siyal

Abonneer op onze nieuwsbrief

Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!

Klik hier om je te abonneren