De Internet Movie Database (IMDb) is de grootste online database met informatie over films, televisieseries, homevideo's, videogames en streaming content. De online database bevat miljoenen nauwkeurige records die u kunt gebruiken om gegevensanalyses uit te voeren.
Cinemagoer (voorheen bekend als IMDbPY) is een Python-bibliotheek voor het beheren en ophalen van de gegevens van de IMDb-filmdatabase. U hebt toegang tot gegevens over films, mensen en bedrijven die verder kunnen worden gebruikt voor analyse.
Vereiste bibliotheken installeren
U moet de bioscoopganger Python-bibliotheek om toegang te krijgen tot de IMDb databank. Voer de volgende opdracht uit in de opdrachtprompt om de bibliotheek te installeren:
Pip installeren bioscoopganger
Je moet hebben pip op uw systeem geïnstalleerd om externe Python-bibliotheken te installeren.
De code die in dit project wordt gebruikt, is beschikbaar in een GitHub-opslagplaats en is gratis voor u om te gebruiken onder de MIT-licentie.
IMDb-gegevens extraheren met behulp van Python
U moet de cinemagoer-bibliotheek importeren voordat u deze in uw code gebruikt.
van imdb importeren Bioscoopganger
ia = Bioscoopbezoeker()
De bovenstaande code importeert de cinemagoer-bibliotheek en maakt een instantie van de cinemagoer-klasse.
Films zoeken
U kunt naar films zoeken met een bepaalde (of vergelijkbare) titel met behulp van de zoek_film() methode. Als u bijvoorbeeld wilt zoeken naar films met de titel "rock", moet u de volgende code uitvoeren:
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()
# Films zoeken met rock in hun naam
films = ia.zoek_film('steen')
afdrukken(films[0])
Dit zou de eerste gevonden film moeten afdrukken, bijvoorbeeld:
Je kunt een film krijgen op basis van zijn IMDb-ID. U kunt dan meer informatie extraheren, zoals namen van regisseurs en genres. Je moet loop door de lijst om individuele informatie te krijgen.
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()# Film ophalen op IMDb ID
film = ia.get_movie('0468569')
afdrukken(film)# De namen van de regisseurs van de film afdrukken
afdrukken('Bestuurders:')voor regisseur in film['directeuren']:
afdrukken (regisseur['naam'])# de genres van de film afdrukken
afdrukken('Genres:')
voor genre in film['genres']:
afdrukken(genre)
In de uitvoer zou u de naam van de gegeven film, de regisseur (s) en het genre (s) moeten zien:
Op zoek naar een persoon
U kunt mensen zoeken met behulp van de zoekpersoon() methode. Als u bijvoorbeeld wilt zoeken naar "Heath", moet u de volgende code uitvoeren:
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()
# Zoeken naar mensen met Heath in hun naam
personen = ia.zoek_persoon('Heide')
afdrukken(personen[0])
U ziet de naam van de eerste overeenkomende persoon die door de zoekopdracht wordt gevonden:
Bedrijven zoeken
U kunt zoeken naar bedrijven met behulp van de zoek_bedrijf() methode. Als u bijvoorbeeld wilt zoeken naar "Universal", moet u de volgende code uitvoeren:
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()
# Zoeken naar bedrijven met Universal in hun naam
bedrijven = ia.zoek_bedrijf('Universeel')
afdrukken(bedrijven)
U krijgt de lijst met alle bedrijven die Universal op hun naam hebben staan.
U kunt ook een persoons- en bedrijfsgegevens opvragen met behulp van zijn ID.
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()# Persoonsgegevens ophalen op ID
persoon = ia.get_person('0005132')
afdrukken (persoon['naam'])
afdrukken (persoon['geboortedatum'])
# Bedrijfsgegevens ophalen op ID
bedrijf = ia.get_company('0005073')
afdrukken (bedrijf['naam'])
De uitvoer toont details van de persoon en de naam van een bedrijf:
Top- en bottomfilms vinden
U kunt de gegevens voor de top 250 en de slechtste 100 films ophalen met behulp van de get_top250_movies() En get_bottom100_movies() methoden, respectievelijk:
van imdb importeren Bioscoopganger
# Een instantie maken van de Cinemagoer-klasse
ia = Bioscoopbezoeker()# De 250 beste films vinden
top = ia.get_top250_movies()
afdrukken(bovenkant[0])
# De onderste 100 films vinden
bodem = ia.get_bottom100_movies()
afdrukken(onderkant[0])
Als reactie zie je de naam van de beste film en de naam van de slechtste:
De cinemagoer-bibliotheek biedt ook enkele andere methoden, zoals get_top250_tv(), get_popular100_movies(), En get_top250_indian_movies().
Gegevensanalyse is de evaluatie van gegevens met behulp van analytische of statistische hulpmiddelen om informatie te extraheren. De populariteit van data-analyse groeit elke dag. Het wordt nu gebruikt door bedrijven, marketingbedrijven en sportteams. Het volledige proces van data-analyse omvat het definiëren van doelstellingen, het stellen van vragen, het verzamelen van gegevens, het opschonen van gegevens, het analyseren van gegevens en het concluderen van resultaten.
U kunt datasets voor uw projecten verkrijgen met behulp van Python-bibliotheken zoals Cinemagoer of via online platforms zoals Kaggle. Naast volledige talen zoals Python en R, kunt u andere tools zoals Microsoft Excel, Tableau en Stata gebruiken om gegevensanalyse uit te voeren.