Wanneer u Google Spreadsheets gebruikt om met twee datasets te werken, wilt u misschien de twee vergelijken door te bepalen in welke mate de ene de andere beïnvloedt.

Correlaties kunnen inzicht bieden in de vraag of er een voorspellende relatie is tussen x- en y-vlakken, maar ze wijzen niet noodzakelijkerwijs op causaliteit. Hier leest u hoe u Google Spreadsheets kunt gebruiken om correlaties in uw gegevens te identificeren.

Wat is correlatie en waar kun je het voor gebruiken?

Wanneer twee variabelen gecorreleerd zijn, kan men bepalen hoe een variabele de andere beïnvloedt. Maar het is cruciaal om te onthouden dat correlatie in dit geval geen afhankelijkheid impliceert; het laat gewoon zien hoe nauw en snel twee variabelen vergelijken of met elkaar in verband staan.

Statistische statistieken helpen bij het begrijpen van onderliggende trends in data-analyse. Correlatie is een van de meest gebruikte statistische maatstaven en bepaalt hoe nauw verwant of afhankelijk twee variabelen zijn.

De correlatiecoëfficiënt in Google Spreadsheets begrijpen

instagram viewer

In Google Spreadsheets wordt een correlatiecoëfficiënt berekend met behulp van de CORREL-functie. De correlatiecoëfficiënt dient als maatstaf voor hoe nauw de datasets met elkaar verbonden zijn. Het kan worden gebruikt om de Pearson product-moment correlatiecoëfficiënt (r) te krijgen als u twee variabele gegevenssets hebt. Als u meer wilt weten over deze coëfficiënt, kunt u meer lezen in deze gids van Statistieken bij Leard.

Je zou een van de drie correlatiestatistieken kunnen tegenkomen. Elke meting definieert de relaties tussen variabelen anders. De waarde ligt tussen -1 en +1:

  • -1 geeft een perfecte negatieve correlatie aan: Wanneer een correlatie een correlatiecoëfficiënt heeft die gelijk is aan of lager is dan -0,9, wordt deze sterk negatief genoemd. Het is een indicatie dat gegevens correleren. De variabele x blijft echter toenemen, terwijl variabele y steeds kleiner wordt.
  • 0 betekent geen verbinding: Variabelen worden geacht niet te correleren als de correlatiecoëfficiënt groter is dan 0,01 maar kleiner dan 0,1, aangezien er geen waarneembare relatie is tussen elke variabele. Ze zijn onafhankelijk van elkaar.
  • +1 geeft een perfecte positieve correlatie aan: Wanneer de correlatiecoëfficiënt tussen 0,9 en 1 valt, wordt deze als zeer positief beschouwd. Het geeft aan dat er een toename is geweest in de twee variabele sets.

De hoogste waarde van een coëfficiënt kan een correlatiecoëfficiënt van 1 zijn geweest. Wanneer de correlatiewaarde 1 is, betekent dit dat als u de gegevens zou tekenen in een grafiek, deze volledig zouden zijn uitgelijnd om een ​​rechte lijn te creëren.

Maak je geen zorgen als je nog steeds een beetje verdwaald bent. We zullen de syntaxis van de CORREL-functie uitleggen en vervolgens in enkele praktijkvoorbeelden duiken om u te helpen deze beter te begrijpen. Inzicht in lijnen van de beste pasvorm en hoe trendlijnen te maken in Google Spreadsheets zal je hierbij helpen.

CORREL Functiesyntaxis in Google Spreadsheets

=CORREL(gegevens_y; gegevens_x) 

Laten we dit in delen opsplitsen en beter begrijpen wat elke zin betekent:

  • =CORREL: Dit is de Google Sheet-functie die r bepaalt (de Pearson product-moment correlatiecoëfficiënt van de dataset).
  • gegevens_y: Dit verwijst naar de groep cellen die de afhankelijke gegevens of het bereik van waarden voor die cellen bevat.
  • gegevens x: Dit is een verwijzing naar de reeks cellen met de onafhankelijke gegevens of het waardenbereik voor die cellen.

Als u de gegevenspunten zou tekenen, zou data_y de Y-as zijn en data_x de X-as. U zult merken dat er twee verschillende manieren zijn om het gegevensbereik in te voeren. Een referentiecelbereik of rechtstreekse gegevensinvoer in de functie zijn opties.

In de meeste gevallen verdient het gebruik van een referentiecelbereik de voorkeur. Dat komt omdat de spreadsheet waarschijnlijk al uw gegevens bevat. Het gebruik van een referentiecelbereik kan overmatige getypte invoer voorkomen die kan resulteren in gebruikersfouten.

CORREL Functievoorbeelden in Google Spreadsheets

Laten we een paar voorbeelden bekijken om te begrijpen hoe u de CORREL-functie in Google Spreadsheets kunt gebruiken.

Voorbeeld 1: een sterke positieve correlatie

Laten we voor dit eerste voorbeeld doen alsof we in de vastgoedsector werken. In de onderstaande spreadsheet hebben we partities van hectaren land die u verkoopt en het aantal verkochte eenheden van de gegevens van die verschillende landen in uw Google-spreadsheet.

  1. Als u een blad volgt, begint u met het invoeren van de gegevens van de variabelen in uw spreadsheet, zoals hieronder weergegeven:
  2. Klik cel C2
  3. Type =CORREL(
  4. U gaat dan verder met het typen van data_y, wat in ons geval het celbereik is waarnaar wordt verwezen A2:A6, voer dan een komma in.
  5. Ga verder met het typen van data_x, waarnaar in ons geval wordt verwezen als B2:B6.
  6. Eindig met een sluithaakje, zoals hieronder weergegeven:
  7. Druk ten slotte op Binnenkomen om de correlatiecoëfficiënt van de twee gegevens in de cel te retourneren C2.

Aan de hand van het zojuist getoonde voorbeeld heeft u een correlatiecoëfficiënt van 0,90 verkregen, wat een sterke positieve correlatie is aangezien de waarde tussen 0,9 en 1 valt. Dit geeft dus aan dat als y verandert, x ook op een substantieel vergelijkbare manier verandert.

Hieronder ziet u een weergave van onze voorbeeldvoorbeeldgegevens op een XY-spreidingsgrafiek. Zoals u kunt zien, ligt de best passende lijn dicht bij de gegevenspunten in de grafiek, wat het idee ondersteunt dat de cijfers sterk gecorreleerd zijn.

U kunt er meer over leren XY-spreidingsgrafieken maken in Google Spreadsheets in ons andere artikel.

Voorbeeld 2: een zwakke negatieve correlatie

Deze keer gebruiken we een algemener voorbeeld van "variabele x en y" in onze spreadsheet. We hebben met opzet cijfers opgenomen om een ​​negatieve correlatie aan te tonen, die de CORREL-functie hieronder laat zien:

Er is geen sterke relatie tussen variabelen y en x, dus het resultaat dat we krijgen is een minder significante correlatiecoëfficiënt dan in het vorige voorbeeld. Het resultaat dat we hebben behaald is -0,47. Dit betekent echter niet dat er helemaal geen verband is. Laten we nog eens kijken naar een lijn met de beste pasvorm om er iets van te begrijpen.

Zoals u kunt zien aan de spreidingsplot, liggen de gegevenspunten verder van de best passende lijn. Er is dus minder correlatie dan in het eerste voorbeeld, maar niet helemaal. Je zult ook merken dat de lijn van de beste pasvorm afneemt. Dit toont een negatieve correlatie, de ene waarde neemt af naarmate de andere toeneemt.

Voorbeeld 3: Geen verbinding

Hier hebben we een reeks volledig willekeurige getallen. Laten we snel bespreken hoe we de CORREL-functie opnieuw kunnen gebruiken:

  1. Typ Cel C2 de CORREL-formule
  2. Onze argumenten zijn A2:A10 En B2:B10
  3. Druk op Enter

De waarde die wordt geretourneerd op C2 is 0,02. Als een correlatiecoëfficiënt tussen 0,01 en 0,1 valt, wordt bepaald dat de betreffende variabelen niet correleren omdat er geen waarneembaar verband tussen is. De relaties tussen variabelen zijn volledig onafhankelijk.

Hieronder ziet u de weergave ervan in een spreidingsgrafiek. De best passende lijn is bijna vlak, wat wijst op weinig correlatie tussen de twee datasets.

Correleer eenvoudig uw gegevens in Google Spreadsheets

Correlatie kan een uitdagend onderwerp zijn als je er op de middelbare school niet veel mee hebt gewerkt. Deze gids behandelde alle basisprincipes, maar je moet de CORREL-functie in Google Spreadsheets blijven gebruiken om het vers in je geheugen te houden.

Dit is een krachtige functie omdat het helpt voorkomen dat er spreidingsgrafieken worden gemaakt en snel trends in uw gegevens kan vinden. Wees echter niet bang om grafieken toe te voegen om andere gebruikers te helpen de gegevens in uw spreadsheets beter te begrijpen.