Correlatiecoëfficiënt

In statistieken, de correlatiecoëfficiënt is een maat voor de lineaire correlatie tussen twee variabelen X en Y, waarbij een waarde tussen 1 en -1 inclusive, waarbij 1 totaal positieve correlatie, 0 is geen correlatie en -1 is het totale negatieve correlatie. Het wordt veel gebruikt in de wetenschap als maat voor de graad van lineaire afhankelijkheid tussen twee variabelen. Het werd ontwikkeld door Karl Pearson van een verwante idee geïntroduceerd door Francis Galton in de jaren 1880.

Definitie

Pearson correlatiecoëfficiënt tussen twee variabelen wordt gedefinieerd als de covariantie van de twee variabelen gedeeld door het product van hun standaardafwijkingen. De vorm van de definitie omvat een "product moment", dat wil zeggen het gemiddelde van het product van de gemiddelde aangepast willekeurige variabelen; vandaar de modifier product-moment in de naam.

Voor een populatie

Pearson correlatiecoëfficiënt wanneer toegepast op een populatie wordt gewoonlijk weergegeven door de Griekse letter ρ en kunnen worden aangeduid als de populatie correlatiecoëfficiënt of populatie Pearson correlatiecoëfficiënt. De formule voor ρ is:

wanneer de covariantie, is de standaarddeviatie van, is het gemiddelde van, en is de verwachting.

Voor een steekproef

Pearson correlatiecoëfficiënt toegepast op een monster wordt gewoonlijk weergegeven door de letter r en kunnen worden aangeduid als de sample correlatiecoëfficiënt of sample Pearson correlatiecoëfficiënt. We kunnen een formule voor r te verkrijgen door het vervangen van schattingen van de covarianties en verschillen op basis van een monster in de bovenstaande formule. Die formule voor r:

Een equivalente expressie geeft de correlatiecoëfficiënt als het gemiddelde van de produkten van de standaardscores. Op basis van een steekproef van gepaarde gegevens, het monster Pearson correlatiecoëfficiënt

waar

worden de steekproefgemiddelde en proef standaarddeviatie, respectievelijk. Zo, de eerste term tussen haakjes in de vorige sommatie is de standaard score.

Wiskundige eigenschappen

De absolute waarden van zowel het monster als populatie Pearson correlatiecoëfficiënten minder dan of gelijk aan 1. De correlaties gelijk is aan 1 of -1 komen overeen met gegevenspunten liggen precies op een lijn of een bivariabele verdeling volledig ondersteund op een lijn. De Pearson correlatiecoëfficiënt is symmetrisch: corr = corr.

Een belangrijke eigenschap van de wiskundige Pearson correlatiecoëfficiënt is dat het invariant veranderingen in locatie en omvang van de twee variabelen te scheiden. Dat is, kunnen we X transformeren a + bX transformeren Y tot c + dY, waarbij a, b, c en d constanten zijn met b, d & gt; 0, zonder de correlatiecoëfficiënt. Merk op dat meer algemene lineaire transformaties niet veranderen de correlatie: zie een latere sectie voor een toepassing van deze.

De Pearson correlatie kan worden uitgedrukt in termen van uncentered momenten. Sinds μX = E, σX = E = E - E en ook voor Y, en sinds

de correlatie kan ook worden geschreven als

Alternatieve formules voor de steekproef Pearson correlatiecoëfficiënt zijn ook beschikbaar:

De bovenstaande formule stelt een handige single-pass algoritme voor het berekenen monster correlaties, maar afhankelijk van de aantallen is het soms numeriek instabiel.

Interpretatie

De correlatiecoëfficiënt varieert van -1 tot 1. Een waarde van 1 betekent dat een lineaire vergelijking beschrijft de relatie tussen X en Y perfect, alle gegevenspunten liggend op een lijn waarvoor Y toeneemt als X toeneemt. Een waarde van -1 betekent dat alle gegevens punten op een lijn waarvoor Y afneemt als X toeneemt liggen. Een waarde van 0 betekent dat er geen lineair verband tussen de variabelen.

Meer in het algemeen rekening mee dat positief als en slechts als Xi en Yi liggen aan dezelfde zijde van de respectievelijke middelen. Dus de correlatiecoëfficiënt positief als Xi en Yi vaak tegelijkertijd groter dan of gelijktijdig kleiner dan hun voorziening. De correlatiecoëfficiënt negatief indien Xi en Yi meestal aan weerszijden van de respectievelijke middelen te liggen.

Meetkundige interpretatie

Voor uncentered data, is het mogelijk om een ​​verband tussen correlatiecoëfficiënt en de hoek tussen de beide mogelijke regressielijnen y = gx en x = gy verkrijgen. Men kan dat r = s -tan tonen.

Voor gecentreerde gegevens kan de correlatiecoëfficiënt ook worden gezien als de cosinus van de hoek tussen de twee vectoren van monsters van de twee willekeurige variabelen.

Zowel de uncentered en gecentreerd correlatiecoëfficiënten worden bepaald voor een dataset. Als voorbeeld, veronderstel vijf landen blijken BNP's van 1, 2, 3, 5 en 8 miljard dollar respectievelijk hebben. Veronderstel dezelfde vijf landen bleek 11%, 12%, 13%, 15% en 18% armoede. Dan laat x en y worden besteld 5-element vectoren die de bovenstaande gegevens: = x en y =.

Door de gebruikelijke procedure voor het vinden van de hoek tussen twee vectoren, de uncentered correlatiecoëfficiënt:

Merk op dat de bovenstaande gegevens met opzet gekozen om perfect gecorreleerd: y = 0,10 + 0,01 x. De Pearson correlatiecoëfficiënt moet daarom precies één. Centreren van de gegevens (verschuiven x per E = 3,8 en y door E = 0,138) = opbrengsten x en y =, waaruit

zoals verwacht.

Interpretatie van de grootte van een correlatie

Verschillende auteurs hebben aangeboden richtlijnen voor de interpretatie van een correlatiecoëfficiënt. Echter, al deze criteria zijn in sommige opzichten willekeurig en mag niet te strikt worden nageleefd. De interpretatie van een correlatiecoëfficiënt is afhankelijk van de context en de doeleinden. Een correlatie van 0,8 kan heel laag zijn als men het verifiëren van een natuurkundige wet met behulp van hoge-kwaliteit instrumenten, maar kan als zeer hoog in de sociale wetenschappen waar er een grotere bijdrage van de complicerende factoren kunnen worden beschouwd.

Pearson's afstand

Een afstand metric voor twee variabelen X en Y bekend als Pearson afstand kan worden gedefinieerd vanuit hun correlatiecoëfficiënt als

Gezien het feit dat de Pearson correlatiecoëfficiënt valt tussen de Pearson afstand ligt in.

Gevolgtrekking

Statistische gevolgtrekking basis van Pearson correlatiecoëfficiënt vaak gericht op een van de volgende twee doelen:

  • Een doel is om de nulhypothese dat de ware correlatiecoëfficiënt ρ gelijk is aan 0, op basis van de waarde van het monster correlatiecoëfficiënt r testen.
  • Het andere doel is om een ​​betrouwbaarheidsinterval rond r dat een bepaalde waarschijnlijkheid dat ρ heeft construeren.

We bespreken methoden om één van de onderstaande doelen of beide.

Gebruik een permutatie-test

Permutatietests een directe benadering van het uitvoeren hypothese te testen en bouwen van betrouwbaarheidsintervallen. Een permutatie test voor Pearson correlatiecoëfficiënt omvat de volgende twee stappen:

  • De oorspronkelijke gepaarde gegevens, willekeurig herdefiniëren de paren een nieuwe dataset, waarbij de i 'een permutatie van de verzameling {1, ..., n} maken. De permutatie i 'wordt willekeurig gekozen, gelijke waarschijnlijkheden die op alle n! mogelijke permutaties. Dit is gelijk aan het tekenen van de i "willekeurig" zonder vervanging "van de verzameling {1, ..., n}. Een nauw verwant en evenveel recht aanpak afzonderlijk trekken de i en i '"door vervanging" van {1, ..., n};
  • Teken een correlatiecoëfficiënt r van de gerandomiseerde data.

Om de permutatie test, herhaal stappen en een groot aantal keren uit te voeren. De p-waarde voor de permutatie test is de verhouding van de R waarden gegenereerd in stap die groter zijn dan de Pearson correlatiecoëfficiënt die werd berekend uit de oorspronkelijke gegevens. Hier "grotere" kan betekenen dat de waarde groter in magnitude of groter ingelogd waarde, afhankelijk van of een dubbelzijdige of enkelzijdige test is gewenst.

Gebruik een bootstrap

De bootstrap kan worden gebruikt om betrouwbaarheidsintervallen construct voor Pearson correlatiecoëfficiënt. In de "non-parametrische" bootstrap, zijn n pairs geresampled "door vervanging" van de waargenomen verzameling van n paren, en de correlatiecoëfficiënt r wordt berekend op basis van de geresampled data. Dit proces herhaalt zich een groot aantal malen en de empirische verdeling van de herbemonsterde r waarden worden gebruikt om de steekproefverdeling van de statistiek benaderen. Een 95% betrouwbaarheidsinterval voor ρ kan worden gedefinieerd als het interval variërend van 2,5 naar 97,5 percentiel van de geresampled r-waarden.

Testen met behulp van studentverdeling

Voor paren uit een niet-gecorreleerde bivariate normale verdeling, de bemonstering verdeling van Pearson's correlatiecoëfficiënt volgt studentverdeling met vrijheidsgraden n - 2. In het bijzonder, als de onderliggende variabelen hebben een bivariate normale verdeling, de variabele

een studentverdeling in het geval nul. Dit geldt ook ongeveer zelfs als de waargenomen waarden zijn niet-normale, mits steekproefomvang zijn niet erg klein. Ter bepaling van de kritische waarden van r de inverse van de transformatie ook nodig:

Als alternatief kan grote steekproef benaderingen worden gebruikt.

Vroege werk over de verdeling van de steekproef correlatiecoëfficiënt werd uitgevoerd door RA Fisher en AK Gayen uitgevoerd. Andere vroege papier biedt grafieken en tabellen voor de algemene waarden van ρ, voor kleine steekproeven, en bespreekt computationele benaderingen.

Gebruik de exacte verdeling

Voor gegevens die een bivariate normale verdeling volgt, de exacte dichtheidsfunctie het monster correlatie van een normale bivariate is

waar is de gamma-functie, is de Gauss-hypergeometrische functie. In het bijzondere geval dat de dichtheid kan worden geschreven als:

waarbij de beta functie, dat is een schrijfwijze de dichtheid van t-verdeling een Student, zoals hierboven.

Merk op dat, dus r is een bevooroordeelde schatter van. De unieke minimale variantie onpartijdige schatter wordt gegeven door. Een ongeveer zuivere schatter kan worden verkregen door het afkappen eerder genoemde serie en voor het oplossen van de vergelijking voor. De oplossing ,, suboptimaal. Een ongeveer zuivere schatter, met minimale variantie voor grote waarden van n, met een voorkeur van de orde, kunnen worden verkregen door het maximaliseren, dwz.

Gebruik de Fisher-transformatie

In de praktijk worden betrouwbaarheidsintervallen en hypothese testen met betrekking tot ρ meestal uitgevoerd met behulp van de Fisher transformatie:

Als F de Fisher transformatie van r, en n de steekproefomvang, dan F ongeveer volgt een normale verdeling met

Dus een z-score is

onder de nulhypothese dat, gezien de aanname dat de monsterparen onafhankelijk en identiek verdeeld en volgen bivariate normale verdeling. Zo een geschatte p-waarde kan worden verkregen uit een normale waarschijnlijkheidstabel. Bijvoorbeeld als z = 2,2 waargenomen en een tweezijdige p-waarde gewenst is de nulhypothese dat de p-waarde 2 · Φ = 0,028, waarbij Φ de standaard cumulatieve normale verdelingsfunctie testen.

Een betrouwbaarheidsinterval voor ρ te verkrijgen, hebben we eerst berekenen een betrouwbaarheidsinterval voor F:


De inverse Fisher-transformatie brengen de interval terug naar de correlatie schaal.


Stel bijvoorbeeld dat we waarnemen r = 0.3 met een steekproef van n = 50, en willen we een 95% betrouwbaarheidsinterval voor ρ verkrijgen. De getransformeerde waarde arctanh = 0,30952, zodat het betrouwbaarheidsinterval op de getransformeerde schaal 0,30952 ± 1.96 / √47 of. Omzetten terug naar de correlatie schaalopbrengsten.

Pearson's correlatie en kleinste kwadraten regressieanalyse

Het plein van de steekproef correlatiecoëfficiënt, meestal aangeduid r en riep de determinatiecoëfficiënt, schat de fractie van de variantie in Y die wordt verklaard door X op een eenvoudige lineaire regressie. Als uitgangspunt kan de totale verandering van de Yi rond de gemiddelde waarde daarvan als volgt ontleed

waar zijn de gemonteerde waarden uit de regressie-analyse. Dit kan worden herschikt om te geven

De twee summands bovenstaande zijn de fractie van de variantie in Y die wordt verklaard door X en dat is onverklaarbare door X.

Vervolgens hebben we een eigenschap van de minste vierkante regressie modellen toe te passen, dat het monster covariantie tussen en nul. Aldus kan het monster correlatiecoëfficiënt tussen de waargenomen en voorzien responswaarden in de regressie worden geschreven

Dus

is het percentage variantie in Y verklaard door een lineaire functie van X.

Gevoeligheid voor de datadistributie

Bestaan

De populatie Pearson correlatiecoëfficiënt wordt gedefinieerd in termen van momenten, en daarom bestaat voor alle bivariate kansverdeling waar het aantal covariantie wordt gedefinieerd en de marginale bevolking varianties gedefinieerd en niet nul zijn. Sommige kansverdelingen zoals de Cauchy distributie hebben variantie undefined en dus ρ wordt niet als X of Y volgt een dergelijke verdeling gedefinieerd. In praktische toepassingen, zoals die waarbij gegevens verdacht een zware-verdeling met volgen, is dit een belangrijke overweging. Het bestaan ​​van de correlatiecoëfficiënt is meestal geen probleem; bijvoorbeeld als het bereik van de verspreiding wordt begrensd, ρ wordt altijd gedefinieerd.

Grote steekproef woningen

Bij de bivariate normale verdeling, het monster correlatiecoëfficiënt de maximumschatting waarschijnlijkheid van de bevolking correlatiecoëfficiënt en is asymptotisch onpartijdige en efficiënt, die ruwweg betekent dat het onmogelijk is om een ​​nauwkeuriger schatting dan het monster correlatiecoëfficiënt als construeren de gegevens zijn normaal en de steekproefomvang is matig of groot. Voor niet-normale populatie, de steekproef correlatiecoëfficiënt blijft ongeveer onpartijdige, maar kan niet efficiënt zijn. Het monster correlatiecoëfficiënt is een consistente schatter van de bevolking correlatiecoëfficiënt zolang het monster middelen, varianties en covarianties consistent.

Robuustheid

Net als veel andere veelgebruikte statistieken, het monster statistiek r is niet robuust, zodat de waarde ervan misleidend kan zijn als uitschieters aanwezig zijn. Specifiek, de PMCC noch distributionally robuust, noch uitbijter resistent. Inspectie van de scatterplot tussen X en Y zal typisch onthullen een situatie waar een gebrek aan robuustheid een probleem zijn, en in dergelijke gevallen raadzaam om een ​​robuuste maat van associatie gebruikt kunnen worden. Merk echter op dat het merendeel robuuste schatters van vereniging maatregel statistische afhankelijkheid andere manier, zij in het algemeen niet interpreteerbaar op dezelfde schaal als de Pearson correlatiecoëfficiënt.

Statistische inferentie van Pearson correlatiecoëfficiënt is gevoelig voor de datadistributie. Exact test en asymptotische tests op basis van de Fisher transformatie kan worden toegepast indien de data benadering normaal verdeeld, maar anders is misleidend. In sommige situaties, kan de bootstrap worden toegepast betrouwbaarheidsintervallen construeren en permutatietests kunnen worden toegepast hypothesetests voeren. Deze niet-parametrische benaderingen kunnen meer zinvolle resultaten in sommige situaties bivariate normaliteit niet opgaat geven. Echter de standaard versie van deze benaderingen afhankelijk uitwisselbaarheid van de data betekent dat er geen bestellen of groeperen van data pairs geanalyseerd dat het gedrag van de correlatie schatting kunnen beïnvloeden.

Gelaagd analyse is een manier om zowel geschikt voor een gebrek aan bivariate normaliteit of de correlatie gevolg van een factor terwijl de controle een andere te isoleren. Als W clusterlidmaatschap of een andere factor die het wenselijk om controle is, kunnen we de gegevens op basis van de waarde van W stratificeren, bereken dan een correlatiecoëfficiënt binnen elk stratum. Het stratum-niveau schattingen kunnen vervolgens worden gecombineerd om een ​​schatting van de totale correlatie terwijl de controle voor W.

Het berekenen van een gewogen correlatie

Stel dat waarnemingen worden gecorreleerd hebben verschillende graden van belang dat kan worden uitgedrukt met een gewicht vector w. Om de correlatie tussen de vectoren x en y berekenen de gewichtsvector w,

  • Gewogen gemiddelde:
  • Gewogen covariantie
  • Gewogen correlatie

Het verwijderen van de correlatie

Het is altijd mogelijk om het verband tussen willekeurige variabelen verwijderen met een lineaire transformatie, zelfs als de relatie tussen de variabelen is lineair. Een presentatie van dit resultaat voor de bevolking distributies wordt gegeven door Cox & amp; Hinkley.

Een overeenkomstig resultaat bestaat correlaties monster, waarbij het monster correlatie gereduceerd tot nul. Stel dat een vector van n willekeurige variabelen m keer bemonsterd. Zij X een matrix waar is de jde variabele van het monster i. Laten een m bij m vierkante matrix met elk element 1. Dan is D de gegevens getransformeerd, zodat elke willekeurige variabele gemiddelde nul, en T de gegevens getransformeerd, zodat alle variabelen gemiddelde nul en nul correlatie met alle andere variabelen - het monster covariantie matrix van T zal de identiteitsmatrix is. Dit moet verder worden gedeeld door de standaardafwijking van de unit variantie te krijgen. De getransformeerde variabelen ongecorreleerd zijn, alhoewel zij niet onafhankelijk zijn.


waarbij een exponent van -1/2 representeert de matrix vierkantswortel van de inverse van een matrix. De covariantiematrix van T zal de identiteitsmatrix is. Wanneer een nieuw data sample x een rijvector van n elementen, dan dezelfde transformatie kan worden toegepast op x op de getransformeerde vectoren d en t krijgt:


Dit Decorrelation is gerelateerd aan voornaamste componenten analyse voor multivariate data.

Reflecterende correlatie

De reflecterende correlatie is een variant van Pearson correlatiecoëfficiënt waarin de gegevens niet zijn gecentreerd rond hun gemiddelde waarden. De bevolking reflecterende correlatie

De reflecterende correlatie symmetrisch, maar het is niet invariant onder vertaling:

Het monster reflecterende correlatie

De gewogen versie van het monster reflecterende correlatie

Geschaald correlatie

Geschaald correlatie is een variant van Pearson correlatiecoëfficiënt waarbij het bereik van de gegevens bedoeld en op gecontroleerde wijze beperkt correlaties tussen snel componenten openbaren tijdreeksen. Geschaald correlatie wordt gedefinieerd als de gemiddelde correlatie over korte segmenten van de gegevens.

Laten het aantal segmenten, die past in de totale lengte van het signaal voor een bepaalde schaal:

De geschaalde correlatie in de gehele signalen wordt dan berekend als

Waar is Pearson's correlatiecoëfficiënt voor segment.

Door het kiezen van de parameter, is het bereik van waarden verminderd en de wisselwerkingen op lange tijdschaal worden uitgefilterd, alleen de correlaties op korte tijdschalen geopenbaard. Zo is de bijdrage van langzame componenten verwijderd en die snelle bestanddelen behouden.

Zware geluidsoverlast voorwaarden

Onder zware omstandigheden lawaai, het extraheren van de correlatiecoëfficiënt tussen twee sets van de stochastische variabelen is triviaal, met name wanneer Canonical Correlatie Analyse rapporten op gedegradeerde correlatiewaarden te wijten aan de zware lawaai bijdragen. Een veralgemening van de aanpak wordt elders gegeven.

(0)
(0)
Commentaren - 0
Geen commentaar

Voeg een reactie

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tekens over: 3000
captcha