Hvis korrelationsværdien er 1. Statistik og databehandling i psykologi (fortsat)

KURSUSARBEJDE

Emne: Korrelationsanalyse

Introduktion

1. Korrelationsanalyse

1.1 Begrebet korrelation

1.2 Generel klassificering af korrelationer

1.3 Korrelationsfelter og formålet med deres konstruktion

1.4 Stadier af korrelationsanalyse

1.5 Korrelationskoefficienter

1.6 Normaliseret Bravais-Pearson korrelationskoefficient

1.7 Spearmans rangkorrelationskoefficient

1.8 Grundlæggende egenskaber ved korrelationskoefficienter

1.9 Kontrol af betydningen af ​​korrelationskoefficienter

1.10 Kritiske værdier af parrets korrelationskoefficient

2. Planlægning af et multifaktorielt eksperiment

2.1 Problemets tilstand

2.2 Bestemmelse af planens centrum (grundniveau) og niveauet for faktorvariation

2.3 Opbygning af planlægningsmatrix

2.4 Kontrol af homogeniteten af ​​spredning og ækvivalens af måling i forskellige serier

2.5 Regressionsligningskoefficienter

2.6 Reproducerbarhedsvarians

2.7 Kontrol af betydningen af ​​regressionsligningskoefficienter

2.8 Kontrol af tilstrækkeligheden af ​​regressionsligningen

Konklusion

Bibliografi

INTRODUKTION

Eksperimentel planlægning er en matematisk og statistisk disciplin, der studerer metoder til rationel tilrettelæggelse af eksperimentel forskning - fra det optimale valg af faktorer under undersøgelse og fastlæggelse af den egentlige forsøgsplan i overensstemmelse med dens formål til metoder til analyse af resultaterne. Eksperimentel planlægning begyndte med værker af den engelske statistiker R. Fisher (1935), som understregede, at rationel eksperimentel planlægning giver ikke mindre væsentlige gevinster i nøjagtigheden af ​​estimater end optimal behandling af måleresultater. I 60'erne af det 20. århundrede opstod den moderne teori om eksperimentel planlægning. Hendes metoder er tæt forbundet med funktionstilnærmelsesteori og matematisk programmering. Optimale planer blev konstrueret og deres egenskaber blev undersøgt for en bred klasse af modeller.

Eksperimentel planlægning er valget af en eksperimentel plan, der opfylder specificerede krav, et sæt handlinger rettet mod at udvikle en eksperimenteringsstrategi (fra indhentning af a priori information til opnåelse af en brugbar matematisk model eller bestemmelse af optimale betingelser). Dette er målrettet kontrol af et eksperiment, implementeret under forhold med ufuldstændig viden om mekanismen for det fænomen, der undersøges.

I processen med målinger, efterfølgende databehandling, samt formalisering af resultaterne i form af en matematisk model, opstår der fejl, og en del af informationen i de originale data går tabt. Brugen af ​​eksperimentelle planlægningsmetoder gør det muligt at bestemme fejlen i den matematiske model og bedømme dens tilstrækkelighed. Hvis modellens nøjagtighed viser sig at være utilstrækkelig, gør brugen af ​​eksperimentelle planlægningsmetoder det muligt at modernisere den matematiske model med yderligere eksperimenter uden at miste tidligere information og med minimale omkostninger.

Formålet med at planlægge et eksperiment er at finde sådanne betingelser og regler for udførelse af eksperimenter, hvorunder det er muligt at opnå pålidelige og pålidelige oplysninger om et objekt med den mindste mængde arbejde, samt at præsentere disse oplysninger i en kompakt og bekvem form med en kvantitativ vurdering af nøjagtigheden.

Blandt de vigtigste planlægningsmetoder brugt på forskellige stadier af undersøgelsen er:

Planlægning af et screeningseksperiment, hvis hovedbetydning er udvælgelsen fra hele sættet af faktorer af en gruppe af væsentlige faktorer, der er genstand for yderligere detaljeret undersøgelse;

Eksperimentelt design for ANOVA, dvs. udarbejdelse af planer for objekter med kvalitative faktorer;

Planlægning af et regressionseksperiment, der giver dig mulighed for at opnå regressionsmodeller (polynomium og andre);

Planlægning af et ekstremt eksperiment, hvor hovedopgaven er eksperimentel optimering af forskningsobjektet;

Planlægning ved undersøgelse af dynamiske processer mv.

Formålet med at studere disciplinen er at forberede eleverne til produktion og tekniske aktiviteter i deres speciale ved hjælp af metoder til planlægningsteori og moderne informationsteknologi.

Mål for disciplinen: undersøgelse af moderne metoder til planlægning, organisering og optimering af videnskabelige og industrielle eksperimenter, udførelse af eksperimenter og bearbejdning af de opnåede resultater.

1. KRRELATIONSANALYSE

1.1 Begrebet korrelation

En forsker er ofte interesseret i, hvordan to eller flere variable er relateret til hinanden i en eller flere prøver, der undersøges. Kan højde for eksempel påvirke en persons vægt, eller kan blodtryk påvirke produktkvaliteten?

Denne form for afhængighed mellem variable kaldes korrelation eller korrelation. En korrelation er en konsekvent ændring i to karakteristika, hvilket afspejler det faktum, at variabiliteten af ​​den ene egenskab er i overensstemmelse med den andens variabilitet.

Man ved for eksempel, at der i gennemsnit er en positiv sammenhæng mellem personers højde og deres vægt, og sådan at jo større højden er, jo større er personens vægt. Der er dog undtagelser fra denne regel, når relativt korte mennesker er overvægtige, og omvendt har asteniske personer med høj statur lav vægt. Årsagen til sådanne undtagelser er, at hvert biologisk, fysiologisk eller psykologisk tegn bestemmes af indflydelsen af ​​mange faktorer: miljømæssige, genetiske, sociale, miljømæssige osv.

Korrelationsforbindelser er probabilistiske ændringer, der kun kan studeres på repræsentative prøver ved hjælp af matematisk statistik. Begge udtryk - korrelationslink og korrelationsafhængighed - bruges ofte i flæng. Afhængighed indebærer indflydelse, forbindelse - enhver koordineret forandring, der kan forklares af hundredvis af årsager. Korrelationsforbindelser kan ikke betragtes som bevis for en årsag-virkning-sammenhæng, de indikerer kun, at ændringer i en egenskab normalt ledsages af visse ændringer i en anden.

Korrelationsafhængighed - Disse er ændringer, der introducerer værdierne af en egenskab i sandsynligheden for forekomsten af ​​forskellige værdier af en anden karakteristik.

Opgaven med korrelationsanalyse kommer ned til at etablere retningen (positiv eller negativ) og form (lineær, ikke-lineær) af forholdet mellem varierende karakteristika, måling af dens nærhed og endelig kontrol af signifikansniveauet af de opnåede korrelationskoefficienter.

Korrelationsforbindelser varierer i form, retning og grad (styrke) .

Formen af ​​korrelationsforholdet kan være lineær eller krumlinjet. For eksempel kan forholdet mellem antallet af træningssessioner på simulatoren og antallet af korrekt løste problemer i kontrolsessionen være ligetil. For eksempel kan forholdet mellem motivationsniveauet og effektiviteten af ​​en opgave være krumlinjet (figur 1). Efterhånden som motivationen stiger, øges effektiviteten af ​​at udføre en opgave først, derefter opnås det optimale motivationsniveau, hvilket svarer til den maksimale effektivitet ved at udføre opgaven; En yderligere stigning i motivationen er ledsaget af et fald i effektiviteten.

Figur 1 - Sammenhæng mellem effektiviteten af ​​problemløsning og styrken af ​​motiverende tendenser

I retning kan korrelationsforholdet være positivt (“direkte”) og negativt (“invers”). Med en positiv lineær korrelation svarer højere værdier af en karakteristik til højere værdier af en anden, og lavere værdier af en karakteristik svarer til lave værdier af en anden (figur 2). Med en negativ korrelation er sammenhængene omvendte (figur 3). Med en positiv korrelation har korrelationskoefficienten et positivt fortegn, med en negativ korrelation har den et negativt fortegn.

Figur 2 – Direkte korrelation

Figur 3 – Invers korrelation


Figur 4 – Ingen sammenhæng

Graden, styrken eller nærheden af ​​korrelationen bestemmes af værdien af ​​korrelationskoefficienten. Styrken af ​​forbindelsen afhænger ikke af dens retning og bestemmes af den absolutte værdi af korrelationskoefficienten.

1.2 Generel klassificering af korrelationer

Afhængigt af korrelationskoefficienten skelnes følgende korrelationer:

Stærk eller tæt med en korrelationskoefficient r>0,70;

Gennemsnit (ved 0,50

Moderat (kl. 0.30

Svag (ved 0,20

Meget svag (ved r<0,19).

1.3 Korrelationsfelter og formålet med deres konstruktion

Korrelation studeres på grundlag af eksperimentelle data, som er de målte værdier (xi, y i) af to karakteristika. Hvis der er få eksperimentelle data, er den todimensionelle empiriske fordeling repræsenteret som en dobbelt række af værdier x i og y i. Samtidig kan korrelationsafhængigheden mellem karakteristika beskrives på forskellige måder. Korrespondancen mellem et argument og en funktion kan gives af en tabel, formel, graf osv.

Korrelationsanalyse er ligesom andre statistiske metoder baseret på brugen af ​​probabilistiske modeller, der beskriver adfærden af ​​de undersøgte egenskaber i en bestemt generel population, hvorfra de eksperimentelle værdier xi og y i er opnået. Når man studerer sammenhængen mellem kvantitative egenskaber, hvis værdier kan måles nøjagtigt i enheder af metriske skalaer (meter, sekunder, kilogram osv.), bliver en todimensionel normalfordelt befolkningsmodel meget ofte vedtaget. En sådan model viser forholdet mellem variablerne x i og y i grafisk i form af en geometrisk placering af punkter i et system af rektangulære koordinater. Dette grafiske forhold kaldes også et scatterplot eller korrelationsfelt.
Denne model af en todimensionel normalfordeling (korrelationsfelt) giver os mulighed for at give en klar grafisk fortolkning af korrelationskoefficienten, fordi fordelingen i alt afhænger af fem parametre: μ x, μ y - gennemsnitsværdier (matematiske forventninger); σ x ,σ y – standardafvigelser for stokastiske variable X og Y og p – korrelationskoefficient, som er et mål for sammenhængen mellem stokastiske variable X og Y.
Hvis p = 0, så er værdierne x i, y i opnået fra en todimensionel normalpopulation placeret på grafen i koordinaterne x, y inden for området begrænset af cirklen (figur 5, a). I dette tilfælde er der ingen sammenhæng mellem de stokastiske variable X og Y, og de kaldes ukorrelerede. For en todimensionel normalfordeling betyder ukorrelerethed samtidig uafhængighed af stokastiske variable X og Y.

Korrelationskoefficient er en værdi, der kan variere fra +1 til –1. I tilfælde af en fuldstændig positiv korrelation er denne koefficient lig med plus 1 (de siger, at når værdien af ​​en variabel stiger, stiger værdien af ​​en anden variabel), og i tilfælde af en fuldstændig negativ korrelation er den minus 1 (angiver feedback, dvs. når værdierne af en variabel stiger, falder værdierne af den anden).

Eks.1:

Graf over forholdet mellem generthed og depression. Som vi kan se, er punkterne (emnerne) ikke placeret kaotisk, men stiller sig op ad en linje, og ser vi på denne linje, kan vi sige, at jo højere en persons generthed er, jo større er depressionen, dvs. disse fænomener er indbyrdes forbundne.

Ex2: Diagram for generthed og selskabelighed. Vi ser, at efterhånden som genertheden øges, falder selskabeligheden. Deres korrelationskoefficient er -0,43. En korrelationskoefficient større end 0 til 1 indikerer således en direkte proportional sammenhæng (jo mere... jo mere...), og en koefficient fra -1 til 0 indikerer en omvendt proportional sammenhæng (jo mere... jo mindre. ..)

Hvis korrelationskoefficienten er 0, er begge variabler fuldstændig uafhængige af hinanden.

Korrelation- dette er et forhold, hvor virkningen af ​​individuelle faktorer kun vises som en tendens (i gennemsnit) under masseobservation af faktiske data. Eksempler på korrelationsafhængigheder kan være afhængighederne mellem størrelsen af ​​bankens aktiver og størrelsen af ​​bankens overskud, væksten i arbejdsproduktiviteten og medarbejdernes anciennitet.

To systemer bruges til at klassificere korrelationer efter deres styrke: generelle og specifikke.

Generel klassificering af korrelationer: 1) stærk, eller tæt med en korrelationskoefficient r>0,70;

Følgende tabel viser navnene på korrelationskoefficienterne for forskellige typer skalaer.

Dikotom skala (1/0) Rang (ordinær) skala
Dikotom skala (1/0) Pearsons associationskoefficient, Pearsons fire-cellede kontingenskoefficient. Biseriel korrelation
Rang (ordinær) skala Rang-biseriel korrelation. Spearman eller Kendall rang korrelationskoefficient.
Interval og absolut skala Biseriel korrelation Værdierne af intervalskalaen konverteres til rækker, og rangkoefficienten bruges Pearson korrelationskoefficient (lineær korrelationskoefficient)

r=0 Der er ingen lineær sammenhæng. I dette tilfælde falder gruppemiddelværdierne for variablerne sammen med deres overordnede middelværdier, og regressionslinjerne er parallelle med koordinatakserne.

Lighed r=0 taler kun om fraværet af en lineær korrelationsafhængighed (ukorrelerede variabler), men ikke generelt om fraværet af en korrelation, og endnu mere en statistisk afhængighed.

Nogle gange er en konstatering af ingen korrelation vigtigere end tilstedeværelsen af ​​en stærk korrelation. En nulkorrelation mellem to variable kan indikere, at der ikke er nogen indflydelse af den ene variabel på den anden, forudsat at vi stoler på måleresultaterne.

I SPSS: 11.3.2 Korrelationskoefficienter

Indtil nu har vi kun klarlagt det faktum, at der eksisterer en statistisk sammenhæng mellem to karakteristika. Dernæst vil vi forsøge at finde ud af, hvilke konklusioner der kan drages om styrken eller svagheden af ​​denne afhængighed, såvel som om dens type og retning. Kriterier for at kvantificere forholdet mellem variabler kaldes korrelationskoefficienter eller mål for forbindelse. To variable er positivt korrelerede, hvis der er en direkte, ensrettet sammenhæng mellem dem. I et ensrettet forhold svarer små værdier af en variabel til små værdier af en anden variabel, og store værdier svarer til store værdier. To variable korrelerer negativt med hinanden, hvis der er en omvendt, multidirektionel sammenhæng mellem dem. Med et multidirektional forhold svarer små værdier af en variabel til store værdier af en anden variabel og omvendt. Værdierne af korrelationskoefficienter ligger altid i området fra -1 til +1.

Spearman-koefficienten bruges som en korrelationskoefficient mellem variabler, der tilhører en ordinalskala, og Pearson-korrelationskoefficienten (moment of products) bruges til variabler, der tilhører en intervalskala. Det skal tages i betragtning, at hver dikotom variabel, det vil sige en variabel, der tilhører en nominel skala og har to kategorier, kan betragtes som ordinal.

Først vil vi kontrollere, om der er en sammenhæng mellem køns- og psykevariablerne fra studium.sav-filen. Samtidig vil vi tage højde for, at den dikotomiske variabel køn kan betragtes som ordinal. Følg disse trin:

· Vælg fra kommandomenuen Analyser beskrivende statistik krydstabeller...

· Flyt variablen køn til listen over rækker og variablen psyke til listen over kolonner.

· Klik på knappen Statistik.... I dialogboksen Krydstabler: Statistik skal du markere afkrydsningsfeltet Korrelationer. Bekræft dit valg med knappen Fortsæt.

· I dialogboksen Krydstabler skal du deaktivere visningen af ​​tabeller ved at markere afkrydsningsfeltet Undertryk tabeller. Klik på OK.

Spearman og Pearson korrelationskoefficienter vil blive beregnet og deres signifikans testet:

/ SPSS 10

Opgave nr. 10 Korrelationsanalyse

Begrebet korrelation

Korrelation eller korrelationskoefficient er en statistisk indikator probabilistisk sammenhænge mellem to variable målt på kvantitative skalaer. I modsætning til et funktionelt forhold, hvor hver værdi af en variabel svarer strengt defineret værdien af ​​en anden variabel, probabilistisk sammenhæng kendetegnet ved, at hver værdi af en variabel svarer flere betydninger en anden variabel Et eksempel på et sandsynlighedsforhold er forholdet mellem menneskers højde og vægt. Det er klart, at folk med forskellig vægt kan have samme højde og omvendt.

Korrelation er en værdi, der går fra -1 til + 1 og er angivet med bogstavet r. Desuden, hvis værdien er tættere på 1, betyder det tilstedeværelsen af ​​en stærk forbindelse, og hvis den er tættere på 0, så er den svag. En korrelationsværdi på mindre end 0,2 betragtes som en svag korrelation, og en værdi større end 0,5 betragtes som en høj korrelation. Hvis korrelationskoefficienten er negativ, betyder det, at der er feedback: Jo højere værdien af ​​den ene variabel er, jo lavere værdien af ​​den anden.

Afhængigt af de accepterede værdier af koefficienten r kan der skelnes mellem forskellige typer korrelation:

Streng positiv korrelation bestemt af værdien r=1. Udtrykket "streng" betyder, at værdien af ​​en variabel er unikt bestemt af værdierne af en anden variabel, og udtrykket " positiv" - at når værdierne af en variabel stiger, stiger værdierne af en anden variabel også.

Streng korrelation er en matematisk abstraktion og forekommer praktisk talt aldrig i virkelig forskning.

Positiv sammenhæng svarer til værdier 0

Ingen sammenhæng bestemt af værdien r=0. En nulkorrelationskoefficient indikerer, at værdierne af variablerne på ingen måde er relateret til hinanden.

Ingen sammenhæng H o : 0 r xy =0 formuleret som en refleksion nul hypoteser i korrelationsanalyse.

Negativ sammenhæng: -1

Streng negativ korrelation bestemt af værdien r= -1. Det er ligesom en streng positiv sammenhæng en abstraktion og kommer ikke til udtryk i praktisk forskning.

tabel 1

Typer af korrelation og deres definitioner

Metoden til beregning af korrelationskoefficienten afhænger af den type skala, hvorpå de variable værdier måles.

Korrelationskoefficient rPearson er grundlæggende og kan bruges til variable med nominelle og delvist ordnede intervalskalaer, hvor fordelingen af ​​værdier svarer til normalen (produktmomentkorrelation). Pearson-korrelationskoefficienten giver ret nøjagtige resultater i tilfælde af unormale fordelinger.

For fordelinger, der ikke er normale, er det at foretrække at bruge Spearman og Kendall rangkorrelationskoefficienter. De er rangeret, fordi programmet forudrangerer de korrelerede variable.

SPSS-programmet beregner Spearman-korrelationen som følger: først konverteres variablerne til rækker, og derefter anvendes Pearson-formlen på rækkerne.

Grundlaget for korrelationen foreslået af M. Kendall er ideen om, at retningen af ​​forbindelsen kan bedømmes ved at sammenligne forsøgspersoner i par. Hvis ændringen i X for et par emner falder sammen i retning med ændringen i Y, så indikerer dette en positiv sammenhæng. Hvis det ikke passer, så er der en negativ forbindelse. Denne koefficient bruges hovedsageligt af psykologer, der arbejder med små prøver. Da sociologer arbejder med store mængder data, er det vanskeligt at optælle par og identificere forskellen i relative frekvenser og inversioner af alle par af forsøgspersoner i prøven. Den mest almindelige er koefficienten. Pearson.

Da Pearson-korrelationskoefficienten r er grundlæggende og kan bruges (med en vis fejl afhængig af skalatypen og niveauet af abnormitet i fordelingen) for alle variable målt på kvantitative skalaer, lad os overveje eksempler på dens anvendelse og sammenligne de opnåede resultater med resultaterne af målinger ved hjælp af andre korrelationskoefficienter.

Formel til beregning af koefficienten r- Pearson:

r xy = ∑ (Xi-Xavg)∙(Yi-Yavg) / (N-1)∙σ x ∙σ y ∙

Hvor: Xi, Yi - Værdier af to variable;

Xavg, Yavg - gennemsnitlige værdier af to variable;

σ x, σ y – standardafvigelser,

N er antallet af observationer.

Parvise korrelationer

For eksempel vil vi gerne finde ud af, hvordan svarene hænger sammen mellem forskellige typer af traditionelle værdier i elevernes ideer om et ideelt sted at arbejde (variabler: a9.1, a9.3, a9.5, a9.7) , og så om sammenhængen mellem liberale værdier (a9 .2, a9.4. a9.6, a9.8). Disse variabler måles på 5-elements ordnede skalaer.

Vi bruger proceduren: "Analyse",  "Korrelationer",  "Parret". Standardkoefficient Pearson er indstillet i dialogboksen. Vi bruger koefficienten. Pearson

De testede variable overføres til valgvinduet: a9.1, a9.3, a9.5, a9.7

Ved at klikke på OK får vi udregningen:

Korrelationer

a9.1.t. Hvor vigtigt er det at have tid nok til familie og privatliv?

Pearson korrelation

Værdi (2 sider)

a9.3.t. Hvor vigtigt er det ikke at være bange for at miste sit job?

Pearson korrelation

Værdi (2 sider)

a9.5.t. Hvor vigtigt er det at have en chef, der vil rådføre sig med dig, når du træffer denne eller hin beslutning?

Pearson korrelation

Værdi (2 sider)

a9.7.t. Hvor vigtigt er det at arbejde i et velkoordineret team og føle sig som en del af det?

Pearson korrelation

Værdi (2 sider)

** Korrelation er signifikant på 0,01-niveauet (2-sidet).

Tabel over kvantitative værdier af den konstruerede korrelationsmatrix

Delvise sammenhænge:

Lad os først bygge en parvis korrelation mellem disse to variable:

Korrelationer

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

Pearson korrelation

Værdi (2 sider)

s12. Føl dig tæt på din familie

Pearson korrelation

Værdi (2 sider)

**. Korrelationen er signifikant på 0,01-niveauet (2-sidet).

Derefter bruger vi proceduren til at konstruere en partiel korrelation: "Analyse",  "Korrelationer",  "Delvis".

Lad os antage, at værdien "Det er vigtigt selvstændigt at bestemme og ændre rækkefølgen af ​​dit arbejde" i forhold til de specificerede variabler viser sig at være den afgørende faktor, hvorunder det tidligere identificerede forhold vil forsvinde eller vise sig at være ubetydelig.

Korrelationer

Udelukkede variabler

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

s12. Føl dig tæt på din familie

s16. Føl dig tæt på mennesker, der har samme indkomst som dig

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

Korrelation

Betydning (2-sidet)

s12. Føl dig tæt på din familie

Korrelation

Betydning (2-sidet)

Som det kan ses af tabellen, faldt forholdet lidt under indflydelse af kontrolvariablen: fra 0,120 til 0,102, men dette lille fald tillader os ikke at fastslå, at det tidligere identificerede forhold er en afspejling af en falsk korrelation. fordi den forbliver ret høj og giver os mulighed for at forkaste nulhypotesen med nul fejl.

Korrelationskoefficient

Den mest nøjagtige måde at bestemme nærhed og karakter af korrelationen er at finde korrelationskoefficienten. Korrelationskoefficienten er et tal bestemt af formlen:


hvor r xy er korrelationskoefficienten;

x i - værdier af den første karakteristik;

y i er værdierne af den anden attribut;

Aritmetisk middelværdi af værdierne af den første karakteristik

Aritmetisk middelværdi af værdierne af den anden karakteristik

For at bruge formel (32), vil vi bygge en tabel, der vil give den nødvendige konsistens i forberedelsen af ​​tal for at finde tælleren og nævneren af ​​korrelationskoefficienten.

Som det kan ses af formel (32), er rækkefølgen af ​​handlinger som følger: vi finder de aritmetiske gennemsnit af både karakteristika x og y, vi finder forskellen mellem værdierne af attributten og dens gennemsnit (x i - ) og y i - ), så finder vi deres produkt (x i - ) ( y i - ) – summen af ​​sidstnævnte giver tælleren for korrelationskoefficienten. For at finde dens nævner skal forskellene (x i - ) og (y i - ) kvadreres, deres summer skal findes, og kvadratroden af ​​deres produkt skal tages.

Så for eksempel 31, at finde korrelationskoefficienten i overensstemmelse med formel (32) kan repræsenteres som følger (tabel 50).

Det resulterende nummer af korrelationskoefficienten gør det muligt at fastslå tilstedeværelsen, nærheden og arten af ​​forbindelsen.

1. Hvis korrelationskoefficienten er nul, er der ingen sammenhæng mellem egenskaberne.

2. Hvis korrelationskoefficienten er lig med én, er sammenhængen mellem karakteristikaene så stor, at den bliver til en funktionel.

3. Den absolutte værdi af korrelationskoefficienten går ikke ud over intervallet fra nul til en:

Dette gør det muligt at fokusere på forbindelsens nærhed: Jo tættere koefficienten er på nul, jo svagere forbindelse, og jo tættere på enhed, jo tættere er forbindelsen.

4. Korrelationskoefficientens "plus"-tegnet betyder direkte korrelation, "minus"-tegnet betyder invers korrelation.

Bord 50

x i y i (x i - ) (у i - ) (x i - )(y i - ) (x i - )2 (у i - )2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Korrelationskoefficienten beregnet i eksempel 31 er således r xy = +0,9. giver os mulighed for at drage følgende konklusioner: der er en sammenhæng mellem størrelsen af ​​muskelstyrken af ​​højre og venstre hånd hos de undersøgte skolebørn (koefficient r xy =+0,9 er forskellig fra nul), forholdet er meget tæt (koefficient r xy =+0,9 er tæt på én) , korrelationen er direkte (koefficient r xy = +0,9 er positiv), dvs. med en stigning i muskelstyrken på en af ​​hænderne, øges styrken af ​​den anden hånd.

Når man beregner korrelationskoefficienten og bruger dens egenskaber, skal det tages i betragtning, at konklusionerne giver korrekte resultater, når egenskaberne er normalfordelte, og når forholdet mellem et stort antal værdier af begge karakteristika overvejes.

I det betragtede eksempel 31 blev kun 7 værdier af begge egenskaber analyseret, hvilket naturligvis ikke er nok til sådanne undersøgelser. Vi minder dig her endnu en gang om, at eksemplerne i denne bog generelt og i dette kapitel i særdeleshed har karakter af at illustrere metoder, og ikke en detaljeret præsentation af eventuelle videnskabelige eksperimenter. Som et resultat blev et lille antal funktionsværdier overvejet, målinger blev afrundet - alt dette blev gjort, så besværlige beregninger ikke slørede ideen om metoden.

Der bør lægges særlig vægt på essensen af ​​det forhold, der overvejes. Korrelationskoefficienten kan ikke føre til korrekte forskningsresultater, hvis sammenhængen mellem karakteristika analyseres formelt. Lad os vende tilbage til eksempel 31. Begge betragtede tegn var værdierne for muskelstyrke i højre og venstre hånd. Lad os forestille os, at vi ved fortegn x i i eksempel 31 (14,0; 14,2; 14,9... ...18,1) mener længden af ​​tilfældigt fangede fisk i centimeter, og med fortegn y i (12,1 ; 13,8; 14,2... ... 17.4) - vægt af instrumenter i laboratoriet i kilogram. Efter formelt at have brugt beregningsapparatet til at finde korrelationskoefficienten og i dette tilfælde også opnået r xy =+0>9, måtte vi konkludere, at der er en tæt direkte sammenhæng mellem fiskens længde og vægten af ​​instrumenterne. Meningsløsheden af ​​en sådan konklusion er indlysende.

For at undgå en formel tilgang til at bruge korrelationskoefficienten, bør man bruge enhver anden metode - matematisk, logisk, eksperimentel, teoretisk - til at identificere muligheden for eksistensen af ​​en korrelation mellem karakteristika, det vil sige at opdage den organiske enhed af karakteristika. Først herefter kan man begynde at bruge korrelationsanalyse og fastslå sammenhængens størrelse og karakter.

I matematisk statistik er der også begrebet multipel korrelation- forhold mellem tre eller flere karakteristika. I disse tilfælde anvendes en multipel korrelationskoefficient, bestående af de parrede korrelationskoefficienter beskrevet ovenfor.

For eksempel er korrelationskoefficienten for tre karakteristika - x i, y i, z i -:

hvor R xyz er den multiple korrelationskoefficient, der udtrykker, hvordan træk x i afhænger af træk y i og z i;

r xy - korrelationskoefficient mellem karakteristika xi og yi;

r xz - korrelationskoefficient mellem karakteristika Xi og Zi;

r yz - korrelationskoefficient mellem træk y i, z i

Korrelationsanalyse er:

Korrelationsanalyse

Korrelation- statistisk sammenhæng mellem to eller flere tilfældige variable (eller variabler, der kan betragtes som sådanne med en acceptabel grad af nøjagtighed). I dette tilfælde fører ændringer i en eller flere af disse mængder til en systematisk ændring af en anden eller andre mængder. Et matematisk mål for korrelationen mellem to stokastiske variable er korrelationskoefficienten.

Korrelationen kan være positiv og negativ (det er også muligt, at der ikke er nogen statistisk sammenhæng - f.eks. for uafhængige stokastiske variable). Negativ sammenhæng - korrelation, hvor en stigning i en variabel er forbundet med et fald i en anden variabel, og korrelationskoefficienten er negativ. Positiv sammenhæng - korrelation, hvor en stigning i en variabel er forbundet med en stigning i en anden variabel, og korrelationskoefficienten er positiv.

Autokorrelation - statistisk sammenhæng mellem stokastiske variable fra samme serie, men taget med et skift, for eksempel for en tilfældig proces - med et tidsskift.

Metoden til behandling af statistiske data, som består i at studere koefficienterne (korrelationen) mellem variabler, kaldes korrelationsanalyse.

Korrelationskoefficient

Korrelationskoefficient eller par korrelationskoefficient i sandsynlighedsteori og statistik er det en indikator for arten af ​​ændringen i to stokastiske variable. Korrelationskoefficienten er angivet med det latinske bogstav R og kan have værdier mellem -1 og +1. Hvis den absolutte værdi er tættere på 1, betyder det tilstedeværelsen af ​​en stærk forbindelse (hvis korrelationskoefficienten er lig med en, taler vi om en funktionel forbindelse), og hvis den er tættere på 0, så er den svag.

Pearson korrelationskoefficient

For metriske mængder bruges Pearson-korrelationskoefficienten, hvis nøjagtige formel blev introduceret af Francis Galton:

Lade x,Y- to stokastiske variable defineret på samme sandsynlighedsrum. Så er deres korrelationskoefficient givet ved formlen:

,

hvor cov angiver kovarians og D er varians eller tilsvarende,

,

hvor symbolet angiver den matematiske forventning.

For grafisk at repræsentere et sådant forhold kan man bruge et rektangulært koordinatsystem med akser, der svarer til begge variable. Hvert par værdier er markeret med et specifikt symbol. Denne graf kaldes et "scatterplot".

Metoden til beregning af korrelationskoefficienten afhænger af, hvilken type skala, variablerne tilhører. For at måle variabler med interval og kvantitative skalaer er det således nødvendigt at bruge Pearson-korrelationskoefficienten (produktmomentkorrelation). Hvis mindst en af ​​de to variable er på en ordinalskala eller ikke er normalfordelt, skal Spearmans rangkorrelation eller Kendals τ (tau) bruges. I det tilfælde, hvor en af ​​de to variable er dikotom, anvendes en punkt-biseriel korrelation, og hvis begge variable er dikotom: en firefeltskorrelation. Beregning af korrelationskoefficienten mellem to ikke-dikotome variable er kun meningsfuld, når forholdet mellem dem er lineært (envejs).

Kendell korrelationskoefficient

Bruges til at måle gensidig uorden.

Spearman korrelationskoefficient

Korrelationskoefficientens egenskaber

  • Cauchy-Bunyakovsky ulighed:
hvis vi tager kovarians som skalarproduktet af to stokastiske variable, så vil normen for den stokastiske variabel være lig med , og konsekvensen af ​​Cauchy-Bunyakovsky-uligheden vil være: . , Hvor . Desuden i dette tilfælde tegnene og k

matche: .

Korrelationsanalyse Korrelationsanalyse - metode til behandling af statistiske data, som består i at studere koefficienter ( sammenhænge

) mellem variabler. I dette tilfælde sammenlignes korrelationskoefficienter mellem et par eller mange par af karakteristika for at etablere statistiske sammenhænge mellem dem. Mål korrelationsanalyse - give nogle oplysninger om en variabel ved hjælp af en anden variabel. I tilfælde, hvor det er muligt at opnå et mål, siges variablerne at være korrelere . I sin mest generelle form betyder accept af hypotesen om en korrelation, at en ændring i værdien af ​​variabel A vil ske samtidig med en proportional ændring i værdien af ​​B: hvis begge variable stiger, så sammenhængen er positiv hvis en variabel stiger og den anden falder,.

Korrelation afspejler kun den lineære afhængighed af værdier, men afspejler ikke deres funktionelle forbindelse. For eksempel hvis man beregner korrelationskoefficienten mellem størrelserne EN = sjegn(x) Og B = cos(x), så vil den være tæt på nul, dvs. der er ingen afhængighed mellem mængderne. I mellemtiden er mængderne A og B åbenbart forbundet funktionelt ifølge loven sjegn 2(x) + cos 2(x) = 1.

Begrænsninger af korrelationsanalyse



Grafer over fordelinger af par (x,y) med de tilsvarende korrelationskoefficienter x og y for hver af dem. Bemærk, at korrelationskoefficienten afspejler en lineær sammenhæng (øverste linje), men ikke beskriver en sammenhængskurve (midterlinje), og slet ikke er egnet til at beskrive komplekse, ikke-lineære sammenhænge (nederste linje).
  1. Anvendelse er mulig, hvis der er et tilstrækkeligt antal tilfælde til undersøgelse: for en bestemt type varierer korrelationskoefficienten fra 25 til 100 par observationer.
  2. Den anden begrænsning følger af korrelationsanalysehypotesen, som bl.a lineær afhængighed af variable. I mange tilfælde, hvor det er pålideligt kendt, at der eksisterer en sammenhæng, vil korrelationsanalyse muligvis ikke give resultater, blot fordi sammenhængen er ikke-lineær (udtrykt f.eks. som en parabel).
  3. Den blotte kendsgerning af korrelation giver ikke grundlag for at hævde, hvilken af ​​variablerne der går forud for eller forårsager ændringer, eller at variablerne generelt er kausalt relateret til hinanden, for eksempel på grund af en tredje faktors virkning.

Anvendelsesområde

Denne metode til behandling af statistiske data er meget populær i økonomi og samfundsvidenskab (især i psykologi og sociologi), selvom anvendelsesområdet for korrelationskoefficienter er omfattende: kvalitetskontrol af industrielle produkter, metallurgi, agrokemi, hydrobiologi, biometri og andre.

Metodens popularitet skyldes to faktorer: Korrelationskoefficienter er relativt lette at beregne, og deres anvendelse kræver ikke særlig matematisk træning. Kombineret med dens lette fortolkning har koefficientens lette anvendelse ført til dens udbredte brug inden for statistisk dataanalyse.

Falsk sammenhæng

Ofte tilskynder den fristende enkelhed af korrelationsforskning forskeren til at drage falske intuitive konklusioner om tilstedeværelsen af ​​en årsag-virkning-sammenhæng mellem par af karakteristika, mens korrelationskoefficienter kun etablerer statistiske sammenhænge.

Moderne kvantitativ samfundsvidenskabelig metodologi har faktisk opgivet forsøg på at etablere årsag-og-virkning-forhold mellem observerede variabler ved hjælp af empiriske metoder. Når forskere i samfundsvidenskaberne taler om at etablere sammenhænge mellem de variabler, der undersøges, antydes der derfor enten en generel teoretisk antagelse eller en statistisk afhængighed.

se også

  • Autokorrelationsfunktion
  • Krydskorrelationsfunktion
  • Kovarians
  • Bestemmelseskoefficient
  • Regressions analyse

Wikimedia Foundation. 2010.

Korrelationskoefficienten er graden af ​​sammenhæng mellem to variable. Dens beregning giver en idé om, hvorvidt der er en sammenhæng mellem to datasæt. I modsætning til regression forudsiger korrelation ikke værdierne af mængder. Beregning af koefficienten er dog et vigtigt skridt i den foreløbige statistiske analyse. For eksempel fandt vi, at korrelationskoefficienten mellem niveauet af udenlandske direkte investeringer og BNP-væksten er høj. Det giver os ideen om, at for at sikre velstand er det nødvendigt at skabe et gunstigt klima specifikt for udenlandske iværksættere. Ikke sådan en indlysende konklusion ved første øjekast!

Korrelation og kausalitet

Måske er der ikke et eneste område af statistik, der er blevet så fast etableret i vores liv. Korrelationskoefficienten bruges på alle områder af social viden. Dens største fare er, at dens høje værdier ofte spekuleres i for at overbevise folk og få dem til at tro på nogle konklusioner. Men faktisk indikerer en stærk korrelation slet ikke en årsag-virkning sammenhæng mellem mængder.

Korrelationskoefficient: Pearson og Spearman formel

Der er flere grundlæggende indikatorer, der karakteriserer sammenhængen mellem to variable. Historisk set er den første Pearson lineære korrelationskoefficient. Det undervises i skolen. Det blev udviklet af K. Pearson og J. Yule baseret på arbejdet fra Fr. Galton. Denne koefficient giver dig mulighed for at se sammenhængen mellem rationelle tal, der ændrer sig rationelt. Det er altid større end -1 og mindre end 1. Et negativt tal angiver en omvendt proportional sammenhæng. Hvis koefficienten er nul, er der ingen sammenhæng mellem variablerne. Lige til et positivt tal - der er en direkte proportional sammenhæng mellem de undersøgte mængder. Spearmans rangkorrelationskoefficient giver dig mulighed for at forenkle beregninger ved at opbygge et hierarki af variable værdier.

Relationer mellem variable

Korrelation hjælper med at besvare to spørgsmål. For det første om sammenhængen mellem variablerne er positiv eller negativ. For det andet, hvor stærk er afhængigheden. Korrelationsanalyse er et kraftfuldt værktøj, der kan give denne vigtige information. Det er let at se, at familiens indtægter og udgifter falder og stiger forholdsmæssigt. Dette forhold anses for positivt. Tværtimod, når prisen på et produkt stiger, falder efterspørgslen efter det. Dette forhold kaldes negativt. Værdierne af korrelationskoefficienten ligger mellem -1 og 1. Nul betyder, at der ikke er nogen sammenhæng mellem de undersøgte værdier. Jo tættere den opnåede indikator er på ekstreme værdier, jo stærkere er forholdet (negativ eller positiv). Fraværet af afhængighed er angivet med en koefficient fra -0,1 til 0,1. Du skal forstå, at en sådan værdi kun indikerer fraværet af et lineært forhold.

Funktioner af applikationen

Brugen af ​​begge indikatorer involverer visse antagelser. For det første bestemmer tilstedeværelsen af ​​en stærk forbindelse ikke, at den ene mængde bestemmer den anden. Der kan meget vel være en tredje størrelse, der definerer hver af dem. For det andet indikerer en høj Pearson korrelationskoefficient ikke en årsag-virkning sammenhæng mellem de undersøgte variable. For det tredje viser den et udelukkende lineært forhold. Korrelation kan bruges til at evaluere meningsfulde kvantitative data (f.eks. barometertryk, lufttemperatur) i stedet for kategorier såsom køn eller yndlingsfarve.

Multipel korrelationskoefficient

Pearson og Spearman undersøgte sammenhængen mellem to variable. Men hvad skal man gøre, hvis der er tre eller endda flere af dem. Det er her den multiple korrelationskoefficient kommer til undsætning. For eksempel påvirkes bruttonationalproduktet ikke kun af udenlandske direkte investeringer, men også af regeringens penge- og finanspolitik samt eksportniveauet. Vækstraten og volumen af ​​BNP er resultatet af samspillet mellem en række faktorer. Det skal dog forstås, at multipelkorrelationsmodellen er baseret på en række forenklinger og antagelser. For det første er multikolinearitet mellem værdier udelukket. For det andet anses forholdet mellem den afhængige og de variable, der påvirker den, for lineær.

Anvendelsesområder for korrelations- og regressionsanalyse

Denne metode til at finde sammenhænge mellem mængder er meget brugt i statistik. Det er oftest ty til i tre hovedtilfælde:

  1. For at teste årsag-og-virkning-forhold mellem værdierne af to variable. Som et resultat håber forskeren at opdage en lineær sammenhæng og udlede en formel, der beskriver disse sammenhænge mellem mængder. Deres måleenheder kan være forskellige.
  2. For at kontrollere, om der er en sammenhæng mellem mængder. I dette tilfælde er der ingen, der bestemmer, hvilken variabel der er den afhængige variabel. Det kan vise sig, at en anden faktor bestemmer værdien af ​​begge mængder.
  3. At udlede lign. I dette tilfælde kan du blot erstatte tal i det og finde ud af værdierne af den ukendte variabel.

En mand på jagt efter et årsag-virkning-forhold

Bevidsthed er designet på en sådan måde, at vi absolut skal forklare de begivenheder, der sker omkring os. En person leder altid efter en sammenhæng mellem billedet af den verden, han lever i, og den information, han modtager. Hjernen skaber ofte orden ud af kaos. Han kan sagtens se et årsag-virkningsforhold, hvor der ikke er nogen. Forskere skal specielt lære at overvinde denne tendens. Evnen til at vurdere forhold mellem data objektivt er afgørende i en akademisk karriere.

Mediebias

Lad os overveje, hvordan tilstedeværelsen af ​​en korrelation kan misfortolkes. En gruppe britiske studerende med dårlig opførsel blev spurgt, om deres forældre røg. Så blev testen offentliggjort i avisen. Resultatet viste en stærk sammenhæng mellem forældres rygning og deres børns kriminalitet. Professoren, der udførte denne undersøgelse, foreslog endda at sætte en advarsel om dette på cigaretpakker. Der er dog en række problemer med denne konklusion. For det første viser korrelation ikke, hvilken af ​​størrelserne der er uafhængig. Derfor er det meget muligt at antage, at forældrenes skadelige vane er forårsaget af børns ulydighed. For det andet kan det ikke siges med sikkerhed, at begge problemer ikke opstod på grund af en tredje faktor. For eksempel lavindkomstfamilier. Det er værd at bemærke det følelsesmæssige aspekt af de første resultater fra den professor, der udførte undersøgelsen. Han var en ivrig modstander af rygning. Derfor er det ikke overraskende, at han fortolkede resultaterne af sin forskning på denne måde.

konklusioner

Fejlfortolkning af en korrelation som et årsag-og-virkningsforhold mellem to variabler kan forårsage skammelige forskningsfejl. Problemet er, at det ligger i selve grundlaget for den menneskelige bevidsthed. Mange marketingtricks er baseret på denne funktion. At forstå forskellen mellem årsag og virkning og sammenhæng giver dig mulighed for rationelt at analysere information både i dit daglige liv og i din professionelle karriere.

Når man studerer folkesundhed og sundhedsvæsen til videnskabelige og praktiske formål, skal forskeren ofte foretage en statistisk analyse af sammenhængen mellem faktor- og præstationskarakteristika for en statistisk population (årsagssammenhæng) eller bestemme afhængigheden af ​​parallelle ændringer i flere karakteristika i denne population på en tredje værdi (om deres fælles sag). Det er nødvendigt at være i stand til at studere funktionerne i denne forbindelse, bestemme dens størrelse og retning og også evaluere dens pålidelighed. Til dette formål anvendes korrelationsmetoder.

  1. Typer af manifestation af kvantitative forhold mellem karakteristika
    • funktionel forbindelse
    • korrelationsforbindelse
  2. Definitioner af funktionel og korrelationel sammenhæng

    Funktionel forbindelse- denne type forhold mellem to karakteristika, når hver værdi af den ene af dem svarer til en strengt defineret værdi af den anden (arealet af en cirkel afhænger af cirklens radius osv.). Funktionel forbindelse er karakteristisk for fysiske og matematiske processer.

    Korrelation- et sådant forhold, hvor hver specifik værdi af en egenskab svarer til flere værdier af en anden karakteristik forbundet med den (forholdet mellem en persons højde og vægt; forholdet mellem kropstemperatur og puls, osv.). Korrelation er typisk for medicinske og biologiske processer.

  3. Den praktiske betydning af at etablere en korrelationsforbindelse. Identifikation af årsag og virkning mellem faktor og resulterende karakteristika (ved vurdering af fysisk udvikling, for at bestemme sammenhængen mellem arbejdsforhold, levevilkår og sundhedstilstand, ved bestemmelse af afhængigheden af ​​hyppigheden af ​​sygdomstilfælde af alder, anciennitet, tilstedeværelse af arbejdsmæssige farer osv.)

    Afhængighed af parallelle ændringer i flere karakteristika af en tredje værdi. For eksempel sker der under påvirkning af høj temperatur på værkstedet ændringer i blodtryk, blodviskositet, puls osv.

  4. En værdi, der karakteriserer retningen og styrken af ​​forholdet mellem karakteristika. Korrelationskoefficienten, som i ét tal giver en idé om retningen og styrken af ​​forbindelsen mellem tegn (fænomener), grænserne for dens udsving fra 0 til ± 1
  5. Metoder til at præsentere sammenhænge
    • graf (spredningsplot)
    • korrelationskoefficient
  6. Korrelationsretning
    • lige
    • baglæns
  7. Styrke af korrelation
    • stærk: ±0,7 til ±1
    • gennemsnit: ±0,3 til ±0,699
    • svag: 0 til ±0,299
  8. Metoder til bestemmelse af korrelationskoefficient og formler
    • metode til kvadrater (Pearson-metoden)
    • rangmetode (Spearman-metoden)
  9. Metodiske krav til brug af korrelationskoefficienten
    • måling af sammenhængen er kun mulig i kvalitativt homogene populationer (f.eks. måling af forholdet mellem højde og vægt i populationer, der er homogene efter køn og alder)
    • beregning kan foretages ved hjælp af absolutte eller afledte værdier
    • til at beregne korrelationskoefficienten anvendes ugrupperede variationsserier (dette krav gælder kun ved beregning af korrelationskoefficienten ved hjælp af kvadratmetoden)
    • antal observationer mindst 30
  10. Anbefalinger til brug af rangkorrelationsmetoden (Spearmans metode)
    • når der ikke er behov for nøjagtigt at fastslå styrken af ​​forbindelsen, men omtrentlige data er tilstrækkelige
    • når karakteristika ikke kun repræsenteres af kvantitative, men også af attributive værdier
    • når fordelingsrækken af ​​karakteristika har åbne muligheder (f.eks. erhvervserfaring op til 1 år osv.)
  11. Anbefalinger til brug af kvadraters metode (Pearsons metode)
    • når en nøjagtig bestemmelse af styrken af ​​forbindelsen mellem karakteristika er påkrævet
    • når tegn kun har kvantitativt udtryk
  12. Metode og procedure til beregning af korrelationskoefficienten

    1) Metode til kvadrater

    2) Rangeringsmetode

  13. Skema til vurdering af korrelationsforholdet ved hjælp af korrelationskoefficienten
  14. Beregning af korrelationskoefficientfejl
  15. Estimering af pålideligheden af ​​korrelationskoefficienten opnået ved rangkorrelationsmetoden og kvadratmetoden

    Metode 1
    Pålidelighed bestemmes af formlen:

    t-kriteriet evalueres ved hjælp af en tabel med t-værdier under hensyntagen til antallet af frihedsgrader (n - 2), hvor n er antallet af parrede muligheder. t-kriteriet skal være lig med eller større end tabel 1, svarende til en sandsynlighed p ≥99%.

    Metode 2
    Reliabilitet vurderes ved hjælp af en speciel tabel medr. I dette tilfælde anses en korrelationskoefficient for pålidelig, når den med et vist antal frihedsgrader (n - 2) er lig med eller mere end den tabelformede, svarende til graden af ​​fejlfri forudsigelse p ≥95 % .

at bruge metoden med kvadrater

Dyrke motion: udregn korrelationskoefficienten, bestem retningen og styrken af ​​sammenhængen mellem mængden af ​​calcium i vand og vandets hårdhed, hvis følgende data er kendt (tabel 1). Vurder pålideligheden af ​​forholdet. Træk en konklusion.

tabel 1

Begrundelse for valg af metode. For at løse problemet blev metoden med kvadrater (Pearson) valgt, pga hvert af tegnene (vandets hårdhed og mængden af ​​calcium) har et numerisk udtryk; ingen åben mulighed.

Løsning.
Sekvensen af ​​beregninger er beskrevet i teksten, resultaterne er præsenteret i tabellen. Efter at have konstrueret serier af parrede sammenlignelige egenskaber, skal du angive dem med x (vandets hårdhed i grader) og med y (mængden af ​​calcium i vand i mg/l).

Vandets hårdhed
(i grader)
Mængden af ​​calcium i vand
(i mg/l)
d x D y d x x d y d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = Σ x/n M y =Σ y/n Σ d x x d y = 7078 Σd x 2 =982 Σd y2 = 51056
Mx=120/6=20 M y =852/6=142
  1. Bestem gennemsnitsværdierne for M x i rækkemuligheden "x" og M y i rækkemuligheden "y" ved hjælp af formlerne:
    M x = Σх/n (kolonne 1) og
    M y = Σу/n (kolonne 2)
  2. Find afvigelsen (d x og d y) for hver mulighed fra værdien af ​​det beregnede gennemsnit i serien "x" og i serien "y"
    d x = x - M x (kolonne 3) og d y = y - M y (kolonne 4).
  3. Find produktet af afvigelser d x x d y og summer dem: Σ d x x d y (kolonne 5)
  4. Kvadret hver afvigelse d x og d y og summer deres værdier langs "x"-serien og "y"-serien: Σ d x 2 = 982 (kolonne 6) og Σ d y 2 = 51056 (kolonne 7).
  5. Bestem produktet Σ d x 2 x Σ d y 2 og udtræk kvadratroden fra dette produkt
  6. De resulterende værdier Σ (d x x d y) og √ (Σd x 2 x Σd y 2) erstatte i formlen til beregning af korrelationskoefficienten:
  7. Bestem pålideligheden af ​​korrelationskoefficienten:
    1. metode. Find fejlen for korrelationskoefficienten (mr xy) og t-kriteriet ved hjælp af formlerne:

    Kriterium t = 14,1, hvilket svarer til sandsynligheden for en fejlfri prognose p > 99,9 %.

    2. metode. Korrelationskoefficientens pålidelighed vurderes ved hjælp af tabellen ”Standard korrelationskoefficienter” (se bilag 1). Med antallet af frihedsgrader (n - 2)=6 - 2=4 er vores beregnede korrelationskoefficient r xу = + 0,99 større end den tabulerede (r tabel = + 0,917 ved p = 99%).

    Konklusion. Jo mere calcium i vand, jo sværere er det (tilslutning direkte, stærk og autentisk: rxy = + 0,99, p > 99,9%).

    at bruge rangeringsmetoden

    Dyrke motion: Ved hjælp af rangmetoden fastlægges retningen og styrken af ​​forholdet mellem års erhvervserfaring og hyppigheden af ​​skader, hvis følgende data opnås:

    Begrundelse for valg af metode: For at løse problemet kan kun rangkorrelationsmetoden vælges, fordi Den første række af attributten "erhvervserfaring i år" har åbne muligheder (erhvervserfaring op til 1 år og 7 eller flere år), hvilket ikke tillader brugen af ​​en mere nøjagtig metode - metoden med kvadrater - til at etablere en forbindelse mellem de sammenlignede egenskaber.

    Løsning. Sekvensen af ​​beregninger er præsenteret i teksten, resultaterne er præsenteret i tabel. 2.

    tabel 2

    Arbejdserfaring i årevis Antal skader Ordinaltal (rækker) Rangforskel Kvadratforskel i rækker
    x Y d(x-y) d 2
    Op til 1 år 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 eller flere 6 5 1 +4 16
    Σd2 = 38,5

    Standardkorrelationskoefficienter, der anses for pålidelige (ifølge L.S. Kaminsky)

    Antal frihedsgrader - 2 Sandsynlighedsniveau p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 s.
    2. Lisitsyn Yu.P. Folkesundhed og sundhedsvæsen. Lærebog for universiteter. - M.: GEOTAR-MED, 2007. - 512 s.
    3. Medic V.A., Yuryev V.K. Forelæsningsforløb om folkesundhed og sundhedsvæsen: Del 1. Folkesundhed. - M.: Medicin, 2003. - 368 s.
    4. Minyaev V.A., Vishnyakov N.I. og andre Socialmedicinsk og sundhedsfaglig organisation (Manual i 2 bind). - St. Petersborg, 1998. -528 s.
    5. Kucherenko V.Z., Agarkov N.M. og andre Social hygiejne- og sundhedsorganisation (Tutorial) - Moskva, 2000. - 432 s.
    6. S. Glanz. Medicinsk og biologisk statistik. Oversættelse fra engelsk - M., Praktika, 1998. - 459 s.

Korrelationskoefficienter

Indtil nu har vi kun klarlagt det faktum, at der eksisterer en statistisk sammenhæng mellem to karakteristika. Dernæst vil vi forsøge at finde ud af, hvilke konklusioner der kan drages om styrken eller svagheden af ​​denne afhængighed, såvel som om dens type og retning. Kriterier for at kvantificere forholdet mellem variabler kaldes korrelationskoefficienter eller mål for forbindelse. To variable er positivt korrelerede, hvis der er en direkte, ensrettet sammenhæng mellem dem. I et ensrettet forhold svarer små værdier af en variabel til små værdier af en anden variabel, og store værdier svarer til store værdier. To variable korrelerer negativt med hinanden, hvis der er en omvendt, multidirektionel sammenhæng mellem dem. Med et multidirektional forhold svarer små værdier af en variabel til store værdier af en anden variabel og omvendt. Værdierne af korrelationskoefficienter ligger altid i området fra -1 til +1.

Som en korrelationskoefficient mellem variabler tilhørende ordinal skalaen gælder Spearman koefficient, og for variabler tilhørende interval vægt - Pearson korrelationskoefficient(værkernes øjeblik). Det skal tages i betragtning, at hver dikotom variabel, det vil sige en variabel, der tilhører en nominel skala og har to kategorier, kan betragtes som ordinal.

Først vil vi kontrollere, om der er en sammenhæng mellem køns- og psykevariablerne fra studium.sav-filen. I dette tilfælde den dikotomiske variabel køn kan betragtes som ordinær. Følg disse trin:

    Vælg Analyser beskrivende statistiske krydstabeller... fra kommandomenuen

    Flyt variablen køn til en liste over strenge og en variabel psyke- til listen over kolonner.

    Klik på knappen Statistikker... (Statistikker). I dialogboksen Krydstabler: Statistik skal du markere afkrydsningsfeltet Korrelationer. Bekræft dit valg med knappen Fortsæt.

    I dialog Krydstabeller nægte at vise tabeller ved at markere afkrydsningsfeltet Undertryk tabeller. Klik på OK.

Spearman og Pearson korrelationskoefficienter vil blive beregnet og deres signifikans testet:

Symmetriske mål

Værdi Asymptomatisk Std. Fejl (a) (asymptotisk standardfejl) Ca. T (b) (ca. T) Ca. Sig. (Omtrentlig betydning)
Interval for Interval Pearsons R
(R Pearson)
,441 ,081 5,006 .000 (s)
Ordinal efter Ordinal (Ordinal - Ordinal) Spearman Korrelation ,439 ,083 4,987 .000 (s)
N af gyldige sager 106

Da der ikke er nogen intervalskalavariable her, vil vi se på Spearman-korrelationskoefficienten. Det er 0,439 og er maksimalt signifikant (s<0,001).

Til en verbal beskrivelse af korrelationskoefficientværdierne anvendes følgende tabel:

Ud fra ovenstående tabel kan vi drage følgende konklusioner: Der er en svag sammenhæng mellem køns- og psykevariablerne (konklusion om afhængighedens styrke), variablerne korrelerer positivt (konklusion om afhængighedens retning).

I psykevariablen svarer mindre værdier til en negativ mental tilstand, og større værdier svarer til en positiv. I kønsvariablen svarer værdien "1" til det kvindelige køn og "2" til det mandlige køn.

Følgelig kan ensretningen af ​​forholdet tolkes som følger: kvindelige studerende vurderer deres mentale tilstand mere negativt end deres mandlige kollegaer eller er mest sandsynligt mere tilbøjelige til at gå med til en sådan vurdering, når de udfører en undersøgelse, når de konstruerer sådanne tolkninger er nødvendigt for at tage højde for, at en sammenhæng mellem to træk ikke nødvendigvis er lig med deres funktionelle eller kausale afhængighed. For mere information om dette, se afsnit 15.3.

Lad os nu tjekke sammenhængen mellem alter- og semestervariablerne. Lad os anvende metoden beskrevet ovenfor. Vi får følgende koefficienter:

Symmetriske mål

Asymptomatisk Std. Fejl(a)

Interval for Interval

Ordinal for Ordinal

Spearman Korrelation

N af gyldige sager

en. Uden at antage nulhypotesen.

e. Brug af den asymptotiske standardfejl under antagelse af nulhypotesen.

Med. Baseret på normal tilnærmelse.

Da variablerne alter og semester er metriske, vil vi overveje Pearson-koefficienten (produktmoment). Det er 0,807. Der er en stærk sammenhæng mellem alter- og semestervariablerne. Variablerne er positivt korrelerede. Derfor studerer ældre studerende i seniorår, hvilket faktisk ikke er en uventet konklusion.

Lad os tjekke variablerne sozial (vurdering af social status) og psyke for korrelation. Vi får følgende koefficienter:

Symmetriske mål

Asymptomatisk Std. Fejl(a)

Interval for Interval

Ordinal for Ordinal

Spearman Korrelation

N af gyldige sager

en. Uden at antage nulhypotesen.

b. Brug af den asymptotiske standardfejl under antagelse af nulhypotesen.

Med. Baseret på normal tilnærmelse.

I dette tilfælde vil vi se på Spearman-korrelationskoefficienten; det er -0,703. Der er en middel til stærk korrelation mellem de soziale og psyke variable (cutoff-værdi 0,7). Variablerne korrelerer negativt, det vil sige, jo højere værdien af ​​den første variabel er, jo lavere er værdien af ​​den anden og omvendt. Da små værdier af den soziale variabel karakteriserer en positiv tilstand (1 = meget god, 2 = god), og store psykeværdier karakteriserer en negativ tilstand (1 = ekstremt ustabil, 2 = ustabil), er det derfor psykiske vanskeligheder. skyldes i høj grad sociale problemer.