Forholdet mellom tilfeldige variabler bestemmes vha. Bestemmelse av nærhet til sammenhengen mellom tilfeldige variabler

Selskapet sysselsetter 10 personer. Tabell 2 viser data om deres arbeidserfaring og

månedslønn.

Beregn ved å bruke disse dataene

  • - verdien av prøvens kovariansestimat;
  • - verdien av prøven Pearson korrelasjonskoeffisient;
  • - estimer retningen og styrken til forbindelsen fra de oppnådde verdiene;
  • - avgjøre hvor legitimt det er å si at dette selskapet bruker den japanske ledelsesmodellen, som forutsetter at jo mer tid en ansatt bruker i et gitt selskap, desto høyere bør lønnen hans være.

Basert på korrelasjonsfeltet kan vi anta (for populasjonen) at forholdet mellom alle mulige verdier av X og Y er lineært.

For å beregne regresjonsparametrene skal vi bygge en beregningstabell.

Eksempel betyr.

Eksempelavvik:

Den estimerte regresjonsligningen vil være

y = bx + a + e,

hvor ei er de observerte verdiene (estimater) av feil henholdsvis ei, a og b, estimater av parametere b og i regresjonsmodellen som skal finnes.

For å estimere parameterne b og c, brukes minste kvadraters metode (minste kvadraters metode).

System av normale ligninger.

a?x + b?x2 = ?y*x

For våre data har ligningssystemet formen

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

La oss multiplisere likning (1) av systemet med (-30,7), vi får et system som vi løser med metoden for algebraisk addisjon.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Vi får:

1432,1 b = 105390

Hvor kommer b = 73,5912 fra?

La oss nå finne koeffisienten "a" fra ligning (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Vi får empiriske regresjonskoeffisienter: b = 73,5912, a = 1070,7492

Regresjonsligning (empirisk regresjonsligning):

y = 73,5912 x + 1070,7492

Kovarians.

I vårt eksempel er sammenhengen mellom egenskap Y og faktor X høy og direkte.

Derfor kan vi trygt si at jo mer tid en ansatt jobber i et gitt selskap, desto høyere lønn har han.

4. Testing av statistiske hypoteser. Når du løser dette problemet, er det første trinnet å formulere en testbar hypotese og en alternativ.

Kontroll av likheten til generelle aksjer.

Det ble gjennomført en studie om studentprestasjoner ved to fakulteter. Resultatene for alternativene er gitt i tabell 3. Er det mulig å si at begge fakultetene har samme prosentandel av fremragende studenter?

Enkelt aritmetisk gjennomsnitt

Vi tester hypotesen om likheten til de generelle aksjene:

La oss finne den eksperimentelle verdien av studentens kriterium:

Antall frihetsgrader

f = nх + nу - 2 = 2 + 2 - 2 = 2

Bestem tkp-verdien ved å bruke elevfordelingstabellen

Ved å bruke elevens tabell finner vi:

Ttabell(f;b/2) = Ttabell(2;0,025) = 4,303

Ved å bruke tabellen over kritiske punkter for Studentfordelingen på et signifikansnivå b = 0,05 og et gitt antall frihetsgrader, finner vi tcr = 4,303

Fordi tob > tcr, så forkastes nullhypotesen, de generelle andelene til de to prøvene er ikke like.

Kontrollere enhetligheten i den generelle fordelingen.

Universitetstjenestemenn ønsker å finne ut hvordan populariteten til den humanistiske avdelingen har endret seg over tid. Antall søkere som søkte til dette fakultetet ble analysert i forhold til totalt antall søkere det tilsvarende året. (Data er gitt i tabell 4). Hvis vi vurderer antall søkere som et representativt utvalg av det totale antallet skoleutdannede i året, kan vi si at interessen til skolebarn for spesialitetene til dette fakultetet ikke endrer seg over tid?

Alternativ 4

Løsning: Tabell for beregning av indikatorer.

Midt i intervallet, xi

Akkumulert frekvens, S

Frekvens, fi/n

For å evaluere distribusjonsserien finner vi følgende indikatorer:

Vektlagt gjennomsnitt

Variasjonsområdet er forskjellen mellom maksimums- og minimumsverdiene til den primære seriekarakteristikken.

R = 2008 - 1988 = 20 Dispersjon - karakteriserer spredningsmålet rundt gjennomsnittsverdien (et mål for spredning, dvs. avvik fra gjennomsnittet).

Standardavvik (gjennomsnittlig prøvetakingsfeil).

Hver verdi av serien skiller seg fra gjennomsnittsverdien 2002,66 med et gjennomsnitt på 6,32

Tester hypotesen om jevn fordeling av befolkningen.

For å teste hypotesen om den ensartede fordelingen av X, dvs. i henhold til loven: f(x) = 1/(b-a) i intervallet (a,b) er det nødvendig:

Estimer parametrene a og b - endene av intervallet der mulige verdier av X ble observert, ved å bruke formlene (tegnet * angir parameterestimater):

Finn sannsynlighetstettheten til den forventede fordelingen f(x) = 1/(b* - a*)

Finn teoretiske frekvenser:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Sammenlign empiriske og teoretiske frekvenser ved å bruke Pearson-kriteriet, og ta antall frihetsgrader k = s-3, hvor s er antall innledende samplingsintervaller; hvis en kombinasjon av små frekvenser, og derfor selve intervallene, ble utført, så er s antall intervaller som gjenstår etter kombinasjonen. La oss finne estimater for parametrene a* og b* for den enhetlige fordelingen ved å bruke formlene:

La oss finne tettheten til den antatte jevne fordelingen:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

La oss finne de teoretiske frekvensene:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Siden Pearson-statistikken måler forskjellen mellom den empiriske og den teoretiske fordelingen, jo større dens observerte verdi Kob, desto sterkere er argumentet mot hovedhypotesen.

Derfor er den kritiske regionen for denne statistikken alltid høyrehendt: . For uavhengige tilfeldige variabler er korrelasjonskoeffisienten null, men i så fall indikerer dette tilstedeværelsen av en lineær funksjonell sammenheng mellom variablene.

I analogi med tilfeldige variabler introduseres også kvantitative egenskaper for en tilfeldig vektor. Det er to slike egenskaper:

1) vektor av forventede komponentverdier

her er en tilfeldig vektor er de matematiske forventningene til komponentene i en tilfeldig vektor;

2) kovariansmatrise

(3.15)

Kovariansmatrisen inneholder samtidig både informasjon om graden av usikkerhet til de tilfeldige vektorkomponentene og informasjon om graden av innbyrdes sammenheng mellom hvert par av vektorkomponenter.

I økonomi har konseptet med en tilfeldig vektor og dens egenskaper, spesielt, funnet anvendelse i analysen av transaksjoner på aksjemarkedet. Den berømte amerikanske økonomen Harry Markowitz foreslo følgende tilnærming. La n risikofylte eiendeler omsettes på aksjemarkedet. Avkastningen på hver eiendel over en viss tidsperiode er en tilfeldig variabel. Vektoren for avkastning og den tilsvarende vektoren for forventet avkastning introduseres. Markovets foreslo å vurdere vektoren for forventet avkastning som en indikator på attraktiviteten til en bestemt eiendel, og elementene i hoveddiagonalen til kovariansmatrisen som mengden risiko for hver eiendel. De diagonale elementene gjenspeiler relasjonsverdiene til de tilsvarende returparene inkludert i vektoren. Den parametriske Markowitz-modellen av aksjemarkedet tok formen

Denne modellen danner grunnlaget for teorien om en optimal verdipapirportefølje.

Egenskaper for operasjoner for beregning av kvantitative egenskaper til tilfeldige variabler

La oss vurdere de grunnleggende egenskapene til operasjonene for å beregne de kvantitative egenskapene til tilfeldige variabler og en tilfeldig vektor.

Operasjoner for å beregne matematisk forventning:

1) hvis en tilfeldig variabel x = Med, Hvor Med er da en konstant

2) hvis x og y – tilfeldige variabler, ai er vilkårlige konstanter, altså

3) hvis X Og uavhengige tilfeldige variabler altså

Avviksberegningsoperasjoner:

1) hvis en tilfeldig variabel x = c, hvor c er en vilkårlig konstant, da

2) hvis x

3) hvis X er en tilfeldig variabel, og c er en vilkårlig konstant, da

4) hvis X Og y er tilfeldige variabler, ai er vilkårlige konstanter, da

Sammenheng-statistisk sammenheng mellom to eller flere tilfeldige variabler.

Den partielle korrelasjonskoeffisienten karakteriserer graden av lineær avhengighet mellom to størrelser og har alle egenskapene til et par, dvs. varierer fra -1 til +1. Hvis den partielle korrelasjonskoeffisienten er lik ±1, er forholdet mellom to størrelser funksjonelt, og dets likhet til null indikerer den lineære uavhengigheten til disse størrelsene.

Multippelkorrelasjonskoeffisienten, som karakteriserer graden av lineær avhengighet mellom verdien x1 og de andre variablene (x2, x3) som inngår i modellen, varierer fra 0 til 1.

En ordinal (ordinal) variabel hjelper til med å ordne statistisk studerte objekter i henhold til i hvilken grad den analyserte egenskapen er manifestert i dem

Rangekorrelasjon er et statistisk forhold mellom ordinalvariabler (måling av det statistiske forholdet mellom to eller flere rangeringer av samme begrensede sett med objekter O 1, O 2, ..., O p.)

Rangering- dette er arrangementet av objekter i synkende rekkefølge etter graden av manifestasjon av den kth egenskapen som studeres i dem. I dette tilfellet kalles x(k) rangeringen til det i-te objektet i henhold til det k-te attributtet. Rage karakteriserer ordensplassen som objektet O i opptar i en serie med n objekter.

39. Korrelasjonskoeffisient, bestemmelse.

Korrelasjonskoeffisienten viser graden av statistisk sammenheng mellom to numeriske variabler. Det beregnes som følger:

Hvor n– antall observasjoner,

x– inngangsvariabel,

y er utgangsvariabelen. Korrelasjonskoeffisientverdier varierer alltid fra -1 til 1 og tolkes som følger:

    hvis koeffisient korrelasjon er nær 1, da er det en positiv korrelasjon mellom variablene.

    hvis koeffisient korrelasjonen er nær -1, som betyr at det er en negativ korrelasjon mellom variablene

    mellomverdier nær 0 vil indikere svak korrelasjon mellom variabler og følgelig lav avhengighet.

Bestemmelseskoeffisient(R 2 )- Dette er andelen forklart varians i avvikene til den avhengige variabelen fra gjennomsnittet.

Formel for beregning av bestemmelseskoeffisienten:

R 2 = 1 - ∑ i (y i - f i) 2 : ∑ i (y i -y(primtall)) 2

Der y i er den observerte verdien av den avhengige variabelen, og fi er verdien av den avhengige variabelen forutsagt av regresjonsligningen, er y(primtall) det aritmetiske gjennomsnittet av den avhengige variabelen.

Spørsmål 16: Nordvesthjørnemetoden

I henhold til denne metoden brukes reservene til neste leverandør til å møte forespørslene fra de neste forbrukerne til de er helt oppbrukt. Deretter brukes lagrene til neste leverandør etter antall.

Utfylling av transportoppgavetabellen starter fra øvre venstre hjørne og består av en rekke lignende trinn. På hvert trinn, basert på beholdningen til neste leverandør og forespørslene fra neste forbruker, fylles bare én celle ut, og følgelig er én leverandør eller forbruker ekskludert fra vurdering.

For å unngå feil, etter å ha konstruert den innledende grunnleggende (referanse) løsningen, er det nødvendig å kontrollere at antall okkuperte celler er lik m+n-1.

Etter å ha bestemt ligningen til den teoretiske regresjonslinjen, er det nødvendig å kvantifisere nærheten til forholdet mellom to serier av observasjoner. Regresjonslinjene tegnet i fig. 4.1, b, c, er de samme, men i fig. 4.1, b punktene er mye nærmere (nærmere) regresjonslinjen enn i fig. 4.1, c.

I korrelasjonsanalyse antas det at faktorer og responser er tilfeldige og følger en normalfordelingslov.

Nærheten til forholdet mellom tilfeldige variabler er preget av korrelasjonsforholdet p xy. La oss dvele mer detaljert på den fysiske betydningen av denne indikatoren. For å gjøre dette introduserer vi nye konsepter.

Restdispersjonen 5^res karakteriserer spredningen eksperimentelt

observerte punkter i forhold til regresjonslinjen og representerer en indikator på feilen ved å forutsi parameteren y i henhold til regresjonsligningen (fig. 4.6):



s2 =f)