Forholdet mellem stokastiske variable bestemmes vha. Bestemmelse af tætheden af ​​forbindelsen mellem stokastiske variable

Virksomheden beskæftiger 10 medarbejdere. Tabel 2 viser data om deres erhvervserfaring og

månedsløn.

Beregn ved hjælp af disse data

  • - værdien af ​​prøvens kovariansestimat;
  • - værdien af ​​prøven Pearson korrelationskoefficient;
  • - estimere retningen og styrken af ​​forbindelsen ud fra de opnåede værdier;
  • - afgøre, hvor legitimt det er at sige, at denne virksomhed bruger den japanske ledelsesmodel, som antager, at jo mere tid en medarbejder bruger i en given virksomhed, jo højere skal hans løn være.

Baseret på korrelationsfeltet kan vi antage (for populationen), at sammenhængen mellem alle mulige værdier af X og Y er lineær.

For at beregne regressionsparametrene bygger vi en beregningstabel.

Prøve betyder.

Prøvevarianser:

Den estimerede regressionsligning vil være

y = bx + a + e,

hvor ei er de observerede værdier (estimater) af fejl henholdsvis ei, a og b, estimater af parametre b og i den regressionsmodel, der skal findes.

For at estimere parametrene b og c anvendes mindste kvadraters metode (mindste kvadraters metode).

System af normalligninger.

a?x + b?x2 = ?y*x

For vores data har ligningssystemet formen

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Lad os gange systemets ligning (1) med (-30,7), vi får et system, som vi løser ved algebraisk addition.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Vi får:

1432,1 b = 105390

Hvor kommer b = 73,5912 fra?

Lad os nu finde koefficienten "a" fra ligning (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Vi opnår empiriske regressionskoefficienter: b = 73,5912, a = 1070,7492

Regressionsligning (empirisk regressionsligning):

y = 73,5912 x + 1070,7492

Kovarians.

I vores eksempel er forbindelsen mellem egenskab Y og faktor X høj og direkte.

Derfor kan vi roligt sige, at jo mere tid en medarbejder arbejder i en given virksomhed, jo højere er hans løn.

4. Test af statistiske hypoteser. Når man løser dette problem, er det første skridt at formulere en testbar hypotese og en alternativ.

Kontrol af ligheden af ​​generelle aktier.

Der er gennemført en undersøgelse af studerendes præstationer på to fakulteter. Resultaterne for mulighederne er angivet i tabel 3. Er det muligt at sige, at begge fakulteter har den samme procentdel af fremragende studerende?

Simpelt aritmetisk gennemsnit

Vi tester hypotesen om ligheden af ​​de generelle aktier:

Lad os finde den eksperimentelle værdi af elevens kriterium:

Antal frihedsgrader

f = nх + nу - 2 = 2 + 2 - 2 = 2

Bestem tkp-værdien ved hjælp af elevfordelingstabellen

Ved hjælp af elevens tabel finder vi:

Ttable(f;b/2) = Ttable(2;0,025) = 4,303

Ved at bruge tabellen over kritiske punkter for Student-fordelingen på et signifikansniveau b = 0,05 og et givet antal frihedsgrader finder vi tcr = 4,303

Fordi tob > tcr, så forkastes nulhypotesen, de generelle andele af de to prøver er ikke ens.

Kontrol af ensartetheden af ​​den generelle fordeling.

Universitetets embedsmænd ønsker at finde ud af, hvordan populariteten af ​​den humanistiske afdeling har ændret sig over tid. Antallet af ansøgere, der søgte til dette fakultet, er analyseret i forhold til det samlede antal ansøgere i det tilsvarende år. (Data er angivet i tabel 4). Hvis vi betragter antallet af ansøgere som et repræsentativt udsnit af det samlede antal skolekandidater i året, kan vi så sige, at skolebørns interesse for dette fakultets specialer ikke ændrer sig over tid?

Mulighed 4

Løsning: Tabel til beregning af indikatorer.

Midten af ​​intervallet, xi

Akkumuleret frekvens, S

Frekvens, fi/n

For at evaluere distributionsrækken finder vi følgende indikatorer:

Vægtet gennemsnit

Variationsområdet er forskellen mellem maksimum- og minimumværdierne for den primære seriekarakteristik.

R = 2008 - 1988 = 20 Dispersion - karakteriserer spredningsmålet omkring dets gennemsnitsværdi (et mål for spredning, dvs. afvigelse fra gennemsnittet).

Standardafvigelse (gennemsnitlig stikprøvefejl).

Hver værdi af serien adskiller sig fra gennemsnitsværdien 2002,66 med et gennemsnit på 6,32

Test af hypotesen om den ensartede fordeling af befolkningen.

For at teste hypotesen om den ensartede fordeling af X, dvs. ifølge loven: f(x) = 1/(b-a) i intervallet (a,b) er det nødvendigt:

Estimer parametrene a og b - enderne af intervallet, hvori mulige værdier af X blev observeret, ved hjælp af formlerne (tegnet * angiver parameterestimater):

Find sandsynlighedstætheden for den forventede fordeling f(x) = 1/(b* - a*)

Find teoretiske frekvenser:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Sammenlign empiriske og teoretiske frekvenser ved hjælp af Pearson-kriteriet, idet du tager antallet af frihedsgrader k = s-3, hvor s er antallet af indledende samplingsintervaller; hvis en kombination af små frekvenser, og derfor selve intervallerne, blev udført, så er s antallet af resterende intervaller efter kombinationen. Lad os finde estimater for parametrene a* og b* for den ensartede fordeling ved hjælp af formlerne:

Lad os finde tætheden af ​​den antagede ensartede fordeling:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Lad os finde de teoretiske frekvenser:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Da Pearson-statistikken måler forskellen mellem den empiriske og den teoretiske fordeling, jo større dens observerede værdi Kob, jo stærkere er argumentet mod hovedhypotesen.

Derfor er det kritiske område for denne statistik altid højrehåndet: . For uafhængige stokastiske variable er korrelationskoefficienten nul, men hvis det er tilfældet, indikerer dette tilstedeværelsen af ​​en lineær funktionel sammenhæng mellem variablerne.

Analogt med tilfældige variable introduceres også kvantitative karakteristika for en tilfældig vektor. Der er to sådanne egenskaber:

1) vektor af forventede komponentværdier

her er en tilfældig vektor er de matematiske forventninger til komponenterne i en tilfældig vektor;

2) kovariansmatrix

(3.15)

Kovariansmatricen indeholder samtidig både information om graden af ​​usikkerhed af de tilfældige vektorkomponenter og information om graden af ​​indbyrdes sammenhæng mellem hvert par af vektorkomponenter.

Inden for økonomi har begrebet en tilfældig vektor og dens karakteristika især fundet anvendelse i analysen af ​​transaktioner på aktiemarkedet. Den berømte amerikanske økonom Harry Markowitz foreslog følgende tilgang. Lad n risikable aktiver handles på aktiemarkedet. Afkastet af hvert aktiv over en vis periode er en tilfældig variabel. Vektoren af ​​afkast og den tilsvarende vektor af forventede afkast introduceres. Markovets foreslog at betragte vektoren af ​​forventede afkast som en indikator for attraktiviteten af ​​et bestemt aktiv, og elementerne i kovariansmatricens hoveddiagonal som størrelsen af ​​risikoen for hvert aktiv. De diagonale elementer afspejler forholdsværdierne for de tilsvarende par af afkast inkluderet i vektoren. Den parametriske Markowitz-model af aktiemarkedet tog formen

Denne model danner grundlag for teorien om en optimal værdipapirportefølje.

Egenskaber for operationer til beregning af kvantitative karakteristika for stokastiske variable

Lad os overveje de grundlæggende egenskaber ved operationerne til beregning af de kvantitative karakteristika for tilfældige variable og en tilfældig vektor.

Operationer til beregning af matematisk forventning:

1) hvis en tilfældig variabel x = Med, Hvor Med er altså en konstant

2) hvis x og y – tilfældige variable, ai er vilkårlige konstanter, altså

3) hvis X Og uafhængige stokastiske variable, altså

Variansberegningsoperationer:

1) hvis en tilfældig variabel x = c, hvor c er en vilkårlig konstant, altså

2) hvis x

3) hvis X er en tilfældig variabel, og c er en vilkårlig konstant

4) hvis X Og y er tilfældige variable, ai er vilkårlige konstanter, så

Korrelation-statistisk sammenhæng mellem to eller flere stokastiske variable.

Partialkorrelationskoefficienten karakteriserer graden af ​​lineær afhængighed mellem to størrelser og har alle egenskaberne for et par, dvs. varierer fra -1 til +1. Hvis den partielle korrelationskoefficient er lig med ±1, så er forholdet mellem to størrelser funktionelt, og dets lighed med nul indikerer den lineære uafhængighed af disse størrelser.

Den multiple korrelationskoefficient, som karakteriserer graden af ​​lineær afhængighed mellem værdien x1 og de øvrige variable (x2, x3), som indgår i modellen, varierer fra 0 til 1.

En ordinal (ordinal) variabel hjælper med at ordne statistisk studerede objekter i overensstemmelse med den grad, i hvilken den analyserede egenskab er manifesteret i dem

Rangkorrelation er et statistisk forhold mellem ordinalvariable (måling af det statistiske forhold mellem to eller flere rangeringer af det samme endelige sæt af objekter O 1, O 2, ..., O p.)

Ranking- dette er arrangementet af objekter i faldende rækkefølge efter graden af ​​manifestation af den kth egenskab, der studeres i dem. I dette tilfælde kaldes x(k) rangen af ​​det i-te objekt ifølge den k-te attribut. Rage karakteriserer den ordensplads, som objekt O i indtager i en række af n objekter.

39. Korrelationskoefficient, bestemmelse.

Korrelationskoefficienten viser graden af ​​statistisk sammenhæng mellem to numeriske variable. Det beregnes som følger:

Hvor n– antal observationer,

x- input variabel,

y er outputvariablen. Korrelationskoefficientværdier varierer altid fra -1 til 1 og fortolkes som følger:

    hvis koefficient korrelationen er tæt på 1, så er der en positiv sammenhæng mellem variablerne.

    hvis koefficient korrelationen er tæt på -1, hvilket betyder, at der er en negativ sammenhæng mellem variablerne

    mellemværdier tæt på 0 vil indikere svag korrelation mellem variable og følgelig lav afhængighed.

Bestemmelseskoefficient(R 2 )- Dette er andelen af ​​forklaret varians i den afhængige variabels afvigelser fra dens middelværdi.

Formel til beregning af bestemmelseskoefficienten:

R2 = 1 - ∑ i (y i - f i) 2 : ∑ i (y i -y(primtal)) 2

Hvor y i er den observerede værdi af den afhængige variabel, og fi er værdien af ​​den afhængige variabel forudsagt af regressionsligningen, er y(primtal) det aritmetiske middelværdi af den afhængige variabel.

Spørgsmål 16: Nordvestlige hjørnemetode

Ifølge denne metode bruges den næste leverandørs reserver til at imødekomme de næste forbrugeres ønsker, indtil de er fuldstændig opbrugt. Hvorefter den næste Leverandørs lagre efter antal anvendes.

Udfyldning af transportopgavetabellen starter fra øverste venstre hjørne og består af en række lignende trin. På hvert trin, baseret på den næste leverandørs lagre og den næste forbrugers anmodninger, udfyldes kun én celle, og derfor er én leverandør eller forbruger udelukket fra overvejelse.

For at undgå fejl, efter at have konstrueret den indledende grundlæggende (reference) løsning, er det nødvendigt at kontrollere, at antallet af besatte celler er lig med m+n-1.

Efter at have bestemt ligningen for den teoretiske regressionslinje, er det nødvendigt at kvantificere tætheden af ​​forholdet mellem to serier af observationer. Regressionslinjerne tegnet i fig. 4.1, b, c, er de samme, men i fig. 4.1, b er punkterne meget tættere (tættere) på regressionslinjen end i fig. 4.1, c.

I korrelationsanalyse antages det, at faktorer og reaktioner er tilfældige i naturen og overholder en normalfordelingslov.

Nærheden af ​​forholdet mellem stokastiske variable er karakteriseret ved korrelationsforholdet p xy. Lad os dvæle mere detaljeret om den fysiske betydning af denne indikator. For at gøre dette introducerer vi nye koncepter.

Restdispersionen 5^res karakteriserer spredningen eksperimentelt

observerede punkter i forhold til regressionslinjen og repræsenterer en indikator for fejlen ved forudsigelse af parameteren y ifølge regressionsligningen (fig. 4.6):



s2 =f)