Manuel mindste kvadraters metode. Lineær regression

Mindste kvadraters metode

Mindste kvadraters metode ( OLS, OLS, Almindelige mindste kvadrater) - en af ​​de grundlæggende metoder til regressionsanalyse til estimering af ukendte parametre for regressionsmodeller ved hjælp af prøvedata. Metoden er baseret på at minimere summen af ​​kvadrater af regressionsresidualer.

Det skal bemærkes, at selve mindste kvadraters metode kan kaldes en metode til at løse et problem i ethvert område, hvis løsningen er eller opfylder et eller andet kriterium for at minimere summen af ​​kvadrater af nogle funktioner af de nødvendige variable. Derfor kan mindste kvadraters metode også bruges til en tilnærmet repræsentation (approksimation) af en given funktion ved hjælp af andre (simplere) funktioner, når man finder et sæt af størrelser, der opfylder ligninger eller begrænsninger, hvis antal overstiger antallet af disse størrelser osv.

Essensen af ​​MNC

Lad en (parametrisk) model af et sandsynlighedsforhold (regression) mellem den (forklarede) variabel blive givet y og mange faktorer (forklarende variable) x

hvor er vektoren af ​​ukendte modelparametre

- tilfældig modelfejl.

Lad der også være prøveobservationer af værdierne af disse variable. Lad være observationsnummeret (). Så er værdierne af variablerne i den th observation. Derefter, for givne værdier af parametre b, er det muligt at beregne de teoretiske (model) værdier af den forklarede variabel y:

Størrelsen af ​​resterne afhænger af værdierne af parametrene b.

Essensen af ​​mindste kvadraters metode (almindelig, klassisk) er at finde parametre b, for hvilke summen af ​​kvadraterne af residualerne (eng. Restsum af kvadrater) vil være minimal:

I det generelle tilfælde kan dette problem løses ved hjælp af numeriske optimeringsmetoder (minimering). I dette tilfælde taler de om ulineære mindste kvadrater(NLS eller NLLS - engelsk) Ikke-lineære mindste kvadrater). I mange tilfælde er det muligt at opnå en analytisk løsning. For at løse minimeringsproblemet er det nødvendigt at finde stationære punkter af funktionen ved at differentiere den med hensyn til de ukendte parametre b, ligne de afledte til nul og løse det resulterende ligningssystem:

Hvis modellens tilfældige fejl er normalfordelte, har samme varians og er ukorrelerede, er OLS-parameterestimater de samme som maksimumsandsynlighedsestimater (MLM).

OLS i tilfælde af en lineær model

Lad regressionsafhængigheden være lineær:

Lade y er en kolonnevektor af observationer af den forklarede variabel, og er en matrix af faktorobservationer (matricens rækker er vektorerne af faktorværdier i en given observation, kolonnerne er vektoren af ​​værdier af en given faktor i alle observationer). Matrixrepræsentationen af ​​den lineære model har formen:

Så vil vektoren af ​​estimater af den forklarede variabel og vektoren af ​​regressionsresidualer være ens

Følgelig vil summen af ​​kvadraterne af regressionsresterne være lig med

Ved at differentiere denne funktion med hensyn til vektoren af ​​parametre og ligne de afledte med nul, får vi et ligningssystem (i matrixform):

.

Løsningen af ​​dette ligningssystem giver den generelle formel for mindste kvadraters skøn for en lineær model:

Til analytiske formål er sidstnævnte repræsentation af denne formel nyttig. Hvis i en regressionsmodel dataene centreret, så har den første matrix i denne repræsentation betydningen af ​​en stikprøve kovariansmatrix af faktorer, og den anden er en vektor af kovarianser af faktorer med den afhængige variabel. Hvis derudover dataene også er normaliseret til MSE (det vil sige i sidste ende standardiseret), så har den første matrix betydningen af ​​en stikprøvekorrelationsmatrix af faktorer, den anden vektor - en vektor af stikprøvekorrelationer af faktorer med den afhængige variabel.

En vigtig egenskab ved OLS estimater for modeller med konstant- linjen for den konstruerede regression passerer gennem prøvedataens tyngdepunkt, det vil sige, at ligheden er opfyldt:

Især i det ekstreme tilfælde, når den eneste regressor er en konstant, finder vi, at OLS-estimatet for den eneste parameter (konstanten selv) er lig med gennemsnitsværdien af ​​den forklarede variabel. Det vil sige, at det aritmetiske middel, der er kendt for sine gode egenskaber fra lovene for store tal, også er et mindste kvadraters estimat - det opfylder kriteriet om minimumsummen af ​​kvadrerede afvigelser fra det.

Eksempel: simpleste (parvis) regression

I tilfælde af parret lineær regression forenkles beregningsformlerne (du kan undvære matrixalgebra):

Egenskaber for OLS-estimatorer

Først og fremmest bemærker vi, at for lineære modeller er OLS-estimater lineære estimater, som følger af ovenstående formel. For uvildige OLS-estimater er det nødvendigt og tilstrækkeligt at opfylde den vigtigste betingelse for regressionsanalyse: den matematiske forventning om en tilfældig fejl, betinget af faktorerne, skal være lig nul. Især denne betingelse er opfyldt, hvis

  1. den matematiske forventning om tilfældige fejl er nul, og
  2. faktorer og tilfældige fejl er uafhængige stokastiske variable.

Den anden betingelse - betingelsen om faktorers eksogenitet - er fundamental. Hvis denne egenskab ikke er opfyldt, kan vi antage, at næsten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil sige, at selv en meget stor mængde data ikke giver os mulighed for at opnå højkvalitetsestimater i dette tilfælde ). I det klassiske tilfælde antages der en stærkere antagelse om faktorernes determinisme i modsætning til en tilfældig fejl, som automatisk betyder, at eksogenitetsbetingelsen er opfyldt. I det generelle tilfælde er det for konsistensen af ​​estimaterne tilstrækkeligt at opfylde eksogenitetsbetingelsen sammen med konvergensen af ​​matricen til en eller anden ikke-singular matrix, når stikprøvestørrelsen stiger til uendelig.

For at estimater af (almindelige) mindste kvadrater ud over konsistens og upartiskhed også skal være effektive (de bedste i klassen af ​​lineære upartiske estimater), skal yderligere egenskaber for tilfældig fejl opfyldes:

Disse antagelser kan formuleres for kovariansmatrixen for den tilfældige fejlvektor

En lineær model, der opfylder disse betingelser, kaldes klassisk. OLS estimater for klassisk lineær regression er upartiske, konsistente og de mest effektive estimater i klassen af ​​alle lineære upartiske estimater (i den engelske litteratur bruges forkortelsen nogle gange BLÅ (Bedste lineære unbaised estimator) - det bedste lineære objektive estimat; i russisk litteratur er Gauss-Markov-sætningen oftere citeret). Som det er let at vise, vil kovariansmatrixen for vektoren af ​​koefficientestimater være lig med:

Generaliseret OLS

Mindste kvadraters metode giver mulighed for bred generalisering. I stedet for at minimere summen af ​​kvadrater af residualerne, kan man minimere en eller anden positiv bestemt kvadratisk form af vektoren af ​​residualer, hvor der er en eller anden symmetrisk positiv bestemt vægtmatrix. Konventionelle mindste kvadrater er et særligt tilfælde af denne tilgang, hvor vægtmatricen er proportional med identitetsmatrixen. Som det er kendt fra teorien om symmetriske matricer (eller operatorer), er der for sådanne matricer en nedbrydning. Følgelig kan den specificerede funktional repræsenteres som følger, det vil sige, at denne funktional kan repræsenteres som summen af ​​kvadraterne af nogle transformerede "rester". Således kan vi skelne mellem en klasse af mindste kvadraters metoder - LS metoder (mindste kvadrater).

Det er blevet bevist (Aitkens teorem), at for en generaliseret lineær regressionsmodel (hvor der ikke er pålagt begrænsninger på kovariansmatrixen af ​​tilfældige fejl), er de mest effektive (i klassen af ​​lineære upartiske estimater) de såkaldte estimater. generaliserede mindste kvadrater (GLS - Generaliserede mindste kvadrater)- LS-metode med en vægtmatrix svarende til den inverse kovariansmatrix af tilfældige fejl: .

Det kan påvises, at formlen for GLS estimater af parametrene for en lineær model har formen

Kovariansmatricen for disse estimater vil følgelig være lig med

Faktisk ligger essensen af ​​OLS i en vis (lineær) transformation (P) af de originale data og anvendelsen af ​​almindelig OLS på de transformerede data. Formålet med denne transformation er, at for de transformerede data opfylder de tilfældige fejl allerede de klassiske antagelser.

Vægtet OLS

I tilfælde af en diagonal vægtmatrix (og derfor en kovariansmatrix af tilfældige fejl) har vi de såkaldte vægtede mindste kvadrater (WLS). I dette tilfælde minimeres den vægtede sum af kvadrater af modelresidualerne, det vil sige, at hver observation modtager en "vægt", der er omvendt proportional med variansen af ​​den tilfældige fejl i denne observation: . Faktisk transformeres dataene ved at vægte observationerne (dividere med et beløb, der er proportionalt med den estimerede standardafvigelse af de tilfældige fejl), og almindelig OLS anvendes på de vægtede data.

Nogle specielle tilfælde af brug af MNC i praksis

Approksimation af lineær afhængighed

Lad os overveje tilfældet, når som et resultat af at studere afhængigheden af ​​en bestemt skalar størrelse af en bestemt skalar størrelse (Dette kunne for eksempel være spændingens afhængighed af strømstyrken: , hvor er en konstant værdi, modstanden af lederen), blev målinger af disse mængder udført, som et resultat af hvilke værdierne og deres tilsvarende værdier. Måledata skal registreres i en tabel.

Tabel. Måleresultater.

Mål nr.
1
2
3
4
5
6

Spørgsmålet er: hvilken værdi af koefficienten kan vælges for bedst at beskrive afhængigheden? Ifølge mindste kvadraters metode skal denne værdi være sådan, at summen af ​​de kvadrerede afvigelser af værdierne fra værdierne

var minimal

Summen af ​​kvadrerede afvigelser har et ekstremum - et minimum, som giver os mulighed for at bruge denne formel. Lad os ud fra denne formel finde værdien af ​​koefficienten. For at gøre dette transformerer vi dens venstre side som følger:

Den sidste formel giver os mulighed for at finde værdien af ​​koefficienten, hvilket er det, der kræves i opgaven.

Historie

Indtil begyndelsen af ​​1800-tallet. videnskabsmænd havde ikke bestemte regler for at løse et ligningssystem, hvor antallet af ubekendte er mindre end antallet af ligninger; Indtil da blev der brugt private teknikker, der afhang af typen af ​​ligninger og af regnemaskinernes vid, og derfor kom forskellige lommeregnere, baseret på de samme observationsdata, til forskellige konklusioner. Gauss (1795) var den første til at bruge metoden, og Legendre (1805) opdagede og udgav den uafhængigt under sit moderne navn (fransk. Méthode des moindres quarrés ). Laplace relaterede metoden til sandsynlighedsteori, og den amerikanske matematiker Adrain (1808) overvejede dens sandsynlighedsteoretiske anvendelser. Metoden var udbredt og forbedret ved yderligere forskning af Encke, Bessel, Hansen m.fl.

Alternativ anvendelse af OLS

Ideen om mindste kvadraters metode kan også bruges i andre tilfælde, der ikke er direkte relateret til regressionsanalyse. Faktum er, at summen af ​​kvadrater er et af de mest almindelige nærhedsmål for vektorer (euklidisk metrisk i finit-dimensionelle rum).

En anvendelse er "løsningen" af systemer af lineære ligninger, hvor antallet af ligninger er større end antallet af variable

hvor matrixen ikke er kvadratisk, men rektangulær af størrelse.

Et sådant ligningssystem har i det generelle tilfælde ingen løsning (hvis rangorden faktisk er større end antallet af variable). Derfor kan dette system kun "løses" i den forstand, at man vælger en sådan vektor for at minimere "afstanden" mellem vektorerne og . For at gøre dette kan du anvende kriteriet om at minimere summen af ​​kvadrater af forskellene mellem venstre og højre side af systemligningerne, dvs. Det er let at vise, at løsning af dette minimeringsproblem fører til løsning af følgende ligningssystem

Approksimation af eksperimentelle data er en metode baseret på at erstatte eksperimentelt opnåede data med en analytisk funktion, der tættest passerer eller falder sammen på knudepunkter med de oprindelige værdier (data opnået under et eksperiment eller eksperiment). I øjeblikket er der to måder at definere en analytisk funktion på:

Ved at konstruere et n-graders interpolationspolynomium, der passerer direkte gennem alle punkter et givet dataarray. I dette tilfælde præsenteres den approksimerende funktion i form af: et interpolationspolynomium på lagrangeform eller et interpolationspolynomium på newtonform.

Ved at konstruere et n-graders approksimerende polynomium, der passerer i umiddelbar nærhed af punkter fra et givet dataarray. Således udjævner den tilnærmede funktion al tilfældig støj (eller fejl), der kan opstå under eksperimentet: de målte værdier under eksperimentet afhænger af tilfældige faktorer, der svinger i henhold til deres egne tilfældige love (måle- eller instrumentfejl, unøjagtighed eller eksperimentel fejl). I dette tilfælde bestemmes den approksimerende funktion ved hjælp af mindste kvadraters metode.

Mindste kvadraters metode(i den engelsksprogede litteratur Ordinary Least Squares, OLS) er en matematisk metode baseret på bestemmelse af den approksimerende funktion, som er konstrueret i den nærmeste tilknytning til punkter fra en given række eksperimentelle data. Nærheden af ​​de oprindelige og approksimerende funktioner F(x) bestemmes af et numerisk mål, nemlig: summen af ​​kvadratiske afvigelser af eksperimentelle data fra den tilnærmelseskurve F(x) skal være den mindste.

Tilnærmelseskurve konstrueret ved hjælp af mindste kvadraters metode

Mindste kvadraters metode bruges:

At løse overbestemte ligningssystemer, når antallet af ligninger overstiger antallet af ukendte;

At finde en løsning i tilfælde af almindelige (ikke overbestemte) ikke-lineære ligningssystemer;

At tilnærme punktværdier med en eller anden tilnærmelsesfunktion.

Den tilnærmelsesfunktion, der anvender mindste kvadraters metode, bestemmes ud fra betingelsen for minimumsummen af ​​kvadrerede afvigelser af den beregnede tilnærmelsesfunktion fra en given række eksperimentelle data. Dette kriterium for mindste kvadraters metode er skrevet som følgende udtryk:

Værdierne af den beregnede tilnærmelsesfunktion ved knudepunkterne,

En given række af eksperimentelle data ved knudepunkter.

Det kvadratiske kriterium har en række "gode" egenskaber, såsom differentiabilitet, hvilket giver en unik løsning på tilnærmelsesproblemet med polynomiske tilnærmelsesfunktioner.

Afhængig af problemets betingelser er den approksimerende funktion et polynomium af grad m

Graden af ​​den approksimerende funktion afhænger ikke af antallet af knudepunkter, men dens dimension skal altid være mindre end dimensionen (antal punkter) af en given eksperimentel dataarray.

∙ Hvis graden af ​​den approksimerende funktion er m=1, så tilnærmer vi tabelfunktionen med en ret linje (lineær regression).

∙ Hvis graden af ​​den approksimerende funktion er m=2, så tilnærmer vi tabelfunktionen med en andengradsparabel (kvadratisk tilnærmelse).

∙ Hvis graden af ​​tilnærmelsesfunktionen er m=3, så tilnærmer vi tabelfunktionen med en kubisk parabel (kubisk tilnærmelse).

I det generelle tilfælde, når det er nødvendigt at konstruere et tilnærmende polynomium af grad m for givne tabelværdier, omskrives betingelsen for minimum af summen af ​​kvadrerede afvigelser over alle knudepunkter i følgende form:

- ukendte koefficienter for det approksimerende polynomium af grad m;

Antallet af tabelværdier angivet.

En nødvendig betingelse for eksistensen af ​​et minimum af en funktion er lighed med nul af dens partielle afledte med hensyn til ukendte variable . Som et resultat får vi følgende ligningssystem:

Lad os transformere det resulterende lineære system af ligninger: Åbn parenteserne og flyt de frie led til højre side af udtrykket. Som et resultat vil det resulterende system af lineære algebraiske udtryk blive skrevet i følgende form:

Dette system af lineære algebraiske udtryk kan omskrives i matrixform:

Som et resultat blev der opnået et system af lineære ligninger med dimension m+1, som består af m+1 ubekendte. Dette system kan løses ved hjælp af en hvilken som helst metode til løsning af lineære algebraiske ligninger (for eksempel Gauss-metoden). Som et resultat af løsningen vil der blive fundet ukendte parametre for den approksimerende funktion, der giver minimumsummen af ​​kvadratiske afvigelser af den tilnærmende funktion fra de oprindelige data, dvs. bedst mulig kvadratisk tilnærmelse. Det skal huskes, at hvis selv en værdi af kildedataene ændres, vil alle koefficienter ændre deres værdier, da de er fuldstændigt bestemt af kildedataene.

Approksimation af kildedata ved lineær afhængighed

(lineær regression)

Lad os som et eksempel overveje teknikken til bestemmelse af den tilnærmende funktion, som er specificeret i form af en lineær afhængighed. I overensstemmelse med mindste kvadraters metode skrives betingelsen for minimum af summen af ​​kvadratiske afvigelser i følgende form:

Koordinater af tabel noder;

Ukendte koefficienter for den approksimerende funktion, som er angivet som en lineær afhængighed.

En nødvendig betingelse for eksistensen af ​​et minimum af en funktion er lighed med nul af dens partielle afledte med hensyn til ukendte variable. Som et resultat får vi følgende ligningssystem:

Lad os transformere det resulterende lineære system af ligninger.

Vi løser det resulterende system af lineære ligninger. Koefficienterne for den approksimerende funktion i analytisk form bestemmes som følger (Cramers metode):

Disse koefficienter sikrer konstruktionen af ​​en lineær approksimerende funktion i overensstemmelse med kriteriet om at minimere summen af ​​kvadrater af den approksimerende funktion fra de givne tabelværdier (eksperimentelle data).

Algoritme til implementering af mindste kvadraters metode

1. Indledende data:

En række eksperimentelle data med antallet af målinger N er specificeret

Graden af ​​det approksimerende polynomium (m) er angivet

2. Beregningsalgoritme:

2.1. Koefficienterne er bestemt til at konstruere et ligningssystem med dimensioner

Koefficienter for ligningssystemet (venstre side af ligningen)

- indeks for kolonnenummeret i kvadratmatricen af ​​ligningssystemet

Frie led i et system af lineære ligninger (højre side af ligningen)

- indeks for rækkenummeret i kvadratmatrixen af ​​ligningssystemet

2.2. Dannelse af et system af lineære ligninger med dimension .

2.3. Løsning af et system af lineære ligninger for at bestemme de ukendte koefficienter for et tilnærmet polynomium af grad m.

2.4 Bestemmelse af summen af ​​kvadrerede afvigelser af det tilnærmede polynomium fra de oprindelige værdier ved alle knudepunkter.

Den fundne værdi af summen af ​​kvadrerede afvigelser er den mindst mulige.

Approksimation ved hjælp af andre funktioner

Det skal bemærkes, at når man tilnærmer de originale data i overensstemmelse med mindste kvadraters metode, bruges den logaritmiske funktion, eksponentialfunktionen og potensfunktionen nogle gange som den tilnærmende funktion.

Logaritmisk tilnærmelse

Lad os overveje tilfældet, når den tilnærmende funktion er givet af en logaritmisk funktion af formen:

Det har mange applikationer, da det tillader en omtrentlig repræsentation af en given funktion med andre enklere. LSM kan være yderst nyttig til at behandle observationer, og det bruges aktivt til at estimere nogle mængder baseret på resultaterne af målinger af andre, der indeholder tilfældige fejl. I denne artikel lærer du, hvordan du implementerer mindste kvadraters beregninger i Excel.

Redegørelse af problemet ved hjælp af et specifikt eksempel

Antag, at der er to indikatorer X og Y. Ydermere afhænger Y af X. Da OLS interesserer os ud fra et synspunkt om regressionsanalyse (i Excel er dets metoder implementeret ved hjælp af indbyggede funktioner), bør vi straks gå videre til at overveje en specifikt problem.

Så lad X være butikslokalet for en købmand, målt i kvadratmeter, og Y være den årlige omsætning, målt i millioner af rubler.

Det er påkrævet at lave en prognose for, hvilken omsætning (Y) butikken vil have, hvis den har dette eller hint butiksareal. Det er klart, at funktionen Y = f (X) er stigende, da hypermarkedet sælger flere varer end boden.

Et par ord om rigtigheden af ​​de oprindelige data, der bruges til forudsigelse

Lad os sige, at vi har en tabel bygget ved hjælp af data for n butikker.

Ifølge matematisk statistik vil resultaterne være nogenlunde korrekte, hvis data på mindst 5-6 objekter undersøges. Derudover kan "anomale" resultater ikke bruges. Især en lille elitebutik kan have en omsætning, der er flere gange større end omsætningen af ​​store detailforretninger i klassen "masmarket".

Essensen af ​​metoden

Tabeldataene kan afbildes på et kartesisk plan i form af punkterne M 1 (x 1, y 1), ... M n (x n, y n). Nu vil løsningen på problemet blive reduceret til valget af en tilnærmelsesfunktion y = f (x), som har en graf, der passerer så tæt som muligt på punkterne M 1, M 2, .. M n.

Selvfølgelig kan du bruge et polynomium i høj grad, men denne mulighed er ikke kun vanskelig at implementere, men også simpelthen forkert, da den ikke afspejler den vigtigste tendens, der skal opdages. Den mest rimelige løsning er at søge efter den rette linje y = ax + b, som bedst tilnærmer de eksperimentelle data, eller mere præcist koefficienterne a og b.

Nøjagtighedsvurdering

Med enhver tilnærmelse er det af særlig betydning at vurdere dens nøjagtighed. Lad os med e betegne forskellen (afvigelsen) mellem de funktionelle og eksperimentelle værdier for punkt x i, dvs. e i = y i - f (x i).

For at vurdere nøjagtigheden af ​​tilnærmelsen kan du naturligvis bruge summen af ​​afvigelser, dvs. når du vælger en ret linje til en omtrentlig repræsentation af afhængigheden af ​​X af Y, skal du give fortrinsret til den med den mindste værdi af summen e i på alle punkter under overvejelse. Men ikke alt er så simpelt, da der sammen med positive afvigelser også vil være negative.

Problemet kan løses ved hjælp af afvigelsesmoduler eller deres firkanter. Den sidste metode er den mest udbredte. Det bruges på mange områder, herunder regressionsanalyse (i Excel implementeres det ved hjælp af to indbyggede funktioner), og det har længe vist sig at være effektivt.

Mindste kvadraters metode

Excel har som bekendt en indbygget AutoSum-funktion, der giver dig mulighed for at beregne værdierne for alle værdier placeret i det valgte område. Intet vil således forhindre os i at beregne værdien af ​​udtrykket (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

I matematisk notation ser dette ud som:

Da beslutningen oprindeligt blev truffet om at tilnærme ved hjælp af en lige linje, har vi:

Opgaven med at finde den rette linje, der bedst beskriver den specifikke afhængighed af størrelserne X og Y, går ud på at beregne minimum af en funktion af to variable:

For at gøre dette skal du sidestille de partielle afledte med hensyn til de nye variable a og b til nul, og løse et primitivt system bestående af to ligninger med 2 ubekendte af formen:

Efter nogle simple transformationer, inklusive division med 2 og manipulation af summer, får vi:

Løser vi det, for eksempel ved hjælp af Cramers metode, får vi et stationært punkt med visse koefficienter a * og b *. Dette er minimum, dvs. for at forudsige hvilken omsætning en butik vil have for et bestemt område, er den rette linje y = a * x + b * velegnet, som er en regressionsmodel for det pågældende eksempel. Selvfølgelig vil det ikke give dig mulighed for at finde det nøjagtige resultat, men det vil hjælpe dig med at få en idé om, hvorvidt det vil betale sig at købe et bestemt område på butikskredit.

Sådan implementeres mindste kvadrater i Excel

Excel har en funktion til at beregne værdier ved hjælp af mindste kvadrater. Den har følgende form: "TREND" (kendte Y-værdier; kendte X-værdier; nye X-værdier; konstant). Lad os anvende formlen til beregning af OLS i Excel til vores tabel.

For at gøre dette skal du indtaste tegnet "=" i cellen, hvor resultatet af beregningen ved hjælp af mindste kvadraters metode i Excel skal vises, og vælg funktionen "TREND". I det vindue, der åbnes, skal du udfylde de relevante felter og fremhæve:

  • række kendte værdier for Y (i dette tilfælde data for handelsomsætning);
  • interval x 1 , …x n , dvs. størrelsen af ​​butiksareal;
  • både kendte og ukendte værdier af x, for hvilke du skal finde ud af størrelsen af ​​omsætningen (for information om deres placering på arbejdsarket, se nedenfor).

Derudover indeholder formlen den logiske variabel "Const". Hvis du indtaster 1 i det tilsvarende felt, vil det betyde, at du skal udføre beregningerne, forudsat at b = 0.

Hvis du har brug for at finde ud af prognosen for mere end én x-værdi, skal du efter at have indtastet formlen ikke trykke på "Enter", men du skal skrive kombinationen "Shift" + "Control" + "Enter" på tastaturet.

Nogle funktioner

Regressionsanalyse kan være tilgængelig selv for dummies. Excel-formlen til at forudsige værdien af ​​en række ukendte variable – TREND – kan bruges selv af dem, der aldrig har hørt om mindste kvadrater. Det er nok bare at kende nogle af funktionerne i dets arbejde. Især:

  • Hvis du arrangerer rækken af ​​kendte værdier af variablen y i en række eller kolonne, så vil hver række (kolonne) med kendte værdier af x blive opfattet af programmet som en separat variabel.
  • Hvis et område med kendt x ikke er angivet i TREND-vinduet, vil programmet, når du bruger en funktion i Excel, behandle det som en matrix bestående af heltal, hvis antal svarer til området med de givne værdier af y variabel.
  • For at udlæse en matrix af "forudsagte" værdier skal udtrykket for beregning af trenden indtastes som en matrixformel.
  • Hvis nye værdier af x ikke er angivet, betragter TREND-funktionen dem som lig med de kendte. Hvis de ikke er specificeret, tages array 1 som et argument; 2; 3; 4;…, som svarer til området med allerede specificerede parametre y.
  • Området, der indeholder de nye x-værdier, skal have de samme eller flere rækker eller kolonner som området, der indeholder de givne y-værdier. Den skal med andre ord være proportional med de uafhængige variable.
  • En matrix med kendte x-værdier kan indeholde flere variable. Men hvis vi kun taler om én, så kræves det, at områderne med de givne værdier af x og y er proportionale. I tilfælde af flere variabler er det nødvendigt, at området med de givne y-værdier passer i en kolonne eller en række.

FORUDSIGNING funktion

Implementeret ved hjælp af flere funktioner. En af dem hedder "PREDICTION". Det ligner "TREND", dvs. det giver resultatet af beregninger ved hjælp af mindste kvadraters metode. Dog kun for et X, hvor værdien af ​​Y er ukendt.

Nu kender du formler i Excel for dummies, der giver dig mulighed for at forudsige den fremtidige værdi af en bestemt indikator i henhold til en lineær tendens.

Efter at have valgt typen af ​​regressionsfunktion, dvs. typen af ​​den betragtede model af afhængigheden af ​​Y på X (eller X på Y), for eksempel en lineær model y x =a+bx, er det nødvendigt at bestemme de specifikke værdier af modelkoefficienterne.

For forskellige værdier af a og b er det muligt at konstruere et uendeligt antal afhængigheder af formen y x = a + bx, dvs. der er et uendeligt antal rette linjer på koordinatplanet, men vi har brug for en afhængighed, der bedst svarer til de observerede værdier. Opgaven handler således om at vælge de bedste koefficienter.

Vi leder efter den lineære funktion a+bx kun baseret på et vist antal tilgængelige observationer. For at finde den funktion, der passer bedst til de observerede værdier, bruger vi mindste kvadraters metode.

Lad os betegne: Y i - værdien beregnet af ligningen Y i =a+bx i. y i - målt værdi, ε i =y i -Y i - forskel mellem målte og beregnede værdier ved hjælp af ligningen, ε i =y i -a-bx i.

Mindste kvadraters metode kræver, at ε i, forskellen mellem den målte y i og værdierne Y i beregnet ud fra ligningen, er minimal. Derfor finder vi koefficienterne a og b, så summen af ​​de kvadrerede afvigelser af de observerede værdier fra værdierne på den lige regressionslinje er den mindste:

Ved at undersøge denne funktion af argumenterne a og for ekstremum ved hjælp af afledte, kan vi bevise, at funktionen tager en minimumsværdi, hvis koefficienterne a og b er løsninger til systemet:

(2)

Hvis vi dividerer begge sider af normalligningerne med n, får vi:

I betragtning af det (3)

Vi får , herfra, ved at erstatte værdien af ​​a i den første ligning, får vi:

I dette tilfælde kaldes b regressionskoefficienten; a kaldes det frie led af regressionsligningen og beregnes ved hjælp af formlen:

Den resulterende rette linje er et estimat for den teoretiske regressionslinje. Vi har:

Så, er en lineær regressionsligning.

Regression kan være direkte (b>0) og omvendt (b Eksempel 1. Resultaterne af måling af værdierne af X og Y er angivet i tabellen:

x i -2 0 1 2 4
y i 0.5 1 1.5 2 3

Forudsat at der er en lineær sammenhæng mellem X og Y y=a+bx, bestemme koefficienterne a og b ved hjælp af mindste kvadraters metode.

Løsning. Her er n=5
xi = -2+0+1+2+4=5;
xi2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
yi =0,5+1+1,5+2+3=8

og normalt system (2) har formen

Ved at løse dette system får vi: b=0,425, a=1,175. Derfor y=1,175+0,425x.

Eksempel 2. Der er en stikprøve på 10 observationer af økonomiske indikatorer (X) og (Y).

x i 180 172 173 169 175 170 179 170 167 174
y i 186 180 176 171 182 166 182 172 169 177

Du skal finde en prøveregressionsligning for Y på X. Konstruer en prøveregressionslinje af Y på X.

Løsning. 1. Lad os sortere dataene efter værdierne x i og y i . Vi får et nyt bord:

x i 167 169 170 170 172 173 174 175 179 180
y i 169 171 166 172 180 176 177 182 182 186

For at forenkle beregningerne laver vi en beregningstabel, hvori vi indtaster de nødvendige numeriske værdier.

x i y i x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172,9 y=176,1 xi2 =29910,5 xy=30469,6

Ifølge formel (4) beregner vi regressionskoefficienten

og ifølge formel (5)

Således er prøveregressionsligningen y=-59,34+1,3804x.
Lad os plotte punkterne (x i ; y i) på koordinatplanen og markere regressionslinjen.


Fig 4

Figur 4 viser, hvordan de observerede værdier er placeret i forhold til regressionslinjen. For en numerisk vurdering af afvigelserne af y i fra Y i, hvor y i er observeret og Y i er værdier bestemt ved regression, opretter vi en tabel:

x i y i Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Yi-værdier beregnes i henhold til regressionsligningen.

Den mærkbare afvigelse af nogle observerede værdier fra regressionslinjen forklares af det lille antal observationer. Når man studerer graden af ​​lineær afhængighed af Y af X, tages der hensyn til antallet af observationer. Afhængighedens styrke bestemmes af værdien af ​​korrelationskoefficienten.

Eksempel.

Eksperimentelle data om værdier af variable X Og er angivet i tabellen.

Som et resultat af deres justering opnås funktionen

Bruger mindste kvadraters metode, tilnærme disse data ved en lineær afhængighed y=ax+b(find parametre EN Og b). Find ud af hvilken af ​​de to linjer der bedst (i betydningen af ​​mindste kvadraters metode) justerer de eksperimentelle data. Lav en tegning.

Essensen af ​​mindste kvadraters metode (LSM).

Opgaven er at finde de lineære afhængighedskoefficienter, hvor funktionen af ​​to variable EN Og b tager den mindste værdi. Altså givet EN Og b summen af ​​kvadrerede afvigelser af de eksperimentelle data fra den fundne rette linje vil være den mindste. Dette er hele pointen med mindste kvadraters metode.

Løsning af eksemplet kommer således ned til at finde yderpunktet for en funktion af to variable.

Udledning af formler til at finde koefficienter.

Et system af to ligninger med to ubekendte kompileres og løses. At finde partielle afledte af en funktion med hensyn til variable EN Og b, sætter vi lighedstegn mellem disse derivater til nul.

Vi løser det resulterende ligningssystem ved hjælp af en hvilken som helst metode (f efter substitutionsmetode eller ) og få formler til at finde koefficienter ved hjælp af mindste kvadraters metode (LSM).

Givet EN Og b fungere tager den mindste værdi. Beviset for dette faktum er givet.

Det er hele metoden med mindste kvadrater. Formel til at finde parameteren -en indeholder summerne , , , og parameter n- mængden af ​​eksperimentelle data. Vi anbefaler at beregne værdierne af disse beløb separat. Koefficient b fundet efter beregning -en.

Det er tid til at huske det originale eksempel.

Løsning.

I vores eksempel n=5. Vi udfylder tabellen for at gøre det nemmere at beregne de beløb, der er inkluderet i formlerne for de nødvendige koefficienter.

Værdierne i den fjerde række i tabellen opnås ved at gange værdierne i den 2. række med værdierne i den 3. række for hvert tal jeg.

Værdierne i den femte række i tabellen opnås ved at kvadrere værdierne i 2. række for hvert tal jeg.

Værdierne i den sidste kolonne i tabellen er summen af ​​værdierne på tværs af rækkerne.

Vi bruger formlerne for mindste kvadraters metode til at finde koefficienterne EN Og b. Vi erstatter de tilsvarende værdier fra den sidste kolonne i tabellen i dem:

Derfor, y = 0,165x+2,184- den ønskede tilnærmelsesvise lige linje.

Det er tilbage at finde ud af, hvilken af ​​linjerne y = 0,165x+2,184 eller tilnærmer de originale data bedre, det vil sige laver et skøn ved hjælp af mindste kvadraters metode.

Fejlvurdering af mindste kvadraters metode.

For at gøre dette skal du beregne summen af ​​kvadrerede afvigelser af de originale data fra disse linjer Og , svarer en mindre værdi til en linje, der bedre tilnærmer de oprindelige data i betydningen af ​​mindste kvadraters metode.

Siden , så lige y = 0,165x+2,184 tilnærmer bedre de originale data.

Grafisk illustration af mindste kvadraters (LS) metode.

Alt er tydeligt synligt på graferne. Den røde linje er den fundne lige linje y = 0,165x+2,184, er den blå linje , lyserøde prikker er de originale data.

Hvorfor er dette nødvendigt, hvorfor alle disse tilnærmelser?

Jeg bruger det personligt til at løse problemer med dataudjævning, interpolation og ekstrapolationsproblemer (i det originale eksempel kunne de være blevet bedt om at finde værdien af ​​en observeret værdi yx=3 eller hvornår x=6 ved hjælp af mindste kvadraters metode). Men vi vil tale mere om dette senere i en anden sektion af webstedet.

Bevis.

Så når fundet EN Og b funktion tager den mindste værdi, er det nødvendigt, at på dette tidspunkt matrixen af ​​den kvadratiske form af anden ordens differential for funktionen var positiv bestemt. Lad os vise det.