Manuell minste kvadraters metode. Lineær regresjon

Minste kvadraters metode

Minste kvadraters metode ( OLS, OLS, Vanlige minste kvadrater) - en av de grunnleggende metodene for regresjonsanalyse for å estimere ukjente parametere for regresjonsmodeller ved å bruke prøvedata. Metoden er basert på å minimere summen av kvadrater av regresjonsrester.

Det skal bemerkes at selve minste kvadraters metode kan kalles en metode for å løse et problem i et hvilket som helst område hvis løsningen er eller tilfredsstiller et eller annet kriterium for å minimere kvadratsummen av noen funksjoner av de nødvendige variablene. Derfor kan minste kvadraters metode også brukes for en omtrentlig representasjon (tilnærming) av en gitt funksjon ved hjelp av andre (enklere) funksjoner, når man finner et sett med mengder som tilfredsstiller ligninger eller begrensninger, hvis antall overstiger antallet av disse mengdene , osv.

Essensen av MNC

La en (parametrisk) modell av et sannsynlighetsforhold (regresjon) mellom den (forklarte) variabelen gis y og mange faktorer (forklarende variabler) x

hvor er vektoren av ukjente modellparametere

- tilfeldig modellfeil.

La det også være prøveobservasjoner av verdiene til disse variablene. La være observasjonsnummeret (). Deretter er verdiene til variablene i den th observasjonen. Deretter, for gitte verdier av parametere b, er det mulig å beregne de teoretiske (modell) verdiene til den forklarte variabelen y:

Størrelsen på residuene avhenger av verdiene til parameterne b.

Essensen av minste kvadraters metode (vanlig, klassisk) er å finne slike parametere b som summen av kvadratene til residualene (eng. Restsum av kvadrater) vil være minimal:

I det generelle tilfellet kan dette problemet løses ved hjelp av numeriske optimaliseringsmetoder (minimering). I dette tilfellet snakker de om ikke-lineære minste kvadrater(NLS eller NLLS - engelsk) Ikke-lineære minste kvadrater). I mange tilfeller er det mulig å få en analytisk løsning. For å løse minimeringsproblemet, er det nødvendig å finne stasjonære punkter av funksjonen ved å differensiere den med hensyn til de ukjente parameterne b, likestille de deriverte til null og løse det resulterende ligningssystemet:

Hvis modellens tilfeldige feil er normalfordelt, har samme varians og er ukorrelerte, er OLS-parameterestimater de samme som maksimal sannsynlighetsestimater (MLM).

OLS når det gjelder en lineær modell

La regresjonsavhengigheten være lineær:

La y er en kolonnevektor av observasjoner av den forklarte variabelen, og er en matrise av faktorobservasjoner (radene i matrisen er vektorene av faktorverdier i en gitt observasjon, kolonnene er vektoren av verdier for en gitt faktor i alle observasjoner). Matriserepresentasjonen av den lineære modellen er:

Da vil vektoren for estimater for den forklarte variabelen og vektoren for regresjonsresidier være like

Følgelig vil summen av kvadrater av regresjonsrestene være lik

Ved å differensiere denne funksjonen med hensyn til vektoren av parametere og likestille de deriverte til null, får vi et system av ligninger (i matriseform):

.

Løsningen av dette ligningssystemet gir den generelle formelen for minste kvadraters estimater for en lineær modell:

For analytiske formål er sistnevnte representasjon av denne formelen nyttig. Hvis i en regresjonsmodell dataene sentrert, så i denne representasjonen har den første matrisen betydningen av en samvariasjonsmatrise av faktorer, og den andre er en vektor av kovarianser av faktorer med den avhengige variabelen. Hvis i tillegg dataene også er normalisert til MSE (det vil si til slutt standardisert), så har den første matrisen betydningen av en prøvekorrelasjonsmatrise av faktorer, den andre vektoren - en vektor av prøvekorrelasjoner av faktorer med den avhengige variabelen.

En viktig egenskap ved OLS estimater for modeller med konstant- linjen til den konstruerte regresjonen går gjennom tyngdepunktet til prøvedataene, det vil si at likheten er oppfylt:

Spesielt i det ekstreme tilfellet, når den eneste regressoren er en konstant, finner vi at OLS-estimatet for den eneste parameteren (konstanten i seg selv) er lik gjennomsnittsverdien til den forklarte variabelen. Det vil si at det aritmetiske gjennomsnittet, kjent for sine gode egenskaper fra lovene for store tall, også er et minstekvadrat-estimat - det tilfredsstiller kriteriet om minimumsummen av kvadrerte avvik fra det.

Eksempel: enkleste (parvis) regresjon

I tilfelle av paret lineær regresjon, er beregningsformlene forenklet (du kan klare deg uten matrisealgebra):

Egenskaper til OLS-estimatorer

Først av alt merker vi at for lineære modeller er OLS-estimater lineære estimater, som følger av formelen ovenfor. For objektive OLS-estimater er det nødvendig og tilstrekkelig å oppfylle den viktigste betingelsen for regresjonsanalyse: den matematiske forventningen om en tilfeldig feil, betinget av faktorene, må være lik null. Spesielt denne betingelsen er oppfylt hvis

  1. den matematiske forventningen til tilfeldige feil er null, og
  2. faktorer og tilfeldige feil er uavhengige tilfeldige variabler.

Den andre betingelsen - tilstanden til eksogenitet av faktorer - er grunnleggende. Hvis denne egenskapen ikke er oppfylt, kan vi anta at nesten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil si at selv en veldig stor mengde data ikke tillater oss å oppnå estimater av høy kvalitet i dette tilfellet ). I det klassiske tilfellet gjøres det en sterkere antagelse om faktorenes determinisme, i motsetning til en tilfeldig feil, som automatisk betyr at eksogenitetsbetingelsen er oppfylt. I det generelle tilfellet, for konsistensen av estimatene, er det tilstrekkelig å tilfredsstille eksogenitetsbetingelsen sammen med konvergensen av matrisen til en ikke-singular matrise når prøvestørrelsen øker til uendelig.

For at, i tillegg til konsistens og upartiskhet, estimater av (vanlige) minste kvadrater også skal være effektive (de beste i klassen av lineære upartiske estimater), må ytterligere egenskaper for tilfeldig feil oppfylles:

Disse forutsetningene kan formuleres for kovariansmatrisen til den tilfeldige feilvektoren

En lineær modell som tilfredsstiller disse betingelsene kalles klassisk. OLS-estimater for klassisk lineær regresjon er objektive, konsistente og de mest effektive estimatene i klassen av alle lineære upartiske estimater (i engelsk litteratur brukes forkortelsen noen ganger BLÅ (Beste lineære ugrunnlagde estimator) - det beste lineære objektive estimatet; i russisk litteratur er Gauss-Markov-teoremet oftere sitert). Som det er lett å vise, vil kovariansmatrisen til vektoren for koeffisientestimater være lik:

Generalisert OLS

Minste kvadraters metode gir bred generalisering. I stedet for å minimere summen av kvadrater av residualene, kan man minimere en positiv bestemt kvadratisk form av vektoren av residualer, hvor er en symmetrisk positiv bestemt vektmatrise. Konvensjonelle minste kvadrater er et spesielt tilfelle av denne tilnærmingen, der vektmatrisen er proporsjonal med identitetsmatrisen. Som kjent fra teorien om symmetriske matriser (eller operatorer), er det for slike matriser en dekomponering. Følgelig kan den spesifiserte funksjonelle representeres som følger, det vil si at denne funksjonelle kan representeres som summen av kvadratene til noen transformerte "rester". Dermed kan vi skille en klasse av minste kvadraters metoder - LS metoder (minste kvadrater).

Det er bevist (Aitkens teorem) at for en generalisert lineær regresjonsmodell (der ingen restriksjoner er pålagt kovariansmatrisen av tilfeldige feil), er de mest effektive (i klassen av lineære objektive estimater) de såkalte estimatene. generaliserte minste kvadrater (GLS – generaliserte minste kvadrater)- LS-metode med en vektmatrise lik den inverse kovariansmatrisen av tilfeldige feil: .

Det kan vises at formelen for GLS-estimater av parametrene til en lineær modell har formen

Kovariansmatrisen til disse estimatene vil følgelig være lik

Faktisk ligger essensen av OLS i en viss (lineær) transformasjon (P) av de opprinnelige dataene og bruken av vanlig OLS på de transformerte dataene. Hensikten med denne transformasjonen er at for de transformerte dataene tilfredsstiller de tilfeldige feilene allerede de klassiske forutsetningene.

Vektet OLS

Når det gjelder en diagonal vektmatrise (og derfor en kovariansmatrise av tilfeldige feil), har vi de såkalte vektede minste kvadratene (WLS). I dette tilfellet minimeres den vektede summen av kvadrater av modellresidualene, det vil si at hver observasjon mottar en "vekt" som er omvendt proporsjonal med variansen til den tilfeldige feilen i denne observasjonen: . Faktisk transformeres dataene ved å vekte observasjonene (dele med en mengde proporsjonal med det estimerte standardavviket til de tilfeldige feilene), og vanlig OLS brukes på de vektede dataene.

Noen spesielle tilfeller av bruk av MNC i praksis

Tilnærming av lineær avhengighet

La oss vurdere tilfellet når, som et resultat av å studere avhengigheten av en viss skalar mengde av en viss skalar mengde (Dette kan for eksempel være spenningens avhengighet av strømstyrken: , hvor er en konstant verdi, motstanden til lederen), målinger av disse mengdene ble utført, som et resultat av disse verdiene og deres tilsvarende verdier. Måledataene skal registreres i en tabell.

Bord. Måleresultater.

Mål nr.
1
2
3
4
5
6

Spørsmålet er: hvilken verdi av koeffisienten kan velges for å best beskrive avhengigheten? I henhold til minste kvadraters metode skal denne verdien være slik at summen av kvadrerte avvik av verdiene fra verdiene

var minimal

Summen av kvadrerte avvik har ett ekstremum - et minimum, som lar oss bruke denne formelen. La oss finne verdien av koeffisienten fra denne formelen. For å gjøre dette transformerer vi venstre side som følger:

Den siste formelen lar oss finne verdien av koeffisienten, som er det som kreves i oppgaven.

Historie

Helt til begynnelsen av 1800-tallet. forskere hadde ikke visse regler for å løse et ligningssystem der antallet ukjente er mindre enn antallet ligninger; Frem til den tid ble det brukt private teknikker som var avhengige av type ligninger og av kalkulatorenes vidd, og derfor kom forskjellige kalkulatorer, basert på samme observasjonsdata, til forskjellige konklusjoner. Gauss (1795) var den første som brukte metoden, og Legendre (1805) oppdaget og publiserte den uavhengig under sitt moderne navn (fransk. Méthode des moindres quarrés ). Laplace relaterte metoden til sannsynlighetsteori, og den amerikanske matematikeren Adrain (1808) vurderte dens sannsynlighetsteoretiske anvendelser. Metoden ble utbredt og forbedret ved videre forskning av Encke, Bessel, Hansen og andre.

Alternativ bruk av OLS

Ideen om minste kvadraters metode kan også brukes i andre tilfeller som ikke er direkte relatert til regresjonsanalyse. Faktum er at summen av kvadrater er et av de vanligste nærhetsmålene for vektorer (euklidisk metrikk i endelig-dimensjonale rom).

En applikasjon er "løsningen" av systemer med lineære ligninger der antallet ligninger er større enn antallet variabler

hvor matrisen ikke er kvadratisk, men rektangulær av størrelse.

Et slikt ligningssystem har i det generelle tilfellet ingen løsning (hvis rangeringen faktisk er større enn antall variabler). Derfor kan dette systemet bare "løses" i betydningen å velge en slik vektor for å minimere "avstanden" mellom vektorene og . For å gjøre dette kan du bruke kriteriet om å minimere summen av kvadrater av forskjellene mellom venstre og høyre side av systemligningene, det vil si. Det er lett å vise at løsning av dette minimeringsproblemet fører til løsning av følgende ligningssystem

Approksimasjon av eksperimentelle data er en metode basert på å erstatte eksperimentelt innhentede data med en analytisk funksjon som passerer nærmest eller sammenfaller på knutepunkter med de opprinnelige verdiene (data innhentet under et eksperiment eller eksperiment). For øyeblikket er det to måter å definere en analytisk funksjon på:

Ved å konstruere et n-graders interpolasjonspolynom som passerer direkte gjennom alle punkter en gitt datamatrise. I dette tilfellet presenteres approksimasjonsfunksjonen i form av: et interpolasjonspolynom på lagrangeform eller et interpolasjonspolynom på newtonform.

Ved å konstruere et n-graders tilnærmet polynom som passerer i nærmeste nærhet til poeng fra en gitt datamatrise. Dermed jevner den tilnærmede funksjonen ut all tilfeldig støy (eller feil) som kan oppstå under eksperimentet: de målte verdiene under eksperimentet avhenger av tilfeldige faktorer som svinger i henhold til deres egne tilfeldige lover (måle- eller instrumentfeil, unøyaktighet eller eksperimentelle feil). I dette tilfellet bestemmes den tilnærmede funksjonen ved å bruke minste kvadraters metode.

Minste kvadraters metode(i den engelskspråklige litteraturen Ordinary Least Squares, OLS) er en matematisk metode basert på å bestemme den approksimerende funksjonen, som er konstruert i nærmeste nærhet til punkter fra en gitt rekke eksperimentelle data. Nærheten til de opprinnelige og approksimerende funksjonene F(x) bestemmes av et numerisk mål, nemlig: summen av kvadrerte avvik av eksperimentelle data fra den approksimerende kurven F(x) skal være den minste.

Tilnærmingskurve konstruert ved bruk av minste kvadraters metode

Minste kvadraters metode brukes:

Å løse overbestemte ligningssystemer når antall ligninger overstiger antall ukjente;

Å finne en løsning i tilfellet med vanlige (ikke overbestemte) ikke-lineære ligningssystemer;

For å tilnærme punktverdier med en tilnærmet funksjon.

Tilnærmingsfunksjonen ved bruk av minste kvadraters metode bestemmes fra betingelsen for minimumsummen av kvadrerte avvik til den beregnede tilnærmelsesfunksjonen fra en gitt rekke eksperimentelle data. Dette kriteriet for minste kvadraters metode er skrevet som følgende uttrykk:

Verdiene til den beregnede tilnærmede funksjonen ved knutepunktene,

En gitt rekke eksperimentelle data ved nodalpunkter.

Det kvadratiske kriteriet har en rekke "gode" egenskaper, for eksempel differensierbarhet, og gir en unik løsning på tilnærmingsproblemet med polynomiske approksimasjonsfunksjoner.

Avhengig av forholdene til problemet, er den tilnærmede funksjonen et polynom av grad m

Graden av den tilnærmede funksjonen avhenger ikke av antall knutepunkter, men dens dimensjon må alltid være mindre enn dimensjonen (antall punkter) til en gitt eksperimentell datamatrise.

∙ Hvis graden av approksimasjonsfunksjonen er m=1, så tilnærmer vi tabellfunksjonen med en rett linje (lineær regresjon).

∙ Hvis graden av tilnærmingsfunksjonen er m=2, så tilnærmer vi tabellfunksjonen med en kvadratisk parabel (kvadratisk tilnærming).

∙ Hvis graden av approksimasjonsfunksjonen er m=3, så tilnærmer vi tabellfunksjonen med en kubisk parabel (kubisk tilnærming).

I det generelle tilfellet, når det er nødvendig å konstruere et tilnærmet polynom av grad m for gitte tabellverdier, omskrives betingelsen for minimum av summen av kvadrerte avvik over alle nodalpunkter i følgende form:

- ukjente koeffisienter for det tilnærmede polynomet av grad m;

Antall tabellverdier spesifisert.

En nødvendig betingelse for eksistensen av et minimum av en funksjon er likheten til null av dens partielle deriverte med hensyn til ukjente variabler . Som et resultat får vi følgende ligningssystem:

La oss transformere det resulterende lineære likningssystemet: åpne parentesene og flytt de frie leddene til høyre side av uttrykket. Som et resultat vil det resulterende systemet med lineære algebraiske uttrykk skrives i følgende form:

Dette systemet med lineære algebraiske uttrykk kan skrives om i matriseform:

Som et resultat ble det oppnådd et system av lineære ligninger med dimensjon m+1, som består av m+1 ukjente. Dette systemet kan løses ved å bruke hvilken som helst metode for å løse lineære algebraiske ligninger (for eksempel Gauss-metoden). Som et resultat av løsningen vil det bli funnet ukjente parametere for approksimeringsfunksjonen som gir minimumsummen av kvadrerte avvik til approksimeringsfunksjonen fra de opprinnelige dataene, dvs. best mulig kvadratisk tilnærming. Det bør huskes at hvis til og med én verdi av kildedataene endres, vil alle koeffisienter endre verdiene, siden de er fullstendig bestemt av kildedataene.

Tilnærming av kildedata ved lineær avhengighet

(lineær regresjon)

Som et eksempel, la oss vurdere teknikken for å bestemme den tilnærmede funksjonen, som er spesifisert i form av en lineær avhengighet. I samsvar med minste kvadraters metode skrives betingelsen for minimum av summen av kvadrerte avvik i følgende form:

Koordinater til tabellnoder;

Ukjente koeffisienter for den tilnærmede funksjonen, som er spesifisert som en lineær avhengighet.

En nødvendig betingelse for eksistensen av et minimum av en funksjon er lik null av dens partielle deriverte med hensyn til ukjente variabler. Som et resultat får vi følgende ligningssystem:

La oss transformere det resulterende lineære likningssystemet.

Vi løser det resulterende systemet med lineære ligninger. Koeffisientene til den tilnærmede funksjonen i analytisk form bestemmes som følger (Cramers metode):

Disse koeffisientene sikrer konstruksjonen av en lineær tilnærmingsfunksjon i samsvar med kriteriet om å minimere summen av kvadrater av den tilnærmede funksjonen fra de gitte tabellverdiene (eksperimentelle data).

Algoritme for implementering av minste kvadraters metode

1. Opprinnelige data:

En rekke eksperimentelle data med antall målinger N er spesifisert

Graden av det tilnærmede polynomet (m) er spesifisert

2. Beregningsalgoritme:

2.1. Koeffisientene bestemmes for å konstruere et likningssystem med dimensjoner

Koeffisienter til ligningssystemet (venstre side av ligningen)

- indeks for kolonnenummeret til kvadratmatrisen til ligningssystemet

Frie ledd i et system av lineære ligninger (høyre side av ligningen)

- indeks for radnummeret til kvadratmatrisen til ligningssystemet

2.2. Dannelse av et system av lineære ligninger med dimensjon .

2.3. Løse et system med lineære ligninger for å bestemme de ukjente koeffisientene til et tilnærmet polynom med grad m.

2.4 Bestemmelse av summen av kvadrerte avvik til det tilnærmede polynomet fra de opprinnelige verdiene ved alle nodalpunkter.

Den funnet verdien av summen av kvadrerte avvik er minimum mulig.

Tilnærming ved hjelp av andre funksjoner

Det skal bemerkes at når man tilnærmer de opprinnelige dataene i henhold til minste kvadraters metode, brukes den logaritmiske funksjonen, eksponentialfunksjonen og potensfunksjonen noen ganger som tilnærmingsfunksjonen.

Logaritmisk tilnærming

La oss vurdere tilfellet når den tilnærmede funksjonen er gitt av en logaritmisk funksjon av formen:

Den har mange applikasjoner, da den tillater en omtrentlig representasjon av en gitt funksjon med andre enklere. LSM kan være ekstremt nyttig for å behandle observasjoner, og det brukes aktivt til å estimere noen mengder basert på resultatene av målinger av andre som inneholder tilfeldige feil. I denne artikkelen lærer du hvordan du implementerer minste kvadraters beregninger i Excel.

Forklaring av problemet ved hjelp av et spesifikt eksempel

Anta at det er to indikatorer X og Y. Ytterligere avhenger Y av X. Siden OLS interesserer oss fra et synspunkt om regresjonsanalyse (i Excel implementeres metodene ved hjelp av innebygde funksjoner), bør vi umiddelbart gå videre til å vurdere en spesifikt problem.

Så la X være butikklokalet til en dagligvarebutikk, målt i kvadratmeter, og Y være den årlige omsetningen, bestemt i millioner av rubler.

Det kreves å lage en prognose for hvilken omsetning (Y) butikken vil ha dersom den har et eller annet butikkareal. Det er klart at funksjonen Y = f (X) øker, siden hypermarkedet selger flere varer enn boden.

Noen få ord om riktigheten av de første dataene som brukes til prediksjon

La oss si at vi har en tabell bygget ved hjelp av data for n butikker.

I følge matematisk statistikk vil resultatene være mer eller mindre korrekte dersom data på minst 5-6 objekter undersøkes. I tillegg kan ikke "anomale" resultater brukes. Spesielt kan en liten elitebutikk ha en omsetning som er flere ganger større enn omsetningen til store utsalgssteder i "masmarket"-klassen.

Essensen av metoden

Tabelldataene kan avbildes på et kartesisk plan i form av punktene M 1 (x 1, y 1), ... M n (x n, y n). Nå vil løsningen på problemet reduseres til valget av en tilnærmet funksjon y = f (x), som har en graf som passerer så nært som mulig punktene M 1, M 2, .. M n.

Selvfølgelig kan du bruke et polynom i høy grad, men dette alternativet er ikke bare vanskelig å implementere, men også rett og slett feil, siden det ikke vil gjenspeile hovedtrenden som må oppdages. Den mest fornuftige løsningen er å søke etter den rette linjen y = ax + b, som best tilnærmer de eksperimentelle dataene, eller mer presist koeffisientene a og b.

Nøyaktighetsvurdering

Med enhver tilnærming er det spesielt viktig å vurdere nøyaktigheten. La oss betegne med e i forskjellen (avvik) mellom funksjonelle og eksperimentelle verdier for punkt x i, dvs. e i = y i - f (x i).

For å vurdere nøyaktigheten til tilnærmingen kan du selvsagt bruke summen av avvik, dvs. når du velger en rett linje for en omtrentlig representasjon av avhengigheten til X av Y, bør du gi preferanse til den med den minste verdien av sum e i på alle punkter under vurdering. Imidlertid er ikke alt så enkelt, siden det sammen med positive avvik også vil være negative.

Problemet kan løses ved å bruke avviksmoduler eller deres kvadrater. Den siste metoden er den mest brukte. Den brukes på mange områder, inkludert regresjonsanalyse (i Excel er den implementert ved hjelp av to innebygde funksjoner), og har lenge vist seg å være effektiv.

Minste kvadraters metode

Excel, som du vet, har en innebygd AutoSum-funksjon som lar deg beregne verdiene til alle verdier som er plassert i det valgte området. Dermed vil ingenting hindre oss i å beregne verdien av uttrykket (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

I matematisk notasjon ser dette slik ut:

Siden beslutningen opprinnelig ble tatt om å tilnærme ved hjelp av en rett linje, har vi:

Oppgaven med å finne den rette linjen som best beskriver den spesifikke avhengigheten av mengdene X og Y kommer ned til å beregne minimum av en funksjon av to variabler:

For å gjøre dette, må du likestille de partielle deriverte med hensyn til de nye variablene a og b til null, og løse et primitivt system som består av to ligninger med 2 ukjente av formen:

Etter noen enkle transformasjoner, inkludert divisjon med 2 og manipulering av summer, får vi:

Ved å løse det, for eksempel ved å bruke Cramers metode, får vi et stasjonært punkt med visse koeffisienter a * og b *. Dette er minimum, dvs. for å forutsi hvilken omsetning en butikk vil ha for et bestemt område, er den rette linjen y = a * x + b * egnet, som er en regresjonsmodell for det aktuelle eksemplet. Selvfølgelig vil det ikke tillate deg å finne det nøyaktige resultatet, men det vil hjelpe deg med å få en ide om hvorvidt det vil lønne seg å kjøpe et bestemt område på butikkkreditt.

Hvordan implementere minste kvadrater i Excel

Excel har en funksjon for å beregne verdier ved å bruke minste kvadrater. Den har følgende form: "TREND" (kjente Y-verdier; kjente X-verdier; nye X-verdier; konstant). La oss bruke formelen for å beregne OLS i Excel på tabellen vår.

For å gjøre dette, skriv inn "="-tegnet i cellen der resultatet av beregningen ved hjelp av minste kvadraters metode i Excel skal vises og velg "TREND" -funksjonen. Fyll ut de aktuelle feltene i vinduet som åpnes, og uthev:

  • rekke kjente verdier for Y (i dette tilfellet data for handelsomsetning);
  • rekkevidde x 1, …x n, dvs. størrelsen på butikklokaler;
  • både kjente og ukjente verdier av x, som du trenger for å finne ut størrelsen på omsetningen (for informasjon om deres plassering på regnearket, se nedenfor).

I tillegg inneholder formelen den logiske variabelen "Const". Hvis du skriver inn 1 i det tilsvarende feltet, vil dette bety at du skal utføre beregningene, forutsatt at b = 0.

Hvis du trenger å finne ut prognosen for mer enn én x-verdi, bør du ikke trykke "Enter" etter å ha skrevet inn formelen, men du må skrive kombinasjonen "Shift" + "Control" + "Enter" på tastaturet.

Noen funksjoner

Regresjonsanalyse kan være tilgjengelig selv for dummies. Excel-formelen for å forutsi verdien av en rekke ukjente variabler – TREND – kan brukes selv av de som aldri har hørt om minste kvadrater. Det er nok bare å kjenne noen av funksjonene i arbeidet. Spesielt:

  • Hvis du ordner rekkevidden av kjente verdier for variabelen y i en rad eller kolonne, vil hver rad (kolonne) med kjente verdier av x bli oppfattet av programmet som en separat variabel.
  • Hvis et område med kjent x ikke er spesifisert i TREND-vinduet, vil programmet, når du bruker en funksjon i Excel, behandle det som en matrise bestående av heltall, hvor nummeret tilsvarer området med de gitte verdiene til y variabel.
  • For å sende ut en matrise med "forutsagte" verdier, må uttrykket for beregning av trenden angis som en matriseformel.
  • Hvis nye x-verdier ikke er spesifisert, anser TREND-funksjonen dem som lik de kjente. Hvis de ikke er spesifisert, tas matrise 1 som et argument; 2; 3; 4;…, som er i samsvar med området med allerede spesifiserte parametere y.
  • Området som inneholder de nye x-verdiene må ha samme eller flere rader eller kolonner som området som inneholder de gitte y-verdiene. Den må med andre ord være proporsjonal med de uavhengige variablene.
  • En matrise med kjente x-verdier kan inneholde flere variabler. Imidlertid, hvis vi snakker om bare én, kreves det at områdene med de gitte verdiene av x og y er proporsjonale. Ved flere variabler er det nødvendig at området med de gitte y-verdiene passer i en kolonne eller en rad.

PREDIKTION funksjon

Implementert ved hjelp av flere funksjoner. En av dem heter "PREDICTION". Det ligner på "TREND", det vil si at det gir resultatet av beregninger med minste kvadraters metode. Imidlertid bare for en X, der verdien av Y er ukjent.

Nå kjenner du formler i Excel for dummies som lar deg forutsi den fremtidige verdien av en bestemt indikator i henhold til en lineær trend.

Etter å ha valgt type regresjonsfunksjon, dvs. typen av den betraktede modellen for avhengigheten av Y på X (eller X på Y), for eksempel en lineær modell y x =a+bx, er det nødvendig å bestemme de spesifikke verdiene til modellkoeffisientene.

For ulike verdier av a og b er det mulig å konstruere et uendelig antall avhengigheter av formen y x = a + bx, det vil si at det er et uendelig antall rette linjer på koordinatplanet, men vi trenger en avhengighet som best tilsvarer de observerte verdiene. Dermed kommer oppgaven ned til å velge de beste koeffisientene.

Vi ser etter den lineære funksjonen a+bx kun basert på et visst antall tilgjengelige observasjoner. For å finne funksjonen som passer best til de observerte verdiene, bruker vi minste kvadraters metode.

La oss betegne: Y i - verdien beregnet av ligningen Y i =a+bx i. y i - målt verdi, ε i =y i -Y i - forskjell mellom målte og beregnede verdier ved hjelp av ligningen, ε i =y i -a-bx i.

Minste kvadraters metode krever at ε i, forskjellen mellom målt y i og verdiene Y i beregnet fra ligningen, er minimal. Derfor finner vi koeffisientene a og b slik at summen av de kvadrerte avvikene til de observerte verdiene fra verdiene på den rette regresjonslinjen er den minste:

Ved å undersøke denne funksjonen til argumentene a og for ekstremum ved hjelp av deriverte, kan vi bevise at funksjonen tar en minimumsverdi hvis koeffisientene a og b er løsninger til systemet:

(2)

Hvis vi deler begge sider av normallikningene med n, får vi:

Med tanke på det (3)

Vi får , herfra, ved å erstatte verdien av a i den første ligningen, får vi:

I dette tilfellet kalles b regresjonskoeffisienten; a kalles frileddet til regresjonsligningen og beregnes ved hjelp av formelen:

Den resulterende rette linjen er et estimat for den teoretiske regresjonslinjen. Vi har:

Så, er en lineær regresjonsligning.

Regresjon kan være direkte (b>0) og omvendt (b Eksempel 1. Resultatene av å måle verdiene til X og Y er gitt i tabellen:

x i -2 0 1 2 4
y jeg 0.5 1 1.5 2 3

Forutsatt at det er en lineær sammenheng mellom X og Y y=a+bx, bestem koeffisientene a og b ved hjelp av minste kvadraters metode.

Løsning. Her er n=5
xi = -2+0+1+2+4=5;
x i2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
yi =0,5+1+1,5+2+3=8

og normalt system (2) har formen

Ved å løse dette systemet får vi: b=0,425, a=1,175. Derfor y=1,175+0,425x.

Eksempel 2. Det er et utvalg på 10 observasjoner av økonomiske indikatorer (X) og (Y).

x i 180 172 173 169 175 170 179 170 167 174
y jeg 186 180 176 171 182 166 182 172 169 177

Du må finne en prøveregresjonsligning for Y på X. Konstruer en prøveregresjonslinje for Y på X.

Løsning. 1. La oss sortere dataene i henhold til verdiene x i og y i . Vi får et nytt bord:

x i 167 169 170 170 172 173 174 175 179 180
y jeg 169 171 166 172 180 176 177 182 182 186

For å forenkle beregningene vil vi lage en beregningstabell der vi legger inn nødvendige tallverdier.

x i y jeg x i 2 x jeg y jeg
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172,9 y=176,1 x i 2 = 29910,5 xy=30469,6

I henhold til formel (4) beregner vi regresjonskoeffisienten

og i henhold til formel (5)

Således er prøveregresjonsligningen y=-59,34+1,3804x.
La oss plotte punktene (x i ; y i) på koordinatplanet og markere regresjonslinjen.


Fig 4

Figur 4 viser hvordan de observerte verdiene er lokalisert i forhold til regresjonslinjen. For en numerisk vurdering av avvikene til y i fra Y i, hvor y i er observert og Y i er verdier bestemt av regresjon, lager vi en tabell:

x i y jeg Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Yi-verdier beregnes i henhold til regresjonsligningen.

Det merkbare avviket til noen observerte verdier fra regresjonslinjen forklares av det lille antallet observasjoner. Når man studerer graden av lineær avhengighet av Y på X, tas antall observasjoner i betraktning. Styrken på avhengigheten bestemmes av verdien av korrelasjonskoeffisienten.

Eksempel.

Eksperimentelle data om verdiene til variabler X Og er gitt i tabellen.

Som et resultat av deres justering oppnås funksjonen

Bruker minste kvadraters metode, tilnærmet disse dataene ved en lineær avhengighet y=ax+b(finn parametere EN Og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Essensen av minste kvadraters metode (LSM).

Oppgaven er å finne de lineære avhengighetskoeffisientene som funksjonen til to variabler EN Og b tar den minste verdien. Det vil si gitt EN Og b summen av kvadrerte avvik av eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Å løse eksemplet kommer altså ned til å finne ekstremumet til en funksjon av to variabler.

Utlede formler for å finne koeffisienter.

Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av en funksjon med hensyn til variabler EN Og b, likestiller vi disse derivatene til null.

Vi løser det resulterende ligningssystemet ved å bruke en hvilken som helst metode (for eksempel etter substitusjonsmetode eller ) og få formler for å finne koeffisienter ved å bruke minste kvadraters metode (LSM).

Gitt EN Og b funksjon tar den minste verdien. Beviset for dette faktum er gitt.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene , , og parameter n- mengde eksperimentelle data. Vi anbefaler å beregne verdiene av disse beløpene separat. Koeffisient b funnet etter beregning en.

Det er på tide å huske det originale eksemplet.

Løsning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene EN Og b. Vi erstatter de tilsvarende verdiene fra den siste kolonnen i tabellen i dem:

Derfor, y = 0,165x+2,184- ønsket tilnærmet rett linje.

Det gjenstår å finne ut hvilken av linjene y = 0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si estimater ved bruk av minste kvadraters metode.

Feil estimering av minste kvadraters metode.

For å gjøre dette må du beregne summen av kvadrerte avvik fra de opprinnelige dataene fra disse linjene Og , tilsvarer en mindre verdi en linje som bedre tilnærmer de opprinnelige dataene i betydningen minste kvadraters metode.

Siden , da rett y = 0,165x+2,184 tilnærmer de opprinnelige dataene bedre.

Grafisk illustrasjon av minste kvadraters (LS) metode.

Alt er godt synlig på grafene. Den røde linjen er den funnet rette linjen y = 0,165x+2,184, er den blå linjen , rosa prikker er de opprinnelige dataene.

Hvorfor er dette nødvendig, hvorfor alle disse tilnærmingene?

Jeg bruker det personlig til å løse problemer med datautjevning, interpolasjon og ekstrapolasjonsproblemer (i det opprinnelige eksemplet kan de ha blitt bedt om å finne verdien av en observert verdi yx=3 eller når x=6 ved å bruke minste kvadraters metode). Men vi vil snakke mer om dette senere i en annen del av nettstedet.

Bevis.

Så når funnet EN Og b funksjonen tar den minste verdien, er det nødvendig at på dette punktet matrisen til kvadratisk form av andre ordens differensial for funksjonen var positiv definitivt. La oss vise det.