Manuālā mazāko kvadrātu metode. Lineārā regresija

Mazākā kvadrāta metode

Mazākā kvadrāta metode ( OLS, OLS, parastie mazākie kvadrāti) - viena no regresijas analīzes pamatmetodēm nezināmu regresijas modeļu parametru novērtēšanai, izmantojot izlases datus. Metodes pamatā ir regresijas atlikuma kvadrātu summas samazināšana.

Jāatzīmē, ka pašu mazāko kvadrātu metodi var saukt par metodi problēmas risināšanai jebkurā jomā, ja risinājums atrodas vai atbilst kādam kritērijam, lai minimizētu dažu nepieciešamo mainīgo funkciju kvadrātu summu. Tāpēc mazāko kvadrātu metodi var izmantot arī noteiktas funkcijas aptuvenai attēlošanai (tuvināšanai) ar citām (vienkāršākām) funkcijām, atrodot lielumu kopu, kas apmierina vienādojumus vai ierobežojumus, kuru skaits pārsniedz šo lielumu skaitu. utt.

MNC būtība

Dots kāds (parametrisks) varbūtības (regresijas) attiecības modelis starp (izskaidroto) mainīgo y un daudzi faktori (skaidrojošie mainīgie) x

kur ir nezināmu modeļa parametru vektors

- nejauša modeļa kļūda.

Lai ir arī šo mainīgo lielumu vērtību izlases novērojumi. Ļaut ir novērojuma numurs (). Tad ir mainīgo vērtības novērojumā. Pēc tam dotajām parametru b vērtībām var aprēķināt izskaidrotā mainīgā y teorētiskās (modeļa) vērtības:

Atlikumu lielums ir atkarīgs no parametru vērtībām b.

Mazāko kvadrātu metodes (parastā, klasiskā) būtība ir atrast parametrus b, kuriem tiek aprēķināta atlikuma kvadrātu summa (eng. Atlikusī kvadrātu summa) būs minimāls:

Vispārīgā gadījumā šo problēmu var atrisināt ar skaitliskās optimizācijas (minimizācijas) metodēm. Šajā gadījumā viņi runā par nelineārie mazākie kvadrāti(NLS vai NLLS — angļu) Nelineārie mazākie kvadrāti). Daudzos gadījumos ir iespējams iegūt analītisko risinājumu. Lai atrisinātu minimizēšanas uzdevumu, jāatrod funkcijas stacionārie punkti, diferencējot to attiecībā pret nezināmajiem parametriem b, pielīdzinot atvasinājumus ar nulli un atrisinot iegūto vienādojumu sistēmu:

Ja modeļa nejaušās kļūdas ir parasti sadalītas, tām ir tāda pati dispersija un tās nav korelētas, OLS parametru aplēses ir tādas pašas kā maksimālās iespējamības aplēses (MLM).

OLS lineāra modeļa gadījumā

Lai regresijas atkarība būtu lineāra:

Ļaujiet y ir izskaidrotā mainīgā novērojumu kolonnas vektors un faktoru novērojumu matrica (matricas rindas ir faktoru vērtību vektori noteiktā novērojumā, kolonnas ir noteikta faktora vērtību vektors visos novērojumos). Lineārā modeļa matricas attēlojums ir šāds:

Tad izskaidrotā mainīgā aplēšu vektors un regresijas atlikuma vektors būs vienādi

Attiecīgi regresijas atlikuma kvadrātu summa būs vienāda ar

Diferencējot šo funkciju attiecībā pret parametru vektoru un pielīdzinot atvasinājumus ar nulli, iegūstam vienādojumu sistēmu (matricas formā):

.

Šīs vienādojumu sistēmas risinājums sniedz vispārīgo formulu mazāko kvadrātu aprēķiniem lineāram modelim:

Analītiskiem nolūkiem ir noderīgs šīs formulas pēdējais attēlojums. Ja regresijas modelī dati centrēts, tad šajā attēlojumā pirmajai matricai ir faktoru izlases kovariācijas matricas nozīme, bet otrā ir faktoru kovariāciju vektors ar atkarīgo mainīgo. Ja papildus dati ir arī normalizēts uz MSE (tas ir, galu galā standartizēts), tad pirmajai matricai ir faktoru izlases korelācijas matricas nozīme, otrajam vektoram - faktoru izlases korelāciju vektors ar atkarīgo mainīgo.

Svarīga OLS aplēšu īpašība modeļiem ar nemainīgu- konstruētās regresijas līnija iet caur parauga datu smaguma centru, tas ir, ir izpildīta vienādība:

Jo īpaši galējā gadījumā, kad vienīgais regresors ir konstante, mēs atklājam, ka vienīgā parametra (pašas konstantes) OLS novērtējums ir vienāds ar izskaidrotā mainīgā vidējo vērtību. Tas ir, vidējais aritmētiskais, kas pazīstams ar savām labajām īpašībām no lielu skaitļu likumiem, arī ir mazāko kvadrātu aprēķins - tas atbilst minimālās kvadrātiskās noviržu summas kritērijam no tā.

Piemērs: vienkāršākā (pāru) regresija

Pāru lineārās regresijas gadījumā aprēķinu formulas ir vienkāršotas (var iztikt bez matricas algebras):

OLS novērtētāju īpašības

Pirmkārt, mēs atzīmējam, ka lineārajiem modeļiem OLS aprēķini ir lineāri aprēķini, kā izriet no iepriekš minētās formulas. Neobjektīviem OLS aprēķiniem ir nepieciešams un pietiek, lai izpildītu svarīgāko regresijas analīzes nosacījumu: nejaušas kļūdas matemātiskajai cerībai, kas ir atkarīga no faktoriem, jābūt vienādai ar nulli. Šis nosacījums jo īpaši ir izpildīts, ja

  1. nejaušu kļūdu matemātiskā cerība ir nulle, un
  2. faktori un nejaušās kļūdas ir neatkarīgi nejauši mainīgie.

Otrs nosacījums - faktoru eksogenitātes nosacījums - ir fundamentāls. Ja šī īpašība netiek ievērota, mēs varam pieņemt, ka gandrīz visi aprēķini būs ārkārtīgi neapmierinoši: tie pat nebūs konsekventi (tas ir, pat ļoti liels datu apjoms neļauj iegūt augstas kvalitātes aprēķinus šajā gadījumā ). Klasiskā gadījumā tiek izdarīts spēcīgāks pieņēmums par faktoru determinismu, nevis nejauša kļūda, kas automātiski nozīmē, ka eksogenitātes nosacījums ir izpildīts. Vispārīgā gadījumā aplēšu konsekvences labad pietiek ar eksogenitātes nosacījumu izpildi kopā ar matricas konverģenci ar kādu ne-singulāru matricu, izlases lielumam palielinoties līdz bezgalībai.

Lai papildus konsekvencei un objektīvumam (parasto) mazāko kvadrātu aplēses būtu efektīvas (labākās lineāro objektīvo novērtējumu klasē), ir jāizpilda papildu nejaušās kļūdas īpašības:

Šos pieņēmumus var formulēt nejaušās kļūdas vektora kovariācijas matricai

Tiek saukts lineārs modelis, kas atbilst šiem nosacījumiem klasiskais. OLS aprēķini klasiskajai lineārajai regresijai ir objektīvi, konsekventi un visefektīvākie aprēķini visu lineāro objektīvo aplēšu klasē (angļu literatūrā dažreiz tiek izmantots saīsinājums ZILS (Labākais lineārais nepamatotais aprēķinātājs) - labākais lineārais objektīvs novērtējums; krievu literatūrā biežāk tiek citēta Gausa-Markova teorēma). Kā ir viegli parādīt, koeficientu aprēķinu vektora kovariācijas matrica būs vienāda ar:

Vispārināts OLS

Mazāko kvadrātu metode ļauj veikt plašu vispārināšanu. Tā vietā, lai minimizētu atlieku kvadrātu summu, var minimizēt kādu pozitīvu noteiktu atlikuma vektora kvadrātisko formu, kur ir kāda simetriska pozitīva noteikta svara matrica. Parastie mazākie kvadrāti ir šīs pieejas īpašs gadījums, kad svara matrica ir proporcionāla identitātes matricai. Kā zināms no simetrisko matricu (jeb operatoru) teorijas, šādām matricām notiek dekompozīcija. Līdz ar to norādīto funkcionālo var attēlot šādi, tas ir, šo funkcionālo var attēlot kā dažu pārveidoto “atlikušo” kvadrātu summu. Tādējādi mēs varam izdalīt mazāko kvadrātu metožu klasi - LS metodes (Least Squares).

Ir pierādīts (Aitkena teorēma), ka vispārinātam lineārās regresijas modelim (kurā nejaušo kļūdu kovariācijas matricai nav noteikti ierobežojumi) visefektīvākie (lineāro objektīvo novērtējumu klasē) ir tā sauktie aprēķini. vispārinātie mazākie kvadrāti (GLS — vispārinātie mazākie kvadrāti)- LS metode ar svara matricu, kas vienāda ar nejaušo kļūdu apgriezto kovariācijas matricu: .

Var parādīt, ka lineārā modeļa parametru GLS novērtējumu formulai ir forma

Šo aplēšu kovariācijas matrica attiecīgi būs vienāda ar

Faktiski OLS būtība slēpjas sākotnējā datu noteiktā (lineārā) transformācijā (P) un parastās OLS pielietošanā pārveidotajiem datiem. Šīs transformācijas mērķis ir, lai pārveidotajiem datiem nejaušās kļūdas jau atbilstu klasiskajiem pieņēmumiem.

Svērtais OLS

Diagonālās svara matricas (un līdz ar to nejaušu kļūdu kovariācijas matricas) gadījumā mums ir tā sauktie svērtie mazākie kvadrāti (WLS). Šajā gadījumā modeļa atlikuma svērtā kvadrātu summa tiek samazināta līdz minimumam, tas ir, katrs novērojums saņem “svaru”, kas ir apgriezti proporcionāls nejaušās kļūdas dispersijai šajā novērojumā: . Faktiski dati tiek pārveidoti, novērojumus sverot (dalot ar summu, kas ir proporcionāla nejaušo kļūdu aplēstajai standarta novirzei), un svērtajiem datiem tiek izmantota parastā OLS.

Daži īpaši MNC izmantošanas gadījumi praksē

Lineārās atkarības tuvināšana

Apskatīsim gadījumu, kad, pētot noteikta skalārā lieluma atkarību no noteikta skalārā lieluma (Tā varētu būt, piemēram, sprieguma atkarība no strāvas stipruma: , kur ir nemainīga vērtība, pretestība diriģents), tika veikti šo daudzumu mērījumi, kā rezultātā vērtības un tām atbilstošās vērtības. Mērījumu dati jāreģistrē tabulā.

Tabula. Mērījumu rezultāti.

Mērījums Nr.
1
2
3
4
5
6

Jautājums ir: kādu koeficienta vērtību var izvēlēties, lai vislabāk raksturotu atkarību? Saskaņā ar mazāko kvadrātu metodi šai vērtībai jābūt tādai, lai vērtību kvadrātu summai būtu novirzes no vērtībām

bija minimāls

Kvadrātveida noviržu summai ir viens ekstrēmums – minimums, kas ļauj izmantot šo formulu. No šīs formulas atradīsim koeficienta vērtību. Lai to izdarītu, mēs pārveidojam tā kreiso pusi šādi:

Pēdējā formula ļauj mums atrast koeficienta vērtību, kas ir nepieciešama uzdevumā.

Stāsts

Līdz 19. gadsimta sākumam. zinātniekiem nebija noteiktu noteikumu, lai atrisinātu vienādojumu sistēmu, kurā nezināmo skaits ir mazāks par vienādojumu skaitu; Līdz tam laikam tika izmantotas privātas metodes, kas bija atkarīgas no vienādojumu veida un kalkulatoru asprātības, un tāpēc dažādi kalkulatori, pamatojoties uz vieniem un tiem pašiem novērojumu datiem, nonāca pie atšķirīgiem secinājumiem. Gauss (1795) bija pirmais, kurš izmantoja metodi, un Leģendrs (1805) neatkarīgi atklāja un publicēja to ar tās mūsdienu nosaukumu (franču. Méthode des moindres quarrés ) . Laplass šo metodi saistīja ar varbūtības teoriju, un amerikāņu matemātiķis Adrains (1808) apsvēra tās varbūtības teorētiskos pielietojumus. Metode bija plaši izplatīta un pilnveidota, veicot turpmākus pētījumus, ko veica Encke, Bessel, Hansen un citi.

Alternatīvi OLS lietojumi

Mazāko kvadrātu metodes ideju var izmantot arī citos gadījumos, kas nav tieši saistīti ar regresijas analīzi. Fakts ir tāds, ka kvadrātu summa ir viens no visizplatītākajiem vektoru tuvuma mēriem (Eiklīda metrika ierobežotu dimensiju telpās).

Viens pielietojums ir lineāro vienādojumu sistēmu “risinājums”, kurā vienādojumu skaits ir lielāks par mainīgo skaitu.

kur matrica nav kvadrātveida, bet gan taisnstūrveida.

Šādai vienādojumu sistēmai vispārīgā gadījumā nav atrisinājuma (ja rangs faktiski ir lielāks par mainīgo skaitu). Tāpēc šo sistēmu var “atrisināt” tikai tādā nozīmē, ka jāizvēlas šāds vektors, lai samazinātu “attālumu” starp vektoriem un . Lai to izdarītu, varat izmantot kritēriju, lai samazinātu atšķirību kvadrātu summu starp sistēmas vienādojumu kreiso un labo pusi, tas ir. Ir viegli parādīt, ka šīs minimizācijas problēmas atrisināšana noved pie šādas vienādojumu sistēmas atrisināšanas

Eksperimentālo datu tuvināšana ir metode, kuras pamatā ir eksperimentāli iegūto datu aizstāšana ar analītisko funkciju, kas mezglpunktos visciešāk šķērso vai sakrīt ar sākotnējām vērtībām (dati, kas iegūti eksperimenta vai eksperimenta laikā). Pašlaik ir divi veidi, kā definēt analītisko funkciju:

Konstruējot n-pakāpju interpolācijas polinomu, kas iziet tieši caur visiem punktiem dots datu masīvs. Šajā gadījumā aproksimējošā funkcija tiek parādīta šādi: interpolācijas polinoms Lagranža formā vai interpolācijas polinoms Ņūtona formā.

Konstruējot n-pakāpju aproksimējošu polinomu, kas iziet punktu tiešā tuvumā no dotā datu masīva. Tādējādi aproksimējošā funkcija izlīdzina visus nejaušos trokšņus (vai kļūdas), kas var rasties eksperimenta laikā: eksperimenta laikā izmērītās vērtības ir atkarīgas no nejaušības faktoriem, kas svārstās atbilstoši saviem nejaušības likumiem (mērījumu vai instrumentu kļūdas, neprecizitāte vai eksperimentālas). kļūdas). Šajā gadījumā aproksimējošā funkcija tiek noteikta, izmantojot mazāko kvadrātu metodi.

Mazākā kvadrāta metode(angļu literatūrā Ordinary Least Squares, OLS) ir matemātiska metode, kuras pamatā ir aproksimējošās funkcijas noteikšana, kas tiek konstruēta vistuvākajā punktu tuvumā no noteikta eksperimentālo datu masīva. Sākotnējās un tuvinātās funkcijas F(x) tuvumu nosaka ar skaitlisku mēru, proti: eksperimentālo datu kvadrātu noviržu summai no aproksimējošās līknes F(x) jābūt vismazākajai.

Aproksimējošā līkne, kas izveidota, izmantojot mazāko kvadrātu metodi

Tiek izmantota mazāko kvadrātu metode:

Risināt pārdefinētas vienādojumu sistēmas, kad vienādojumu skaits pārsniedz nezināmo skaitu;

Atrast risinājumu parastu (nepārnoteiktu) nelineāru vienādojumu sistēmu gadījumā;

Lai tuvinātu punktu vērtības ar kādu tuvinātu funkciju.

Tuvinošā funkcija, izmantojot mazāko kvadrātu metodi, tiek noteikta no nosacījuma par aprēķinātās aproksimējošās funkcijas minimālās kvadrātiskās noviržu summas no dotā eksperimentālo datu masīva. Šis mazāko kvadrātu metodes kritērijs ir uzrakstīts kā šāda izteiksme:

Aprēķinātās tuvinātās funkcijas vērtības mezglu punktos,

Dotais eksperimentālo datu masīvs mezglu punktos.

Kvadrātiskajam kritērijam ir vairākas “labas” īpašības, piemēram, diferenciācija, kas nodrošina unikālu risinājumu aproksimācijas problēmai ar polinomu tuvināšanas funkcijām.

Atkarībā no uzdevuma nosacījumiem aproksimējošā funkcija ir m pakāpes polinoms

Tuvināšanas funkcijas pakāpe nav atkarīga no mezglu punktu skaita, bet tās dimensijai vienmēr jābūt mazākai par dotā eksperimentālā datu masīva dimensiju (punktu skaitu).

∙ Ja aproksimējošās funkcijas pakāpe ir m=1, tad tabulas funkciju aproksimējam ar taisni (lineārā regresija).

∙ Ja aproksimējošās funkcijas pakāpe ir m=2, tad tabulas funkciju aproksimējam ar kvadrātveida parabolu (kvadrātiskā aproksimācija).

∙ Ja aproksimējošās funkcijas pakāpe ir m=3, tad tabulas funkciju aproksimējam ar kubisko parabolu (kubiskā aproksimācija).

Vispārīgā gadījumā, kad ir nepieciešams izveidot tuvinātu m pakāpes polinomu dotajām tabulas vērtībām, nosacījums par noviržu kvadrātu summas minimumu visos mezglpunktos tiek pārrakstīts šādā formā:

- m pakāpes aproksimējošā polinoma nezināmie koeficienti;

Norādītais tabulas vērtību skaits.

Nepieciešams nosacījums funkcijas minimuma pastāvēšanai ir tās daļējo atvasinājumu vienādība ar nulli attiecībā uz nezināmiem mainīgajiem. . Rezultātā mēs iegūstam šādu vienādojumu sistēmu:

Pārveidosim iegūto lineāro vienādojumu sistēmu: atveriet iekavas un pārvietojiet brīvos vārdus izteiksmes labajā pusē. Rezultātā iegūtā lineāro algebrisko izteiksmju sistēma tiks uzrakstīta šādā formā:

Šo lineāro algebrisko izteiksmju sistēmu var pārrakstīt matricas formā:

Rezultātā tika iegūta lineāro vienādojumu sistēma ar izmēru m+1, kas sastāv no m+1 nezināmajiem. Šo sistēmu var atrisināt, izmantojot jebkuru lineāro algebrisko vienādojumu risināšanas metodi (piemēram, Gausa metodi). Risinājuma rezultātā tiks atrasti nezināmi aproksimēšanas funkcijas parametri, kas nodrošina minimālo aproksimējošās funkcijas noviržu kvadrātu summu no sākotnējiem datiem, t.i. labākā iespējamā kvadrātiskā tuvināšana. Jāatceras, ka, mainoties kaut vienai avota datu vērtībai, visi koeficienti mainīs savas vērtības, jo tos pilnībā nosaka avota dati.

Avota datu tuvināšana pēc lineārās atkarības

(lineārā regresija)

Kā piemēru aplūkosim aproksimējošās funkcijas noteikšanas paņēmienu, kas norādīta lineāras atkarības veidā. Saskaņā ar mazāko kvadrātu metodi noviržu kvadrātu summas minimuma nosacījumu raksta šādā formā:

Tabulas mezglu koordinātas;

Nezināmi aproksimējošās funkcijas koeficienti, kas norādīta kā lineāra atkarība.

Nepieciešams nosacījums funkcijas minimuma pastāvēšanai ir tās daļējo atvasinājumu vienādība ar nulli attiecībā uz nezināmiem mainīgajiem. Rezultātā mēs iegūstam šādu vienādojumu sistēmu:

Pārveidosim iegūto lineāro vienādojumu sistēmu.

Mēs atrisinām iegūto lineāro vienādojumu sistēmu. Tuvinošās funkcijas koeficientus analītiskā formā nosaka šādi (Krāmera metode):

Šie koeficienti nodrošina lineāras aproksimējošas funkcijas konstruēšanu saskaņā ar kritēriju samazināt aproksimējošās funkcijas kvadrātu summu no dotajām tabulas vērtībām (eksperimentālie dati).

Algoritms mazāko kvadrātu metodes ieviešanai

1. Sākotnējie dati:

Ir norādīts eksperimentālo datu masīvs ar mērījumu skaitu N

Ir norādīta aproksimējošā polinoma pakāpe (m).

2. Aprēķinu algoritms:

2.1. Koeficientus nosaka vienādojumu sistēmas ar izmēriem konstruēšanai

Vienādojumu sistēmas koeficienti (vienādojuma kreisā puse)

- vienādojumu sistēmas kvadrātmatricas kolonnas numura indekss

Lineāro vienādojumu sistēmas brīvie termini (vienādojuma labā puse)

- vienādojumu sistēmas kvadrātmatricas rindas numura indekss

2.2. Lineāru vienādojumu sistēmas ar dimensiju veidošana .

2.3. Lineāro vienādojumu sistēmas atrisināšana, lai noteiktu m pakāpes tuvinātā polinoma nezināmos koeficientus.

2.4. Tuvinošā polinoma noviržu kvadrātu summas noteikšana no sākotnējām vērtībām visos mezgla punktos.

Atrastā noviržu kvadrātu summas vērtība ir minimālā iespējamā.

Tuvināšana, izmantojot citas funkcijas

Jāņem vērā, ka, tuvinot sākotnējos datus saskaņā ar mazāko kvadrātu metodi, kā aproksimējošā funkcija dažkārt tiek izmantota logaritmiskā funkcija, eksponenciālā funkcija un jaudas funkcija.

Logaritmiskā tuvināšana

Apskatīsim gadījumu, kad aproksimējošā funkcija tiek dota ar formas logaritmisko funkciju:

Tam ir daudz lietojumprogrammu, jo tas ļauj aptuvenu attēlot doto funkciju ar citām vienkāršākām funkcijām. LSM var būt ārkārtīgi noderīgs novērojumu apstrādē, un to aktīvi izmanto, lai novērtētu dažus lielumus, pamatojoties uz citu mērījumu rezultātiem, kuros ir nejaušas kļūdas. Šajā rakstā jūs uzzināsit, kā programmā Excel ieviest mazāko kvadrātu aprēķinus.

Problēmas izklāsts, izmantojot konkrētu piemēru

Pieņemsim, ka ir divi rādītāji X un Y. Turklāt Y ir atkarīgs no X. Tā kā OLS mūs interesē no regresijas analīzes viedokļa (programmā Excel tās metodes tiek ieviestas, izmantojot iebūvētās funkcijas), mums nekavējoties jāpāriet pie specifiska problēma.

Tātad, lai X ir pārtikas veikala tirdzniecības platība kvadrātmetros, bet Y ir gada apgrozījums, kas noteikts miljonos rubļu.

Jāsagatavo prognoze, kāds būs veikala apgrozījums (Y), ja tam būs tā vai cita tirdzniecības platība. Acīmredzot funkcija Y = f (X) palielinās, jo hipermārkets pārdod vairāk preču nekā stends.

Daži vārdi par prognozēšanai izmantoto sākotnējo datu pareizību

Pieņemsim, ka mums ir tabula, kas izveidota, izmantojot n veikalu datus.

Pēc matemātiskās statistikas, rezultāti būs vairāk vai mazāk pareizi, ja tiks pārbaudīti dati vismaz par 5-6 objektiem. Turklāt nevar izmantot “anomālus” rezultātus. Jo īpaši elitāra maza veikala apgrozījums var būt daudzkārt lielāks nekā lielo “masmarket” klases mazumtirdzniecības vietu apgrozījums.

Metodes būtība

Tabulas datus var attēlot Dekarta plaknē punktu M 1 (x 1, y 1), ... M n (x n, y n) formā. Tagad uzdevuma risinājums tiks reducēts līdz aproksimējošas funkcijas y = f (x) izvēlei, kurai ir grafiks, kas iet pēc iespējas tuvāk punktiem M 1, M 2, .. M n.

Protams, jūs varat izmantot augstas pakāpes polinomu, taču šī opcija ir ne tikai grūti īstenojama, bet arī vienkārši nepareiza, jo tā neatspoguļos galveno tendenci, kas ir jāatklāj. Saprātīgākais risinājums ir meklēt taisni y = ax + b, kas vislabāk tuvina eksperimentālos datus vai precīzāk, koeficientus a un b.

Precizitātes novērtējums

Ar jebkuru tuvinājumu tā precizitātes novērtēšana ir īpaši svarīga. Apzīmēsim ar e i atšķirību (novirzi) starp punkta x i funkcionālajām un eksperimentālajām vērtībām, t.i., e i = y i - f (x i).

Acīmredzot, lai novērtētu aproksimācijas precizitāti, varat izmantot noviržu summu, t.i., izvēloties taisnu līniju aptuvenai X atkarības no Y attēlojumam, jums ir jādod priekšroka tai, kuras vērtība ir mazākā summa e i visos izskatāmajos punktos. Tomēr ne viss ir tik vienkārši, jo kopā ar pozitīvām novirzēm būs arī negatīvas.

Problēmu var atrisināt, izmantojot novirzes moduļus vai to kvadrātus. Pēdējā metode ir visplašāk izmantotā. To izmanto daudzās jomās, tostarp regresijas analīzē (programmā Excel tas tiek ieviests, izmantojot divas iebūvētās funkcijas), un jau sen ir pierādīta tā efektivitāte.

Mazākā kvadrāta metode

Programmā Excel, kā jūs zināt, ir iebūvēta funkcija AutoSum, kas ļauj aprēķināt visu vērtību vērtības, kas atrodas atlasītajā diapazonā. Tādējādi nekas netraucēs mums aprēķināt izteiksmes vērtību (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Matemātiskajā pierakstā tas izskatās šādi:

Tā kā sākotnēji tika pieņemts lēmums tuvināt, izmantojot taisnu līniju, mums ir:

Tādējādi uzdevums atrast taisni, kas vislabāk raksturo lielumu X un Y īpašo atkarību, ir divu mainīgo funkcijas minimuma aprēķināšana:

Lai to izdarītu, daļējie atvasinājumi attiecībā uz jaunajiem mainīgajiem a un b ir jāpielīdzina nullei un jāatrisina primitīva sistēma, kas sastāv no diviem vienādojumiem ar 2 formas nezināmajiem:

Pēc dažām vienkāršām transformācijām, ieskaitot dalīšanu ar 2 un manipulācijas ar summām, mēs iegūstam:

To atrisinot, piemēram, izmantojot Krāmera metodi, iegūstam stacionāru punktu ar noteiktiem koeficientiem a * un b *. Tas ir minimums, t.i., lai prognozētu, kāds būs veikala apgrozījums noteiktā apgabalā, ir piemērota taisne y = a * x + b *, kas ir regresijas modelis aplūkojamajam piemēram. Protams, tas neļaus atrast precīzu rezultātu, taču palīdzēs gūt priekšstatu par to, vai konkrētas zonas iegāde veikala kredītā atmaksāsies.

Kā programmā Excel ieviest mazāko kvadrātu skaitu

Programmā Excel ir funkcija vērtību aprēķināšanai, izmantojot mazāko kvadrātu. Tam ir šāda forma: “TREND” (zināmās Y vērtības; zināmās X vērtības; jaunas X vērtības; konstante). Piemērosim mūsu tabulai formulu OLS aprēķināšanai programmā Excel.

Lai to izdarītu, ievadiet zīmi “=” šūnā, kurā jāparāda aprēķina rezultāts, izmantojot Excel mazāko kvadrātu metodi, un atlasiet funkciju “TREND”. Atvērtajā logā aizpildiet atbilstošos laukus, iezīmējot:

  • zināmo Y vērtību diapazons (šajā gadījumā dati par tirdzniecības apgrozījumu);
  • diapazons x 1, …x n, t.i., tirdzniecības telpas lielums;
  • gan zināmas, gan nezināmas x vērtības, kurām jānoskaidro apgrozījuma lielums (informāciju par to atrašanās vietu darblapā skatiet tālāk).

Turklāt formula satur loģisko mainīgo “Const”. Ja attiecīgajā laukā ievadāt 1, tas nozīmēs, ka jums jāveic aprēķini, pieņemot, ka b = 0.

Ja ir jānoskaidro prognoze vairāk nekā vienai x vērtībai, tad pēc formulas ievadīšanas nevajadzētu spiest “Enter”, bet gan tastatūrā jāievada kombinācija “Shift” + “Control” + “Enter”.

Dažas funkcijas

Regresijas analīze var būt pieejama pat manekeniem. Excel formulu nezināmu mainīgo masīva vērtības prognozēšanai — TREND — var izmantot pat tie, kuri nekad nav dzirdējuši par mazākajiem kvadrātiem. Pietiek tikai zināt dažas tā darba iezīmes. It īpaši:

  • Ja vienā rindā vai kolonnā sakārtojat mainīgā y zināmo vērtību diapazonu, programma katru rindu (kolonnu) ar zināmām x vērtībām uztvers kā atsevišķu mainīgo.
  • Ja logā TREND nav norādīts diapazons ar zināmu x, tad, izmantojot funkciju programmā Excel, programma to apstrādās kā masīvu, kas sastāv no veseliem skaitļiem, kuru skaits atbilst diapazonam ar dotajām vērtībām. mainīgais y.
  • Lai izvadītu “paredzamo” vērtību masīvu, izteiksme tendences aprēķināšanai jāievada kā masīva formula.
  • Ja jaunas x vērtības nav norādītas, funkcija TREND uzskata tās par vienādām ar zināmajām. Ja tie nav norādīti, tad par argumentu tiek ņemts masīvs 1; 2; 3; 4;…, kas ir samērojams ar diapazonu ar jau norādītajiem parametriem y.
  • Diapazonā, kurā ir jaunās x vērtības, ir jābūt tādām pašām vai vairākām rindām vai kolonnām kā diapazonam, kurā ir norādītās y vērtības. Citiem vārdiem sakot, tam jābūt proporcionālam neatkarīgiem mainīgajiem.
  • Masīvs ar zināmām x vērtībām var saturēt vairākus mainīgos. Tomēr, ja mēs runājam tikai par vienu, tad ir nepieciešams, lai diapazoni ar dotajām x un y vērtībām būtu proporcionāli. Vairāku mainīgo gadījumā ir nepieciešams, lai diapazons ar dotajām y vērtībām ietilptu vienā kolonnā vai vienā rindā.

PROGNOZES funkcija

Ieviests, izmantojot vairākas funkcijas. Viens no tiem tiek saukts par “PREDICTION”. Tas ir līdzīgs “TREND”, t.i., sniedz aprēķinu rezultātu, izmantojot mazāko kvadrātu metodi. Tomēr tikai vienam X, kuram Y vērtība nav zināma.

Tagad jūs zināt formulas programmā Excel manekeniem, kas ļauj prognozēt konkrēta rādītāja nākotnes vērtību atbilstoši lineārai tendencei.

Izvēloties regresijas funkcijas veidu, t.i. aplūkotā modeļa Y atkarības no X (vai X no Y) veida, piemēram, lineārais modelis y x =a+bx, ir jānosaka modeļa koeficientu konkrētās vērtības.

Dažādām a un b vērtībām ir iespējams izveidot bezgalīgu skaitu atkarību formā y x = a + bx, t.i., koordinātu plaknē ir bezgalīgs skaits taisnu līniju, bet mums ir vajadzīga atkarība, kas ir vislabākā atbilst novērotajām vērtībām. Tādējādi uzdevums ir izvēlēties labākos koeficientus.

Mēs meklējam lineāro funkciju a+bx, pamatojoties tikai uz noteiktu skaitu pieejamo novērojumu. Lai atrastu funkciju, kas vislabāk atbilst novērotajām vērtībām, mēs izmantojam mazāko kvadrātu metodi.

Apzīmēsim: Y i - pēc vienādojuma Y i =a+bx i aprēķinātā vērtība. y i - izmērītā vērtība, ε i =y i -Y i - starpība starp izmērītajām un aprēķinātajām vērtībām, izmantojot vienādojumu, ε i =y i -a-bx i.

Mazāko kvadrātu metode prasa, lai ε i, starpība starp izmērīto y i un vērtībām Y i, kas aprēķināta no vienādojuma, būtu minimāla. Līdz ar to mēs atrodam koeficientus a un b tā, lai novēroto vērtību kvadrātu noviržu summa no taisnās regresijas taisnes vērtībām būtu mazākā:

Pārbaudot šo argumentu a un ekstrēmuma funkciju, izmantojot atvasinājumus, mēs varam pierādīt, ka funkcijai ir minimālā vērtība, ja koeficienti a un b ir sistēmas risinājumi:

(2)

Ja abas normālo vienādojumu puses sadalām ar n, mēs iegūstam:

Ņemot vērā, ka (3)

Mēs saņemam , no šejienes, aizstājot a vērtību pirmajā vienādojumā, mēs iegūstam:

Šajā gadījumā b sauc par regresijas koeficientu; a sauc par regresijas vienādojuma brīvo terminu un aprēķina, izmantojot formulu:

Iegūtā taisne ir teorētiskās regresijas līnijas aprēķins. Mums ir:

Tātad, ir lineāras regresijas vienādojums.

Regresija var būt tieša (b>0) un apgriezta (b 1. piemērs. X un Y vērtību mērīšanas rezultāti ir norādīti tabulā:

x i -2 0 1 2 4
y i 0.5 1 1.5 2 3

Pieņemot, ka pastāv lineāra sakarība starp X un Y y=a+bx, nosaka koeficientus a un b, izmantojot mazāko kvadrātu metodi.

Risinājums. Šeit n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
y i =0,5+1+1,5+2+3=8

un parastajai sistēmai (2) ir forma

Atrisinot šo sistēmu, iegūstam: b=0,425, a=1,175. Tāpēc y=1,175+0,425x.

Piemērs 2. Ir 10 ekonomisko rādītāju (X) un (Y) novērojumu izlase.

x i 180 172 173 169 175 170 179 170 167 174
y i 186 180 176 171 182 166 182 172 169 177

Jums jāatrod Y parauga regresijas vienādojums uz X. Izveidojiet Y parauga regresijas taisni uz X.

Risinājums. 1. Sakārtosim datus pēc vērtībām x i un y i . Mēs iegūstam jaunu tabulu:

x i 167 169 170 170 172 173 174 175 179 180
y i 169 171 166 172 180 176 177 182 182 186

Aprēķinu vienkāršošanai izveidosim aprēķinu tabulu, kurā ievadīsim nepieciešamās skaitliskās vērtības.

x i y i x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172,9 y=176,1 x i 2 = 29910,5 xy=30469.6

Pēc formulas (4) mēs aprēķinām regresijas koeficientu

un saskaņā ar formulu (5)

Tādējādi izlases regresijas vienādojums ir y=-59,34+1,3804x.
Atzīmēsim punktus (x i ; y i) koordinātu plaknē un atzīmēsim regresijas taisni.


4. att

4. attēlā parādīts, kā novērotās vērtības atrodas attiecībā pret regresijas līniju. Lai skaitliski novērtētu y i novirzes no Y i, kur tiek novērotas y i un Y i ir vērtības, kas noteiktas ar regresiju, mēs izveidojam tabulu:

x i y i Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Yi vērtības tiek aprēķinātas saskaņā ar regresijas vienādojumu.

Dažu novēroto vērtību ievērojamā novirze no regresijas līnijas ir izskaidrojama ar nelielo novērojumu skaitu. Pētot Y lineārās atkarības pakāpi no X, tiek ņemts vērā novērojumu skaits. Atkarības stiprumu nosaka korelācijas koeficienta vērtība.

Piemērs.

Eksperimentālie dati par mainīgo vērtībām X Un plkst ir norādīti tabulā.

To izlīdzināšanas rezultātā tiek iegūta funkcija

Izmantojot mazāko kvadrātu metode, tuviniet šos datus ar lineāro atkarību y=cirvis+b(atrodiet parametrus A Un b). Uzziniet, kura no divām rindām labāk (mazāko kvadrātu metodes nozīmē) saskaņo eksperimentālos datus. Izveidojiet zīmējumu.

Mazāko kvadrātu metodes (LSM) būtība.

Uzdevums ir atrast lineārās atkarības koeficientus, pie kuriem funkcionē divi mainīgie A Un b ņem mazāko vērtību. Tas ir, dots A Un b eksperimentālo datu noviržu kvadrātā summa no atrastās taisnes būs mazākā. Šī ir visa mazāko kvadrātu metodes būtība.

Tādējādi piemēra atrisināšana ir divu mainīgo funkcijas galējības atrašana.

Formulu atvasināšana koeficientu atrašanai.

Tiek sastādīta un atrisināta divu vienādojumu sistēma ar diviem nezināmajiem. Funkcijas daļēju atvasinājumu atrašana attiecībā pret mainīgajiem A Un b, mēs šos atvasinājumus pielīdzinām nullei.

Mēs atrisinām iegūto vienādojumu sistēmu, izmantojot jebkuru metodi (piemēram ar aizstāšanas metodi vai ) un iegūt formulas koeficientu atrašanai, izmantojot mazāko kvadrātu metodi (LSM).

Ņemot vērā A Un b funkciju ņem mazāko vērtību. Šim faktam ir sniegts pierādījums.

Tā ir visa mazāko kvadrātu metode. Formula parametra atrašanai a satur summas , , , un parametru n- eksperimentālo datu apjoms. Mēs iesakām šo summu vērtības aprēķināt atsevišķi. Koeficients b tiek atrasts pēc aprēķina a.

Ir pienācis laiks atcerēties sākotnējo piemēru.

Risinājums.

Mūsu piemērā n=5. Mēs aizpildām tabulu, lai ērtāk aprēķinātu summas, kas iekļautas nepieciešamo koeficientu formulās.

Vērtības tabulas ceturtajā rindā tiek iegūtas, reizinot 2. rindas vērtības ar 3. rindas vērtībām katram skaitlim i.

Vērtības tabulas piektajā rindā tiek iegūtas, 2. rindā esošās vērtības izliekot kvadrātā katram skaitlim i.

Vērtības tabulas pēdējā kolonnā ir vērtību summas visās rindās.

Koeficientu atrašanai izmantojam mazāko kvadrātu metodes formulas A Un b. Mēs tajās aizstājam atbilstošās vērtības no tabulas pēdējās kolonnas:

Tāpēc y = 0,165x+2,184- vēlamā aptuvenā taisne.

Atliek noskaidrot, kura no līnijām y = 0,165x+2,184 vai labāk tuvina sākotnējos datus, tas ir, veic aplēses, izmantojot mazāko kvadrātu metodi.

Mazāko kvadrātu metodes kļūdu novērtējums.

Lai to izdarītu, jums jāaprēķina sākotnējo datu noviržu kvadrātā summa no šīm līnijām Un , mazāka vērtība atbilst līnijai, kas labāk tuvina sākotnējos datus mazāko kvadrātu metodes izpratnē.

Kopš , tad taisni y = 0,165x+2,184 labāk tuvina sākotnējos datus.

Mazāko kvadrātu (LS) metodes grafiskā ilustrācija.

Grafikos viss ir skaidri redzams. Sarkanā līnija ir atrastā taisne y = 0,165x+2,184, zilā līnija ir , rozā punktiņi ir sākotnējie dati.

Kāpēc tas ir vajadzīgs, kāpēc visi šie tuvinājumi?

Es personīgi to izmantoju, lai atrisinātu datu izlīdzināšanas, interpolācijas un ekstrapolācijas problēmas (sākotnējā piemērā viņiem varētu būt lūgts atrast novērotās vērtības vērtību y plkst x=3 vai kad x=6 izmantojot mazāko kvadrātu metodi). Bet mēs par to vairāk runāsim vēlāk citā vietnes sadaļā.

Pierādījums.

Tā ka tad, kad atrasts A Un b funkcijai ir mazākā vērtība, šajā punktā ir nepieciešams, lai funkcijas otrās kārtas diferenciāļa kvadrātiskās formas matrica bija pozitīvs noteikti. Parādīsim to.