Metodo manuale dei minimi quadrati. Regressione lineare

Metodo dei minimi quadrati

Metodo dei minimi quadrati ( OLS, OLS, Minimi quadrati ordinari) - uno dei metodi di base dell'analisi di regressione per la stima dei parametri sconosciuti dei modelli di regressione utilizzando dati campione. Il metodo si basa sulla minimizzazione della somma dei quadrati dei residui di regressione.

Va notato che il metodo dei minimi quadrati stesso può essere definito un metodo per risolvere un problema in qualsiasi area se la soluzione è o soddisfa qualche criterio per minimizzare la somma dei quadrati di alcune funzioni delle variabili richieste. Pertanto, il metodo dei minimi quadrati può essere utilizzato anche per una rappresentazione approssimativa (approssimazione) di una data funzione mediante altre funzioni (più semplici), quando si trova un insieme di quantità che soddisfano equazioni o vincoli, il cui numero supera il numero di queste quantità , ecc.

L'essenza della MNC

Si dia un modello (parametrico) di una relazione probabilistica (di regressione) tra la variabile (spiegata). e molti fattori (variabili esplicative) X

dove è il vettore dei parametri del modello sconosciuti

- errore casuale del modello.

Lasciamo che ci siano anche osservazioni campione dei valori di queste variabili. Sia il numero di osservazione (). Quindi ci sono i valori delle variabili nell'esima osservazione. Quindi, per dati valori dei parametri b, è possibile calcolare i valori teorici (modello) della variabile spiegata y:

La dimensione dei residui dipende dai valori dei parametri b.

L'essenza del metodo dei minimi quadrati (ordinario, classico) è trovare tali parametri b per i quali la somma dei quadrati dei residui (eng. Somma residua dei quadrati) sarà minimo:

Nel caso generale, questo problema può essere risolto mediante metodi di ottimizzazione numerica (minimizzazione). In questo caso ne parlano minimi quadrati non lineari(NLS o NLLS - inglese) Minimi quadrati non lineari). In molti casi è possibile ottenere una soluzione analitica. Per risolvere il problema di minimizzazione è necessario trovare i punti stazionari della funzione differenziandola rispetto ai parametri incogniti b, eguagliando a zero le derivate e risolvendo il sistema di equazioni risultante:

Se gli errori casuali del modello sono distribuiti normalmente, hanno la stessa varianza e non sono correlati, le stime dei parametri OLS sono le stesse delle stime di massima verosimiglianza (MLM).

OLS nel caso di un modello lineare

Sia lineare la dipendenza dalla regressione:

Permettere è un vettore colonna di osservazioni della variabile spiegata ed è una matrice di osservazioni fattoriali (le righe della matrice sono i vettori dei valori dei fattori in una data osservazione, le colonne sono il vettore dei valori di un dato fattore in tutte le osservazioni). La rappresentazione matriciale del modello lineare ha la forma:

Allora il vettore delle stime della variabile spiegata e il vettore dei residui di regressione saranno uguali

Di conseguenza, la somma dei quadrati dei residui della regressione sarà uguale a

Differenziando questa funzione rispetto al vettore dei parametri ed eguagliando a zero le derivate, otteniamo un sistema di equazioni (in forma matriciale):

.

La soluzione di questo sistema di equazioni fornisce la formula generale per le stime dei minimi quadrati per un modello lineare:

Per scopi analitici, è utile quest'ultima rappresentazione di questa formula. Se in un modello di regressione i dati centrato, quindi in questa rappresentazione la prima matrice ha il significato di matrice di covarianza campionaria di fattori, e la seconda è un vettore di covarianza di fattori con la variabile dipendente. Se in aggiunta i dati sono anche normalizzato a MSE (cioè, in definitiva standardizzato), quindi la prima matrice ha il significato di una matrice di correlazione campionaria di fattori, il secondo vettore - un vettore di correlazioni campionarie di fattori con la variabile dipendente.

Una proprietà importante delle stime OLS per i modelli con costante- la retta della regressione costruita passa per il baricentro dei dati del campione, ovvero l'uguaglianza è soddisfatta:

In particolare, nel caso estremo, quando l'unico regressore è una costante, troviamo che la stima OLS dell'unico parametro (la costante stessa) è pari al valore medio della variabile spiegata. Cioè, la media aritmetica, nota per le sue buone proprietà derivanti dalle leggi dei grandi numeri, è anche una stima dei minimi quadrati: soddisfa il criterio della somma minima delle deviazioni quadrate da essa.

Esempio: regressione più semplice (a coppie).

Nel caso della regressione lineare accoppiata, le formule di calcolo sono semplificate (puoi fare a meno dell'algebra delle matrici):

Proprietà degli stimatori OLS

Innanzitutto, notiamo che per i modelli lineari, le stime OLS sono stime lineari, come segue dalla formula sopra. Per stime OLS imparziali, è necessario e sufficiente soddisfare la condizione più importante dell'analisi di regressione: l'aspettativa matematica di un errore casuale, condizionata ai fattori, deve essere uguale a zero. Questa condizione, in particolare, è soddisfatta se

  1. l'aspettativa matematica di errori casuali è zero e
  2. fattori ed errori casuali sono variabili casuali indipendenti.

La seconda condizione – la condizione di esogeneità dei fattori – è fondamentale. Se questa proprietà non viene soddisfatta, allora possiamo presumere che quasi tutte le stime saranno estremamente insoddisfacenti: non saranno nemmeno coerenti (cioè, anche una quantità molto grande di dati non ci consente di ottenere stime di alta qualità in questo caso ). Nel caso classico, viene fatta un’ipotesi più forte sul determinismo dei fattori, in contrapposizione all’errore casuale, il che significa automaticamente che la condizione di esogeneità è soddisfatta. Nel caso generale, per la consistenza delle stime, è sufficiente soddisfare la condizione di esogeneità insieme alla convergenza della matrice verso una matrice non singolare all'aumentare della dimensione del campione all'infinito.

Affinché, oltre alla coerenza e all'imparzialità, anche le stime dei minimi quadrati (ordinari) siano efficaci (le migliori nella classe delle stime lineari imparziali), devono essere soddisfatte ulteriori proprietà dell'errore casuale:

Queste ipotesi possono essere formulate per la matrice di covarianza del vettore di errore casuale

Viene chiamato un modello lineare che soddisfa queste condizioni classico. Le stime OLS per la regressione lineare classica sono imparziali, coerenti e le stime più efficaci nella classe di tutte le stime lineari imparziali (nella letteratura inglese a volte viene utilizzata l'abbreviazione BLU (Miglior stimatore lineare non bilanciato) - la migliore stima lineare imparziale; nella letteratura russa viene citato più spesso il teorema di Gauss-Markov). Come è facile mostrare, la matrice di covarianza del vettore delle stime dei coefficienti sarà pari a:

OLS generalizzato

Il metodo dei minimi quadrati consente un’ampia generalizzazione. Invece di minimizzare la somma dei quadrati dei residui, è possibile minimizzare una forma quadratica definita positiva del vettore dei residui, dove c'è una matrice di pesi definiti positivi simmetrica. I minimi quadrati convenzionali sono un caso speciale di questo approccio, in cui la matrice dei pesi è proporzionale alla matrice identità. Come è noto dalla teoria delle matrici (o operatori) simmetriche, per tali matrici esiste una scomposizione. Di conseguenza, il funzionale specificato può essere rappresentato come segue, cioè questo funzionale può essere rappresentato come la somma dei quadrati di alcuni “resti” trasformati. Pertanto, possiamo distinguere una classe di metodi dei minimi quadrati: i metodi LS (Least Squares).

È stato dimostrato (teorema di Aitken) che per un modello di regressione lineare generalizzato (in cui non sono imposte restrizioni sulla matrice di covarianza degli errori casuali), le più efficaci (nella classe delle stime lineari imparziali) sono le cosiddette stime. Minimi quadrati generalizzati (GLS - Minimi quadrati generalizzati)- Metodo LS con matrice dei pesi pari alla matrice di covarianza inversa degli errori casuali: .

Si può dimostrare che la formula per le stime GLS dei parametri di un modello lineare ha la forma

La matrice di covarianza di tali stime sarà pertanto pari a

Infatti, l'essenza dell'OLS risiede in una certa trasformazione (lineare) (P) dei dati originali e nell'applicazione dell'OLS ordinario ai dati trasformati. Lo scopo di questa trasformazione è che per i dati trasformati gli errori casuali soddisfino già le ipotesi classiche.

OLS ponderati

Nel caso di una matrice dei pesi diagonale (e quindi di una matrice di covarianza di errori casuali), abbiamo i cosiddetti minimi quadrati pesati (WLS). In questo caso, la somma pesata dei quadrati dei residui del modello è minimizzata, cioè ogni osservazione riceve un “peso” che è inversamente proporzionale alla varianza dell'errore casuale in tale osservazione: . Infatti, i dati vengono trasformati ponderando le osservazioni (dividendo per un importo proporzionale alla deviazione standard stimata degli errori casuali) e ai dati ponderati viene applicato l'OLS ordinario.

Alcuni casi speciali di utilizzo pratico della MNC

Approssimazione della dipendenza lineare

Consideriamo il caso in cui, a seguito dello studio della dipendenza di una certa quantità scalare da una certa quantità scalare (questo potrebbe essere, ad esempio, la dipendenza della tensione dall'intensità della corrente: , dove è un valore costante, la resistenza di il conduttore), sono state effettuate misurazioni di queste quantità, a seguito delle quali sono stati rilevati i valori e i loro valori corrispondenti. I dati di misurazione devono essere registrati in una tabella.

Tavolo. Risultati della misurazione.

Misura n.
1
2
3
4
5
6

La domanda è: quale valore del coefficiente può essere selezionato per descrivere al meglio la dipendenza? Secondo il metodo dei minimi quadrati, questo valore dovrebbe essere tale che la somma dei quadrati delle deviazioni dei valori dai valori

era minimo

La somma delle deviazioni quadrate ha un estremo: il minimo, che ci consente di utilizzare questa formula. Troviamo da questa formula il valore del coefficiente. Per fare ciò, trasformiamo il suo lato sinistro come segue:

L'ultima formula ci permette di trovare il valore del coefficiente, che è quello richiesto nel problema.

Storia

Fino all'inizio del XIX secolo. gli scienziati non avevano regole specifiche per risolvere un sistema di equazioni in cui il numero di incognite è inferiore al numero di equazioni; Fino a quel momento venivano utilizzate tecniche private che dipendevano dal tipo di equazioni e dall'ingegno dei calcolatori, e quindi calcolatori diversi, basandosi sugli stessi dati osservativi, giungevano a conclusioni diverse. Gauss (1795) fu il primo a utilizzare il metodo e Legendre (1805) lo scoprì e lo pubblicò indipendentemente con il suo nome moderno (francese. Metodo dei moindres quarrés ). Laplace collegò il metodo alla teoria della probabilità e il matematico americano Adrain (1808) ne considerò le applicazioni teoriche della probabilità. Il metodo fu diffuso e migliorato da ulteriori ricerche di Encke, Bessel, Hansen e altri.

Usi alternativi degli OLS

L’idea del metodo dei minimi quadrati può essere utilizzata anche in altri casi non direttamente legati all’analisi di regressione. Il fatto è che la somma dei quadrati è una delle misure di prossimità più comuni per i vettori (metrica euclidea negli spazi a dimensione finita).

Un'applicazione è la “soluzione” di sistemi di equazioni lineari in cui il numero di equazioni è maggiore del numero di variabili

dove la matrice non è quadrata, ma di dimensione rettangolare.

Un tale sistema di equazioni, nel caso generale, non ha soluzione (se il rango è effettivamente maggiore del numero di variabili). Pertanto, questo sistema può essere “risolto” solo nel senso di scegliere un vettore tale da minimizzare la “distanza” tra i vettori e . Per fare ciò, puoi applicare il criterio di minimizzare la somma dei quadrati delle differenze tra i lati sinistro e destro delle equazioni del sistema, cioè. È facile dimostrare che la soluzione di questo problema di minimizzazione porta alla soluzione del seguente sistema di equazioni

L'approssimazione dei dati sperimentali è un metodo basato sulla sostituzione dei dati ottenuti sperimentalmente con una funzione analitica che passa o coincide più da vicino nei punti nodali con i valori originali (dati ottenuti durante un esperimento o esperimento). Attualmente esistono due modi per definire una funzione analitica:

Costruendo un polinomio di interpolazione di n gradi che passa direttamente attraverso tutti i punti un dato array di dati. In questo caso la funzione di approssimazione si presenta sotto forma di: un polinomio di interpolazione in forma di Lagrange oppure un polinomio di interpolazione in forma di Newton.

Costruendo un polinomio approssimante di n gradi che passa nelle immediate vicinanze dei punti da un dato array di dati. Pertanto, la funzione di approssimazione attenua tutto il rumore casuale (o gli errori) che possono verificarsi durante l'esperimento: i valori misurati durante l'esperimento dipendono da fattori casuali che fluttuano secondo le proprie leggi casuali (errori di misurazione o strumentali, imprecisioni o errori sperimentali). errori). In questo caso la funzione approssimante viene determinata utilizzando il metodo dei minimi quadrati.

Metodo dei minimi quadrati(nella letteratura in lingua inglese Ordinary Least Squares, OLS) è un metodo matematico basato sulla determinazione della funzione di approssimazione, che è costruita nella massima prossimità dei punti da una determinata serie di dati sperimentali. La vicinanza delle funzioni originali e approssimative F(x) è determinata da una misura numerica, vale a dire: la somma delle deviazioni quadrate dei dati sperimentali dalla curva approssimativa F(x) dovrebbe essere la più piccola.

Curva di approssimazione costruita utilizzando il metodo dei minimi quadrati

Viene utilizzato il metodo dei minimi quadrati:

Risolvere sistemi di equazioni sovradeterminati quando il numero di equazioni supera il numero di incognite;

Trovare una soluzione nel caso di sistemi di equazioni non lineari ordinari (non sovradeterminati);

Per approssimare i valori dei punti con qualche funzione approssimativa.

La funzione di approssimazione che utilizza il metodo dei minimi quadrati è determinata dalla condizione della somma minima delle deviazioni quadrate della funzione di approssimazione calcolata da una determinata matrice di dati sperimentali. Questo criterio del metodo dei minimi quadrati si scrive come la seguente espressione:

I valori della funzione di approssimazione calcolata nei punti nodali,

Una determinata serie di dati sperimentali nei punti nodali.

Il criterio quadratico ha una serie di “buone” proprietà, come la differenziabilità, fornendo una soluzione unica al problema di approssimazione con funzioni di approssimazione polinomiale.

A seconda delle condizioni del problema, la funzione approssimante è un polinomio di grado m

Il grado della funzione di approssimazione non dipende dal numero di punti nodali, ma la sua dimensione deve essere sempre inferiore alla dimensione (numero di punti) di un dato array di dati sperimentali.

∙ Se il grado della funzione approssimante è m=1, allora approssimiamo la funzione tabulare con una retta (regressione lineare).

∙ Se il grado della funzione approssimante è m=2, allora approssimiamo la funzione tabella con una parabola quadratica (approssimazione quadratica).

∙ Se il grado della funzione approssimante è m=3, allora approssimiamo la funzione tabella con una parabola cubica (approssimazione cubica).

Nel caso generale, quando è necessario costruire un polinomio approssimativo di grado m per dati valori della tabella, la condizione per il minimo della somma delle deviazioni quadrate su tutti i punti nodali viene riscritta nella seguente forma:

- coefficienti incogniti del polinomio approssimante di grado m;

Il numero di valori della tabella specificati.

Condizione necessaria per l'esistenza del minimo di una funzione è l'uguaglianza a zero delle sue derivate parziali rispetto a incognite . Di conseguenza, otteniamo il seguente sistema di equazioni:

Trasformiamo il sistema lineare di equazioni risultante: apriamo le parentesi e spostiamo i termini liberi sul lato destro dell'espressione. Di conseguenza, il sistema risultante di espressioni algebriche lineari sarà scritto nella seguente forma:

Questo sistema di espressioni algebriche lineari può essere riscritto in forma matriciale:

Si è ottenuto così un sistema di equazioni lineari di dimensione m+1, costituito da m+1 incognite. Questo sistema può essere risolto utilizzando qualsiasi metodo per risolvere equazioni algebriche lineari (ad esempio il metodo gaussiano). Come risultato della soluzione, si troveranno parametri sconosciuti della funzione di approssimazione che forniscono la somma minima delle deviazioni quadrate della funzione di approssimazione dai dati originali, ad es. migliore approssimazione quadratica possibile. Va ricordato che se cambia anche un solo valore dei dati sorgente, tutti i coefficienti cambieranno i loro valori, poiché sono completamente determinati dai dati sorgente.

Approssimazione dei dati sorgente mediante dipendenza lineare

(regressione lineare)

Ad esempio, consideriamo la tecnica per determinare la funzione di approssimazione, che è specificata sotto forma di dipendenza lineare. Secondo il metodo dei minimi quadrati, la condizione per il minimo della somma delle deviazioni quadrate è scritta nella seguente forma:

Coordinate dei nodi della tabella;

Coefficienti sconosciuti della funzione di approssimazione, che è specificata come dipendenza lineare.

Condizione necessaria per l'esistenza del minimo di una funzione è l'uguaglianza a zero delle sue derivate parziali rispetto a incognite. Di conseguenza, otteniamo il seguente sistema di equazioni:

Trasformiamo il sistema lineare di equazioni risultante.

Risolviamo il sistema risultante di equazioni lineari. I coefficienti della funzione approssimante in forma analitica si determinano come segue (metodo di Cramer):

Questi coefficienti assicurano la costruzione di una funzione di approssimazione lineare secondo il criterio di minimizzare la somma dei quadrati della funzione di approssimazione dai valori tabulari forniti (dati sperimentali).

Algoritmo per l'implementazione del metodo dei minimi quadrati

1. Dati iniziali:

Viene specificata una matrice di dati sperimentali con il numero di misurazioni N

Viene specificato il grado del polinomio approssimativo (m).

2. Algoritmo di calcolo:

2.1. I coefficienti sono determinati per costruire un sistema di equazioni con dimensioni

Coefficienti del sistema di equazioni (lato sinistro dell'equazione)

- indice del numero di colonna della matrice quadrata del sistema di equazioni

Termini liberi di un sistema di equazioni lineari (lato destro dell'equazione)

- indice del numero di righe della matrice quadrata del sistema di equazioni

2.2. Formazione di un sistema di equazioni lineari con dimensione .

2.3. Risoluzione di un sistema di equazioni lineari per determinare i coefficienti incogniti di un polinomio approssimato di grado m.

2.4. Determinazione della somma delle deviazioni quadrate del polinomio approssimativo dai valori originali in tutti i punti nodali

Il valore trovato della somma delle deviazioni quadrate è il minimo possibile.

Approssimazione utilizzando altre funzioni

Va notato che quando si approssimano i dati originali secondo il metodo dei minimi quadrati, la funzione logaritmica, la funzione esponenziale e la funzione potenza vengono talvolta utilizzate come funzione di approssimazione.

Approssimazione logaritmica

Consideriamo il caso in cui la funzione approssimante è data da una funzione logaritmica della forma:

Ha molteplici applicazioni, poiché consente una rappresentazione approssimata di una determinata funzione mediante altre più semplici. L'LSM può essere estremamente utile nell'elaborazione delle osservazioni e viene utilizzato attivamente per stimare alcune quantità sulla base dei risultati di misurazioni di altre contenenti errori casuali. In questo articolo imparerai come implementare i calcoli dei minimi quadrati in Excel.

Esposizione del problema utilizzando un esempio specifico

Supponiamo che ci siano due indicatori X e Y. Inoltre, Y dipende da X. Poiché OLS ci interessa dal punto di vista dell'analisi di regressione (in Excel i suoi metodi sono implementati utilizzando funzioni integrate), dovremmo passare immediatamente a considerare a problema specifico.

Quindi, sia X lo spazio di vendita al dettaglio di un negozio di alimentari, misurato in metri quadrati, e Y il fatturato annuo, determinato in milioni di rubli.

È necessario fare una previsione del fatturato (Y) che avrà il negozio se ha questo o quello spazio commerciale. Ovviamente la funzione Y = f (X) è crescente, poiché l'ipermercato vende più beni della bancarella.

Qualche parola sulla correttezza dei dati iniziali utilizzati per la previsione

Supponiamo di avere una tabella creata utilizzando i dati per n negozi.

Secondo la statistica matematica, i risultati saranno più o meno corretti se verranno esaminati i dati su almeno 5-6 oggetti. Inoltre non è possibile utilizzare risultati “anomali”. In particolare, una piccola boutique d'élite può avere un fatturato molte volte superiore al fatturato dei grandi punti vendita della classe “masmarket”.

L'essenza del metodo

I dati della tabella possono essere rappresentati sul piano cartesiano come punti M 1 (x 1, y 1), ... M n (x n, y n). Ora la soluzione del problema si ridurrà alla scelta di una funzione approssimante y = f (x), che abbia un grafico passante il più vicino possibile ai punti M 1, M 2, .. M n.

Naturalmente, è possibile utilizzare un polinomio di alto grado, ma questa opzione non è solo difficile da implementare, ma anche semplicemente errata, poiché non rifletterà la tendenza principale da rilevare. La soluzione più ragionevole è cercare la retta y = ax + b, che meglio approssima i dati sperimentali, o più precisamente, i coefficienti a e b.

Valutazione dell'accuratezza

Con ogni approssimazione, valutarne l’accuratezza è di particolare importanza. Indichiamo con e i la differenza (deviazione) tra i valori funzionali e sperimentali per il punto x i, cioè e i = y i - f (x i).

Ovviamente, per valutare la correttezza dell'approssimazione, si può utilizzare la somma degli scarti, ovvero, quando si sceglie una retta per una rappresentazione approssimata della dipendenza di X da Y, si dovrebbe dare la preferenza a quella con il valore più piccolo di somma e i in tutti i punti considerati. Tuttavia, non tutto è così semplice, poiché insieme alle deviazioni positive ce ne saranno anche di negative.

Il problema può essere risolto utilizzando i moduli di deviazione o i relativi quadrati. Quest’ultimo metodo è il più utilizzato. Viene utilizzato in molte aree, inclusa l'analisi di regressione (implementata in Excel utilizzando due funzioni integrate) e ha da tempo dimostrato la sua efficacia.

Metodo dei minimi quadrati

Excel, come sai, ha una funzione Somma automatica incorporata che ti consente di calcolare i valori di tutti i valori situati nell'intervallo selezionato. Nulla ci impedirà quindi di calcolare il valore dell'espressione (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

In notazione matematica questo assomiglia a:

Poiché inizialmente si è deciso di approssimare utilizzando una retta, abbiamo:

Pertanto, il compito di trovare la retta che meglio descrive la dipendenza specifica delle quantità X e Y si riduce al calcolo del minimo di una funzione di due variabili:

Per fare ciò, è necessario equiparare a zero le derivate parziali rispetto alle nuove variabili aeb e risolvere un sistema primitivo costituito da due equazioni con 2 incognite della forma:

Dopo alcune semplici trasformazioni, inclusa la divisione per 2 e la manipolazione delle somme, otteniamo:

Risolvendolo, ad esempio, utilizzando il metodo di Cramer, otteniamo un punto stazionario con determinati coefficienti a* e b*. Questo è il minimo, cioè per prevedere quale fatturato avrà un negozio per una determinata zona, è adatta la retta y = a*x+b*, che è un modello di regressione per l'esempio in questione. Naturalmente, non ti permetterà di trovare il risultato esatto, ma ti aiuterà a farti un'idea se l'acquisto di un'area specifica con credito negozio sarà ripagato.

Come implementare i minimi quadrati in Excel

Excel ha una funzione per calcolare i valori utilizzando i minimi quadrati. Ha la seguente forma: “TREND” (valori Y conosciuti; valori X conosciuti; nuovi valori X; costante). Applichiamo la formula per il calcolo OLS in Excel alla nostra tabella.

Per fare ciò, inserisci il segno "=" nella cella in cui deve essere visualizzato il risultato del calcolo utilizzando il metodo dei minimi quadrati in Excel e seleziona la funzione "TENDENZA". Nella finestra che si apre, compila gli appositi campi, evidenziando:

  • intervallo di valori noti per Y (in questo caso, dati relativi al fatturato commerciale);
  • intervallo x 1 , …x n , ovvero la dimensione della superficie commerciale;
  • valori sia noti che sconosciuti di x, per i quali è necessario scoprire l'entità del fatturato (per informazioni sulla loro posizione nel foglio di lavoro, vedere sotto).

Inoltre, la formula contiene la variabile logica “Const”. Se inserisci 1 nel campo corrispondente, ciò significherà che dovresti effettuare i calcoli, assumendo che b = 0.

Se hai bisogno di scoprire la previsione per più di un valore x, dopo aver inserito la formula non dovresti premere "Invio", ma devi digitare la combinazione "Maiusc" + "Control" + "Invio" sulla tastiera.

Alcune funzionalità

L'analisi di regressione può essere accessibile anche ai manichini. La formula di Excel per prevedere il valore di una serie di variabili sconosciute, TENDENZA, può essere utilizzata anche da coloro che non hanno mai sentito parlare dei minimi quadrati. Basta solo conoscere alcune caratteristiche del suo lavoro. In particolare:

  • Se disponi l'intervallo di valori noti della variabile y in una riga o colonna, ciascuna riga (colonna) con valori noti di x verrà percepita dal programma come una variabile separata.
  • Se un intervallo con x noto non è specificato nella finestra TREND, quando si utilizza una funzione in Excel, il programma lo tratterà come un array composto da numeri interi, il cui numero corrisponde all'intervallo con i valori specificati di y variabile.
  • Per emettere un array di valori “previsti”, l'espressione per il calcolo della tendenza deve essere inserita come formula di array.
  • Se non vengono specificati nuovi valori x, la funzione TENDENZA li considera uguali a quelli noti. Se non vengono specificati, viene preso come argomento l'array 1; 2; 3; 4;…, che è commisurato all'intervallo con parametri già specificati y.
  • L'intervallo contenente i nuovi valori x deve avere le stesse o più righe o colonne dell'intervallo contenente i valori y specificati. In altre parole, deve essere proporzionale alle variabili indipendenti.
  • Un array con valori x noti può contenere più variabili. Tuttavia, se ne parliamo solo uno, è necessario che gli intervalli con i valori indicati di xey siano proporzionali. Nel caso di più variabili, è necessario che l'intervallo con i valori y indicati rientri in una colonna o riga.

Funzione PREVISIONE

Implementato utilizzando diverse funzioni. Uno di questi si chiama “PREDIZIONE”. È simile a “TREND”, ovvero fornisce il risultato di calcoli utilizzando il metodo dei minimi quadrati. Tuttavia, solo per una X, per la quale il valore di Y è sconosciuto.

Ora conosci le formule in Excel for dummies che ti consentono di prevedere il valore futuro di un particolare indicatore secondo una tendenza lineare.

Avendo scelto il tipo di funzione di regressione, cioè il tipo del modello considerato della dipendenza di Y da X (o X da Y), ad esempio un modello lineare y x =a+bx, è necessario determinare i valori specifici dei coefficienti del modello.

Per diversi valori di a e b è possibile costruire un numero infinito di dipendenze della forma y x = a + bx, cioè ci sono infinite linee rette sul piano delle coordinate, ma abbiamo bisogno di una dipendenza che meglio corrisponde ai valori osservati. Pertanto, il compito si riduce alla selezione dei coefficienti migliori.

Cerchiamo la funzione lineare a+bx basandoci solo su un certo numero di osservazioni disponibili. Per trovare la funzione che meglio si adatta ai valori osservati, utilizziamo il metodo dei minimi quadrati.

Indichiamo: Y i - il valore calcolato dall'equazione Y i =a+bx i. y i - valore misurato, ε i =y i -Y i - differenza tra i valori misurati e calcolati utilizzando l'equazione, ε i =y i -a-bx i .

Il metodo dei minimi quadrati richiede che ε i, la differenza tra y i misurato e i valori Y i calcolati dall'equazione, sia minima. Di conseguenza, troviamo i coefficienti a e b in modo che la somma delle deviazioni al quadrato dei valori osservati dai valori sulla retta di regressione sia la più piccola:

Esaminando questa funzione di argomenti a e per estremo utilizzando le derivate, possiamo dimostrare che la funzione assume un valore minimo se i coefficienti a e b sono soluzioni del sistema:

(2)

Se dividiamo entrambi i membri delle equazioni normali per n, otteniamo:

Considerando questo (3)

Otteniamo , da qui, sostituendo il valore di a nella prima equazione, otteniamo:

In questo caso b è chiamato coefficiente di regressione; a è chiamato termine libero dell'equazione di regressione e viene calcolato utilizzando la formula:

La retta risultante è una stima della retta di regressione teorica. Abbiamo:

COSÌ, è un'equazione di regressione lineare.

La regressione può essere diretta (b>0) e inversa (b Esempio 1. I risultati della misurazione dei valori di X e Y sono riportati nella tabella:

x io -2 0 1 2 4
sì io 0.5 1 1.5 2 3

Supponendo che esista una relazione lineare tra X e Y y=a+bx, determinare i coefficienti a e b utilizzando il metodo dei minimi quadrati.

Soluzione. Qui n=5
x io =-2+0+1+2+4=5;
x io 2 =4+0+1+4+16=25
x io y io =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
y io =0,5+1+1,5+2+3=8

e il sistema normale (2) ha la forma

Risolvendo questo sistema, otteniamo: b=0,425, a=1,175. Pertanto y=1.175+0.425x.

Esempio 2. Esiste un campione di 10 osservazioni di indicatori economici (X) e (Y).

x io 180 172 173 169 175 170 179 170 167 174
sì io 186 180 176 171 182 166 182 172 169 177

Devi trovare un'equazione di regressione campione di Y su X. Costruisci una retta di regressione campione di Y su X.

Soluzione. 1. Ordiniamo i dati in base ai valori x i e y i . Otteniamo una nuova tabella:

x io 167 169 170 170 172 173 174 175 179 180
sì io 169 171 166 172 180 176 177 182 182 186

Per semplificare i calcoli redigeremo una tabella di calcolo nella quale inseriremo i valori numerici necessari.

x io sì io xio2 x io y io
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i2 299105 ∑x io y io =304696
x=172,9 y=176,1 x io 2 =29910,5 xy=30469,6

Secondo la formula (4), calcoliamo il coefficiente di regressione

e secondo la formula (5)

Pertanto, l'equazione di regressione del campione è y=-59,34+1,3804x.
Tracciamo i punti (xi ; y i) sul piano delle coordinate e segniamo la retta di regressione.


Figura 4

La Figura 4 mostra come si trovano i valori osservati rispetto alla linea di regressione. Per una valutazione numerica delle deviazioni di y i da Y i, dove y i sono osservati e Y i sono valori determinati dalla regressione, creiamo una tabella:

x io sì io Sì, io Sì, sì, sì
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

I valori Yi sono calcolati secondo l'equazione di regressione.

La notevole deviazione di alcuni valori osservati dalla retta di regressione è spiegata dal numero limitato di osservazioni. Quando si studia il grado di dipendenza lineare di Y da X, viene preso in considerazione il numero di osservazioni. La forza della dipendenza è determinata dal valore del coefficiente di correlazione.

Esempio.

Dati sperimentali sui valori delle variabili X E A sono riportati nella tabella.

Come risultato del loro allineamento, si ottiene la funzione

Utilizzando metodo dei minimi quadrati, approssimare questi dati con una dipendenza lineare y=asse+b(trova parametri UN E B). Scopri quale delle due rette allinea meglio (nel senso del metodo dei minimi quadrati) i dati sperimentali. Fai un disegno.

L'essenza del metodo dei minimi quadrati (LSM).

Il compito è trovare i coefficienti di dipendenza lineare a cui corrisponde la funzione di due variabili UN E B assume il valore più piccolo. Cioè, dato UN E B la somma dei quadrati delle deviazioni dei dati sperimentali dalla retta trovata sarà la più piccola. Questo è il punto centrale del metodo dei minimi quadrati.

Pertanto, per risolvere l'esempio si tratta di trovare l'estremo di una funzione di due variabili.

Derivare formule per trovare coefficienti.

Viene compilato e risolto un sistema di due equazioni in due incognite. Trovare le derivate parziali di una funzione rispetto alle variabili UN E B, equiparamo queste derivate a zero.

Risolviamo il sistema di equazioni risultante utilizzando qualsiasi metodo (ad esempio con il metodo di sostituzione o ) e ottenere formule per trovare i coefficienti utilizzando il metodo dei minimi quadrati (LSM).

Dato UN E B funzione assume il valore più piccolo. La prova di questo fatto è data.

Questo è l'intero metodo dei minimi quadrati. Formula per trovare il parametro UN contiene le somme , , e il parametro N- quantità di dati sperimentali. Consigliamo di calcolare separatamente i valori di tali importi. Coefficiente B trovato dopo il calcolo UN.

È tempo di ricordare l'esempio originale.

Soluzione.

Nel nostro esempio n=5. Compiliamo la tabella per comodità di calcolo degli importi inclusi nelle formule dei coefficienti richiesti.

I valori della quarta riga della tabella si ottengono moltiplicando i valori della 2a riga per i valori della 3a riga per ciascun numero io.

I valori della quinta riga della tabella si ottengono elevando al quadrato i valori della 2a riga per ciascun numero io.

I valori nell'ultima colonna della tabella sono le somme dei valori nelle righe.

Usiamo le formule del metodo dei minimi quadrati per trovare i coefficienti UN E B. Sostituiamo in essi i valori corrispondenti dell'ultima colonna della tabella:

Quindi, y = 0,165x+2,184- la retta approssimata desiderata.

Resta da scoprire quale delle linee y = 0,165x+2,184 O approssima meglio i dati originali, ovvero stima utilizzando il metodo dei minimi quadrati.

Stima dell'errore del metodo dei minimi quadrati.

Per fare ciò, è necessario calcolare la somma delle deviazioni quadrate dei dati originali da queste linee E , un valore minore corrisponde a una linea che approssima meglio i dati originali nel senso del metodo dei minimi quadrati.

Da allora dritto y = 0,165x+2,184 approssima meglio i dati originali.

Illustrazione grafica del metodo dei minimi quadrati (LS).

Tutto è chiaramente visibile sui grafici. La linea rossa è la retta trovata y = 0,165x+2,184, la linea blu è , i punti rosa sono i dati originali.

Perché è necessario questo, perché tutte queste approssimazioni?

Personalmente lo utilizzo per risolvere problemi di livellamento dei dati, problemi di interpolazione ed estrapolazione (nell'esempio originale potrebbe essere chiesto loro di trovare il valore di un valore osservato A x=3 o quando x=6 utilizzando il metodo dei minimi quadrati). Ma di questo ne parleremo più avanti in un’altra sezione del sito.

Prova.

In modo che quando trovato UN E B funzione assume il valore più piccolo, è necessario che a questo punto venga creata la matrice della forma quadratica del differenziale del secondo ordine per la funzione era definito positivo. Mostriamolo.