Se il valore di correlazione è 1. Statistica ed elaborazione dati in psicologia (continua)

LAVORO DEL CORSO

Argomento: analisi di correlazione

introduzione

1. Analisi delle correlazioni

1.1 Il concetto di correlazione

1.2 Classificazione generale delle correlazioni

1.3 Campi di correlazione e scopo della loro costruzione

1.4 Fasi dell'analisi delle correlazioni

1.5 Coefficienti di correlazione

1.6 Coefficiente di correlazione Bravais-Pearson normalizzato

1.7 Coefficiente di correlazione del rango di Spearman

1.8 Proprietà fondamentali dei coefficienti di correlazione

1.9 Verifica della significatività dei coefficienti di correlazione

1.10 Valori critici del coefficiente di correlazione di coppia

2. Pianificazione di un esperimento multifattoriale

2.1 Condizione del problema

2.2 Determinazione del centro del piano (livello base) e del livello di variazione dei fattori

2.3 Costruzione della matrice di pianificazione

2.4 Verifica dell'omogeneità della dispersione e dell'equivalenza della misura in diverse serie

2.5 Coefficienti dell'equazione di regressione

2.6 Varianza di riproducibilità

2.7 Verifica del significato dei coefficienti dell'equazione di regressione

2.8 Verifica dell'adeguatezza dell'equazione di regressione

Conclusione

Bibliografia

INTRODUZIONE

La pianificazione sperimentale è una disciplina matematica e statistica che studia metodi per l'organizzazione razionale della ricerca sperimentale - dalla scelta ottimale dei fattori oggetto di studio e la determinazione del piano sperimentale effettivo in conformità con il suo scopo ai metodi per l'analisi dei risultati. La pianificazione sperimentale iniziò con i lavori dello statistico inglese R. Fisher (1935), il quale sottolineò che la pianificazione sperimentale razionale fornisce guadagni non meno significativi nell'accuratezza delle stime rispetto all'elaborazione ottimale dei risultati delle misurazioni. Negli anni '60 del XX secolo emerse la moderna teoria della pianificazione sperimentale. I suoi metodi sono strettamente legati alla teoria dell'approssimazione delle funzioni e alla programmazione matematica. Sono stati costruiti piani ottimali e le loro proprietà sono state studiate per un'ampia classe di modelli.

La pianificazione sperimentale è la selezione di un piano sperimentale che soddisfi requisiti specifici, un insieme di azioni volte a sviluppare una strategia di sperimentazione (dall'ottenimento di informazioni a priori all'ottenimento di un modello matematico praticabile o alla determinazione delle condizioni ottimali). Questo è il controllo mirato di un esperimento, implementato in condizioni di conoscenza incompleta del meccanismo del fenomeno studiato.

Nel processo di misurazione, nella successiva elaborazione dei dati, nonché nella formalizzazione dei risultati sotto forma di modello matematico, si verificano errori e alcune informazioni contenute nei dati originali vengono perse. L'uso di metodi di pianificazione sperimentale consente di determinare l'errore del modello matematico e giudicarne l'adeguatezza. Se l'accuratezza del modello risulta insufficiente, l'uso di metodi di pianificazione sperimentale consente di modernizzare il modello matematico con ulteriori esperimenti senza perdere le informazioni precedenti e con costi minimi.

Lo scopo della pianificazione di un esperimento è trovare condizioni e regole per condurre esperimenti in base alle quali sia possibile ottenere informazioni affidabili e affidabili su un oggetto con la minima quantità di lavoro, nonché presentare queste informazioni in una forma compatta e conveniente con una valutazione quantitativa dell’accuratezza.

Tra i principali metodi di pianificazione utilizzati nelle diverse fasi dello studio figurano:

Pianificazione di un esperimento di screening, il cui significato principale è la selezione dall'intero insieme di fattori di un gruppo di fattori significativi soggetti a ulteriori studi dettagliati;

Progettazione sperimentale per ANOVA, ovvero elaborazione di piani per oggetti con fattori qualitativi;

Pianificare un esperimento di regressione che permetta di ottenere modelli di regressione (polinomiali e altri);

Pianificazione di un esperimento estremo in cui il compito principale è l'ottimizzazione sperimentale dell'oggetto della ricerca;

Pianificazione durante lo studio dei processi dinamici, ecc.

Lo scopo dello studio della disciplina è preparare gli studenti alle attività produttive e tecniche nella loro specialità utilizzando metodi di teoria della pianificazione e moderne tecnologie dell'informazione.

Obiettivi della disciplina: studio dei moderni metodi di pianificazione, organizzazione e ottimizzazione degli esperimenti scientifici e industriali, conduzione di esperimenti ed elaborazione dei risultati ottenuti.

1. ANALISI DELLA CORRELAZIONE

1.1 Il concetto di correlazione

Un ricercatore è spesso interessato a come due o più variabili sono correlate tra loro in uno o più campioni studiati. Ad esempio, l'altezza può influire sul peso di una persona o la pressione sanguigna può influire sulla qualità del prodotto?

Questo tipo di dipendenza tra le variabili è chiamata correlazione o correlazione. Una correlazione è un cambiamento coerente di due caratteristiche, che riflette il fatto che la variabilità di una caratteristica è in accordo con la variabilità dell'altra.

È noto, ad esempio, che mediamente esiste una relazione positiva tra l’altezza delle persone e il loro peso, e tale che maggiore è l’altezza, maggiore è il peso della persona. Tuttavia, ci sono eccezioni a questa regola, quando le persone relativamente basse sono in sovrappeso e, al contrario, le persone asteniche di alta statura hanno un peso ridotto. La ragione di tali eccezioni è che ogni segno biologico, fisiologico o psicologico è determinato dall'influenza di molti fattori: ambientali, genetici, sociali, ambientali, ecc.

Le connessioni di correlazione sono cambiamenti probabilistici che possono essere studiati solo su campioni rappresentativi utilizzando i metodi della statistica matematica. Entrambi i termini - relazione di correlazione e dipendenza dalla correlazione - sono spesso usati in modo intercambiabile. La dipendenza implica influenza, connessione: qualsiasi cambiamento coordinato che può essere spiegato da centinaia di ragioni. Le connessioni di correlazione non possono essere considerate come prova di una relazione di causa-effetto, indicano solo che i cambiamenti in una caratteristica sono solitamente accompagnati da determinati cambiamenti in un'altra;

Dipendenza dalla correlazione - Si tratta di cambiamenti che introducono i valori di una caratteristica nella probabilità del verificarsi di valori diversi di un'altra caratteristica.

Il compito dell'analisi di correlazione si riduce a stabilire la direzione (positiva o negativa) e la forma (lineare, non lineare) della relazione tra caratteristiche diverse, misurandone la vicinanza e, infine, controllando il livello di significatività dei coefficienti di correlazione ottenuti.

Le connessioni di correlazione variano in forma, direzione e grado (forza) .

La forma della relazione di correlazione può essere lineare o curvilinea. Ad esempio, la relazione tra il numero di sessioni di allenamento al simulatore e il numero di problemi risolti correttamente nella sessione di controllo può essere semplice. Ad esempio, la relazione tra il livello di motivazione e l’efficacia di un compito può essere curvilinea (Figura 1). All'aumentare della motivazione, aumenta prima l'efficacia nel portare a termine un compito, quindi si raggiunge il livello ottimale di motivazione, che corrisponde alla massima efficacia nel portare a termine l'attività; Un ulteriore aumento della motivazione è accompagnato da una diminuzione dell’efficienza.

Figura 1 - Relazione tra l'efficacia del problem solving e la forza delle tendenze motivazionali

In direzione, la relazione di correlazione può essere positiva (“diretta”) e negativa (“inversa”). Con una correlazione lineare positiva, valori più alti di una caratteristica corrispondono a valori più alti di un'altra, e valori più bassi di una caratteristica corrispondono a valori bassi di un'altra (Figura 2). Con una correlazione negativa, le relazioni sono inverse (Figura 3). Con una correlazione positiva il coefficiente di correlazione ha segno positivo, con correlazione negativa ha segno negativo.

Figura 2 – Correlazione diretta

Figura 3 – Correlazione inversa


Figura 4 – Nessuna correlazione

Il grado, la forza o la vicinanza della correlazione sono determinati dal valore del coefficiente di correlazione. La forza della connessione non dipende dalla sua direzione ed è determinata dal valore assoluto del coefficiente di correlazione.

1.2 Classificazione generale delle correlazioni

A seconda del coefficiente di correlazione si distinguono le seguenti correlazioni:

Forte, o vicino con un coefficiente di correlazione r>0,70;

Media (a 0,50

Moderato (a 0,30

Debole (a 0,20

Molto debole (a r<0,19).

1.3 Campi di correlazione e scopo della loro costruzione

La correlazione viene studiata sulla base di dati sperimentali, che sono i valori misurati (xi, y i) di due caratteristiche. Se i dati sperimentali sono pochi, la distribuzione empirica bidimensionale è rappresentata come una doppia serie di valori x i e y i. Allo stesso tempo, la dipendenza dalla correlazione tra le caratteristiche può essere descritta in diversi modi. La corrispondenza tra un argomento e una funzione può essere data da una tabella, una formula, un grafico, ecc.

L'analisi di correlazione, come altri metodi statistici, si basa sull'uso di modelli probabilistici che descrivono il comportamento delle caratteristiche oggetto di studio in una determinata popolazione generale da cui si ottengono i valori sperimentali xi e y i. Quando si studia la correlazione tra caratteristiche quantitative, i cui valori possono essere misurati con precisione in unità di scale metriche (metri, secondi, chilogrammi, ecc.), viene spesso adottato un modello bidimensionale di popolazione normalmente distribuita. Tale modello mostra graficamente la relazione tra le variabili x i e y i sotto forma di una posizione geometrica di punti in un sistema di coordinate rettangolari. Questa relazione grafica è anche chiamata grafico a dispersione o campo di correlazione.
Questo modello di distribuzione normale bidimensionale (campo di correlazione) ci permette di dare una chiara interpretazione grafica del coefficiente di correlazione, perché la distribuzione totale dipende da cinque parametri: μ x, μ y – valori medi (aspettative matematiche); σ x ,σ y – deviazioni standard delle variabili casuali X e Y e p – coefficiente di correlazione, che è una misura della relazione tra le variabili casuali X e Y.
Se p = 0, i valori x i , y i ottenuti da una popolazione normale bidimensionale si trovano sul grafico in coordinate x, y all'interno dell'area limitata dal cerchio (Figura 5, a). In questo caso non esiste correlazione tra le variabili casuali X e Y e si dicono incorrelate. Per una distribuzione normale bidimensionale, incorrelazione significa contemporaneamente indipendenza delle variabili casuali X e Y.

Coefficiente di correlazioneè un valore che può variare da +1 a –1. Nel caso di una correlazione completamente positiva, questo coefficiente è pari a più 1 (si dice che quando il valore di una variabile aumenta, aumenta il valore di un'altra variabile), e nel caso di una correlazione completamente negativa è meno 1 (indicando feedback, cioè quando i valori di una variabile aumentano, i valori dell’altra diminuiscono).

Es.1:

Grafico della relazione tra timidezza e depressione. Come possiamo vedere, i punti (soggetti) non sono disposti in modo caotico, ma allineati attorno a una linea e, guardando questa linea, possiamo dire che maggiore è la timidezza di una persona, maggiore è la depressione, cioè questi fenomeni sono interconnessi.

Es2: Grafico per timidezza e socievolezza. Vediamo che all’aumentare della timidezza diminuisce la socievolezza. Il loro coefficiente di correlazione è -0,43. Pertanto, un coefficiente di correlazione maggiore di 0 a 1 indica una relazione direttamente proporzionale (più... più...), e un coefficiente da -1 a 0 indica una relazione inversamente proporzionale (più... meno. ..)

Se il coefficiente di correlazione è 0, entrambe le variabili sono completamente indipendenti l'una dall'altra.

Correlazione- si tratta di una relazione in cui l'impatto dei singoli fattori appare solo come tendenza (in media) durante l'osservazione di massa dei dati reali. Esempi di dipendenza dalla correlazione possono essere la relazione tra la dimensione delle attività della banca e l’importo del profitto della banca, la crescita della produttività del lavoro e l’anzianità di servizio dei dipendenti.

Vengono utilizzati due sistemi per classificare le correlazioni in base alla loro forza: generale e specifica.

Classificazione generale delle correlazioni: 1) forte, o stretta con un coefficiente di correlazione r>0,70; 2) media con 0,500,70, e non solo una correlazione di alto livello di significatività.

La tabella seguente mostra i nomi dei coefficienti di correlazione per vari tipi di scale.

Scala dicotomica (1/0) Scala di rango (ordinale).
Scala dicotomica (1/0) Coefficiente di associazione di Pearson, coefficiente di contingenza a quattro celle di Pearson. Correlazione biseriale
Scala di rango (ordinale). Correlazione rango-biseriale. Coefficiente di correlazione del rango di Spearman o Kendall.
Intervallo e scala assoluta Correlazione biseriale I valori della scala dell'intervallo vengono convertiti in ranghi e viene utilizzato il coefficiente di rango Coefficiente di correlazione di Pearson (coefficiente di correlazione lineare)

A R=0 Non esiste una correlazione lineare. In questo caso, le medie di gruppo delle variabili coincidono con le loro medie complessive e le linee di regressione sono parallele agli assi delle coordinate.

Uguaglianza R=0 parla solo dell'assenza di una dipendenza dalla correlazione lineare (variabili non correlate), ma non in generale dell'assenza di una correlazione e, ancor più, di una dipendenza statistica.

A volte la constatazione di assenza di correlazione è più importante della presenza di una forte correlazione. Una correlazione pari a zero tra due variabili può indicare che non vi è alcun effetto di una variabile sull'altra, a condizione che ci fidiamo dei risultati della misurazione.

Nell'SPSS: 11.3.2 Coefficienti di correlazione

Finora abbiamo solo chiarito il fatto dell'esistenza di una relazione statistica tra due caratteristiche. Successivamente cercheremo di scoprire quali conclusioni si possono trarre sulla forza o sulla debolezza di questa dipendenza, nonché sul suo tipo e direzione. I criteri per quantificare la relazione tra le variabili sono chiamati coefficienti di correlazione o misure di connettività. Due variabili sono correlate positivamente se esiste una relazione diretta e unidirezionale tra loro. In una relazione unidirezionale, i valori piccoli di una variabile corrispondono a valori piccoli di un'altra variabile e valori grandi corrispondono a valori grandi. Due variabili sono correlate negativamente tra loro se esiste una relazione inversa e multidirezionale tra loro. Con una relazione multidirezionale, piccoli valori di una variabile corrispondono a grandi valori di un'altra variabile e viceversa. I valori dei coefficienti di correlazione sono sempre compresi tra -1 e +1.

Il coefficiente di Spearman viene utilizzato come coefficiente di correlazione tra variabili appartenenti a una scala ordinale, mentre il coefficiente di correlazione di Pearson (momento dei prodotti) viene utilizzato per variabili appartenenti a una scala a intervalli. Va tenuto presente che ogni variabile dicotomica, cioè una variabile appartenente ad una scala nominale e avente due categorie, può essere considerata ordinale.

Per prima cosa controlleremo se esiste una correlazione tra le variabili sesso e psiche dal file studium.sav. Allo stesso tempo, terremo conto che la variabile dicotomica sesso può essere considerata ordinale. Segui questi passi:

· Selezionare dal menu dei comandi Analizza Statistiche Descrittive Tabelle di contingenza...

· Spostare la variabile sex nell'elenco delle righe e la variabile psyche nell'elenco delle colonne.

· Fare clic sul pulsante Statistiche.... Nella finestra di dialogo Tabelle di contingenza: Statistiche, selezionare la casella di controllo Correlazioni. Conferma la tua selezione con il pulsante Continua.

· Nella finestra di dialogo Tabelle di contingenza, disattivare la visualizzazione delle tabelle selezionando la casella di controllo Sopprimi tabelle. Fare clic su OK.

Verranno calcolati i coefficienti di correlazione di Spearman e Pearson e la loro significatività sarà testata:

/ SPSS 10

Compito n. 10 Analisi di correlazione

Concetto di correlazione

La correlazione o il coefficiente di correlazione è un indicatore statistico probabilistico relazioni tra due variabili misurate su scale quantitative. A differenza di una relazione funzionale, in cui ogni valore di una variabile corrisponde rigorosamente definito il valore di un'altra variabile, connessione probabilistica caratterizzato dal fatto che ogni valore di una variabile corrisponde molteplici significati un'altra variabile. Un esempio di relazione probabilistica è la relazione tra l'altezza e il peso delle persone. È chiaro che persone di peso diverso possono avere la stessa altezza e viceversa.

La correlazione è un valore compreso tra -1 e + 1 ed è indicata dalla lettera r. Inoltre, se il valore è più vicino a 1, ciò significa la presenza di una connessione forte e, se più vicino a 0, è debole. Un valore di correlazione inferiore a 0,2 è considerato una correlazione debole, mentre uno superiore a 0,5 è considerato una correlazione elevata. Se il coefficiente di correlazione è negativo significa che c'è un feedback: maggiore è il valore di una variabile, minore è il valore dell'altra.

A seconda dei valori accettati del coefficiente r si possono distinguere vari tipi di correlazione:

Correlazione positiva stretta determinato dal valore r=1. Il termine "rigoroso" significa che il valore di una variabile è determinato in modo univoco dai valori di un'altra variabile, e il termine " positivo" - che all’aumentare dei valori di una variabile aumentano anche i valori di un’altra variabile.

La correlazione stretta è un'astrazione matematica e praticamente non si verifica mai nella ricerca reale.

Correlazione positiva corrisponde a valori 0

Nessuna correlazione determinato dal valore r=0. Un coefficiente di correlazione pari a zero indica che i valori delle variabili non sono in alcun modo correlati tra loro.

Nessuna correlazione H o : 0 R xy =0 formulato come una riflessione nullo ipotesi nell’analisi di correlazione.

Correlazione negativa: -1

Correlazione strettamente negativa determinato dal valore r= -1. Come una stretta correlazione positiva, è un'astrazione e non trova espressione nella ricerca pratica.

Tabella 1

Tipi di correlazione e loro definizioni

Il metodo per calcolare il coefficiente di correlazione dipende dal tipo di scala su cui vengono misurati i valori delle variabili.

Coefficiente di correlazione RPearsonè basilare e può essere utilizzato per variabili con scale di intervalli nominali e parzialmente ordinate, la distribuzione dei valori sulle quali corrisponde alla normale (correlazione momento prodotto). Il coefficiente di correlazione di Pearson fornisce risultati abbastanza accurati in caso di distribuzioni anomale.

Per le distribuzioni che non sono normali, è preferibile utilizzare i coefficienti di correlazione dei ranghi di Spearman e Kendall. Sono classificate perché il programma pre-classifica le variabili correlate.

Il programma SPSS calcola la correlazione r-Spearman come segue: prima le variabili vengono convertite in ranghi, quindi ai ranghi viene applicata la formula di Pearson.

La base della correlazione proposta da M. Kendall è l'idea che la direzione della connessione può essere giudicata confrontando i soggetti a coppie. Se per una coppia di soggetti il ​​cambiamento di X coincide nella direzione con il cambiamento di Y, allora ciò indica una connessione positiva. Se non corrisponde, esiste una connessione negativa. Questo coefficiente viene utilizzato principalmente dagli psicologi che lavorano con piccoli campioni. Poiché i sociologi lavorano con grandi quantità di dati, enumerare le coppie e identificare la differenza nelle frequenze relative e nelle inversioni di tutte le coppie di soggetti nel campione è difficile. Il più comune è il coefficiente. Pearson.

Poiché il coefficiente di correlazione di Pearson r è fondamentale e può essere utilizzato (con qualche errore a seconda del tipo di scala e del livello di anomalia nella distribuzione) per tutte le variabili misurate su scale quantitative, consideriamo esempi del suo utilizzo e confrontiamo i risultati ottenuti con i risultati delle misurazioni utilizzando altri coefficienti di correlazione.

Formula per il calcolo del coefficiente R- Pearson:

r xy = ∑ (Xi-Xavg)∙(Yi-Yavg) / (N-1)∙σ x ∙σ y ∙

Dove: Xi, Yi - Valori di due variabili;

Xavg, Yavg - valori medi di due variabili;

σ x, σ y – deviazioni standard,

N è il numero di osservazioni.

Correlazioni a coppie

Ad esempio, vorremmo scoprire come le risposte si correlano tra diversi tipi di valori tradizionali nelle idee degli studenti su un luogo di lavoro ideale (variabili: a9.1, a9.3, a9.5, a9.7) , e poi sulla correlazione tra valori liberali (a9.2, a9.4. a9.6, a9.8). Queste variabili sono misurate su scale ordinate a 5 item.

Utilizziamo la procedura: “Analisi”,  “Correlazioni”,  “Abbinato”. Coefficiente predefinito Pearson è impostato nella finestra di dialogo. Usiamo il coefficiente. Pearson

Le variabili testate vengono trasferite nella finestra di selezione: a9.1, a9.3, a9.5, a9.7

Facendo clic su OK otteniamo il calcolo:

Correlazioni

a9.1.t. Quanto è importante avere abbastanza tempo per la vita familiare e personale?

Correlazione di Pearson

Valore (2 lati)

a9.3.t. Quanto è importante non avere paura di perdere il lavoro?

Correlazione di Pearson

Valore (2 lati)

a9.5.t. Quanto è importante avere un capo che ti consulterà quando prendi questa o quella decisione?

Correlazione di Pearson

Valore (2 lati)

a9.7.t. Quanto è importante lavorare in un team ben coordinato e sentirsi parte di esso?

Correlazione di Pearson

Valore (2 lati)

** La correlazione è significativa al livello 0,01 (bilaterale).

Tabella dei valori quantitativi della matrice di correlazione costruita

Correlazioni parziali:

Innanzitutto, costruiamo una correlazione a coppie tra queste due variabili:

Correlazioni

s8. Sentiti vicino a chi vive accanto a te, ai vicini

Correlazione di Pearson

Valore (2 lati)

s12. Sentiti vicino alla loro famiglia

Correlazione di Pearson

Valore (2 lati)

**. La correlazione è significativa al livello 0,01 (a due code).

Utilizziamo quindi la procedura per costruire una correlazione parziale: “Analisi”,  “Correlazioni”,  “Parziale”.

Supponiamo che il valore "È importante determinare e modificare in modo indipendente l'ordine del proprio lavoro" in relazione alle variabili specificate risulti essere il fattore decisivo sotto l'influenza del quale la relazione precedentemente identificata scomparirà o si rivelerà essere insignificante.

Correlazioni

Variabili escluse

s8. Sentiti vicino a chi vive accanto a te, ai vicini

s12. Sentiti vicino alla loro famiglia

p16. Sentiti vicino alle persone che hanno il tuo stesso reddito

s8. Sentiti vicino a chi vive accanto a te, ai vicini

Correlazione

Significato (2 lati)

s12. Sentiti vicino alla loro famiglia

Correlazione

Significato (2 lati)

Come si vede dalla tabella, sotto l'influenza della variabile di controllo, il rapporto è leggermente diminuito: da 0,120 a 0,102 Tuttavia, questa leggera diminuzione non consente di affermare che il rapporto precedentemente individuato sia il riflesso di una falsa correlazione,. Perché rimane piuttosto elevato e consente di rifiutare l'ipotesi nulla con errore zero.

Coefficiente di correlazione

Il modo più accurato per determinare la vicinanza e la natura della correlazione è trovare il coefficiente di correlazione. Il coefficiente di correlazione è un numero determinato dalla formula:


dove r xy è il coefficiente di correlazione;

x i - valori della prima caratteristica;

y i sono i valori del secondo attributo;

Media aritmetica dei valori della prima caratteristica

Media aritmetica dei valori della seconda caratteristica

Per utilizzare la formula (32), costruiremo una tabella che fornirà la coerenza necessaria nella preparazione dei numeri per trovare il numeratore e il denominatore del coefficiente di correlazione.

Come si può vedere dalla formula (32), la sequenza di azioni è la seguente: troviamo le medie aritmetiche di entrambe le caratteristiche x e y, troviamo la differenza tra i valori dell'attributo e la sua media (x i - ) e y i - ), quindi troviamo il loro prodotto (x i - ) ( y i - ) – la somma di questi ultimi dà il numeratore del coefficiente di correlazione. Per trovare il denominatore, è necessario elevare al quadrato le differenze (x i - ) e (y i - ), trovarne la somma e calcolare la radice quadrata del loro prodotto.

Quindi, ad esempio 31, la ricerca del coefficiente di correlazione secondo la formula (32) può essere rappresentata come segue (Tabella 50).

Il numero risultante del coefficiente di correlazione consente di stabilire la presenza, la vicinanza e la natura della connessione.

1. Se il coefficiente di correlazione è zero, non esiste alcuna connessione tra le caratteristiche.

2. Se il coefficiente di correlazione è uguale a uno, la connessione tra le caratteristiche è così grande da trasformarsi in funzionale.

3. Il valore assoluto del coefficiente di correlazione non va oltre l'intervallo da zero a uno:

Ciò consente di concentrarsi sulla vicinanza della connessione: più il coefficiente è vicino a zero, più debole è la connessione, e più vicino all'unità, più stretta è la connessione.

4. Il segno “più” del coefficiente di correlazione indica correlazione diretta, il segno “meno” indica correlazione inversa.

Tavolo 50

x io tu io (x io -) (io io -) (x io - )(y io - ) (x i - )2 (Ì i -)2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Pertanto, il coefficiente di correlazione calcolato nell'esempio 31 è r xy = +0,9. ci permette di trarre le seguenti conclusioni: esiste una correlazione tra l'entità della forza muscolare della mano destra e della mano sinistra negli scolari studiati (il coefficiente r xy =+0,9 è diverso da zero), la relazione è molto stretta (il coefficiente r xy =+0,9 è vicino a uno) , la correlazione è diretta (il coefficiente r xy = +0,9 è positivo), cioè all'aumentare della forza muscolare di una mano aumenta la forza dell'altra mano.

Quando si calcola il coefficiente di correlazione e si utilizzano le sue proprietà, è necessario tenere conto del fatto che le conclusioni forniscono risultati corretti quando le caratteristiche sono distribuite normalmente e quando viene considerata la relazione tra un gran numero di valori di entrambe le caratteristiche.

Nell'esempio 31 considerato sono stati analizzati solo 7 valori di entrambe le caratteristiche, il che, ovviamente, non è sufficiente per tali studi. Vi ricordiamo ancora una volta che gli esempi contenuti in questo libro in generale e in questo capitolo in particolare hanno la natura di illustrare metodi e non una presentazione dettagliata di esperimenti scientifici. Di conseguenza, è stato considerato un numero limitato di valori delle caratteristiche, le misurazioni sono state arrotondate: tutto ciò è stato fatto in modo che calcoli complicati non oscurassero l'idea del metodo.

Particolare attenzione dovrebbe essere prestata all'essenza della relazione in esame. Il coefficiente di correlazione non può portare a risultati di ricerca corretti se la relazione tra le caratteristiche viene analizzata formalmente. Torniamo ancora una volta all'esempio 31. Entrambi i segni considerati erano i valori della forza muscolare della mano destra e della mano sinistra. Immaginiamo che con segno x i nell'esempio 31 (14.0; 14.2; 14.9... ...18.1) si intenda la lunghezza in centimetri del pesce catturato accidentalmente, e con segno y i (12.1 ; 13.8; 14.2... ... 17.4) - peso degli strumenti presenti nel laboratorio in chilogrammi. Avendo formalmente utilizzato l'apparato di calcolo per trovare il coefficiente di correlazione e ottenuto in questo caso anche r xy =+0>9, abbiamo dovuto concludere che esiste una stretta relazione diretta tra la lunghezza del pesce e il peso degli strumenti. L’insensatezza di una simile conclusione è evidente.

Per evitare un approccio formale all'utilizzo del coefficiente di correlazione, si dovrebbe utilizzare qualsiasi altro metodo - matematico, logico, sperimentale, teorico - per identificare la possibilità dell'esistenza di una correlazione tra caratteristiche, cioè per scoprire l'unità organica delle caratteristiche. Solo dopo si può iniziare a utilizzare l'analisi delle correlazioni e stabilire l'entità e la natura della relazione.

Nella statistica matematica esiste anche il concetto correlazione multipla- relazioni tra tre o più caratteristiche. In questi casi viene utilizzato un coefficiente di correlazione multipla, costituito dai coefficienti di correlazione accoppiati sopra descritti.

Ad esempio, il coefficiente di correlazione di tre caratteristiche - x i, y i, z i - è:

dove R xyz è il coefficiente di correlazione multipla, che esprime come la caratteristica xi dipende dalle caratteristiche y i e z i;

r xy - coefficiente di correlazione tra le caratteristiche x i e y i;

r xz - coefficiente di correlazione tra le caratteristiche Xi e Zi;

r yz - coefficiente di correlazione tra le caratteristiche y i , z i

L'analisi di correlazione è:

Analisi di correlazione

Correlazione- relazione statistica tra due o più variabili casuali (o variabili che possono essere considerate tali con un accettabile grado di accuratezza). Inoltre, i cambiamenti in una o più di queste quantità portano a un cambiamento sistematico in un'altra o in altre quantità. Una misura matematica della correlazione tra due variabili casuali è il coefficiente di correlazione.

La correlazione può essere positiva e negativa (è anche possibile che non esista alcuna relazione statistica, ad esempio per variabili casuali indipendenti). Correlazione negativa - correlazione, in cui all'aumento di una variabile è associato un calo di un'altra variabile e il coefficiente di correlazione è negativo. Correlazione positiva - correlazione, in cui all'aumento di una variabile è associato l'aumento di un'altra variabile e il coefficiente di correlazione è positivo.

Autocorrelazione - relazione statistica tra variabili casuali della stessa serie, ma prese con uno spostamento, ad esempio, per un processo casuale - con uno spostamento temporale.

Viene chiamato il metodo di elaborazione dei dati statistici, che consiste nello studio dei coefficienti (correlazione) tra le variabili analisi di correlazione.

Coefficiente di correlazione

Coefficiente di correlazione O coefficiente di correlazione di coppia nella teoria e nella statistica della probabilità, è un indicatore della natura del cambiamento in due variabili casuali. Il coefficiente di correlazione è indicato con la lettera latina R e può assumere valori compresi tra -1 e +1. Se il valore assoluto è più vicino a 1, significa la presenza di una connessione forte (se il coefficiente di correlazione è uguale a uno, si parla di connessione funzionale), e se è più vicino a 0, allora è debole.

Coefficiente di correlazione di Pearson

Per le quantità metriche viene utilizzato il coefficiente di correlazione di Pearson, la cui formula esatta è stata introdotta da Francis Galton:

Permettere X,Y- due variabili casuali definite sullo stesso spazio di probabilità. Quindi il loro coefficiente di correlazione è dato dalla formula:

,

dove cov denota covarianza e D è varianza, o equivalentemente,

,

dove il simbolo indica l'aspettativa matematica.

Per rappresentare graficamente tale relazione, è possibile utilizzare un sistema di coordinate rettangolare con assi che corrispondono a entrambe le variabili. Ogni coppia di valori è contrassegnata da un simbolo specifico. Questo grafico è chiamato “grafico a dispersione”.

La modalità di calcolo del coefficiente di correlazione dipende dal tipo di scala a cui appartengono le variabili. Pertanto, per misurare le variabili con scale intervallari e quantitative, è necessario utilizzare il coefficiente di correlazione di Pearson (correlazione momento prodotto). Se almeno una delle due variabili è su scala ordinale o non è distribuita normalmente, è necessario utilizzare la correlazione per rango di Spearman o τ (tau) di Kendal. Nel caso in cui una delle due variabili sia dicotomica, viene utilizzata una correlazione punto-biseriale e se entrambe le variabili sono dicotomiche: una correlazione a quattro campi. Calcolare il coefficiente di correlazione tra due variabili non dicotomiche ha senso solo quando la relazione tra loro è lineare (unidirezionale).

Coefficiente di correlazione Kendell

Utilizzato per misurare il disordine reciproco.

Coefficiente di correlazione di Spearman

Proprietà del coefficiente di correlazione

  • Disuguaglianza di Cauchy-Bunyakovsky:
se prendiamo la covarianza come prodotto scalare di due variabili casuali, la norma della variabile casuale sarà uguale a , e la conseguenza della disuguaglianza di Cauchy-Bunyakovsky sarà: . , Dove . Inoltre, in questo caso i segni e K

abbinare: .

Analisi di correlazione Analisi di correlazione - metodo di elaborazione dei dati statistici, che consiste nello studio dei coefficienti ( correlazioni

) tra le variabili. In questo caso, i coefficienti di correlazione tra una o più coppie di caratteristiche vengono confrontati per stabilire relazioni statistiche tra di loro. Bersaglio analisi di correlazione - fornire alcune informazioni su una variabile utilizzando un'altra variabile. Nei casi in cui è possibile raggiungere un obiettivo, si dice che le variabili lo siano correlare . Nella sua forma più generale, accettare l'ipotesi di una correlazione significa che una variazione del valore della variabile A avverrà contemporaneamente ad una variazione proporzionale del valore di B: se entrambe le variabili aumentano, allora la correlazione è positiva , se una variabile aumenta e l'altra diminuisce,.

La correlazione riflette solo la dipendenza lineare dei valori, ma non riflette la loro connettività funzionale. Ad esempio, se calcoli il coefficiente di correlazione tra le quantità UN = SioN(X) E B = CoS(X), allora sarà vicino allo zero, cioè non c'è dipendenza tra le quantità. Nel frattempo, le quantità A e B sono ovviamente correlate funzionalmente secondo la legge SioN 2(X) + CoS 2(X) = 1.

Limitazioni dell'analisi di correlazione



Grafici delle distribuzioni di coppie (x,y) con i corrispondenti coefficienti di correlazione xey per ciascuna di esse. Si noti che il coefficiente di correlazione riflette una relazione lineare (linea superiore), ma non descrive una curva di relazione (linea centrale) e non è affatto adatto a descrivere relazioni complesse e non lineari (linea inferiore).
  1. L'applicazione è possibile se esiste un numero sufficiente di casi da studiare: per una particolare tipologia, il coefficiente di correlazione varia da 25 a 100 coppie di osservazioni.
  2. La seconda limitazione deriva dall'ipotesi dell'analisi di correlazione, che include dipendenza lineare delle variabili. In molti casi in cui è noto con certezza l'esistenza di una relazione, l'analisi di correlazione potrebbe non produrre risultati semplicemente perché la relazione non è lineare (espressa, ad esempio, come una parabola).
  3. Il semplice fatto della correlazione non fornisce motivo per affermare quale delle variabili precede o causa cambiamenti, o che le variabili sono generalmente correlate causalmente tra loro, ad esempio, a causa dell'azione di un terzo fattore.

Area di applicazione

Questo metodo di elaborazione dei dati statistici è molto popolare nell'economia e nelle scienze sociali (in particolare in psicologia e sociologia), sebbene l'ambito di applicazione dei coefficienti di correlazione sia ampio: controllo di qualità dei prodotti industriali, metallurgia, agrochimica, idrobiologia, biometria e altri.

La popolarità del metodo è dovuta a due fattori: i coefficienti di correlazione sono relativamente facili da calcolare e il loro utilizzo non richiede una formazione matematica speciale. Combinata alla sua facilità di interpretazione, la facilità di applicazione del coefficiente ha portato al suo utilizzo diffuso nel campo dell'analisi statistica dei dati.

Falsa correlazione

Spesso, l'allettante semplicità della ricerca sulla correlazione incoraggia il ricercatore a trarre conclusioni intuitive false sulla presenza di una relazione di causa-effetto tra coppie di caratteristiche, mentre i coefficienti di correlazione stabiliscono solo relazioni statistiche.

La moderna metodologia quantitativa delle scienze sociali ha, infatti, abbandonato i tentativi di stabilire relazioni di causa-effetto tra variabili osservate utilizzando metodi empirici. Pertanto, quando i ricercatori nel campo delle scienze sociali parlano di stabilire relazioni tra le variabili studiate, è implicito un presupposto teorico generale o una dipendenza statistica.

Guarda anche

  • Funzione di autocorrelazione
  • Funzione di correlazione incrociata
  • Covarianza
  • Coefficiente di determinazione
  • Analisi di regressione

Fondazione Wikimedia. 2010.

Il coefficiente di correlazione è il grado di relazione tra due variabili. Il suo calcolo dà un'idea se esiste una relazione tra due set di dati. A differenza della regressione, la correlazione non prevede i valori delle quantità. Tuttavia, il calcolo del coefficiente è un passo importante nell’analisi statistica preliminare. Ad esempio, abbiamo riscontrato che il coefficiente di correlazione tra il livello degli investimenti diretti esteri e il tasso di crescita del PIL è elevato. Questo ci fa pensare che per garantire la prosperità sia necessario creare un clima favorevole soprattutto per gli imprenditori stranieri. A prima vista non è una conclusione così ovvia!

Correlazione e causalità

Forse non c'è una sola area statistica che sia diventata così saldamente radicata nelle nostre vite. Il coefficiente di correlazione è utilizzato in tutti gli ambiti della conoscenza sociale. Il suo pericolo principale è che i suoi alti valori vengono spesso speculati per convincere le persone e farle credere ad alcune conclusioni. Tuttavia, in realtà, una forte correlazione non indica affatto una relazione di causa-effetto tra le quantità.

Coefficiente di correlazione: formula di Pearson e Spearman

Esistono diversi indicatori di base che caratterizzano la relazione tra due variabili. Storicamente, il primo è il coefficiente di correlazione lineare di Pearson. Viene insegnato a scuola. È stato sviluppato da K. Pearson e J. Yule sulla base del lavoro di p. Galton. Questo coefficiente ti consente di vedere la relazione tra i numeri razionali che cambiano razionalmente. È sempre maggiore di -1 e minore di 1. Un numero negativo indica una relazione inversamente proporzionale. Se il coefficiente è zero, non esiste alcuna relazione tra le variabili. Uguale a un numero positivo: esiste una relazione direttamente proporzionale tra le quantità studiate. Il coefficiente di correlazione del rango di Spearman consente di semplificare i calcoli costruendo una gerarchia di valori variabili.

Relazioni tra variabili

La correlazione aiuta a rispondere a due domande. Innanzitutto, se la relazione tra le variabili è positiva o negativa. In secondo luogo, quanto è forte la dipendenza. L’analisi delle correlazioni è uno strumento potente in grado di fornire queste importanti informazioni. È facile vedere che il reddito e le spese familiari diminuiscono e aumentano proporzionalmente. Questa relazione è considerata positiva. Al contrario, quando il prezzo di un prodotto aumenta, la sua domanda diminuisce. Questa relazione è chiamata negativa. I valori del coefficiente di correlazione sono compresi tra -1 e 1. Zero significa che non esiste alcuna relazione tra i valori oggetto di studio. Quanto più l'indicatore ottenuto si avvicina ai valori estremi, tanto più forte è la relazione (negativa o positiva). L'assenza di dipendenza è indicata da un coefficiente compreso tra -0,1 e 0,1. Devi capire che un tale valore indica solo l'assenza di una relazione lineare.

Caratteristiche dell'applicazione

L'utilizzo di entrambi gli indicatori implica determinati presupposti. In primo luogo, la presenza di una forte connessione non determina il fatto che una quantità determini l'altra. Potrebbe esserci una terza quantità che definisce ciascuno di essi. In secondo luogo, un elevato coefficiente di correlazione di Pearson non indica una relazione di causa-effetto tra le variabili studiate. In terzo luogo, mostra una relazione esclusivamente lineare. La correlazione può essere utilizzata per valutare dati quantitativi significativi (ad esempio, pressione barometrica, temperatura dell'aria) piuttosto che categorie come il sesso o il colore preferito.

Coefficiente di correlazione multipla

Pearson e Spearman hanno esaminato la relazione tra due variabili. Ma cosa fare se ce ne sono tre o anche più. È qui che il coefficiente di correlazione multipla viene in soccorso. Ad esempio, il prodotto nazionale lordo è influenzato non solo dagli investimenti diretti esteri, ma anche dalle politiche monetarie e fiscali del governo, nonché dal livello delle esportazioni. Il tasso di crescita e il volume del PIL sono il risultato dell’interazione di una serie di fattori. Tuttavia, occorre comprendere che il modello di correlazione multipla si basa su una serie di semplificazioni e ipotesi. Innanzitutto è esclusa la multicollinearità tra i valori. In secondo luogo, la relazione tra il dipendente e le variabili che lo influenzano è considerata lineare.

Aree di utilizzo dell'analisi di correlazione e di regressione

Questo metodo per trovare le relazioni tra le quantità è ampiamente utilizzato nelle statistiche. Si ricorre più spesso a tre casi principali:

  1. Testare le relazioni di causa-effetto tra i valori di due variabili. Di conseguenza, il ricercatore spera di scoprire una relazione lineare e ricavare una formula che descriva queste relazioni tra le quantità. Le loro unità di misura possono essere diverse.
  2. Per verificare la relazione tra le quantità. In questo caso, nessuno determina quale variabile è la variabile dipendente. Potrebbe risultare che qualche altro fattore determini il valore di entrambe le quantità.
  3. Per derivare l'Eq. In questo caso, puoi semplicemente sostituirli con dei numeri e scoprire i valori della variabile sconosciuta.

Un uomo alla ricerca di una relazione di causa-effetto

La coscienza è progettata in modo tale che dobbiamo assolutamente spiegare gli eventi che accadono intorno a noi. Una persona cerca sempre una connessione tra l'immagine del mondo in cui vive e le informazioni che riceve. Il cervello spesso crea ordine dal caos. Può facilmente vedere una relazione di causa ed effetto dove non ce n'è. Gli scienziati devono imparare specificamente a superare questa tendenza. La capacità di valutare oggettivamente le relazioni tra i dati è essenziale in una carriera accademica.

Pregiudizio dei media

Consideriamo come la presenza di una correlazione possa essere interpretata erroneamente. A un gruppo di studenti britannici con un cattivo comportamento è stato chiesto se i loro genitori fumassero. Poi il test è stato pubblicato sul giornale. Il risultato ha mostrato una forte correlazione tra il fumo dei genitori e la delinquenza dei loro figli. Il professore che ha condotto questo studio ha addirittura suggerito di mettere un avvertimento al riguardo sui pacchetti di sigarette. Tuttavia, ci sono una serie di problemi con questa conclusione. Innanzitutto, la correlazione non mostra quale delle quantità è indipendente. Pertanto, è del tutto possibile presumere che l'abitudine dannosa dei genitori sia causata dalla disobbedienza dei bambini. In secondo luogo, non si può affermare con certezza che entrambi i problemi non siano sorti a causa di un terzo fattore. Ad esempio, le famiglie a basso reddito. Vale la pena notare l'aspetto emotivo delle prime conclusioni del professore che ha condotto lo studio. Era un ardente oppositore del fumo. Pertanto, non sorprende che abbia interpretato in questo modo i risultati della sua ricerca.

conclusioni

Interpretare erroneamente una correlazione come una relazione di causa-effetto tra due variabili può causare errori di ricerca vergognosi. Il problema è che si trova alla base stessa della coscienza umana. Molti trucchi di marketing si basano su questa caratteristica. Comprendere la differenza tra causa ed effetto e la correlazione ti consente di analizzare razionalmente le informazioni sia nella tua vita quotidiana che nella tua carriera professionale.

Quando si studia la salute pubblica e l'assistenza sanitaria per scopi scientifici e pratici, il ricercatore deve spesso condurre un'analisi statistica delle relazioni tra fattori e caratteristiche prestazionali di una popolazione statistica (relazione causale) o determinare la dipendenza di cambiamenti paralleli in diverse caratteristiche di questa popolazione su un terzo valore (sulla loro causa comune). È necessario essere in grado di studiare le caratteristiche di questa connessione, determinarne le dimensioni e la direzione e anche valutarne l'affidabilità. A questo scopo vengono utilizzati metodi di correlazione.

  1. Tipi di manifestazione di relazioni quantitative tra caratteristiche
    • connessione funzionale
    • connessione di correlazione
  2. Definizioni di connessione funzionale e correlazionale

    Connessione funzionale- questo tipo di relazione tra due caratteristiche quando ciascun valore di una di esse corrisponde a un valore rigorosamente definito dell'altra (l'area di un cerchio dipende dal raggio del cerchio, ecc.). La connessione funzionale è caratteristica dei processi fisici e matematici.

    Correlazione- una relazione in cui ogni valore specifico di una caratteristica corrisponde a diversi valori di un'altra caratteristica ad essa correlata (il rapporto tra altezza e peso di una persona; il rapporto tra temperatura corporea e frequenza cardiaca, ecc.). La correlazione è tipica dei processi medici e biologici.

  3. L'importanza pratica di stabilire una connessione di correlazione. Identificazione delle relazioni di causa-effetto tra il fattore e le caratteristiche risultanti (nel valutare lo sviluppo fisico, per determinare la relazione tra condizioni di lavoro, condizioni di vita e stato di salute, nel determinare la dipendenza della frequenza delle malattie dall'età, dall'anzianità di servizio, dalla presenza di rischi professionali, ecc.)

    Dipendenza di cambiamenti paralleli in parecchie caratteristiche su un terzo valore. Ad esempio, sotto l'influenza dell'alta temperatura in officina, si verificano cambiamenti nella pressione sanguigna, nella viscosità del sangue, nella frequenza cardiaca, ecc.

  4. Un valore che caratterizza la direzione e la forza della relazione tra caratteristiche. Il coefficiente di correlazione, che in un numero dà un'idea della direzione e della forza della connessione tra i segni (fenomeni), i limiti delle sue fluttuazioni da 0 a ± 1
  5. Metodi di presentazione delle correlazioni
    • grafico (grafico a dispersione)
    • coefficiente di correlazione
  6. Direzione della correlazione
    • Dritto
    • inversione
  7. Forza della correlazione
    • forte: da ±0,7 a ±1
    • media: da ±0,3 a ±0,699
    • debole: da 0 a ±0,299
  8. Metodi per determinare il coefficiente di correlazione e formule
    • metodo dei quadrati (metodo Pearson)
    • metodo dei ranghi (metodo Spearman)
  9. Requisiti metodologici per l'utilizzo del coefficiente di correlazione
    • misurare il rapporto è possibile solo in popolazioni qualitativamente omogenee (ad esempio misurare il rapporto tra altezza e peso in popolazioni omogenee per sesso ed età)
    • il calcolo può essere effettuato utilizzando valori assoluti o derivati
    • per calcolare il coefficiente di correlazione vengono utilizzate serie di variazioni non raggruppate (questo requisito si applica solo quando si calcola il coefficiente di correlazione utilizzando il metodo dei quadrati)
    • numero di osservazioni almeno 30
  10. Raccomandazioni per l'utilizzo del metodo di correlazione dei ranghi (metodo di Spearman)
    • quando non è necessario stabilire con precisione la forza della connessione, ma sono sufficienti dati approssimativi
    • quando le caratteristiche sono rappresentate non solo da valori quantitativi, ma anche da valori attributivi
    • quando le serie di caratteristiche di distribuzione hanno opzioni aperte (ad esempio, esperienza lavorativa fino a 1 anno, ecc.)
  11. Raccomandazioni per l'utilizzo del metodo dei quadrati (metodo di Pearson)
    • quando è richiesta una determinazione accurata della forza della connessione tra le caratteristiche
    • quando i segni hanno solo espressione quantitativa
  12. Metodologia e procedura per il calcolo del coefficiente di correlazione

    1) Metodo dei quadrati

    2) Metodo di classificazione

  13. Schema per valutare la relazione di correlazione utilizzando il coefficiente di correlazione
  14. Calcolo dell'errore del coefficiente di correlazione
  15. Stima dell'affidabilità del coefficiente di correlazione ottenuta mediante il metodo della correlazione per ranghi e il metodo dei quadrati

    Metodo 1
    L'affidabilità è determinata dalla formula:

    Il criterio t viene valutato utilizzando una tabella di valori t, tenendo conto del numero di gradi di libertà (n - 2), dove n è il numero di opzioni accoppiate. Il criterio t deve essere uguale o maggiore di quello della tabella, corrispondente ad una probabilità p ≥99%.

    Metodo 2
    L'affidabilità viene valutata utilizzando una tabella speciale di coefficienti di correlazione standard. In questo caso un coefficiente di correlazione è considerato affidabile quando, con un certo numero di gradi di libertà (n – 2), è uguale o superiore a quello tabellare, corrispondente al grado di previsione priva di errori p ≥95% .

utilizzare il metodo dei quadrati

Esercizio: calcolare il coefficiente di correlazione, determinare la direzione e la forza della relazione tra la quantità di calcio nell'acqua e la durezza dell'acqua, se sono noti i seguenti dati (Tabella 1). Valutare l'affidabilità del rapporto. Trarre una conclusione.

Tabella 1

Giustificazione della scelta del metodo. Per risolvere il problema è stato scelto il metodo dei quadrati (Pearson), perché ciascuno dei segni (durezza dell'acqua e quantità di calcio) ha un'espressione numerica; nessuna opzione aperta.

Soluzione.
La sequenza dei calcoli è descritta nel testo, i risultati sono presentati nella tabella. Dopo aver costruito una serie di caratteristiche comparabili accoppiate, denotarle con x (durezza dell'acqua in gradi) e con y (quantità di calcio nell'acqua in mg/l).

Durezza dell'acqua
(in gradi)
Quantità di calcio nell'acqua
(in mg/l)
dx d a d x x d y dx2 g e 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = Σ x / n M y =Σ y / n Σ d x x d y =7078 Σdx2 =982 Σ d y 2 =51056
Mx=120/6=20 M y =852/6=142
  1. Determinare i valori medi di M x nell'opzione di riga “x” e M y nell'opzione di riga “y” utilizzando le formule:
    M x = Σх/n (colonna 1) e
    M y = Σу/n (colonna 2)
  2. Trova la deviazione (d x e d y) di ciascuna opzione dal valore della media calcolata nella serie “x” e nella serie “y”
    d x = x - M x (colonna 3) e d y = y - M y (colonna 4).
  3. Trova il prodotto degli scostamenti d x x d y e sommali: Σ d x x d y (colonna 5)
  4. Eleva al quadrato ogni deviazione d x e d y e somma i loro valori lungo la serie “x” e la serie “y”: Σ d x 2 = 982 (colonna 6) e Σ d y 2 = 51056 (colonna 7).
  5. Determina il prodotto Σ d x 2 x Σ d y 2 ed estrai la radice quadrata da questo prodotto
  6. I valori risultanti Σ (d x x d y) e √ (Σd x 2 x Σd y 2) sostituire nella formula per il calcolo del coefficiente di correlazione:
  7. Determinare l'affidabilità del coefficiente di correlazione:
    1° metodo. Trova l'errore del coefficiente di correlazione (mr xy) e del criterio t utilizzando le formule:

    Criterio t = 14,1, che corrisponde alla probabilità di una previsione priva di errori p > 99,9%.

    2° metodo. L'affidabilità del coefficiente di correlazione viene valutata utilizzando la tabella “Coefficienti di correlazione standard” (vedere Appendice 1). Con il numero di gradi di libertà (n - 2)=6 - 2=4, il nostro coefficiente di correlazione calcolato r xу = + 0,99 è maggiore di quello tabulato (r tabella = + 0,917 a p = 99%).

    Conclusione. Più calcio c'è nell'acqua, più è difficile (connessione diretto, forte e autentico: rxy = + 0,99, p > 99,9%).

    utilizzare il metodo di classificazione

    Esercizio: utilizzando il metodo delle classifiche, stabilire la direzione e la forza del rapporto tra anni di esperienza lavorativa e frequenza degli infortuni se si ottengono i seguenti dati:

    Giustificazione della scelta del metodo: Per risolvere il problema si può scegliere solo il metodo della correlazione dei ranghi, perché La prima riga dell'attributo "esperienza lavorativa in anni" ha opzioni aperte (esperienza lavorativa fino a 1 anno e 7 o più anni), che non consente l'uso di un metodo più accurato - il metodo dei quadrati - per stabilire una connessione tra le caratteristiche confrontate.

    Soluzione. La sequenza dei calcoli è presentata nel testo, i risultati sono presentati nella tabella. 2.

    Tavolo 2

    Esperienza lavorativa negli anni Numero di infortuni Numeri ordinali (ranghi) Differenza di rango Differenza quadrata dei ranghi
    X Y d(xy) d2
    Fino a 1 anno 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 o più 6 5 1 +4 16
    Σd2 = 38,5

    Coefficienti di correlazione standard considerati affidabili (secondo L.S. Kaminsky)

    Numero di gradi di libertà - 2 Livello di probabilità p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Vlasov V.V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 p.
    2. Lisitsyn Yu.P. Sanità pubblica e sanità. Libro di testo per le università. - M.: GEOTAR-MED, 2007. - 512 p.
    3. Il medico V.A., Yuryev V.K. Corso di lezioni sulla sanità pubblica e l'assistenza sanitaria: Parte 1. Sanità pubblica. - M.: Medicina, 2003. - 368 p.
    4. Minyaev V.A., Vishnyakov N.I. e altri. Medicina sociale e organizzazione sanitaria (Manuale in 2 volumi). - San Pietroburgo, 1998. -528 p.
    5. Kucherenko V.Z., Agarkov N.M. e altri. Igiene sociale e organizzazione sanitaria (Tutorial) - Mosca, 2000. - 432 p.
    6. S. Glanz. Statistica medica e biologica. Traduzione dall'inglese - M., Praktika, 1998. - 459 pag.

Coefficienti di correlazione

Finora abbiamo solo chiarito il fatto dell'esistenza di una relazione statistica tra due caratteristiche. Successivamente cercheremo di scoprire quali conclusioni si possono trarre sulla forza o sulla debolezza di questa dipendenza, nonché sul suo tipo e direzione. I criteri per quantificare la relazione tra le variabili sono chiamati coefficienti di correlazione o misure di connettività. Due variabili sono correlate positivamente se esiste una relazione diretta e unidirezionale tra loro. In una relazione unidirezionale, i valori piccoli di una variabile corrispondono a valori piccoli di un'altra variabile e valori grandi corrispondono a valori grandi. Due variabili sono correlate negativamente tra loro se esiste una relazione inversa e multidirezionale tra loro. Con una relazione multidirezionale, piccoli valori di una variabile corrispondono a grandi valori di un'altra variabile e viceversa. I valori dei coefficienti di correlazione sono sempre compresi tra -1 e +1.

Come coefficiente di correlazione tra variabili appartenenti a ordinale si applica la scala Coefficiente di Spearman e per le variabili appartenenti a intervallo scala - Coefficiente di correlazione di Pearson(momento dei lavori). Va tenuto presente che ogni variabile dicotomica, cioè una variabile appartenente ad una scala nominale e avente due categorie, può essere considerata come ordinale.

Per prima cosa controlleremo se esiste una correlazione tra le variabili sesso e psiche dal file studium.sav. In questo caso, la variabile dicotomica sesso può essere considerato ordinale. Segui questi passi:

    Selezionare Analizza statistiche descrittive tabelle di contingenza... dal menu dei comandi

    Sposta la variabile sesso a un elenco di stringhe e una variabile psiche- all'elenco delle colonne.

    Fare clic sul pulsante Statistiche... (Statistiche). Nella finestra di dialogo Tabelle di contingenza: Statistiche, selezionare la casella di controllo Correlazioni. Conferma la tua selezione con il pulsante Continua.

    Nel dialogo Tavole incrociate rifiutare di visualizzare le tabelle selezionando la casella di controllo Sopprimi tabelle. Fare clic su OK.

Verranno calcolati i coefficienti di correlazione di Spearman e Pearson e la loro significatività sarà testata:

Misure simmetriche

Valore Asintomatico St. Errore (a) (Errore standard asintotico) ca. T (b) (T circa) ca. Sig. (Significato approssimativo)
Intervallo per intervallo Pearson's R
(R Pearson)
,441 ,081 5,006 .000 (s)
Ordinale per ordinale (Ordinale - Ordinale) Correlazione di Spearman ,439 ,083 4,987 .000 (s)
N di casi validi 106

Poiché qui non sono presenti variabili di scala di intervallo, esamineremo il coefficiente di correlazione di Spearman. È 0,439 ed è massimamente significativo (p<0,001).

Per una descrizione verbale dei valori dei coefficienti di correlazione viene utilizzata la seguente tabella:

Sulla base della tabella precedente si possono trarre le seguenti conclusioni: esiste una debole correlazione tra le variabili sessuali e psichiche (conclusione sulla forza della dipendenza), le variabili sono correlate positivamente (conclusione sulla direzione della dipendenza).

Nella variabile psiche, valori più piccoli corrispondono a uno stato mentale negativo, mentre valori più grandi corrispondono a uno stato mentale positivo. Nella variabile sesso, a sua volta, il valore “1” corrisponde al genere femminile, e “2” al genere maschile.

Di conseguenza, l'unidirezionalità della relazione può essere interpretata come segue: le studentesse valutano il loro stato mentale in modo più negativo rispetto ai loro colleghi maschi o, molto probabilmente, sono più propensi ad accettare tale valutazione quando conducono un sondaggio quando costruiscono tali interpretazioni è necessario tenere conto del fatto che una correlazione tra due tratti non equivale necessariamente alla loro dipendenza funzionale o causale. Per ulteriori informazioni al riguardo, vedere la Sezione 15.3.

Ora controlliamo la correlazione tra le variabili alter e semestre. Applichiamo il metodo sopra descritto. Otterremo i seguenti coefficienti:

Misure simmetriche

Asintomatico St. Errore(a)

Intervallo per intervallo

Ordinale per ordinale

Correlazione di Spearman

N di casi validi

UN. Non assumere l’ipotesi nulla.

e. Utilizzando l'errore standard asintotico assumendo l'ipotesi nulla.

Con. Basato sull'approssimazione normale.

Poiché le variabili altera e semestre sono metriche, considereremo il coefficiente di Pearson (momento dei prodotti). È 0,807. Esiste una forte correlazione tra le variabili alter e semestrali. Le variabili sono correlate positivamente. Di conseguenza, gli studenti più grandi studiano negli anni dell'ultimo anno, il che, in effetti, non è una conclusione inaspettata.

Controlliamo la correlazione tra le variabili sociale (valutazione dello stato sociale) e psiche. Otterremo i seguenti coefficienti:

Misure simmetriche

Asintomatico St. Errore(a)

Intervallo per intervallo

Ordinale per ordinale

Correlazione di Spearman

N di casi validi

UN. Non assumere l’ipotesi nulla.

B. Utilizzando l'errore standard asintotico assumendo l'ipotesi nulla.

Con. Basato sull'approssimazione normale.

In questo caso, esamineremo il coefficiente di correlazione di Spearman; è -0,703. Esiste una correlazione da media a forte tra le variabili sociali e psichiche (valore limite 0,7). Le variabili sono correlate negativamente, ovvero maggiore è il valore della prima variabile minore è il valore della seconda e viceversa. Poiché piccoli valori della variabile sociale caratterizzano uno stato positivo (1 = molto buono, 2 = buono), e grandi valori della psiche caratterizzano uno stato negativo (1 = estremamente instabile, 2 = instabile), quindi, le difficoltà psicologiche sono in gran parte dovuti a problemi sociali.