Transcript Lezione 7

23‐04‐2014
• Oggi
ultima lezione in aula
non c’è lezione,
• 24.04 fate il tutorato di fisica come al solito
• 23.04
• 30.04
fate il tutorato di fisica [che da questa data si sposta al
mercoledì]
• 01.05 festività
• 08.05 da questa data, per 5 incontri ci vediamo nel lab.
P13 ore 14-16
• 15.05
• 05.06
prima prova intercorso
seconda prova intercorso
1
23‐04‐2014
Strettamente legata alla
definizione di variabile
dipendente o indipendente
 
 
 
 
Senza tener conto di
variabile dipendente o
indipendente
Nella statistica applicata si osserva la relazione
(dipendenza) tra due o più grandezze (caratteri
quantitativi).
Esigenza: determinare una funzione che rappresenti i
dati ricavati dalle osservazioni
Prima strategia: determinare una funzione che assuma
esattamente i dati rilevati (interpolazione per punti noti)
Seconda strategia: determinare una funzione che si
accosti il più possibile ai punti noti (generalmente
preferita) (interpolazione fra punti noti)
2
23‐04‐2014
Ad esempio: supponiamo di considerare degli individui e
coppie di variabili
consumi-reddito
peso-statura
numero di neuroni – età
Ipotesi: all’aumentare del reddito, aumentano i consumi
all’aumentare del peso, aumenta l’altezza
all’aumentare dell’età… diminuiscono i neuroni 
Ad esempio: supponiamo di considerare degli individui e
coppie di variabili
consumi-reddito
Reddito-statura-età sono
indipendenti
peso-statura
Vanno ad influenzare le altre
(dipendenti)
numero di neuroni – età
Ipotesi: all’aumentare del reddito, aumentano i consumi
all’aumentare del peso, aumenta l’altezza
all’aumentare dell’età… diminuiscono i neuroni 
3
23‐04‐2014
Modelli di
variazione
4
23‐04‐2014
  Cercare
la miglior retta che approssima
dei dati (stiamo ipotizzando una relazione
lineare tra essi).
  Si chiama “retta di regressione” e tiene
conto di molti parametri che legano le
osservazioni [e spiega come la variabile Y
dipenda in modo lineare da X]
 
Si sceglie la funzione in base all’andamento del fenomeno:
lineare, quadratica, esponenziale
 
Si procede alla determinazione dei parametri (costanti
che compaiono nella funzione scelta), in modo che sia
soddisfatta una condizione di accostamento prefissata, la
condizione dei minimi quadrati
 
EXCEL ci mette a disposizione 3 diversi metodi di
interpolazione di una retta di regressione come applicazione
del metodo dei minimi quadrati:
AGGIUNGI LINEA DI TENDENZA;
REGR.LIN;
REGRESSIONE
5
23‐04‐2014
 
 
 
 
 
 
Creare il grafico di dispersione associato ai dati
Usare il comando “AGGIUNGI LINEA DI TENDENZA”:
selezionare i dati sul grafico e, dopo aver premuto il pulsante
destro, scegliere l’opzione Aggiungi linea di tendenza.
Infine si seleziona il tipo di regressione.
Sul grafico viene tracciata automaticamente la miglior retta
passante per i dati
E’ possibile visualizzare l’equazione della retta
Come dato statistico si ha solo a disposizione il coefficiente
di correlazione r (in realtà R^2, indice di
determinazione lineare. Nullo se sono lin.indip., 1 se
c’è correlazione perfetta).
r= indicatore di correlazione. (vediamo dopo)
In un esperimento si sono misurate le lunghezze in
cm di una molla sottoposta a successivi carichi in
kg, ottenendo i seguenti risultati
Pesi
Lunghezze
1
12,0
2
13,5
3
14,8
4
16,5
5
18,2
Inserire linea di tendenza con regressione lineare
(in analisi dei dati; in Layout, selezionare Linea di tendenza –
menù a sinistra - e spuntare quanto serve)
6
23‐04‐2014
L’intercetta 10,38
rappresenta il punto in cui la
retta incontra l’asse X
Pesi
y = 1,54x + 10,38
R² = 0,99731
20,0
18,0
16,0
Lunghezze
14,0
Il coefficiente angolare 1,54
(coefficiente di regressione)
rappresenta la tangente
dell’angolo che la retta forma
Pesi
con l’asse X, quindi la
pendenza della retta
Lineare(Pesi)
12,0
10,0
8,0
6,0
4,0
2,0
0,0
0
1
2
3
4
5
6
 
A differenza di AGGIUNGI LINEA DI TENDENZA, tale
funzione restituisce alcuni parametri statistici in più.
 
Restituisce una matrice di valori. Deve essere immessa
come formula in forma di matrice (Nell’ultimo
inserimento, invece di fare clic su OK o di premere INVIO,
si deve premere INVIO tenendo contemporaneamente
premuti i tasti CTRL e SHIFT).
 
Solo così sul blocco di celle selezionate precedentemente,
saranno visualizzati i risultati del calcolo, ossia i dati relativi
alla retta di equazione y = a x + b
7
23‐04‐2014
REGR.LIN(y_nota;x_nota;cost;stat)
 
 
 
 
y_nota: intervallo di celle contenenti la y sperimentale
x_nota: intervallo di celle contenenti la x sperimentale
(facoltativo: potrebbe essere già noto dalla relazione
lineare)
cost: fa riferimento all’intercetta, ovvero se la retta
deve passare o meno per l’origine. Immettere VERO se
non passa per l’origine e FALSO se passa per l’origine
stat: con VERO la funzione, oltre ai coefficienti della
retta, restituisce alcuni dati statistici; con FALSO
restituisce solo i coefficienti della retta
La tabella riporta i prezzi al lotto di un
prodotto, rispetto al numero di pezzi
difettosi contenuti
N° pezzi
difettosi
2
5
10
13
20
Prezzo al
lotto
€
77,50
€
64,50
€
54,00
€
52,00
€
44,00
PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne
e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO,VERO)
8
23‐04‐2014
Otteniamo i seguenti dati. Cosa significano?
b
a
-1,7500000
Incertezza su b
Coefficiente di determinazione
75,9
0,326508414
3,857777
0,905442736
4,594381
29
606,3750000
Incertezza su a
3
63,325
Y = -1,75 X + 75,9
Con i dati statistici ottenuti con la funzione
REGR.LIN possiamo ora tracciare il grafico dei
residui, in questo modo:
esempio
9
23‐04‐2014
 
Lo strumento REGRESSIONE è disponibile tramite
STRUMENTI -> ANALISI DATI -> REGRESSIONE.
 
Lo strumento REGRESSIONE è disponibile tramite
STRUMENTI -> ANALISI DATI -> REGRESSIONE.
 
A differenza di AGGIUNGI LINEA DI TENDENZA, tale
funzione restituisce diversi parametri statistici in più.
 
Inoltre permette anche di eseguire i minimi quadrati su
una funzione Y che dipende da più di 2 variabili
indipendenti
10
23‐04‐2014
 
 
 
 
 
 
 
 
Intervallo di input Y: intervallo di celle contenenti la y
sperimentale
Intervallo di input X: intervallo di celle contenenti la x
sperimentale
Livello di confidenza: livello di fiducia con cui vogliamo
vengano espressi i valori dei coefficienti a e b
Passa per l’origine: ovvero se vogliamo imporre nel calcolo
che la retta passi per l’origine
Intervallo di output Intervallo di celle in cui verranno
mostrati i dati calcolati dallo strumento REGRESSIONE.
Conviene scegliere, come riferimento, un nuovo foglio
di lavoro
Residui e Tracciati dei residui: contrassegnare tali opzioni in
modo da visualizzare anche il grafico dei residui.
Tracciati delle approssimazioni: grafico dei valori previsti,
contrapposti a quelli stimati
Tracciati delle probabilità normali: se il campione proviene
da una distribuzione normale, i punti del grafico saranno
allineati lungo la bisettrice.
11
23‐04‐2014
In un esperimento, si sono misurate le lunghezza in cm di
una molla sottoposta a successivi carichi in kg,
ottenendo i seguenti risultati
PESI
1
2
3
4
5
LUNGHEZZE
12,0
13,5
14,8
16,5
18,2
PROVIAMO ad usare lo strumento
REGRESSIONE
Statistica della regressione
R multiplo
0,998653
R al quadrato
0,997309
R al quadrato
corretto
0,996412
Errore standard
0,146059
Osservazioni
5
Errore standard del valore
previsto per y per ciascun x della
regressione (esprime la qtà di
errori commessi nella previsione)
Coeff. di correlazione r
lineare: qui c’è una forte
correlazione positiva tra X e Y
Coeff. di determinazione: il
99,73% della variazione della
lunghezza della molla è attribuibile
alla variazione del peso applicato
Coeff. di determinazione corretto:
“corretto” tenendo conto del
numero di campioni
12
23‐04‐2014
Regressione
Residuo
Totale
gdl
1
3
4
SQ
23,716
0,064
23,78
MQ
F
Significatività F
23,716
1111,6875
5,93051E-05
0,021333333
•  gdl regressione (risp. residuo): gradi di libertà associati alla somma dei
quadrati della regressione (risp. dei residui)
•  SQ regressione (risp. residuo): somma dei quadrati della regressione (risp.
dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla
media (risp. dei valori osservati e dei valori stimati)
•  SQ totale: somma totale dei quadrati, ossia delle differenze dei valori
osservati dalla media
•  MQ regressione (risp. residuo): media dei quadrati della regressione (risp.
dei residui)
•  F: valore della statistica test. Consente di controllare l’ipotesi nulla.
•  Significatività F: livello di significatività osservato. Rappresenta il livello di
significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di
dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia una
relazione lineare tra X e Y
Regressione
Residuo
Totale
gdl
1
3
4
SQ
23,716
0,064
23,78
MQ
F
Significatività F
23,716
1111,6875
5,93051E-05
0,021333333
Essendo il valore di significatività molto piccolo, si può
concludere che:
l’ipotesi che non vi sia una relazione lineare tra pesi e
lunghezze delle molle, può essere decisamente scartata
13
23‐04‐2014
Coeffic
ienti
Intercetta
Pesi
X
Errore
standard
Stat t
Valore di
significatività Inferiore 95%
Superiore
95%
10,38
0,153188337
67,75973
7,08297E-06
9,892486342 10,86751366
1,54
0,046188022
33,34198
5,93051E-05
1,393009102 1,686990898
•  Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp.
dell’inclinazione)
•  Errore standard dell’intercetta (risp. Pesi-X)
•  Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica
dell’ipotesi a=0 (risp. b=0)
•  Valore di significatività intercetta (Pesi-X): livello della significatività
osservato per la verifica dell’ipotesi a=0) (risp. b=0)
•  Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di
confidenza per a (risp. b), al livello di significatività del 95%
•  Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di
confidenza per a (risp. b), al livello di significatività del 95%
Osservazione
Previsto
Lunghezze
Residui
Residui
standard
1
11,92
0,08
0,632455532
2
13,46
0,04
0,316227766
3
15
-0,2
-1,58113883
4
16,54
-0,04
-0,316227766
5
18,08
0,12
0,948683298
Percentile
10
30
50
70
Lunghezze
12
13,5
14,8
16,5
90
18,2
14
23‐04‐2014
Pesi Tracciato dei residui
0,15
0,1
0,05
Residui
0
0
1
2
3
4
5
6
-0,05
-0,1
-0,15
-0,2
-0,25
Non evidenzia un
andamento particolare
Pesi
Tracciato della probabilità normale
20
18
16
Lunghezze
14
12
10
Serie1
8
6
4
2
0
0
10
20
30
40
50
60
70
80
90
100
Percentile campionaria
Evidenzia la normalità dei residui
(se esce come istogramma, cambiare
il grafico)
15
23‐04‐2014
Tracciato delle approssimazioni
20,0
18,0
16,0
14,0
Y
12,0
10,0
Y
8,0
Y prevista
6,0
4,0
2,0
0,0
0
1
2
3
4
5
6
Variabile X 1
Se i valori di Y e Y prevista sono
molto vicini conviene cambiare le
Opzioni indicatore
16
23‐04‐2014
due variabili numeriche x e y misurate sugli
stessi individui di una popolazione. In altre
parole abbiamo due campioni di dati dove x_i
e y_i sono i valori delle due variabili misurate
sullo stesso individuo.
Rivediamo il diagramma di dispersione
Abbiamo a disposizione un campione (222)
di misurazioni su due grandezze
  D= durata dell’eruzione (in minuti)
  T = tempo di attesa per l’eruzione
successiva (in minuti)
Abbiamo calcolato la tabella delle frequenze,
prendendo come classi i singoli valori della
variabile T
17
23‐04‐2014
Osserviamo che i dati sono concentrati in due blocchi
PROVATE VOI: non avete i 222
campioni, ma solo 24
Nella tabella seguente sono stati considerati 12 neonati per i quali è stato
misurato
  Il peso alla nascita (x)
  L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y)
Esiste una relazione tra le due variabili?
Rappresentiamo la tabella usando un diagramma cartesiano di dispersione,
in cui consideriamo le coppie (x_i, y_i)
18
23‐04‐2014
Interpretazione del diagramma
I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due
valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un
maggior peso alla nascita, corrisponde una minor crescita
  Riprodurre
il diagramma di dispersione sia
per l’esempio dell’eruzione dei geyser, sia
per l’esempio dei 12 neonati (in questo
caso, far partire l’asse orizzontale da 70 e
quella verticale da 40, rispettando
l’ampiezza degli intervalli)
19
23‐04‐2014
Senza tener conto di
variabile dipendente o
indipendente
La correlazione si misura mediante indici, tra cui il
coefficiente di correlazione lineare r, ed esprime la
«forza», o «intensità», del loro legame.
Talvolta l’analisi della correlazione precede lo studio della
regressione, in quanto una variabile viene confrontata con
varie altre per vedere quelle più connesse fra loro.
Covarianza di X e Y (ossia varianza
congiunta di X e Y)
varianza di X e varianza di Y
Valore compreso tra -1 e 1
r = 1 se dati allineati lungo una
retta crescente
r = -1 se dati allineati lungo una
retta decrescente
r = 0 se non esiste relazione
lineare tra i due caratteri
20
23‐04‐2014
E’ calcolata come differenza
dalla retta di regressione dal
valore medio
E’ calcolata come differenza
(dispersione) dalla retta di
regressione dal valore medio
Si tratta di un altro coefficiente che indica quale frazione di
varianza totale dipende dalla dipendenza tra Y e X (varianza
spiegata), ossia quale frazione della variazione della variabile
Y è spiegata dalle variazioni della variabile X (misura quanto
si discostano i valori osservati da quelli teorici).
Vale tra 0 e 1. Quanto più è vicino a 1, tanto è maggiore la bontà
del modello lineare
.
21
23‐04‐2014
 
 
 
La covarianza è determinabile dalla funzione
COVARIANZA(matrice1;matrice2)
[matrice1,matrice2: primo e secondo intervallo di celle di interi]
Il coefficiente di correlazione lineare (r) è calcolato dalla funzione
PEARSON(matrice1;matrice2)
[matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)]
Il coefficiente di determinazione (r2) è calcolato dalla funzione
RQ(y_nota;x_nota)
[y_nota,x_nota: matrici o intervalli di valori]
Mediante uno spettrofotofluorimetro vengono studiate
alcune soluzioni acquose di fluorosceina, la cui
concentrazione viene espressa in picogrammi (pg) per
cm3 di soluzione
concentrazione
0
2
4
6
8
10
12
intensità
2,1
5,0
9,0
12,6
17,3
21,0
24,7
Proviamo a calcolare la
dipendenza tra X e Y
22
23‐04‐2014
concentrazione
0
2
4
6
8
10
12
intensità
2,1
5,0
9,0
12,6
17,3
21,0
24,7
Otteniamo i seguenti dati
covarianza =
30,8857143
coeff. corr.=
0,99887957
coeff. det.=
0,99776039
Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due
rette di regressione sono molto vicine.
Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo
affermare che circa il 99,7% della varianza di Y dipende da X.
Quindi il modello lineare esprime bene la relazione tra Y e X.
  Per
le altre regressioni (logaritmica,
polinomiale, potenza, esponenziale)
occorre cambiare il tipo di linea di
tendenza
  (Esempi 11.6-11.9)
23