Transcript Lezione 7
23‐04‐2014 • Oggi ultima lezione in aula non c’è lezione, • 24.04 fate il tutorato di fisica come al solito • 23.04 • 30.04 fate il tutorato di fisica [che da questa data si sposta al mercoledì] • 01.05 festività • 08.05 da questa data, per 5 incontri ci vediamo nel lab. P13 ore 14-16 • 15.05 • 05.06 prima prova intercorso seconda prova intercorso 1 23‐04‐2014 Strettamente legata alla definizione di variabile dipendente o indipendente Senza tener conto di variabile dipendente o indipendente Nella statistica applicata si osserva la relazione (dipendenza) tra due o più grandezze (caratteri quantitativi). Esigenza: determinare una funzione che rappresenti i dati ricavati dalle osservazioni Prima strategia: determinare una funzione che assuma esattamente i dati rilevati (interpolazione per punti noti) Seconda strategia: determinare una funzione che si accosti il più possibile ai punti noti (generalmente preferita) (interpolazione fra punti noti) 2 23‐04‐2014 Ad esempio: supponiamo di considerare degli individui e coppie di variabili consumi-reddito peso-statura numero di neuroni – età Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza all’aumentare dell’età… diminuiscono i neuroni Ad esempio: supponiamo di considerare degli individui e coppie di variabili consumi-reddito Reddito-statura-età sono indipendenti peso-statura Vanno ad influenzare le altre (dipendenti) numero di neuroni – età Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza all’aumentare dell’età… diminuiscono i neuroni 3 23‐04‐2014 Modelli di variazione 4 23‐04‐2014 Cercare la miglior retta che approssima dei dati (stiamo ipotizzando una relazione lineare tra essi). Si chiama “retta di regressione” e tiene conto di molti parametri che legano le osservazioni [e spiega come la variabile Y dipenda in modo lineare da X] Si sceglie la funzione in base all’andamento del fenomeno: lineare, quadratica, esponenziale Si procede alla determinazione dei parametri (costanti che compaiono nella funzione scelta), in modo che sia soddisfatta una condizione di accostamento prefissata, la condizione dei minimi quadrati EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come applicazione del metodo dei minimi quadrati: AGGIUNGI LINEA DI TENDENZA; REGR.LIN; REGRESSIONE 5 23‐04‐2014 Creare il grafico di dispersione associato ai dati Usare il comando “AGGIUNGI LINEA DI TENDENZA”: selezionare i dati sul grafico e, dopo aver premuto il pulsante destro, scegliere l’opzione Aggiungi linea di tendenza. Infine si seleziona il tipo di regressione. Sul grafico viene tracciata automaticamente la miglior retta passante per i dati E’ possibile visualizzare l’equazione della retta Come dato statistico si ha solo a disposizione il coefficiente di correlazione r (in realtà R^2, indice di determinazione lineare. Nullo se sono lin.indip., 1 se c’è correlazione perfetta). r= indicatore di correlazione. (vediamo dopo) In un esperimento si sono misurate le lunghezze in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati Pesi Lunghezze 1 12,0 2 13,5 3 14,8 4 16,5 5 18,2 Inserire linea di tendenza con regressione lineare (in analisi dei dati; in Layout, selezionare Linea di tendenza – menù a sinistra - e spuntare quanto serve) 6 23‐04‐2014 L’intercetta 10,38 rappresenta il punto in cui la retta incontra l’asse X Pesi y = 1,54x + 10,38 R² = 0,99731 20,0 18,0 16,0 Lunghezze 14,0 Il coefficiente angolare 1,54 (coefficiente di regressione) rappresenta la tangente dell’angolo che la retta forma Pesi con l’asse X, quindi la pendenza della retta Lineare(Pesi) 12,0 10,0 8,0 6,0 4,0 2,0 0,0 0 1 2 3 4 5 6 A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce alcuni parametri statistici in più. Restituisce una matrice di valori. Deve essere immessa come formula in forma di matrice (Nell’ultimo inserimento, invece di fare clic su OK o di premere INVIO, si deve premere INVIO tenendo contemporaneamente premuti i tasti CTRL e SHIFT). Solo così sul blocco di celle selezionate precedentemente, saranno visualizzati i risultati del calcolo, ossia i dati relativi alla retta di equazione y = a x + b 7 23‐04‐2014 REGR.LIN(y_nota;x_nota;cost;stat) y_nota: intervallo di celle contenenti la y sperimentale x_nota: intervallo di celle contenenti la x sperimentale (facoltativo: potrebbe essere già noto dalla relazione lineare) cost: fa riferimento all’intercetta, ovvero se la retta deve passare o meno per l’origine. Immettere VERO se non passa per l’origine e FALSO se passa per l’origine stat: con VERO la funzione, oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta La tabella riporta i prezzi al lotto di un prodotto, rispetto al numero di pezzi difettosi contenuti N° pezzi difettosi 2 5 10 13 20 Prezzo al lotto € 77,50 € 64,50 € 54,00 € 52,00 € 44,00 PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO,VERO) 8 23‐04‐2014 Otteniamo i seguenti dati. Cosa significano? b a -1,7500000 Incertezza su b Coefficiente di determinazione 75,9 0,326508414 3,857777 0,905442736 4,594381 29 606,3750000 Incertezza su a 3 63,325 Y = -1,75 X + 75,9 Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora tracciare il grafico dei residui, in questo modo: esempio 9 23‐04‐2014 Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE. Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE. A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce diversi parametri statistici in più. Inoltre permette anche di eseguire i minimi quadrati su una funzione Y che dipende da più di 2 variabili indipendenti 10 23‐04‐2014 Intervallo di input Y: intervallo di celle contenenti la y sperimentale Intervallo di input X: intervallo di celle contenenti la x sperimentale Livello di confidenza: livello di fiducia con cui vogliamo vengano espressi i valori dei coefficienti a e b Passa per l’origine: ovvero se vogliamo imporre nel calcolo che la retta passi per l’origine Intervallo di output Intervallo di celle in cui verranno mostrati i dati calcolati dallo strumento REGRESSIONE. Conviene scegliere, come riferimento, un nuovo foglio di lavoro Residui e Tracciati dei residui: contrassegnare tali opzioni in modo da visualizzare anche il grafico dei residui. Tracciati delle approssimazioni: grafico dei valori previsti, contrapposti a quelli stimati Tracciati delle probabilità normali: se il campione proviene da una distribuzione normale, i punti del grafico saranno allineati lungo la bisettrice. 11 23‐04‐2014 In un esperimento, si sono misurate le lunghezza in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati PESI 1 2 3 4 5 LUNGHEZZE 12,0 13,5 14,8 16,5 18,2 PROVIAMO ad usare lo strumento REGRESSIONE Statistica della regressione R multiplo 0,998653 R al quadrato 0,997309 R al quadrato corretto 0,996412 Errore standard 0,146059 Osservazioni 5 Errore standard del valore previsto per y per ciascun x della regressione (esprime la qtà di errori commessi nella previsione) Coeff. di correlazione r lineare: qui c’è una forte correlazione positiva tra X e Y Coeff. di determinazione: il 99,73% della variazione della lunghezza della molla è attribuibile alla variazione del peso applicato Coeff. di determinazione corretto: “corretto” tenendo conto del numero di campioni 12 23‐04‐2014 Regressione Residuo Totale gdl 1 3 4 SQ 23,716 0,064 23,78 MQ F Significatività F 23,716 1111,6875 5,93051E-05 0,021333333 • gdl regressione (risp. residuo): gradi di libertà associati alla somma dei quadrati della regressione (risp. dei residui) • SQ regressione (risp. residuo): somma dei quadrati della regressione (risp. dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla media (risp. dei valori osservati e dei valori stimati) • SQ totale: somma totale dei quadrati, ossia delle differenze dei valori osservati dalla media • MQ regressione (risp. residuo): media dei quadrati della regressione (risp. dei residui) • F: valore della statistica test. Consente di controllare l’ipotesi nulla. • Significatività F: livello di significatività osservato. Rappresenta il livello di significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia una relazione lineare tra X e Y Regressione Residuo Totale gdl 1 3 4 SQ 23,716 0,064 23,78 MQ F Significatività F 23,716 1111,6875 5,93051E-05 0,021333333 Essendo il valore di significatività molto piccolo, si può concludere che: l’ipotesi che non vi sia una relazione lineare tra pesi e lunghezze delle molle, può essere decisamente scartata 13 23‐04‐2014 Coeffic ienti Intercetta Pesi X Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% 10,38 0,153188337 67,75973 7,08297E-06 9,892486342 10,86751366 1,54 0,046188022 33,34198 5,93051E-05 1,393009102 1,686990898 • Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp. dell’inclinazione) • Errore standard dell’intercetta (risp. Pesi-X) • Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica dell’ipotesi a=0 (risp. b=0) • Valore di significatività intercetta (Pesi-X): livello della significatività osservato per la verifica dell’ipotesi a=0) (risp. b=0) • Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95% • Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95% Osservazione Previsto Lunghezze Residui Residui standard 1 11,92 0,08 0,632455532 2 13,46 0,04 0,316227766 3 15 -0,2 -1,58113883 4 16,54 -0,04 -0,316227766 5 18,08 0,12 0,948683298 Percentile 10 30 50 70 Lunghezze 12 13,5 14,8 16,5 90 18,2 14 23‐04‐2014 Pesi Tracciato dei residui 0,15 0,1 0,05 Residui 0 0 1 2 3 4 5 6 -0,05 -0,1 -0,15 -0,2 -0,25 Non evidenzia un andamento particolare Pesi Tracciato della probabilità normale 20 18 16 Lunghezze 14 12 10 Serie1 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 100 Percentile campionaria Evidenzia la normalità dei residui (se esce come istogramma, cambiare il grafico) 15 23‐04‐2014 Tracciato delle approssimazioni 20,0 18,0 16,0 14,0 Y 12,0 10,0 Y 8,0 Y prevista 6,0 4,0 2,0 0,0 0 1 2 3 4 5 6 Variabile X 1 Se i valori di Y e Y prevista sono molto vicini conviene cambiare le Opzioni indicatore 16 23‐04‐2014 due variabili numeriche x e y misurate sugli stessi individui di una popolazione. In altre parole abbiamo due campioni di dati dove x_i e y_i sono i valori delle due variabili misurate sullo stesso individuo. Rivediamo il diagramma di dispersione Abbiamo a disposizione un campione (222) di misurazioni su due grandezze D= durata dell’eruzione (in minuti) T = tempo di attesa per l’eruzione successiva (in minuti) Abbiamo calcolato la tabella delle frequenze, prendendo come classi i singoli valori della variabile T 17 23‐04‐2014 Osserviamo che i dati sono concentrati in due blocchi PROVATE VOI: non avete i 222 campioni, ma solo 24 Nella tabella seguente sono stati considerati 12 neonati per i quali è stato misurato Il peso alla nascita (x) L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y) Esiste una relazione tra le due variabili? Rappresentiamo la tabella usando un diagramma cartesiano di dispersione, in cui consideriamo le coppie (x_i, y_i) 18 23‐04‐2014 Interpretazione del diagramma I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un maggior peso alla nascita, corrisponde una minor crescita Riprodurre il diagramma di dispersione sia per l’esempio dell’eruzione dei geyser, sia per l’esempio dei 12 neonati (in questo caso, far partire l’asse orizzontale da 70 e quella verticale da 40, rispettando l’ampiezza degli intervalli) 19 23‐04‐2014 Senza tener conto di variabile dipendente o indipendente La correlazione si misura mediante indici, tra cui il coefficiente di correlazione lineare r, ed esprime la «forza», o «intensità», del loro legame. Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro. Covarianza di X e Y (ossia varianza congiunta di X e Y) varianza di X e varianza di Y Valore compreso tra -1 e 1 r = 1 se dati allineati lungo una retta crescente r = -1 se dati allineati lungo una retta decrescente r = 0 se non esiste relazione lineare tra i due caratteri 20 23‐04‐2014 E’ calcolata come differenza dalla retta di regressione dal valore medio E’ calcolata come differenza (dispersione) dalla retta di regressione dal valore medio Si tratta di un altro coefficiente che indica quale frazione di varianza totale dipende dalla dipendenza tra Y e X (varianza spiegata), ossia quale frazione della variazione della variabile Y è spiegata dalle variazioni della variabile X (misura quanto si discostano i valori osservati da quelli teorici). Vale tra 0 e 1. Quanto più è vicino a 1, tanto è maggiore la bontà del modello lineare . 21 23‐04‐2014 La covarianza è determinabile dalla funzione COVARIANZA(matrice1;matrice2) [matrice1,matrice2: primo e secondo intervallo di celle di interi] Il coefficiente di correlazione lineare (r) è calcolato dalla funzione PEARSON(matrice1;matrice2) [matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)] Il coefficiente di determinazione (r2) è calcolato dalla funzione RQ(y_nota;x_nota) [y_nota,x_nota: matrici o intervalli di valori] Mediante uno spettrofotofluorimetro vengono studiate alcune soluzioni acquose di fluorosceina, la cui concentrazione viene espressa in picogrammi (pg) per cm3 di soluzione concentrazione 0 2 4 6 8 10 12 intensità 2,1 5,0 9,0 12,6 17,3 21,0 24,7 Proviamo a calcolare la dipendenza tra X e Y 22 23‐04‐2014 concentrazione 0 2 4 6 8 10 12 intensità 2,1 5,0 9,0 12,6 17,3 21,0 24,7 Otteniamo i seguenti dati covarianza = 30,8857143 coeff. corr.= 0,99887957 coeff. det.= 0,99776039 Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due rette di regressione sono molto vicine. Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo affermare che circa il 99,7% della varianza di Y dipende da X. Quindi il modello lineare esprime bene la relazione tra Y e X. Per le altre regressioni (logaritmica, polinomiale, potenza, esponenziale) occorre cambiare il tipo di linea di tendenza (Esempi 11.6-11.9) 23