La statistica con Excel

Download Report

Transcript La statistica con Excel

LEZIONI IN LABORATORIO
Corso di MARKETING
L. Baldi
Università degli Studi di Milano
Strumenti statistici
in Excell
Pacchetto “Analisi di dati”
Strumenti di analisi:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Analisi varianza: ad un fattore
Analisi varianza: a due fattori con replica
Analisi varianza: a due fattori senza replica
Correlazione
Covarianza
Statistica descrittiva
Smorzamento esponenziale
Test F a due campioni per varianze
Analisi di Fourier
Istogramma
Media mobile
Generazione di un numero casuale
Rango e percentile
Regressione
Campionamento
Test t: due campioni accoppiati per le medie
Test t: due campioni assumendo uguale varianza
Test t: due campioni assumendo varianze diverse
Test z: due campioni accoppiati per le medie
2
strumento: Statistica descrittiva (cenni)
Media: si ottiene dividendo la somma dei valori di una variabile per il numero dei dati n.
Errore standard (della media): misura dell’incertezza sulla stima della media (dipende da n)
Mediana: valore che divide a metà i dati dell’insieme
Moda: valore che si presenta con maggiore frequenza
Deviazione standard: misura di variabilità, è la radice quadrata della varianza
Varianza campionaria: misura di variabilità; media degli scarti (differenza tra ogni valore
della variabile e la media) elevati al quadrato
Curtosi: misura la “pesantezza” delle code delle distribuzioni simmetriche di
freq./probabilità. Se le code sono più pesanti della Gaussiana, allora la curtosi è positiva.
Code “leggere” = curtosi negativa.
Asimmetria: identifica la mancanza di simmetria in una distribuzione di freq./prob.
L'asimmetria positiva indica una distribuzione con una coda asimmetrica che si estende
verso i valori più positivi. L'asimmetria negativa indica una distribuzione con una coda
asimmetrica che si estende verso i valori più negativi.
Intervallo: differenza tra valore max e min.
Minimo: valore minimo
Massimo: valore massimo
Somma: somma di tutti i valori della variabile
Conteggio: numero dei valori della variabile
Più grande(k): k-esimo valore più grande
Più piccolo(k): k-esimo valore più piccolo
Livello di confidenza(95,0%): misura dell’affidabilità della stima della media
3
Strumento: Istogramma
Consente di calcolare le frequenze individuali e cumulative per
un intervallo di celle e di classi di dati.
Permette di avere una prima indicazione della distribuzione di
frequenza/probabilità di una serie di dati.
La distribuzione delle frequenze è dipendente dalle classi scelte.
Opzioni della finestra di dialogo Istogramma:
•intervallo di classe (facoltativo): immettere un intervallo di
celle contenente un insieme di valori limite che definiscano gli
intervalli delle classi
4
Strumento: test T per il confronto tra
due campioni (cenni!)
•Tale strumento permette di confrontare le
medie di due popolazioni rappresentate da
due campioni.
•I test si basano sull’ipotesi che:
- le popolazioni seguano una distribuzione
di probabilità gaussiana
- i campioni siano casuali e indipendenti
- le varianze delle popolazioni siano uguali
5
Strumento: test T per il confronto tra
due campioni (cenni!)
•Per svolgere il test è necessario fissare una ipotesi
(chiamata ipotesi nulla) che afferma l’uguaglianza dei due
campioni (test a due code).
•Il valore del test T permette di rifiutare o non rifiutare
tale ipotesi.
• l’excel fornisce il valore del test “stat t” e il “valore
critico di t”, quest’ultimo utilizzato per arrivare alla
decisione statistica.
•Se stat t < t critico allora non rifiuto l’ipotesi nulla (i due
campioni sono uguali)
•Se stat t > t critico allora rifiuto l’ipotesi nulla (i due
campioni sono diversi)
6
Strumento:Correlazione (cenni)
Il coefficiente di correlazione r misura la forza e il
tipo di relazione lineare tra due variabili.
L’excel può fornire anche una matrice di
coefficienti di correlazione (basta inserire
nell’intervallo di input più di due variabili)
Se r= -1 => perfetta relazione negativa
Se r=1=> perfetta relazione positiva.
Se r=0 => relazione nulla
7
Strumento:Regressione (cenni)
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Relazioni statiche-deterministiche...

Relazioni statistiche....
Relazione deterministica tra il costo
totale di un ordine e il numero di
pezzi ordinati
Relazione statistica tra profitti e
spese pubblicitarie
2
8
REGRESSIONE (cenni)
•L’obiettivo della R.L.S. è:
-trovare un’equazione lineare che descriva la relazione tra
due variabili X e Y.
•La relazione tra X e Y, ovvero il modello di regressione
lineare semplice, è descritto da:
y = β 0 + β1 x + ε
• ε: variabile casuale, detta errore.
• I coefficienti b0 e b1 vengono stimati dall’excell con il
metodo dei minimi quadrati ordinari (OLS)
• E’ possibile considerare più variabili x (regressione
multivariata)
REGRESSIONE (cenni)
I risultati di una regressione devono essere giudicati
essenzialmente in due livelli:
• “bontà di adattamento del modello”: misurabile
mediante il valore di R2 (coefficiente di determinazione
lineare) che deve tendere al valore 1.
• valore del test t di Student che dovrebbe assumere un
valore pari circa a due.