Transcript link

Questionario
Analisi Univariata
e
Bivariata
Metodi Quantitativi per Economia,
Finanza e Management
Esercitazione n°3
Questionario
Per redigere un questionario è necessario tener presenti i
seguenti punti:
 ogni questionario somministrato deve avere un codice
identificativo univoco
 solo domande chiuse (cioè con un insieme di modalità
definite)
 sono ammesse le domande a risposta multipla
 raccogliere informazioni di carattere quantitativo
(necessario per costruire modelli statistici consistenti)
 tipologia dei dati
• strutturali (che descrivono l’intervistato, ad esempio l’età)
• di indagine
Questionario - Step
La raccolta -tramite questionario- di dati utili per effettuare
analisi statistiche procede attraverso i seguenti step:
1.
2.
3.
4.
Predisporre il questionario
Sottoporre i questionari agli intervistati (NB: ad ogni intervistato
deve corrispondere un codice univoco che identifica il questionario
da lui compilatotenere traccia di questi codici!)
Per ogni domanda definire un’opportuna (qualitativa o quantitativa)
variabile statistica, che assume come valori le possibili risposte
alla domanda
Inserire in un foglio excel i dati raccolti: ogni riga corrisponde ad un
singolo intervistato/questionario compilato e ci saranno una (nel
caso di domande a risposta singola) o più (nel caso di domande a
risposta multipla) colonne che corrispondono alle singole domande
del questionario. Nella generica cella corrispondente all’incrocio
della riga “i” e della colona “j” ci sarà dunque il “valore” della
risposta dell’individuo “i” alla domanda “j”.
Dal questionario al Data Set
 Costruire la variabile n_questionario che associa un
codice univoco ad ogni intervistato.
 Identificare ogni variabile con un nome facilmente
riconducibile alla domanda corrispondente (ad esempio
la domanda n°1 corrisponde alla variabile D_1).
 Nel caso di domande a risposte multiple andranno
create un numero di variabili dicotomiche (0/1) pari al
numero di modalità definite nella risposta.
 Data Entry: controllo correttezza dei dati inseriti e analisi
delle distribuzioni delle variabili (con valenza di controllo
e valenza interpretativa).
Esempio domanda – variabile
qualitativa ordinale
1. Su una scala da 1 a 9 (con 1 = per nulla e 9 = moltissimo) quanto
ritiene importante comunicare e relazionarsi con le altre persone
nella sua vita quotidiana?
R: 8
n_questionario
125
…
…
D_1
….
…
8
…
Esempio domanda – variabile
quantitativa
2. Mediamente, quante ore al giorno utilizza il cellulare?
1) 15 minuti
2) 30 minuti
3) 1 ora
4) 2 ore
5) 3 ore
6) 4 ore
7) 5 ore
8) 6 ore
9) …
R: 3 ore ;
R: 10 ore
n_questionario
…
125
….
34
…
D_1
D_2
8
…
3
10
Esempio domanda – variabile
qualitativa nominale
10. Perché non utilizza un telefono cellulare?
1) Non mi interessano i telefoni cellulari NO INTERESSE
2) Possiedo altri mezzi di comunicazione e sono già soddisfatto così
ALTRI MEZZI
3) Mi piacerebbe ma sento che lo troverei difficile da utilizzareDIFFICILE
4) Sarei interessato, ma non abbastanza da sostenere il costo d’acquisto
COSTO
5) Altro ALTRO
R: 1 ;
R: 4
n_questionario
…
125
….
34
…
D_1
D_2
8
…
D_10
3
10
NO INTERESSE
COSTO
Esempio domanda – variabile
qualitativa nominale
12. Qual è la tecnologia del suo telefono cellulare principale? (possibile
fornire 1 sola risposta)
1) Gsm
2) Umts
3) Palmare
4) Non so
R: Gsm
n_questionario
…
125
….
34
…
D_1
D_2
8
…
D_12
3
10
Gsm
…
Esempio domanda – variabile
quantitativa
14. Ogni quanto cambia il suo telefono cellulare? (esprimere la risposta
in mesi)
R: 18
n_questionario
…
125
….
34
…
D_1
D_2
8
…
D_12
3
10
D_14
Gsm
…
18
…
Domande a risposte multiple
17. Per quale motivo utilizza il telefono cellulare? (possibile fornire
massimo 3 risposte)

1) Lavoro
D_17_1

2) Studio
D_17_2

3) Comunicare con famigliari
D_17_3

4) Comunicare con il partner
D_17_4

5) Piacere/tempo libero

6) Altro
D_17_5
D_17_6
n_questionario
…
D_17_1
D_17_2
D_17_3
D_17_4
D_17_5
D_17_6
45
….
1
0
1
1
0
0
…
…
…
…
…
…
…
…
Domande a risposte multiple
9. In quale momento della giornata comunica maggiormente?
(distribuisca 100 punti % tra le possibili risposte)
1) Mattino (7.00-13.00)
2) Pomeriggio (13.00-19.00)
3) Sera (19.00-24.00)
4) Notte (24.00-7.00)
R: 30% - 40% - 10% - 20%
n_questionario
…
250
….
…
…
D_9_1
D_9_2
30
…
D_9_3
40
…
D_9_4
10
…
20
…
…
…
Analisi Univariata
PROC UNIVARIATE - Descrizione
La PROC UNIVARIATE permette di calcolare
• distribuzioni di frequenza univariate per variabili
quantitative continue
• misure di sintesi di posizione, variabilità, forma per
variabili quantitative continue
PROC UNIVARIATE – Sintassi
Distribuzione di frequenza univariata
proc univariate data= dataset option(s);
var variabile;
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
PROC UNIVARIATE – Esempio 1
Misure di sintesi della variabile quantitativa discreta
numero medio sms inviati al giorno
proc univariate data=corso.telefonia;
var num_sms_e;
run;
Output PROC UNIVARIATE (1/2)
Misure di Variabilità
• Scarto Quadratico Medio [Std Deviation]: mostra la variabilità rispetto alla
media
• Varianza [Variance]: media dei quadrati delle differenze fra ciascuna
osservazione e la media
• Campo di Variazione [Range]: differenza tra il massimo e il minimo dei
valori osservati
• Differenza Interquartile
[Interquartile Range]:
3° quartile – 1° quartile
Basic Statistical Measures
Location
Variability
Mean
24.31356
Std Deviation
28.46175
Median
10.00000
Variance
810.07147
Mode
10.00000
Range
100.00000
Interquartile Range
25.00000
Output PROC UNIVARIATE (2/2)
• Coeff di variazione [Coeff Variation]: misura la variabilità relativa
rispetto alla media (%)
 s
CV  
|x|

 100%

Moments
N
236
Sum Weights
236
Mean
24.3135593 Sum Observations
5738
Std Deviation
28.4617546 Variance
810.071475
Skewness
1.59619131 Kurtosis
1.44200254
Uncorrected SS 329878
Corrected SS
190366.797
Coeff Variation
Std Error Mean
1.85270242
117.061242
Output PROC UNIVARIATE (2/2)
Misure di Forma della Distribuzione
•
Skewness: indice che informa circa il
grado di simmetria o asimmetria di una
distribuzione
•
– γ=0 distribuzione simmetrica;
– γ<0 asimmetria negativa
(mediana>media);
– γ>0 asimmetria positiva
(mediana<media).
Kurtosis: indice che permette di
verificare se i dati seguono una
distribuzione di tipo Normale
(simmetrica)
– β=3 se la distribuzione è “Normale”;
– β<3 se la distribuzione è iponormale;
– β>3 se la distribuzione è ipernormale.
Moments
N
236
Sum Weights
236
Mean
24.3135593 Sum Observations
5738
Std Deviation
28.4617546 Variance
810.071475
Skewness
1.59619131 Kurtosis
1.44200254
Uncorrected SS 329878
Corrected SS
190366.797
Coeff Variation
Std Error Mean
1.85270242
117.061242
Analisi di Concentrazione
Per caratteri quantitativi trasferibili
Equidistribuzione:
Max concentrazione:
x1  x 2  x3  .......  xn  μ
x1  x2  x3  .......  xn  1  0
xn  Nμ
1. Ordinare le osservazioni
x1  x2  x3  .......  xn
i
x
i
2. Calcolare le quantità: Fi 
N
Qi 
j
j1
N
x
j1
j
Analisi di Concentrazione
CONCENTRAZIONE
100
90
80
70
60
50
40
30
EQUIDISTRIBUZIONE
20
Numero SMS effettuati
10
0
0
10
20
30
10%  45%
40
50
60
70
80
90
100
Analisi Bivariata
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate
per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più
dimensioni per variabili qualitative e quantitative
discrete
PROC FREQ – Sintassi generale 1/2
Distribuzione di frequenza bivariata
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ: Esempio
Variabili qualitative: sesso e operatore telefonico
proc freq data=corso.telefonia;
table sesso * operatore;
run;
Output PROC FREQ: Esempio
Distribuzioni marginali:
frequenze marginali assolute
e relative
Frequenze congiunte
assolute e relative
Frequency
Percent
Row Pct
Col Pct
Table of sesso by operatore
sesso
operatore
3
Tim
F
7
2.97
7.00
58.33
27
11.44
27.00
49.09
63
26.69
63.00
40.91
3
1.27
3.00
20.00
100
42.37
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
Frequenze
subordinate
Vodafone
Total
Wind
Output PROC FREQ: Esempio
freq. congiunta relativa =(7/236)*100
Frequency
Percent
Row Pct
Col Pct
freq. subordinate:
freq. marginale assoluta=7+27+63+3
Table of sesso by operatore
sesso
operatore
3
Tim
Vodafone
Total
Wind
F
7
27
63
3
100
2.97
11.44 26.69
1.27
42.37
7.00
27.00 63.00
3.00
58.33 freq.
49.09marginale
40.91 relativa=(7+27+63+3)/236*100
20.00
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
% di riga=5/136*100
% di col=5/12*100