Transcript View/Open
Corso di Laurea magistrale
in Marketing e Comunicazione
Tesi di Laurea
Customer satisfaction e
segmentazione, due strumenti
fondamentali per l’analisi della
clientela.
Il caso Berica Chef.
Relatore
Ch. Prof. Isabella Procidano
Laureando
Francesco Stevanato
Matricola 821102
Anno Accademico
2014 / 2015
1
INDICE
INTRODUZIONE
1. BREVE ANALISI DELLE AZIENDE
pag. 7
1.1. Caffè Diemme: una visione storica dell‟azienda
pag. 7
1.2. L‟altra principale azienda del gruppo: Berica Chef Srl
pag. 9
2. IL C.R.M.
2
pag. 5
pag. 13
2.1. Il CRM analitico ed operativo – un‟analisi globale
pag. 14
2.2. Il questionario
pag. 15
2.2.1. Il questionario: la struttura delle domande
pag. 16
2.2.2. Il questionario: i vari tipi di domande possibili
pag. 17
2.2.2.1.
Le domande filtro e di controllo
pag. 18
2.2.2.2.
Le domande aperte
pag. 19
2.2.2.3.
Le domande semichiuse
pag. 19
2.2.2.4.
Le domande chiuse
pag. 20
2.2.2.5.
Le domande dirette e indirette
pag. 21
2.2.2.6.
Le domande primarie e secondarie
pag. 21
2.2.2.7.
Le domande di scale e la struttura delle risposte
pag. 21
2.2.3. Le scale
pag. 23
2.2.3.1.
La scala Likert
pag. 23
2.2.3.2.
La scala di Thurstone
pag. 29
2.2.3.3.
La scala (o scalogramma) di Guttman
pag. 29
2.2.3.4.
La scala di Bogardus
pag. 30
2.2.3.5.
Il metodo del differenziale semantico
pag. 31
3. QUESTIONARIO ESISTENTE E NUOVA INTERVISTA
pag. 34
3.1. La visione generale e la mission dell‟intervista
pag. 34
3.1.1. Il questionario esistente: analisi generale
pag. 35
3.1.2. Gli errori principali commessi nel precedente questionario
pag. 40
3.2. Il nuovo questionario: la struttura delle domande
4. L’ANALISI DEI RISULTATI: TEORIA E METODI DI SEGMENTAZIONE
pag. 42
pag. 44
4.1. L‟analisi dei grappoli o cluster analysis
pag. 44
4.2. I metodi gerarchici agglomerativi
pag. 47
4.2.1. Metodo del legame singolo
pag. 49
4.2.2. Metodo del legame completo
pag. 50
4.2.3. Metodo di Ward
pag. 51
4.3. I metodi gerarchici divisivi
pag. 51
4.4. I metodi non gerarchici
pag. 52
5. L’ANALISI DEI RISULTATI: ANALISI UNIVARIATA, ANALISI
BIVARIATA, SEGMENTAZIONE
pag. 56
5.1. L‟analisi univariata
pag. 56
5.2. Studio delle relazioni sussistenti tra le variabili rilevate, analisi bivariata
e test chi quadrato
pag. 66
5.2.1. Analisi di dipendenza tra genere del rispondente e soddisfazione
relativamente al prezzo speso
pag. 69
5.2.2. Analisi di dipendenza tra genere del rispondente e valutazione
sulla qualità del cibo
pag. 71
5.2.3. Analisi di dipendenza tra genere del rispondente e valutazione
sulla cortesia e gentilezza del personale
pag. 73
5.2.4. Analisi di dipendenza tra genere del rispondente e valutazione
relativamente al tempo di attesa
pag. 75
3
5.2.5. Analisi di dipendenza tra frequenza di visita e soddisfazione
relativamente al prezzo speso
pag. 78
5.3. La segmentazione degli intervistati: la clusterizzazione della popolazione
e l‟analisi dei gruppi ottenuti
pag. 80
5.3.1. Cluster Analysis – metodo agglomerativo del legame singolo
pag. 82
5.3.2. Cluster Analysis – metodo agglomerativo del legame completo
pag. 83
5.3.3. Cluster Analysis – metodo di Ward
pag. 85
5.3.4. Cluster Analysis – metodo agglomerativo delle k-medie per 4 cluster
pag. 89
5.3.5. Cluster Analysis – metodo delle k-medie per 3 cluster
pag. 90
5.3.6. Cluster Analysis – metodo delle k-medie per 2 cluster
pag. 92
5.3.7. Cluster Analysis – l‟analisi dei gruppi
pag. 94
5.3.8. Cluster Analysis – la denominazione dei cluster e la profilazione
della clientela
6. CONCLUSIONI
pag. 94
pag. 98
APPENDICE
pag. 100
BIBLIOGRAFIA
pag. 107
SITOGRAFIA
pag. 108
RIGRAZIAMENTI
pag. 109
4
INTRODUZIONE
Questa analisi è stata elaborata in seguito allo svolgimento di uno stage stage presso Diemme SPA,
più nota ai consumatori con il marchio Caffè Diemme, e che racchiude all‟interno della sua sede di
Albignasego (Padova) una serie di altre interessanti realtà, com‟è ad esempio Berica Chef SRL.
Durante tutta la durata dello stage, sostenuto per 14 settimane, ho avuto la possibilità di
confrontarmi con attività svolte in diversi ambiti aziendali, due delle quali – le più importanti - il
customer care, e tutte quelle relative all'ufficio marketing e comunicazione.
Tra queste, la più importante ed interessante è stata, verso la fine della mia esperienza come stagista
all‟interno dell‟azienda, la realizzazione di un nuovo questionario – in sostituzione a quello on-line
preesistente - rivolto ai clienti di diversi punti vendita dislocati sul territorio della regione, il
controllo del suo svolgimento durante tutto il periodo, e l‟organizzazione dei dati raccolti con
l‟obiettivo di analizzare opinioni riguardo il servizio di ristorazione offerto.
Nella prima parte di questo elaborato, verrà esposto mediante una breve analisi il contesto
all‟interno del quale il questionario è stato sviluppato, e verrà svolta un‟analisi dell‟attività di
customer relationship management e di tutte quelle attività che permettono l‟analisi e la
segmentazione della clientela, mediante abitudini o comportamenti simili.
Una seconda parte analizzerà il questionario on-line esistente, descriverà rapidamente lo stato
dell‟arte al momento dell‟ideazione del nuovo questionario, e presenterà la costruzione della nuova
intervista.
Nell‟ultima parte, infine, l‟analisi dei dati e le procedure che hanno portato alla segmentazione dei
rispondenti. Per ciascuna variabile, i dati raccolti sono stati sintetizzati mediante analisi univariata
in tabelle di frequenza, istogrammi e grafici a torta. Nella prima parte di questa relazione si andrà ad
esporre il questionario e verrà svolta un‟analisi descrittiva dei dati: per ogni variabile, i dati raccolti
verranno sintetizzati in tabelle di frequenza e grafici a torta e a barre. Nella seconda parte, dopo una
breve introduzione teorica, verrà sviluppata un‟analisi bivariata al fine di valutare possibili relazioni
significative a livello statistico tra le coppie di variabili, in particolare mediante tabelle di
contingenza e test chi-quadrato χ2.
5
Nella parte finale, lo sviluppo della segmentazione della popolazione mediante diversi metodi
agglomerativi permetterà di analizzare le caratteristiche dei rispondenti, delineandone un profilo
dettagliato, e verranno dunque riassunte le conclusioni.
6
CAPITOLO 1
BREVE ANALISI DELLE AZIENDE
Berica Chef Srl è un‟azienda che fa parte del gruppo Dubbini Srl, il cui brand più importante per
dimensioni e notorietà tra i consumatori è sicuramente “Caffè Diemme”, che contraddistingue
l‟unica – ormai – torrefazione presente nella provincia di Padova. Vale la pena, prima di procedere,
esaminare in un rapido excursus queste due importanti realtà locali.
1.1.
CAFFE DIEMME: UNA VISIONE STORICA DELL’AZIENDA
Caffè Diemme nasce a Padova nel 1927, anno in cui il fondatore Romeo Dubbini decise di dedicarsi
totalmente alla sua grande passione per il caffè, facendone il fulcro della sua attività imprenditoriale.
Ad oggi la terza generazione - composta dai tre fratelli Giannandrea (attuale presidente della
società), Sebastiano e Federico, da sempre saldamente uniti e cresciuti nella realtà del nonno
Romeo - è riuscita a mantenere l‟azienda legata alla tradizione e ad importanti valori tramandati
dalla famiglia, quali l'impegno, la serietà e, non per ultimi, la qualità ed uno spiccato gusto per la
raffinatezza, ma al tempo stesso con un ampio sguardo rivolto al futuro. Oggi l‟azienda interpreta al
meglio la sfida del fondatore, credendo ancora nel binomio tradizione-modernità: alta qualità
costante nel tempo, un servizio attento e puntuale, attività di marketing mirate a sostegno dei clienti,
con costanti consulenze da parte sia degli agenti di zona, sempre pronti a nuove proposte e nuove
soluzioni per chi appartiene al mondo dell‟Ho.Re.Ca, sia direttamente dalla sede centrale, con idee
e sfide che talvolta partono anche dal presidente stesso, ancora attentissimo a tutto ciò che ruota
attorno ad un‟azienda ormai internazionale.
Un‟analisi veloce per punti permette di comprenderne meglio il posizionamento nel mercato:
-
Vision aziendale: accanto ad una costante vocazione per l‟alta qualità dei prodotti proposti,
Caffè Diemme offre un elevato standard nei servizi ed un‟immagine moderna e accattivante
per distinguersi ed essere competitivi nel mercato, e non apparire come meri fornitori di
materie prime;
7
-
Mission: racchiudere in una tazzina tutta l‟eccellenza in cui l‟azienda crede, trasferendo la
vera cultura dell‟espresso in Italia e nel mondo;
-
Cultura aziendale: Caffè Diemme coniuga la lunga tradizione di quasi novant‟anni di storia
ed esperienza ad una visione orientata ai nuovi mercati. Tradizione ed innovazione
rappresentano le due anime dell‟azienda, che coesistono perfettamente assieme: passione,
valori e tradizioni familiari che ne hanno costituito le origini si fondono con i tratti più
moderni dell‟azienda, mantenimento di elevati standard qualitativi, formazione, ricerca di
prodotto e attività di marketing mirate a sostegno dei clienti;
-
Descrizione del mercato nel quale opera: l‟azienda opera nel mercato business to business,
specificatamente nel settore Ho.Re.Ca. (bar, ristoranti e caffè), essendo da sempre vocata ad
elevati standard qualitativi. Il settore ho.re.ca. rappresenta la sintesi tra alta qualità e costante
innovazione, ed è un settore che richiede sempre elevata professionalità;
-
Tipo di prodotto che l’azienda offre nel mercato e canale di vendita: l‟azienda si occupa
principalmente della produzione e distribuzione di caffè torrefatto in grani, e di tutti i
prodotti complementari che ne accompagnano la vendita completandone l‟offerta finale (es.
cioccolata, tè, infusi, orzo, caffè al ginseng). La fascia di prezzo di vendita del prodotto è
medio alta. Il canale di riferimento è l‟ho.re.ca: si rivolge ai gestori di bar, caffetterie,
pasticcerie, ristoranti, e tutti i prodotti arrivano al cliente finale solo ed esclusivamente
attraverso tali canali;
-
Principali concorrenti e SWOT ANALYSIS: nel mercato, tutte le aziende, grandi o piccole
che siano, rappresentano ovviamente dei concorrenti: tra i grandi competitor ci sono i
marchi Illy, Segafredo, Vergnano, Lavazza, tra i competitor più diretti, per citarne alcuni, i
marchi Goppion, Dersut, Vescovi, Caffè Vero, Pedron;
PUNTI DI FORZA
-
ricerca della massima qualità del
PUNTI DI DEBOLEZZA
-
prodotto
diversi da quelli della GDO può portare
-
cura per il dettaglio all‟interno del p.v.
ad una conoscenza relativa del brand,
-
professionalità nel servizio
non inclusa nella “top of mind”
OPPORTUNITÀ
-
8
la selezione di canali distributivi
nuovi modi di consumo del caffè:
MINACCE
-
“guerra dei prezzi” dovuta ad un
capsule, caffè come life style, caffè
continuo innalzamento del costo del
come opportunità di aggregazione
caffè crudo quotato in borsa
-
Informazioni sul target di riferimento: tipo di cliente che si vuole attirare: nel pensiero di
Caffè Diemme, il Bar è un luogo in cui il consumatore deve trovare l‟eccellenza; egli deve
riuscire a degustare in una tazzina di caffè tutto un mondo di emozioni, assaporarla in un
ambiente gradevole e, non per ultimo, deve essergli servita con il sorriso. Diemme predilige
dunque i clienti che, nello stesso spirito aziendale che la contraddistinguono, pongono la
massima attenzione possibile per la qualità delle materie prime e del servizio che offrono ai
propri consumatori.
1.2.
L’ALTRA PRINCIPALE AZIENDA DEL GRUPPO: BERICA CHEF SRL
Berica Chef Srl è un‟azienda veneta con sede ad Albignasego (Padova), che dal 2001 si dedica alla
ristorazione con professionalità e dedizione grazie all‟esperienza maturata in questo campo.
Nel giro di pochi anni è riuscita, grazie a punti di forza come la qualità del servizio, la cortesia, la
professionalità e l‟immagine, a farsi conoscere dentro e fuori provincia con i suoi 3 marchi:
-
“L‟Albero l‟Italia a Tavola” è il marchio che contraddistingue i self service, luoghi dove
ogni giorno il consumatore può gustare pietanze preparate con cura e con ingredienti sempre
freschi;
-
“Tarantella…che pizza!” è il marchio che contraddistingue le pizzerie da asporto, dalle quali
si sfornano ogni minuto pizze sempre differenti: bianche, rosse, soffici, croccanti, alte, sottili.
Accanto alle pizze, prodotti tipici come i pizzotti, i crescioni, le schiacciate e le spianatelle;
-
“D-Burger” nato nel 2009 da una costola del self-service, è l‟unico marchio che ad oggi
contraddistingue la linea fast food e club house. Ciò che distingue tali prodotti da quelli dei
brand americani è sicuramente il pane sempre fresco e gli ingredienti migliori della
tradizione italiana e locale; i panini sono preparati al momento e accompagnati da fritti,
insalata fresca o frutta.
Nel 2011 l‟azienda festeggia i suoi 10 anni e passa sotto l‟ombrello del Gruppo Dubbini, iniziando
una collaborazione di know how e di immagine con il marchio Caffe Diemme. Grazie
all‟affiancamento ad un‟azienda di più grande spessore sia economico che di conoscenze, Berica
Chef ha avuto la possibilità di crescere e di affrontare nuove sfide, quali la gestione di un primo bar
al di fuori del circuito dei Centri Commerciali, e l‟inserimento in ambienti di alto livello come il
recentissimo punto vendita all‟interno de “La Nave de Vero” di Marghera.
9
L‟azienda rappresenta la seconda realtà più importante, dopo la stessa torrefazione, in termini di
fatturato rispetto al bilancio consolidato, e vanta la presenza in tre dei più importanti centri
commerciali della provincia di Padova (“Ipercity” di Albignasego, “Le Brentelle” di Rubano,
“Airone” di Monselice), oltre che al recente “Il Grifone Shopping Center” di Bassano del Grappa,
Vicenza.
Una veloce SWOT analysis può aiutarci, anche in questo caso, a capire la situazione attuale dei
punti vendita all‟interno dei quali verranno somministrati i questionari durante il periodo
dell‟intervista; è in particolare interessante, a questo proposito, attuare una prima ed elementare
divisione in base al centro commerciale all‟interno del quale sono situati i punti vendita:
-
“IPERCITY” DI ALBIGNASEGO, PADOVA
L‟Albero l‟Italia a tavola: il self service
PUNTI DI FORZA
PUNTI DI DEBOLEZZA
-
numerosi posti a sedere
-
-
unico self con cibo italiano (o comunque
resto ai concorrenti, ma offerta diversa e
non fast-food) all‟interno del centro
più completa
prezzi leggermente superiori rispetto al
commerciale
OPPORTUNITÀ
MINACCE
-
sviluppo di un‟attività serale
-
-
sviluppo di menù a prezzo fisso
Caffè Diemme al piano terra che offre
-
secondi piatti vegetariani/vegani/bio
una pausa pranzo veloce
rischio di cannibalizzazione con bar
Tarantella che pizza!: la pizzeria
PUNTI DI FORZA
PUNTI DI DEBOLEZZA
-
numerosi posti a sedere
-
-
unica pizzeria del cc
-
lievitazione e lavorazione in loco
-
prezzi competitivi
scarsi cambi di offerta e poche novità
stagionali
OPPORTUNITÀ
MINACCE
-
-
-
sviluppo di farine kamut e integrali per
differenziare l‟offerta
McDonalds su tutti, offrono prodotti di
sviluppo di prodotti senza glutine per chi
fascia simile a prezzi più bassi
ha problemi di intolleranza
10
fast food vicini che, con marchio
-
LE BRENTELLE – SARMEOLA DI RUBANO
L‟Albero l‟Italia a tavola e Tarantella che pizza!: il self service e la pizzeria; uniamo queste
due realtà in quanto la posizione all‟interno del centro commerciale ne fanno pressochè
un'unica realtà
PUNTI DI FORZA
PUNTI DI DEBOLEZZA
-
-
unico self service con cibo “slow”
all‟interno del centro commerciale
-
design moderno e funzionale
-
semplicità di fruizione
posizione dislocata rispetto al cuore del
centro commerciale
OPPORTUNITÀ
MINACCE
-
-
possibilità di sviluppo di una linea
nessuna nel breve periodo
vegetariana e vegana, adatta alle
intolleranze o alle semplici scelte dei
clienti
-
IL GRIFONE SHOPPING CENTER DI BASSANO DEL GRAPPA
L‟Albero l‟Italia a tavola e Tarantella che pizza!: il self service e la pizzeria
PUNTI DI FORZA
PUNTI DI DEBOLEZZA
-
-
-
unica offerta di ristorazione all‟interno
scarsa capacità di comunicare l‟offerta in
del centro commerciale
tutte le sue caratteristiche, soprattutto
ampia scelta e molto varia
riguardo alla preparazione espressa dei
pasti
OPPORTUNITÀ
MINACCE
-
-
possibilità di sviluppo di una linea
vegetariana e vegana, adatta alle
intolleranze o alle semplici scelte dei
minaccia indiretta, legata allo scarso
traino del centro commerciale
-
clienti
D-Burger: club house
PUNTI DI FORZA
PUNTI DI DEBOLEZZA
-
-
cibo più salutare rispetto agli altri fast
food, a prezzi relativamente competitivi
-
scarsa comunicazione dell‟offerta e del
differenziale rispetto agli altri fast food
ampia scelta anche per chi non volesse
panini/differenziazione dell‟offerta
11
OPPORTUNITÀ
MINACCE
-
-
sviluppo di un brand monoprodotto
calo dei consumi nei fast food di fronte
ad una maggiore sensibilizzazione verso
il “mangiare sano”
-
12
McDonald‟s a pochi metri
CAPITOLO 2
IL C.R.M.
Dopo l‟analisi dell‟ambiente all‟interno del quale l‟analisi in oggetto è stata svolta, si passa quindi
ad una disamina del concetto di Gestione del Rapporto con i Clienti, applicato al contesto
d‟interesse per l‟azienda per la quale è stato sviluppata l‟intervista.
Per CRM, o Customer Relationship Management, s‟intende in dettaglio quella strategia di business
che ha come scopo ultimo quello di creare una relazione personalizzata di lungo periodo con il
cliente. Da un punto di vista tecnologico, esso coinvolge dunque:
-
individuazione e raccolta dei dati sui vari clienti nell‟intera azienda;
-
il loro consolidamento in un database unico (detto anche Customer Database);
-
la loro analisi per l‟individuazione di informazioni;
-
la distribuzione dei risultati all‟intera organizzazione per creare un rapporto migliore con il
cliente, a prescindere dal canale di comunicazione scelto.
Si tratta quindi di un approccio integrato, di una modalità di management che integra concetti e
strumenti di marketing (ad esempio il one-to-one), sistemi informativi (hardware e software) e, non
da ultimo, organizzazione dei processi che sottostanno alla gestione del cliente: la disponibilità di
informazioni non rappresenta di per se la conoscenza, se non sottoposte ad un‟analisi mirata.
Le funzionalità di base del CRM sono, in breve, l‟automatizzazione e l‟ottimizzazione delle attività
di marketing, vendita e customer service sui canali online e offline del mercato: il fine ultimo è
quello di un‟integrazione di molteplici dati relativi ai clienti e di analisi del comportamento per
creare nuova conoscenza sul consumatore, e supportare le decisioni che maggiormente impattano
su valore degli acquirenti attuali e futuri. Per fare ciò, un CRM mirato dovrà rispondere a poco
semplici domande:
-
Chi è il mio cliente? Quando e dove acquista?
-
Quali sono i prodotti più venduti?
-
Quali sono le eventuali opportunità di cross selling di prodotti al cliente?
-
Qual è il livello di soddisfazione della mia clientela?
-
Come posso migliorare la mia offerta al fine di aumentare la fedeltà dei clienti?
13
2.1
IL CRM ANALITICO E OPERATIVO – UN’ANALISI GLOBALE
Un Customer Relationship Management ben strutturato, dovrà essere diviso in operativo - che
gestisce cioè l‟esecuzione delle attività e dei processi d‟interazione con il mercato - e analitico che analizza e applica le logiche e gli indicatori di marketing sui dati dei clienti per generare nuovi
contatti con la clientela -.
Nel dettaglio:
-
il CRM operativo è costituito dall‟insieme di software e processi volti al supporto della
attività di interazione quotidiana con il mercato effettivo o potenziale: vengono quindi
indentificati, in questa fase, i canali di contatto più opportuni per raggiungere il target a cui
intendiamo riferirci, a scelta tra: la presenza fisica (vendita diretta, presenza di un operatore
all‟interno dei punti vendita, agenti di commercio), la posta (lettere, cartoline prestampate),
la voce (telefono o VOIP), la posta elettronica, il web (contatti tramite chat, portali ecc),
l‟allestimento di una postazione dedicata all‟interno del punto vendita, non necessariamente
accompagnato da una presenza fisica; alla base delle varie attività, se ne viene messa in atto
più di una simultaneamente, dovrà esserci una pianificazione che le renda omogenee tra
loro;
-
il CRM analitico è invece la parte del sistema che consente di estrarre e rendere fruibili le
varie informazioni, grazie all‟elaborazione dei dati provenienti dall‟antecedente parte
operativa, mediante quindi analisi univariate, bivariate, analisi in componenti principali, e
processi di clusterizzazione e profilazione.
Il fine ultimo cui tutto questo è rivolto è la riduzione del churn in uscita: secondo semplici
indicatori, cioè, è possibile prevedere dinamicamente la probabilità che un cliente stia scegliendo di
andarsene, smettendo cioè di usufruire del servizio erogato e tramutandosi, in cifre, in una perdita in
termini di fatturato; la gestione di tale indice consiste quindi nella minimizzazione dei flussi in
uscita dei clienti, tipici di un ambiente molto competitivo. Con tale analisi si possono costruire
indicatori e report giornalieri o mensili per il controllo di tale fenomeno e il suo contenimento,
tramite la pianificazione di attività come, ad esempio, la creazione di offerte mirate, di
fidelizzazione dei clienti, o realizzazione di azioni push o pull.
Il CRM permette quindi di passare da un modello di marketing centrato sul prodotto, o “product
centric” a quello costruito attorno al cliente consumatore o “customer centric”. Il caso più vivido, se
prendiamo come riferimento il canale distributivo della GDO o degli stessi bar che appartengono al
canale ho.re.ca, è sicuramente la distribuzione delle carte fedeltà: si passa in questo modo da
14
campagne di fidelizzazione senza un‟analisi storica, allo stimolo del comportamento di acquisto al
fine di ottenere un ritorno positivo ed aumentare la conoscenza che il venditore ha del consumatore,
fino ad arrivare alla creazione ed alla gestione di una relazione personalizzata attraverso un
database specifico, per incrementare il fatturato. Non è da sottovalutale poi la possibilità di
individuare lo stile di vita di un cliente, in modo tale da poter proporre azioni promozionali
maggiormente adatte ai suoi interessi: la scoperta del “dna” del consumatore, ci porta a dialogare in
modo diretto, individuando meglio i suoi bisogni, o addirittura creandone di nuovi.
È proprio dalla volontà di scoprire il comportamento e le caratteristiche dei propri clienti, che porta
Berica Chef alla volontà di creare un questionario (in questo caso di analisi on line prima –
mediante un processo meno diretto e più macchinoso - e con una più semplice presenza all‟interno
dei contri commerciali poi), dedicato alla raccolta di dati relativi alla shopping experience dei
consumatori presso i punti vendita di proprietà, sotto le varie egide del gruppo.
2.2
IL QUESTIONARIO
Il questionario è lo strumento base utilizzato nella maggior parte delle interviste e, di conseguenza,
nell‟analisi delle relazioni con i clienti: è, in sostanza, una sequenza di domande atta a raccogliere
dall‟intervistato le informazioni oggetto della stessa indagine. Esso fornisce cioè la possibilità di
ottenere una classificazione omogenea dei dati raccolti, in quanto – se formulato correttamente –
garantisce l‟uniformità dell‟intervista e consente agli intervistati di somministrare sempre le stesse
domande, nello stesso ordine: la sua corretta preparazione assicura infatti che le domande risultino
ordinate sistematicamente secondo uno schema opportuno, in modo da facilitarne la consultazione
anche a chi non ne risulta direttamente coinvolto, e l‟analisi da parte di chi invece lo ha strutturato
per il fine preposto.
L‟importanza della preparazione di un questionario è un aspetto troppo spesso trascurato, e risulta
un argomento affrontato nella maggior parte delle volte in modo superficiale e poco attento:
sfumature all‟apparenza irrilevanti possono però provocare variazioni nei risultati decisamente non
trascurabili e comportare problemi operativi sia durante la somministrazione, sia nella fase di
elaborazione dei dati. Una fase preliminare esplorativa ben sviluppata, ed una stesura curata,
consentono di eliminare una elevata quota dei potenziali errori che possono emergere nella
costruzione del questionario, fornendo un migliore apporto di informazioni e di idee al “mandante”
dell‟intervista, e ponendolo in una situazione maggiormente obiettiva, riuscendo a superare tutta
una serie di vincoli che inevitabilmente derivano dalla sua personalità, dalla professione, dalla
cultura, ecc.
15
Eventualmente, potrebbe essere utile anche prevedere una fase di collaudo (o fase pilota), da
svolgere nella fase antecedente la somministrazione, al fine di permettere modifiche eventuali prima
della stesura definitiva e garantire così che il questionario possa restare inalterato nel corso di
eventuali ripetizioni dell‟indagine, poiché buona parte dei problemi risulterebbero già eliminati. Se,
al contrario, s‟interviene sul questionario già avviato, modificandolo in una fase successiva a quella
iniziale, si rischia di perdere la confrontabilità dei risultati ottenuti; è oltretutto importante che tali
collaudi vengano fatti in condizioni analoghe a quelle che andranno a caratterizzare le interviste, al
fine di simulare in maniera più veritiera possibile eventuali problemi legati alla costruzione del
questionario.
A tal proposito, è interessante capire come riuscire a disporre di uno strumento di rilevazione
adeguato, e coerente con gli obiettivi di indagine che ci si è posti.
2.2.1. IL QUESTIONARIO: LA STRUTTURA DELLE DOMANDE
Mentre i principali errori commessi nella stesura del precedente questionario verranno analizzati nel
capitolo successivo, si prende subito in considerazione l‟analisi della formazione dei quesiti che
fanno parte dell‟intervista.
La base di partenza per la costruzione di un buon questionario è, senza dubbio, lo studio della
struttura delle domande: se mal formulate, i dati generati risulteranno inutilizzabili a fronte di
qualsiasi metodo analitico si utilizzi nella elaborazione successiva. È quindi il caso di delineare
alcune regole fondamentali per una buona realizzazione dei quesiti, e che hanno costituito la base
fondante su cui partire per a costruzione della nuova indagine; in particolare:
-
adeguare il linguaggio dell‟intervista alle abitudini linguistiche dei soggetti interrogati: non è
pensabile, infatti, di usare termini accademici se si pensa di dover somministrare il questionario
all‟interno, ad esempio, di un centro per anziani; le parole da utilizzare, la struttura delle
domande e delle risposte, e la lunghezza complessiva delle frasi dovranno essere adeguate al
target di riferimento;
-
porre quesiti a cui gli interpellati siano capaci di rispondere: si dovrà calibrare la domanda al
livello di istruzione che ci si aspetta dagli intervistati. Un livello di domande troppo alto
potrebbe comportare il rischio di una mancata risposta, di risposte false date per non sembrare
inadeguati o di risposte date a caso e quindi non conformi al vero pensiero del soggetto a cui li
questionario è stato sottoposto;
16
-
formulare le domande nel modo più specifico e chiaro possibile, al fine di facilitare il lavoro di
interpretazione nel momento dell‟elaborazione dei risultati: può risultare talvolta opportuno
spiegare all‟intervistato gli aspetti più significativi di un quesito particolarmente importante o
complicato, se prevista una presenza fisica durante l‟intervista;
-
porre una sola domanda per volta, in modo tale che gli interpellati non debbano, in caso di
risposte discordanti alle due domande, dare un riscontro valido solo in parte o che fornisca
risposte eterogenee tra loro e quindi non confrontabili; sono perciò da evitare domande del tipo:
“in che misura valuta il servizio del punto vendita e in che modo si potrebbe a suo parere
migliorare?”;
-
evitare le insinuazioni personali o i tentativi di suggestione: nel momento in cui l‟intervistatore
fornisce ipotesi proprie, o la domanda è posta in modo poco obiettivo, subentra il rischio di una
risposta non neutra e quindi influenzata. Da evitare, ad esempio, una domanda del tipo: “se
fosse stato meglio informato, avrebbe frequentato prima il punto vendita?”; è evidente come in
questo caso l‟intervistatore dia per scontato che il soggetto in questione fosse poco informato
ed egli, a sua volta, rischia di autoconvincersi di esserlo stato;
-
evitare la doppia negazione: considerato il grado di complessità risultante vi sarebbe in questo
caso il rischio di risposte falsate o comunque non corrispondenti alla vera opinione
dell‟intervistato; non è infatti chiaro, nella mente del soggetto, se per esprimere il proprio
accordo sia necessario rispondere in modo affermativo o negativo;
-
affidare le domande ad un chiaro riferimento temporale, al contrario per gli intervistati risulterà
complicato fornire una risposta affidabile perché costretti in autonomia a delineare un punto di
riferimento, completamente soggettivo. I dati in questione risulterebbero evidentemente poco
indicativi, in quanto riferiti ad archi temporali che potrebbero essere totalmente differenti tra i
rispondenti, e inficiare nella confrontabilità delle risposte;
-
evitare possibilità di risposta che siano pluridimensionali, adeguando le osservazioni attraverso
la standardizzazione dei dati raccolti.
2.2.2. IL QUESTIONARIO: I VARI TIPI DI DOMANDE POSSIBILI
Relativamente ai tipi di domanda utilizzabili nel questionario, esse possono essere distinte in base al
loro contenuto, o alla loro forma. A livello di contenuto, si possono riferire ad atteggiamenti,
opinioni, credenze, conoscenze ed interventi che appartengono agli intervistati: in quest‟ottica, le
domande sono classificabili in:
17
-
domande di base: riguardano le caratteristiche anagrafiche, di genere, di professione, di reddito,
ecc. dell‟intervistato;
-
domande filtro e di controllo, se necessarie per una scrematura iniziale degli interrogati;
-
domande strutturali: quesiti relativi agli attributi di base del soggetto intervistato in relazione
alla ricerca attuata;
-
domande di comportamento: relative a fatti ed esperienze concrete vissuti dall‟intervistato.
Relativamente alla forma, invece, le domande si suddividono in base alla possibilità di risposta in:
-
domande aperte, semichiuse e chiuse;
-
domande dirette e indirette;
-
domande primarie e secondarie.
2.2.2.1.
DOMANDE FILTRO E DI CONTROLLO
È possibile che all‟inizio di un questionario siano presenti delle domande cosiddette “filtro”, atte
cioè a valutare l‟effettiva corrispondenza tra le caratteristiche del soggetto intervistato e gli obiettivi
che sono stati prefissati nella preparazione dell‟indagine; da queste dipenderà l‟effettuazione o
meno dell‟intervista stessa o, quantomeno, il peso da assegnare alle risposte di soggetti che risultino
più o meno distanti in termini di caratteristiche dall‟ideale di intervistato. Per esempio, se si
volessero intervistare solamente le persone che hanno fatto uso di un determinato servizio, basterà
predisporre una domanda del tipo “le è capitato di usare il servizio x?”. In caso di risposta negativa,
e di questionario non autocompilato, l‟intervistatore non effettuerà l‟indagine.
Per quanto riguarda le domande di controllo, invece, sono quei quesiti il cui fine è di controllare la
significatività e l'affidabilità di una risposta: poste a opportuna distanza dalle domande da verificare,
servono ad attestare che la scelta dell‟intervistato sia effettivamente in linea con il suo pensiero;
capita di frequente, ad esempio, che domande poste al condizionale e riferite a intenzioni future o
disponibilità meritino di essere approfondite ed analizzate attraverso l‟uso di domande più concrete,
riprese in un punto successivo del questionario.
18
2.2.2.2.
LE DOMANDE APERTE
S‟identificano con questa categoria i quesiti le cui modalità di risposta non vengono
anticipatamente previste dal ricercatore: non esiste, quindi, nessun vincolo alle possibili risposte;
l‟intervistato risponde con parole proprie e questo permette spesso di rilevare concetti e possibilità
non contemplate nella fase di stesura del questionario. La risposta è strettamente dipendente dalle
capacità che ha l‟intervistato nella verbalizzazione: un chiaro esempio di domanda aperta riferita
all‟ambito di analisi in questione relativa a Berica Chef potrebbe essere: “a quali elementi dà più
importanza quando sceglie un ristorante o un punto dove effettuare la pausa pranzo?”.
A discapito della possibilità di argomentare liberamente, spaziando anche al di fuori dei temi
previsti, i difetti principali delle domande aperte sono:
-
il rischio di influenzare con proprie interpretazioni le risposte date dall‟intervistato, sia nella
fase di raccolta dei dati, sia nella successiva elaborazione e classificazione degli stessi;
-
la possibile dispersione dei concetti espressi dagli intervistati, se espressi in maniera poco
concisa o non chiara;
-
la difficoltà nel riuscire a sintetizzare le risposte, nel tentativo di creare un‟omogeneità tale da
renderle tra loro confrontabili: relativamente a questo aspetto, è inutile sottolineare come
questo tipo di risposte necessitino di un lavoro aggiuntivo nel momento della loro elaborazione;
lo studio del contenuto delle stesse inizia con l‟analisi di un primo numero di interviste, e la
trascrizione delle risposte ottenute: queste risposte sono poi raggruppate in aree concettuali
omogenee per ottenere una prima classificazione mediante l‟applicazione di un determinato
codice da usare poi per le risposte dei successivi questionari. D‟altro canto, però, se questa fase
richiede da un lato un impegno cospicuo di tempo, è altresì vero che tali quesiti aperti si
rivelano particolarmente utili giacchè permettono un‟analisi più approfondita degli argomenti,
permettendo una raccolta ricca di dettagli e di spunti per l‟intervistatore.
2.2.2.3.
LE DOMANDE SEMICHIUSE
Spesso, per far fronte alle criticità sopracitate, nel tentativo però di mantenere parte dei vantaggi
legati alla libera interpretazione della risposta aperta da parte del soggetto intervistato e a quelli di
una classificazione più semplice riscontrabile nell‟uso delle risposte chiuse, si fa ricorso alle
domande cosiddette “semichiuse”: quesiti, cioè, che oltre alla categorie prestabilite, offrono
ulteriori possibilità di risposta aperta, contraddistinte da termini come “diverso” o “altro”.
19
Ne sono un esempio i quesiti Q9 e QV del nuovo questionario, inserito nella Tavola 2
dell‟appendice.
2.2.2.4.
LE DOMANDE CHIUSE
Quando si parla di domande chiuse, si intende quei quesiti le cui possibilità di risposta sono già
prestabilite: il soggetto cui è sottoposto il questionario dovrà quindi scegliere solo nell‟ambito di
quanto già predisposto nella fase di progettazione dell‟intervista. Se da un certo punto di vista
questo aspetto facilità senza dubbio la valutazione quantitativa, dall‟altro possono emergere diversi
problemi legati alla ristrettezza delle alternative previste; in particolare, le maggiori criticità
riscontrabili con questo metodo sono sostanzialmente tre:
-
la possibilità che nessuna delle risposte previste identifichi perfettamente il pensiero della
persona intervistata; in questo caso, il risultato dipende da un lato da quante e quali possibilità
di risposta vengono fornite nella previsione iniziale, dall‟altro dalla capacità di adattare il
proprio pensiero ad una risposta possibile tra quelle fornite;
-
l‟intervento da parte di chi si occupa dell‟analisi successiva del questionario per far rientrare la
risposta ottenuta in una delle classi che sono state previste: il soggetto preposto all‟analisi deve
cioè riuscire ad interpretare correttamente il pensiero dell‟intervistato. Questo è relativo
solamente al caso in cui non sia prevista l‟auto compilazione da parte dell‟intervistato, ma sia
presente in loco un intervistatore;
-
il numero e l‟ordine delle modalità previste possono influenzare i risultati, poiché solitamente
vengono ricordate maggiormente le prime e le ultime risposte, a discapito di quelle centrali.
Le domande chiuse, possono a loro volta essere suddivise in domande a risposta singola, alle quali
si può fornire cioè un‟unica risposta, e domande a risposta multipla, alle quali possono essere date
più di una soluzione: un esempio delle prime è “quante volte ha mangiato in questo punto vendita
nell’ultima settimana?”, mentre per quanto riguarda le seconde, si può pensare ad un caso del tipo
“quali ristoranti all’interno dei questo centro commerciale ha frequentato nell’ultima settimana?”.
È evidente che una domanda a scelta multipla possa fornire una ricchezza maggiore di spunti di
analisi, anche se, d‟altro canto, comporta una maggiore dispendiosità in termini di elaborazione dei
risultati, soprattutto nel caso in cui all‟intervistato non venga chiarito il numero minimo o massimo
di possibili risposte da dare: in questo caso, si potrebbero creare comportamenti discordanti da
parte degli interrogati, andando ad aumentare la difficoltà dell‟analisi successiva da parte degli
20
intervistatori. Esempi di domanda chiusa, riferiti al nuovo questionario della Tabella 2 in appendice
sono le QIII e QIV, che si riferiscono rispettivamente al numero di componenti del nucleo familiare
dell‟intervistato, e quanti dei quali concorrono alla formazione del reddito.
2.2.2.5.
LE DOMANDE DIRETTE E INDIRETTE
Sono domande dirette quelle in cui il soggetto intervistato è coinvolto direttamente dall‟intervistato
o dal questionario, raggiungendolo con quesiti quali: “quante volte frequenta mediamente questo
punto vendita nell’arco di una settimana?”. Sono invece indirette quelle domande con le quali si
tenta di raggiungere l‟intervistato in modo meno personale e più generico; costituite
prevalentemente dalle tecniche proiettive, si possono distinguere con esempi quali: “secondo lei,
quanta gente frequenta mediamente questo punto vendita nell’arco della settimana?”.
Un esempio di domanda diretta, in riferimento al questionario oggetto di questa tesi, è la Q9, che
corrisponde al quesito “Cosa le piacerebbe trovare nei nostri locali?” e implica che il rispondente
possa esprimere una sua preferenza su un aspetto da migliorare all‟interno del punto vendita nel
quale si trova.
2.2.2.6.
LE DOMANDE PRIMARIE E SECONDARIE
Un‟ulteriore importante distinzione è quella tra domande primarie, dalla cui risposta dipende cioè
l'esecuzione o meno di una o più domande secondarie – la cui effettuazione dipende quindi dalla
risposta data in precedenza -; un esempio potrebbe essere: “se ci fosse il servizio al tavolo, lei lo
gradirebbe?” – domanda primaria – (se no) per quali motivi? – domanda secondaria. Nel caso
questo tipo di domande fossero numerose, potrebbe risultare utile, al fine di evitare errori e salti tra
le varie domande, predisporre un diagramma di flusso che permetta all‟intervistatore – o al relatore
del questionario – di seguire un dato percorso nella somministrazione – o nella preparazione –
dell'indagine.
2.2.2.7.
LE DOMANDE DI SCALA E LA STRUTTURA DELLE RISPOSTE
Un discorso a parte meritano invece quelle domande che, dal punto di vista ancora una volta
formale, prendono la classificazione di “domande di scala”; con il termine “scala”, nello specifico,
21
si identifica una particolare tecnica per la misurazione dell‟atteggiamento dell‟intervistato in un
questionario. Si tratta in breve di un caso particolare di domanda chiusa, attraverso la quale si
chiede all'intervistato di collocarsi lungo una serie di possibili risposte, tra loro ordinate secondo un
criterio preciso. È quindi possibile, attraverso tali strumenti, evidenziare le modalità con le quali
una variabile rilevata da una domanda può mostrarsi:
-
scala nominale: la variabile si manifesta con due o più modalità qualitative non ordinabili;
-
scala ordinale: la variabile si manifesta secondo due o più modalità qualitative ordinabili;
-
scala basata su concetti (es: per niente soddisfatto, poco soddisfatto, soddisfatto, abbastanza
soddisfatto,. molto soddisfatto): ha il vantaggio di una veloce comprensibilità da parte degli
intervistati, ma di contro il pericolo di un response set, come vedremo;
-
scala numerica: la variabile si manifesta secondo modalità quantitative; è quindi utilizzabile in
qualsiasi intervista e permette di elaborare facilmente i risultati. In questo ambito, è possibile
utilizzare scale con possibilità di risposta dispari: 3,5,7,9 ecc, al fine di ottenere un maggior
equilibrio tra risposte positive e negative. A livello pratico, maggiore è il numero di livelli
disponibili nella risposta, maggiore sarà il dettaglio dei risultati, rendendoli quindi teoricamente
più validi. In realtà, è emerso come storicamente tale scala comporti problemi di
interpretazione negli intervistati: ciascuno si focalizza su determinate parti della sequenza
fornita, divenendo quindi incapace di avere una visione globale. Al contrario, un numero
contenuto di livelli (ad esempio solo tre) ha il vantaggio di un‟ottima chiarezza interpretativa
da parte dell‟intervistato, ma non permette un adeguato dettaglio del risultato.
Il punto di partenza è quello di ampliare le alternative base si/no in quanto, nella maggior parte dei
casi, gli intervistati potrebbero trovarsi nella difficoltà di voler scegliere una risposta intermedia
alla domanda sottoposta, ma non riescono a trovarla. Vi è in generale la tendenza a trovare una
mediazione tra scale molto numerose, e quindi più precise, e scale più corte, più facilmente
gestibili (ma anche più approssimative).
Esempio di scala applicata alla misurazione della customer satisfaction
1. Quanto è importante per lei …. ?
L‟illuminazione del locale
1
2
3
4
5
La silenziosità del locale
1
2
3
4
5
22
2. Quanto è soddisfatto di … ?
L‟illuminazione del locale
1
2
3
4
5
La silenziosità del locale
1
2
3
4
5
Teorie differenti conducono verso un numero dispari o pari di modalità; in quest‟ultimo caso, la
scala è caratterizzata dal difetto dell‟assenza di un baricentro, un punto centrale di equilibrio. Tale
soluzione può tuttavia risultare interessante quando si intende sollecitare l‟intervistato a prendere
una decisione netta, sia essa positiva o negativa, che non sia quindi una condizione neutrale.
È possibile, inoltre, ricorrere alla tradizionale scala di valutazione numerica scolastica, con
possibili risposte che vanno da 1 a 10: tale soluzione, essendo la più conosciuta tra le persone,
risulta più facilmente comprensibile. Tuttavia, proprio l‟associazione con l‟esperienza scolastica,
comporta una sostanziale riduzione del range di valutazione, riferendolo alla sola parte
effettivamente utilizzata a scuola, dove il punteggio 4 rappresenta un voto già decisamente
negativo.
2.2.3. LE SCALE
Come anticipato poco fa, differenti sono le teorie presenti in letteratura relativamente alle
possibilità di formulazione delle risposte di un questionario. Tra le più comuni possiamo trovare:
1. scala Likert;
2. scala di Bogardus;
3. scala di Thurstone;
4. scala di Guttman;
5. metodo del differenziale semantico;
6. termometro dei sentimenti.
2.2.3.1.
LA SCALA LIKERT
Merita una disamina più approfondita delle altre questo tipo di scala, in quanto è stata la base di
partenza per lo sviluppo del nuovo questionario somministrato nel periodo di redazione di questa
analisi. Nel dettaglio, come si può vedere nella Tabella 2 in Appendice, fanno riferimento a questa
23
scala, sviluppata su sette modalità (completamente insoddisfatto, non soddisfatto, poco soddisfatto,
indifferente, soddisfatto, più che soddisfatto, molto soddisfatto) i quesiti Q2 e da Q4 a Q8.
Nel dettaglio dei questionari e delle interviste, la scala Likert si differenzia dalle altre scale
esaminate nei paragrafi successivi - una su tutte quella di Thurstone - per la rapidità e la semplicità
(tanto da essere adottato tuttora in numerosi settori della ricerca applicata) e, maggiormente, per la
possibilità di applicazione di metodi di analisi del item che siano basati sulle proprietà statistiche
delle scale di misura a intervalli o rapporti. È il metodo di misurazione più diffuso, soprattutto per
la sua semplicità e per i bassi costi di costruzione.
Questa tecnica fu creata infatti dallo psicologo statunitense Rensis Likert, da cui prende il nome, al
fine di elaborare uno strumento nuovo e più semplice per misurare gli atteggiamenti e le opinioni
degli intervistati. La scala prevede che una lista di items (o affermazioni), collegati ad
atteggiamenti su cui si vuole condurre l‟analisi, sia sottoposta ad un gruppo di individui con la
possibilità di scegliere originariamente tra cinque risposte alternative: ad es. “completamente
d’accordo, d’accordo, incerto, in disaccordo, in completo disaccordo (che nella versione originale
utilizzata da Likert vengono così definite: strongly agree, agree, uncertain, disagree, strongly
disagree).” 1
In fase di costruzione, si assegnano ad ognuna di queste cinque risposte determinati pesi (ad
esempio 5,4,3,2,1) che hanno la precisa funzione di mettere in ordine le alternative di risposta.
Come delineato nel 1994 nelle Guidelines and Principles fos SIA, sussistono degli assunti che
sottostanno a tale metodo e permettono di registrare e codificare le risposte in modo rapido:
-
unidimensionalità degli atteggiamenti oggetto d‟indagine;
-
concettualizzazione di questa dimensione come continua;
-
equidistanza tra le categorie di risposta.
La procedura di costruzione della scala Likert consta di quattro passi operativi principali:
1. formulazione delle singole affermazioni: in questo primo passo, si formulano un numero
predefinito di items, riferiti alla dimensione oggetto della misurazione e solitamente formulati
in modo monotòno rispetto all‟oggetto da misurare, cosicché quanto più favorevole sia
l‟atteggiamento dell‟intervistato nei confronti dell‟oggetto, tanto maggiore sarà la sua
valutazione per l‟item;
2. eventuale sottoposizione di tali item ad un campione di soggetti ai quali sarà applicata poi la
scala definitiva, per essere poi valutati su un range di categorie che va generalmente da 4 a 7,
ad esempio:
1
Osservazioni sulla scala di Likert, Mariassunta Giordano
24
-
completamente d‟accordo;
-
parzialmente d‟accordo;
-
d‟accordo;
-
neutrale;
-
in disaccordo;
-
parzialmente in disaccordo;
-
in completo disaccordo.
Le alternative possibili devono essere bilanciate in maniera ponderata, cioè dev‟esserci equità
tra le indicazioni di accordo e di disaccordo. Nel caso in cui si predisponesse un numero dispari
di alternative, l‟opzione intermedia dovrà per forza di cose rappresentare l‟indicazione neutra,
quella cioè che non risulta ne in accordo ne in disaccordo; nel caso invece di alternative pari, si
impone al rispondente di prendere una posizione netta relativamente alla questione (si parla in
questo caso di “scelta strategica”);
3. calcolo dell‟item-score: in questa penultima fare fase, ad ogni singola modalità di risposta viene
assegnato un preciso punteggio da 1 a 7 – in questo specifico caso -; questo importante
passaggio, in cui le singole etichette vengono trasformate in una scala ordinale, permette di
calcolare successivamente media, mediana, moda, varianza, deviazione standard, ponderando
quindi le affermazioni a seconda del loro scostamento proprio dal valore medio degli items.
Tali pesi così creati consentiranno di fornite un criterio in grado di dare maggior valore ad una
risposta su un item estremo, piuttosto che ad uno stesso riscontro su uno più moderato, e
ordinare quindi i soggetti dai più sfavorevoli a quelli più favorevoli.
Nel caso di formulazione di items monotòni negativi, i valori associati alle categorie dovranno
necessariamente essere invertiti: è infatti fondamentale in questo passaggio considerare il verso
delle scale degli item per riuscire a sommare i valori;
4. selezione delle affermazioni per la scala finale, da inserire nel questionario definitivo: al fine di
verificare che le affermazioni che sono state inserite all‟interno della scale discriminino
effettivamente gli individui che hanno atteggiamenti tra loro differenti, e lascino invece
all‟interno dello stesso insieme individui con comportamenti simili, viene talvolta effettuata
un‟analisi degli item attraverso diversi indici, i cui principali sono:
4.1. analisi della correlazione tra gli elementi del questionario e la scala: questo passaggio è
utile al fine di individuare gli item che non risultino coerenti con gli altri e che è
necessario, quindi, escludere. Solamente le affermazioni che riescono a superare questa
fase di analisi verranno poi considerate per la composizione finale della scala, oppure per
successive analisi, come indicatori dell'aspetto che si intende osservare e misurare;
25
4.2.
coefficiente alfa di coerenza interna: indice che serve a stimare il grado di coerenza
interna della scala scelta; tale coefficiente si costruisce a partire dalla matrice di
correlazione tra gli elementi appartenenti alla scala e il loro numero; maggiore è il valore
che assume , tanto più grande è la coerenza interna;
4.3.
capacità discriminante degli item: mediante questo indice vengono esclusi gli item per i
quali tale capacità risulta troppo bassa; è calcolato come differenza tra la media semplice
relativa ai punteggi dei soggetti con gli scores più elevati e la media semplice relativa ai
punteggi dei soggetti con gli scores meno elevati.
I vantaggi della scala Likert sono riassumibili in due punti fondamentali:
-
semplicità di costruzione della scala stessa;
-
uso dei dati empirici come base per la realizzazione.
Gli svantaggi, invece, meritano un‟analisi più complessa:
-
se si ha a che fare con una scala ordinale è possibile conoscere solamente l‟ordine con cui i
vari individui risultano favorevoli o non favorevoli ad un'asserzione, ma non di quanto essi
siano più o meno favorevoli rispetto ad altri soggetti;
-
un medesimo punteggio totale riportato da due individui differenti può nascere da
combinazioni differenti di riscontri date alle varie asserzioni;
-
può emergere il cosiddetto “fenomeno della curvilinearità”, che si verifica nel momento in
cui un item centrale nell‟insieme delle risposte possibili è disapprovato, per motivi
totalmente differenti tra loro, sia da chi manifesta atteggiamenti positivi/favorevoli, sia da
individui che invece hanno comportamenti opposti: quando ciò accade, entrambi questi due
tipi differenti di soggetti otterranno il medesimo punteggio 2 , pur non riflettendo
un'uguaglianza di pensiero. È verosimile perciò che si verifichi che questi soggetti, fornendo
la stessa risposta (che deriva però da opinioni totalmente divergenti), finiscano per ottenere
un pari risultato: tutto questo porta alla trasformazione del continuum di risposte possibili in
una “U”; si parla pertanto di “curvilinearità”. Una delle possibilità per scongiurare questo
problema è selezionare asserzioni talmente radicali da riuscire a differenziare in modo netto
gli individui favorevoli da quelli contrari. Secondo quanto scritto da Coombs 3, “per cercare
di eliminare il rischio di curvilinearità da ciascun item [...] sarà opportuno scegliere
un’affermazione così estrema da rendere improbabile che ci siano individui tanto estremi
2
3
Giudicini 1995, 98
Coombs 1953, 530
26
da respingerla perché non è sufficientemente estrema”.
Seguendo Marradi4, invece, anche tale opzione provocherebbe delle distorsioni, in quanto
“tende a comprimere le posizioni che si trovano nella metà opposta del continuum,
confondendo quelle moderate con quelle estreme”;
-
un secondo fenomeno nel quale può capitare di imbattersi è quello della “reazione
all‟oggetto”: si verifica nel momento in cui il soggetto intervistato non reagisce alle
affermazioni, ma ai personaggi, alle azioni, alle situazioni menzionate dalle affermazioni
stesse 5 ; pertanto tale fenomeno accade principalmente quando l‟individuo soggetto del
questionario non riesce a separare l‟affermazione (che potrà essere favorevole o contraria)
dall‟oggetto (che potrà essere accettato o rifiutato). Es. “I politici si interessano solo al voto,
non ai bisogni degli elettori”: “Completamente in disaccordo… dovrebbero interessarsi
anche ai bisogni, non solo al voto. Sono in disaccordo con loro”6.
Spiegando in via teorica l‟esempio appena citato, un intervistato che come in questo caso si
concentra solamente sull‟oggetto, se risulterà in accordo con esso approverà ugualmente
l‟item, anche se quest‟ultimo è espressione di un‟opinione negativa (al contrario, il soggetto
dovrebbe esprimere disaccordo). Tale fenomeno emerge solo nel caso in cui l‟intervistato
premetta o faccia seguire i commenti al parere appena dato; ecco perché lo stesso non
emerge durante i sondaggi di massa, che non permettono i commenti a seguito degli items
Likert7.
Il metodo migliore per identificare tale articolato fenomeno, che come visto può portare a
forti distorsioni nella compilazione del questionario, è di considerare accuratamente la
possibilità di inserire la possibilità di commento da parte degli intervistati all‟interno delle
diverse affermazioni. Difatti “ove i commenti liberi di un intervistato ad un’affermazione e
la relativa risposta data con una tecnica di rilevazione siano incompatibili, si può ritenere
che il commento sia quello che rispecchia il suo pensiero sull’oggetto, mentre la risposta
codificata sia affetta da qualche forma di distorsione8”;
-
da ultimo, i problemi che possono emergere nel sottoporre al rispondente una serie di
batterie di domande che abbiano le medesime modalità di risposta (questo, tra l‟altro, è un
problema generale di tutte le scale), in particolare:
4
Marradi 1980, 63
Cacciola – Marradi 1988, 86
6 Marradi 2007, 145-162
7 Sapignoli 1992, 101
8 Marradi 1992, 108
5
27
- riscontri dati a caso, dati senza cioè leggere in modo approfondito e attento le domande
presenti all‟interno del questionario, ma solo ed esclusivamente per la fretta o per la
volontà di terminare il questionario, in modo quindi superficiale;
- risposte fornite in modo meccanico (response set), con la scelta della stessa modalità per
tutti i quesiti, spesso omettendo addirittura la lettura degli stessi;
Una soluzione utile a ridurre questi rischi nelle risposte alle batterie di domande è di
immettere affermazioni sia “favorevoli” che “sfavorevoli” all‟oggetto della questione, o di
alternare le risposte preparate con la scala scelta a domande con risposte aperte o con
differente numero di modalità di scelta.
Un rapido accenno va in ultima analisi fatto ai concetti di validità e affidabilità della misurazione
effettuata:
-
validità degli indicatori: un indicatore si può considerare valido quando effettivamente
rappresenta il concetto che nelle intenzioni dell‟intervistatore deve rappresentare.; se così
non fosse, tale scala non è più da considerarsi valida poiché verrà rilevata una cosa
differente da quella che effettivamente ci si era preposti di rilevare. La validità, tuttavia,
risulta impossibile da rilevare in modo diretto: non esiste metodo né per misurarla, né per
stimarla esplicitamente; esistono però alcuni criteri che permettono di attribuire validità ad
una determinata scala:
-
a vista o “face to face”: è il ricercatore stesso che individua, in base all‟esperienza, alla
sua padronanza dell‟argomento e alla sua sensibilità in merito, un indicatore come
effettivamente valido o meno; è, in breve, un parere che il ricercatore esprime
relativamente a quell‟indicatore;
-
validazione tramite criterio: il concetto da “approvare” va messo in relazione con un
indicatore già in precedenza validato – ovviamente mediante l‟unico criterio possibile,
quello della validazione a vista -; è palese come si crei quindi una contraddizione in
termini, nel senso che poiché il primo indicatore è stato validato a vista, accettando
dunque tale metodo, non c‟è motivo per il quale anche per il secondo non si debba fare
altrimenti, senza relazionarlo con il primo;
-
validazione per costruzione: si tratta di un metodo molto sofisticato, che si
contraddistingue dalle altre perché risulta necessario in questo caso riferirsi in modo
esplicito alla sociologi; in questo caso sono presenti un metodo esterno, una logicità fra
indicatore ed indice, e una teoria fondata relativamente all‟oggetto rilevato dall‟indice o
dall‟indicatore.
28
-
Per quanto riguarda il concetto di attendibilità, invece, si ha a che fare con una materia meno
complessa della validità, e si riferisce in particolar modo alla variabile, più che all‟indicatore.
È verosimile pensare all‟attendibilità come prodotto di alcune azioni, come – appunto - la
tecnica del test-ritest, ovvero reiterare due volte una stessa rilevazione: è facilmente intuibile
come, al fine di valutare l'affidabilità delle variabili in esame ripresentando agli stessi
intervistati gli stessi interrogativi, occorra lasciar passare un periodo di almeno un mese
perché queste persone possano dimenticarsi le risposte date nel questionario precedente; è
però così complicato riuscire ad entrare nuovamente in contatto con le medesime persone e
a ricreare le stesse condizioni ambientali, che il test-ritest non si effettua di fatto
frequentemente.
2.2.3.2.
LA SCALA DI THURSTONE
Tale scala è organizzata in undici frasi, scelte da un insieme costituito da un totale di 150 valutate
da persone scelte in base alle loro competenze (docenti universitari, persone che fanno parte di
associazioni, ecc..) e che sono quindi ritenute in grado di analizzarle correttamente: ogni soggetto
ha il compito di analizzare tali frasi una per una, ordinandole dal livello più basso a quello più alto
di significatività; si procede quindi alla scelta delle 11 definitive. Se i giudici sono stati selezionati
in maniera mirata, si dovrebbero ottenere undici frasi, ordinate secondo intervalli che misurano la
stessa ampiezza, e quindi equidistanti tra loro.
Senza dubbio la scala di Thurstone dipende molto dai soggetti che intervengono nella ricerca, ed è
inoltre evidente come la preparazione di una scala come quella di Thurstone richieda grande
dispendio di denaro e tempo.
2.2.3.3.
LA SCALA (O SCALOGRAMMA) DI GUTTMAN
La scala di Guttman nasce dalla volontà di trovare una soluzione alla questione
dell‟unidimensionalità presente nella scala Likert: tale scalogramma consta di un insieme di items
capaci di rappresentare, mediante i loro contenuti, il crescere o il diminuire di uno specifico
atteggiamento; per fare ciò è quindi indispensabile rispettare la prerogativa della gerarchia perfetta
degli items.
29
Diversamente da quanto accade nella scala Likert, nella scala Guttman i quesiti dovranno ricoprire
l‟intera estensione del continuum di risposte: mentre quindi, usando la scala di Likert è verosimile
poter ottenere un medesimo punteggio in modi differenti, con quella Guttman ad un preciso
punteggio corrisponderà in via teorica una ed una sola serie di risposte.
Per dare un esempio pratico, si considerino un soggetto A e un soggetto B, e si immagini che A
abbia un punteggio totale maggiore di B: la serie di items in questione verrà definita come “scala
unidimensionale” solamente nel caso un cui il soggetto A consegua in ognuna delle risposte del
questionario un punteggio che sia identico o superiore a B; in questo caso, è possibile identificare le
risposte che ogni individuo ha dato ai singoli items della scala partendo dal punteggio complessivo.
In pratica, però, è sostanzialmente impossibile riuscire a realizzare una scala perfetta in quanto è
verosimile che i soggetti forniscano risposte differenti da quanto previsto in fase di redazione del
questionario: spesso, quindi, l‟uso di questa scala è limitato alla fase di organizzazione dei dati
ottenuti, al fine di verificare l'effettiva unidimensionalità di una determinata batteria di item.
Il problema principale nella realizzazione e nell‟analisi della scala di Guttman è senza dubbio
quello relativo alla sua natura: tale modello risulta strettamente deterministico e teorico, quando al
contrario la realtà sociale può venire compresa in modo corretto solo mediante l‟uso di modelli
probabilistici che ammettano la possibilità di errori, in modo tale da rispecchiare più fedelmente il
divenire presente nella vita di tutti i giorni.
2.2.3.4.
LA SCALA DI BOGARDUS
La scala di Bogardus rappresenta sostanzialmente una semplificazione dello scalogramma di
Guttman; ideata da Emory Bogardus nel 1928, è la più antica tra quelle che la letteratura annovera
come principali. Nasce come scala per misurare la “distanza sociale” dei nativi americani rispetto
agli stranieri, in un contesto caratterizzato da profondi scontri etnici come quello degli Stati Uniti in
questo particolare momento storico. Questo metodo di misurazione prevede sette frasi – o item ognuno delle quali indica uno stesso concetto, ma con una particolare sfumatura differente in
relazione all‟atteggiamento che si vuole cogliere.
S‟inizia, in sostanza, con la frase che esprime la più ampia distanza sociale, come ad esempio
potrebbe essere, nel caso specifico del giudizio sulla presenza di persone straniere: “sarebbe
disposto ad escluderli dal suo Paese?”; qualora l‟intervistato rispondesse in maniera positiva,
l‟intervista potrebbe considerarsi conclusa e la risposta data etichettata come “razzista”. Se
l‟intervistato rispondesse invece in maniera negativa, si potrebbe passare alla frase superiore, che
30
risulterà caratterizzata da una minore distanza rispetto a quella precedente, e così fino a che viene
data risposta positiva, o si arriva all‟inizio della scala, un punto caratterizzato dal massimo della
tolleranza: una domanda esemplificatrice di questo livello potrebbe essere, in questo caso, “Lo
accetterebbe mai come padre dei suoi nipoti?”.
Il punto debole di questo metodo di rilevazione, è che tutti gli item vengono assunti come indicatori
del medesimo concetto di “razzismo”: questa relazione univoca tra concetto espresso ed indicatore
in realtà non esiste in quanto uno stesso indicatore potrebbe rappresentare concetti tra loro differenti
come anche, al contrario, un concetto potrebbe venire rappresentato da più di un solo indicatore;
inoltre, ad esempio, è verosimile che io accetti la possibilità di avere uno straniero come vicino di
casa, ma non sia altresì favorevole a concedergli la cittadinanza. È sempre importante avere ben
presente che le persone non necessariamente rispondono in maniera fedele a quanto teorizzato nei
manuali, e che non sempre nelle risposte che vengono date è presente la coerenza. A parte queste
ultime considerazioni (relativamente) marginali, nel caso tutte e sette le frasi vengano
somministrate alla persona intervistata si andrà a calcolare la media dei valori degli item accettati.
2.2.3.5.
IL METODO DEL DIFFERENZIALE SEMANTICO
Tale scala, scarsamente utilizzata fino a pochi anni fa in ambito statistico, fu sviluppata da uno
psicologo americano negli anni „50, ed ha recentemente assunto maggiore importanza nell‟ambito
dello studio del soggetto. La serie, in questo caso, è inserita all‟interno di una coppia di concetti (o
di aggettivi), uno dei quali con significato esattamente opposto all'altro come, per fare degli esempi:
nuovo/vecchio, maschile/femminile, debole/forte, ecc. Ad esempio, ancora, si può chiedere quanto
un determinato aspetto della qualità (come la cortesia del personale, la qualità del cibo, ecc.) sia più
vicino all‟idea di “importante” oppure a quella di “trascurabile”.
Il metodo del differenziale semantico misura, in sostanza, il significato "affettivo" (inteso come il
livello di disposizione a favore o meno nei confronti di un concetto) di stimoli o pareri, misurato
tramite una scala saldata a due aggettivi di senso opposto. Mediante tale scelta da parte
dell‟intervistato, è possibile valutare le differenze che ogni individuo pone nell‟analisi dei concetti:
è per questo che il differenziale semantico è spesso considerato uno strumento atto a cogliere l'idea
di oggetti o concetti che il soggetto ha, più che gli atteggiamenti che egli dimostra nei loro confronti.
Per la costruzione di tale modello si procede nella scelta di una coppia di aggettivi bipolari che
andrà a costituire il continuum: per determinare la direzione e il grado del giudizio che il soggetto
31
ha espresso mediante segno in corrispondenza della posizione che ritiene più rappresentativo del
proprio giudizio in merito all‟oggetto dell‟analisi. Si veda l‟esempio:
La cortesia del personale ha deluso le sue aspettative o ha superato le sue aspettative?
Ha deluso le aspettative
5
4
3
2
Ha superato le aspettative
1
0
1
2
3
4
5
Al fine di ottenere un‟analisi più veritiera e valida, è necessario che vengano rispettati determinati
criteri nel momento della scelta degli aggettivi agli estremi del continuum, in modo tale che essi
siano rispondenti del basilare requisito di bipolarità; il limite maggiore di questo metodo è
rappresentato dalla difficoltà di riuscire ad identificare aggettivi a due a due completamente bipolari
in termini semantici: è infatti verosimile pensare che due aggettivi apparentemente opposti varino il
loro significato in base al contesto, andando ad intaccare la validità della misurazione mediante
differenziale semantico. È in secondo luogo complicato riuscire a trovare aggettivi che risultino
ugualmente carichi di significato sia per l‟intervistato che per il ricercatore.
Può essere utile, a tal fine, adottare piccoli accorgimenti quali:
-
avvalersi di coppie di aggettivi che siano formalmente estranee al tema oggetto di analisi, al
fine di non assumere significati differenti in base al pensiero del soggetto che sta procedendo
alla compilazione del questionario, risultando quindi sensibili all‟ “ambiente” all‟interno del
quale il modello viene redatto;
-
preferire una compilazione “d‟istinto”, al fine di ottenere una risposta che risulti più una
“reazione emozionale” del soggetto piuttosto che un pensiero razionale influenzato, ancora una
volta, dall‟ambiente di compilazione o da esperienze personali;
-
disporre in maniera casuale la polarità delle risposte ai vari quesiti, intervallando aggettivi con
direzione diversa al fine di stimolare l‟attenzione del soggetto ed evitare il fenomeno del
response set;
-
utilizzare un numero non superiore a 4/5 coppie di attributi polari per ogni dimensione al fine di
ottenere uno strumento che risulti abbastanza valido ed attendibile.
L‟analisi iniziale condotta da Osgood nell‟impiego del metodo del differenziale semantico nel
campo psicologico, trasferita poi anche nella sua applicazione più generale nell‟esame della
32
customer satisfaction, presumeva l‟esistenza di tre dimensioni semantiche all‟interno delle quali
dovranno essere ricondotti gli aggettivi scelti per la scala; in particolare:
1. valutazione: esprime un giudizio di valore con funzione di differenziare ciò che viene
giudicato in maniera positiva da ciò che non lo è, o con altre parole, quanto suscita una
concezione positiva rispetto a quanto invece viene rifiutato (es: bello/brutto, buono/cattivo);
2. potenza: si riferisce alla “forza” dei giudizi in esame, misurata dalla resistenza che essi
riescono a porre contro l‟azione del soggetto (es: largo/stretto, forte/debole);
3. attività: esprime il grado di attivazione che i concetti suscitato nell‟organismo (veloce/lento,
prevedibile/imprevedibile, veloce/lento).
33
CAPITOLO 3
QUESTIONARIO ESISTENTE E
NUOVA INTERVISTA
3.1.
LA VISIONE GENERALE E LA MISSION DELL’INTERVISTA
Il questionario presentato in questa analisi, riportato in appendice – Tavola 2 – e ideato per valutare
la soddisfazione della clientela all‟interno dei punti vendita Berica Chef, è stato sviluppato nei mesi
di dicembre e gennaio scorsi, e sottoposto alla clientela durante le due settimane centrali di
febbraio: l‟obiettivo finale ed unico è quello di capire come si rapportano i consumatori rispetto
all‟azienda, valutandone la soddisfazione, ed estrapolarne eventuali segmentazioni rispetto alla
popolazione totale dei rispondenti.
Il questionario in oggetto è diviso in tre parti, riguardanti rispettivamente la conoscenza generale del
punto vendita, la soddisfazione del cliente in seguito alla sua visita, e una conclusiva riguardante la
personale anagrafica.
Nel dettaglio, la prima parte identifica solo ed esclusivamente la frequenza settimanale con cui il
cliente frequenta mediamente il punto vendita in oggetto; ci sarà utile in corso di analisi per valutare
eventuali richieste latenti di fidelizzazione da parte del consumatore.
La parte centrale entra nello specifico dell‟esame della visita, guidando il consumatore attraverso un
percorso di analisi della soddisfazione relativamente al prezzo, alla qualità del cibo, alla cortesia e
gentilezza del personale, e al tempo di attesa dei prodotti. Questa fase centrale si conclude con un
suggerimento richiesto allo stesso cliente in relazione ad un miglioramento generale dell‟offerta, al
fine di un aumento della qualità percepita ali occhi dell‟intervistato e, non da ultimo, l‟idea di una
partecipazione al miglioramento aziendale.
La terza e ultima parte, contenente l‟anagrafica del consumatore, permette di profilarlo e creare
quindi una serie di tali utili a capirne l‟età media, il sesso, la provincia di residenza e occupazione, i
componenti del nucleo familiare, il titolo di studio, la professione.
34
3.1.1. IL QUESTIONARIO ESISTENTE: ANALISI GENERALE
La realizzazione del questionario oggetto di questa tesi parte dall‟analisi dell‟intervista precedente,
messa a punto in condizioni e per scopi analoghi, ma con una struttura più debole e difficilmente
adattabile allo scopo, se non in sue poche parti.
Nel caso particolare, l‟idea del questionario esistente - posto in una sezione dedicata del sito web di
Berica Chef - nasce dall‟attenzione che l‟azienda da sempre pone nel rapporto con i propri clienti:
la cura dei particolari, il focus su aspetti quali la cortesia, l‟organizzazione degli operatori,
l‟assortimento e l‟esposizione delle pietanze, sono quid sui quali è fortemente basato il credo
aziendale, ed è per questo che l‟opinione dei consumatori che ogni giorno frequentano i punti
vendita „L‟Albero‟, „La Tarantella‟ e „D-Burger‟ diventa fondamentale nell‟analisi delle prestazioni
del marchio Berica Chef. Lo spunto per la creazione dell‟intervista sono quindi stati i pochi ma
fondamentali punti che caratterizzano la vita di un punto di ristorazione self service:
-
qualità;
-
prezzo;
-
cortesia del personale;
-
organizzazione ed assortimento dell‟offerta.
Attraverso questi aspetti è stato possibile delineare il percorso da seguire negli ultimi anni,
confermando aspetti già analizzati dagli amministratori dell‟azienda stessa, con risultati che si
attestano su valori mediamente soddisfacenti per tutti i caratteri analizzati; spiccano, in particolare,
la cortesia degli operatori e l‟organizzazione con il quale viene esercitato il servizio all‟interno dei
vari punti self service.
Si lascia alla curiosità di chi legge la lettura del questionario, presente in appendice (Tavola 1), e ci
si concentra sui risultati esaminati attraverso l‟analisi tabellare; è necessario chiarire che la presente
intervista è stata estrapolato dal sito istituzionale di Berica Chef, ed è consultabile e compilabile
esclusivamente online (questo aspetto verrà esaminato in seguito, nella disamina realizzata per
verificare eventuali lacune o difetti presenti nella redazione).
Prima di procedere all‟esamina delle tabelle sottostanti riassumenti i dati raccolti mediante analisi
online, è necessario chiarire a questo punto alcune notazioni presenti nelle tavole stesse; in
particolare, si considerino le seguenti abbreviazioni:
35
-
“m.sod” = molto soddisfatto: stato che indica il grado massimo di soddisfazione esprimibile
dal cliente del self service, corrispondente al livello di servizio complessivo ottimale;
-
“sodd” = soddisfatto: indice intermedio/positivo, si rifà ad un giudizio mediamente positivo
relativamente alle caratteristiche prese in esame. È importante capire su quali aspetti poter
migliorare perché il cliente possa ritenersi “molto soddisfatto” e scelga il punto vendita
dell‟azienda committente come sua prima scelta nel caso di una successiva visita;
-
“abb.sod” = abbastanza soddisfatto: indice appena sufficiente, rappresenta il giudizio di chi
può ritenersi complessivamente soddisfatto, ma che può aver verosimilmente notato qualche
aspetto negativo nell‟offerta sottopostagli. Fondamentale, a questo punto della
classificazione, riuscire ad identificare le criticità percepite dal cliente, al fine di intervenire
prima che la suo opinione passi al grado di insoddisfazione; in questo momento, infatti, è
verosimile pensare che possa subentrare la sfiducia nei confronti del marchio, e il successivo
abbandono da parte del cliente. È evidente che richiede un dispendio di energie molto
minore l‟aggiustamento dell‟offerta fintantoché l‟acquirente nutre ancora fiducia sufficiente
nell‟offerta, piuttosto che la sua successiva riconquista dello stesso: il CRM trova il suo
scopo finale proprio nel riuscire ad analizzare le criticità, anche grazie all‟aiuto che il
consumatore stesso riesce a fornire attraverso la compilazione di un questionario strutturato
adeguatamente dall‟azienda, ed adattarne di conseguenza l‟offerta;
-
“ins” = insoddisfatto: indice peggiore tra quelli eleggibili, rappresenta la totale nonsoddisfazione da parte del cliente e un suo probabile abbandono dell‟offerta proposta, con
successivi costi elevati di riconquista dello stesso. È necessario in questa fase modificare
parzialmente o totalmente l‟offerta, intervenendo se possibile sugli aspetti che il rispondente
identifica come criticità o negatività; fondamentale anche che nella compilazione del
questionario venga perciò data la possibilità di esprimersi relativamente a quanto di non
positivo è stato riscontrato durante la fruizione del servizio: sarà questo uno degli aspetti
fondamentali su cui si baserà la stesura della nuova intervista, oltre che su una maggio
capacità di clusterizzazione della clientela finora non considerata, e basata su molteplici
variabili ritenute interessanti da chi ha chiesto la stesura dell‟intervista, e da chi si è
occupato della realizzazione.
Si vedano dunque i risultati riassunti nelle seguenti tabelle, estratte dai documenti utilizzati
dall‟amministrazione per una sommaria analisi dei dati raccolti, sulle quali sono state fatte alcune
semplici analisi sulla base dei dati in esse contenute, e mediante le quali è stato possibile riassumere
i dati in istogrammi al fine di meglio comprendere la distribuzione delle risposte:
36
Riassunto tabellare dei risultati relativi al self-service “L’Albero…l’Italia a tavola”:
N. questionari Albero
39
m.sod
prezzo
1
qualità
1
cortesia e organizzazione
2
assortimento offerta
5
%
2,56
2,56
5,13
12,82
sodd
13
19
24
18
%
abb.sod
33,33
18
48,72
15
61,54
8
46,15
13
%
46,15
38,46
20,51
33,33
ins
7
4
5
3
%
17,95
10,26
12,82
7,69
tot
39
39
39
39
Riassunto tabellare dei risultati relativi al fast-food “D-Burger – Club House”:
N. questionari D-Burger
prezzo
qualità
cortesia e organizzazione
assortimento offerta
14
m.sod
%
3
21,43
4
28,57
2
14,29
1
7,14
sodd
7
5
8
10
%
50,00
35,71
57,14
71,43
abb.sod
4
5
4
3
%
28,57
35,71
28,57
21,43
ins.
0
0
0
0
%
0,00
0,00
0,00
0,00
tot
14
14
14
14
Riassunto tabellare dei risultati relativi alla pizzeria “Tarantella…che pizza!”:
N. questionari Tarantella
prezzo
qualità
cortesia e organizzazione
assortimento offerta
22
m.sod
0
2
0
4
%
0,00
9,09
0,00
18,18
sodd
11
8
16
8
%
50,00
36,36
72,73
36,36
abb.sod
9
11
5
9
%
40,91
50,00
22,73
40,91
ins
2
1
1
1
%
9,09
4,55
4,55
4,55
tot
22
22
22
22
Riassunto tabellare dei risultati relativi alla sezione riservata ai suggerimenti da parte dei clienti:
cosa le piacerebbe trovare nei locali
servizio al tavolo
miglior comunicazione
maggior assortimento
maggior efficienza
miglior disposizione e accesso
nessun suggerimento
totale
75
pepe
0
6
4
2
2
1
15
%
0,00
8,00
5,33
2,67
2,67
1,33
20,00
albero
1
13
13
4
5
4
40
%
1,33
17,33
17,33
5,33
6,67
5,33
52,00
tarantella
0
8
9
1
0
2
20
%
0,00
10,67
12,00
1,33
0,00
2,67
26,67
Riassunto tabellare dei risultati relativi alla valutazione dei sito web:
come valuta il nostro sito web
molto soddisfacente
soddisfacente
abbastanza soddisfacente
insoddisfacente
indifferente
totale
75
n.
%
7
9,33
19
25,33
17
22,67
10
13,33
22
29,33
75
100,00
37
Si considerino poi le seguenti rappresentazioni:
Rappresentazione grafica dei risultati relativi al self-service “L’Albero…l’Italia a tavola”:
Rappresentazione grafica dei risultati relativi al fast-food “D-Burger – Club House”:
38
Rappresentazione grafica dei risultati relativi alla pizzeria “Tarantella…che pizza!”:
Rappresentazione grafica dei risultati relativi alla sezione riservata ai suggerimenti da parte dei
clienti:
Rappresentazione grafica dei risultati relativi alla valutazione dei sito web:
39
Mediante una rapida disamina dei dati raccolti in tabella, possiamo trarre alcune conclusioni
relative ai risultati stessi, di seguito brevemente riassunti; l‟analisi occuperà giusto lo spazio di
alcune riflessioni, per lasciare poi spazio all‟analisi della struttura dell‟intervista e del processo che
ha condotto alla stesura di quella nuova.
Per quanto riguarda i dati riassumenti le opinioni degli intervistati, nel dettaglio, emerge una
soddisfazione mediamente diffusa, con risposte che si concentrano in tutti gli ambiti di intervista
riassunti nelle prime tre rappresentazioni (sia tabellare che grafica) sulle due modalità centrali,
corrispondenti nel dettaglio alle risposte “soddisfatto” e “abbastanza soddisfatto”; relativamente
ai suggerimenti rispetto ad un adeguamento dell‟offerta fornita, il cliente suggerisce mediamente
una miglior comunicazione e un maggior assortimento; da ultimo, la valutazione sul sito web, al
riguardo del quale emerge un‟opinione piuttosto indifferente
A partire dall'osservazione del questionario precedente, si deve procedere quindi ponendosi alcune
domande fondamentali:
-
quali sono gli errori principali commessi nell‟analisi esistente?
-
quale organizzazione dei dati avrebbe permesso di ottenere maggiori informazioni?
-
in che misura voglio ottenere informazioni differenziate e, di conseguenza, quante domande
avrà e in che modo saranno strutturate e formulate al fine di aiutare la clusterizzazione dei
rispondendi?
-
che tipo di domande ho intenzione di inserire nel questionario?
-
quale sarà la struttura delle risposte possibili?
-
cosa voglio sapere concretamente dalla nuova stesura e per quale scopo ultimo utilizzerò le
risposte raccolte?
3.1.2. GLI ERRORI PRINCIPALI COMMESSI NEL PRECEDENTE
QUESTIONARIO
L‟errore principale commesso nel questionario presente è sicuramente la mancanza di una parte
dedicata all‟anagrafica: in questo modo, non è possibile identificare – e quindi classificare – le
risposte date dagli intervistati, non potendo di conseguenza creare profilazioni del rispondente in
base all‟età, al reddito, all‟occupazione, alla provincia di nascita e residenza e, non da meno, è
impossibile capire come tali variabili abbiano influenzato la risposta data dal soggetto cui è stata
sottoposta l‟intervista.
40
Un secondo punto debole, sicuramente meno impattante del primo ai fini di un‟eventuale
clusterizzazione futura, ma altrettanto importante per valutare l‟efficacia della struttura
dell‟intervista, è la sola possibilità di compilazione online. Se è vero che l‟accesso a internet ormai
non rappresenta più un limite come poteva esserlo fino ai primi anni „90, è altresì vero che l‟Italia
rappresenta ancora, a fine 2014, il fanalino di coda in Europa per diffusione del web all‟interno
della popolazione.9 Nello specifico, nonostante un aumento del numero complessivo delle famiglie
che dispongono di una connessione alla rete, una parte consistente di esse, rappresentate nel
dettaglio dal 38,3% della popolazione che risiede nel territorio italiano, ha ancora delle difficoltà di
fruizione del web o, addirittura, non ne ha mai avuto accesso.
Il terzo errore, si riferisce ad una struttura delle risposte disponibili troppo poco complessa: esse,
infatti, non permettono al cliente finale una corretta espressione del suo pensiero, costringendolo a
decidere sulla base di solamente quattro possibilità; se da un lato potrebbe al contrario essere
considerata un aspetto positivo, in quanto permette una maggiore attenzione e concentrazione sulle
alternative accettabili, non ponendo il rispondente di fronte ad un elenco talvolta troppo lungo di
possibilità, è altresì vero che non sempre il pensiero di quest‟ultimo potrà risultare in sintonia con le
sole quattro modalità presentate, non considerando poi anche il fatto che nessun di queste quattro
rappresenta a tutti gli effetti una posizione, ad esempio, neutrale. Da considerare inoltre lo
sbilanciamento delle risposte possibili: cercando una divisione delle stesse sulla base della loro
connotazione positiva o negativa, risulta evidente come tre possibilità su quattro permettano di
esprimere una posizione a favore del quesito posto, mentre solo una ne condivide l‟aspetto
contrario; a tal proposito il nuovo questionario è stato strutturato per permettere un equilibrio
consistente nello sviluppo delle alternative possibili, e rispecchiare in maniera più fedele la
clusterizzazione dei consumatori attorno all‟una o all‟altra posizione. Un aumento delle risposte
eventuali – sette - ha inoltre permesso di rendere più facile il riconoscersi di ogni cliente nei
confronti di una delle posizioni contemplate nella stesura dell‟intervista, evitando così risposte date
per sommi capi o per mera volontà di non lasciare incompleto il questionario, e permettendo una
veridicità e affidabilità maggiore dell‟analisi compiuta.
Da ultimo, è utile sottolineare come l‟analisi compiuta solo per mezzo di tabelle riassuntive
dell‟esame univariato delle diverse domande, e la rappresentazione mediante istogrammi, penalizzi
una possibilità di valutazione più approfondita delle risposte date. Nello specifico, l‟assenza di
tabelle pivot per l‟analisi bivariata, o di analisi delle componenti principali, non permette di
sfruttare al meglio i dati raccolti dalle poche interviste effettuate.
9
http://www.istat.it/it/archivio/143073
41
3.2.
IL NUOVO QUESTIONARIO: LA STRUTTURA DELLE DOMANDE
Come anticipato nel primo paragrafo di questo capitolo, il questionario risulta strutturato in tre
parti; per svilupparle, si è scelto di seguire un processo che permettesse al lettore la massima
attenzione lungo tutto il proseguo dell‟intervista, cercando – salvi pochi casi relativi ai quesiti
centrali – di alternare le domande con modalità di risposta differenti, al fine di evitare il fenomeno
del response set ma anche solamente per non fare in modo che il soggetto potesse annoiarsi e
abbandonare la compilazione prima del termine dell‟intervista.
Nel dettaglio, si alternano pertanto domande con possibilità di risposta chiusa (Q1) e semichiusa
(Q3, Q9) ad altre costruite sulla base di una scala Likert in 7 modalità di risposta tra loro
equidistanti:
-
Completamente insoddisfatto;
-
Non soddisfatto;
-
Poco soddisfatto;
-
Indifferente;
-
Soddisfatto;
-
Più che soddisfatto;
-
Molto soddisfatto.
Tale numero di alternative possibili garantisce, grazie allo studio che ha portato al loro sviluppo, da
un lato l‟esistenza di una risposta neutra centrale, nel caso il rispondente non volesse sbilanciarsi
relativamente al quesito, d‟altro canto un numero così piuttosto elevato di opzioni permette al
rispondente una più facile identificazione con una di esse, evitando che si scoraggi e – di nuovo –
scelga di abbandonare l‟intervista o continui la compilazione in maniera casuale solo perché si senta
in dovere di farlo.
S‟identificano con questa scala le domande considerate fondamentali per la segmentazione della
popolazione, e che si rispecchiano nei quesiti che vanno da Q2 a Q8, tralasciando però – come detto
– la domanda Q3; nel dettaglio siano:
42
-
Q2, rispondente alla domanda “Si ritiene mediamente soddisfatto del prezzo speso?”;
-
Q4, rispondente alla domanda “La pietanza ha rispettato le sue aspettative iniziali?”;
-
Q5, rispondente alla domanda “Come valuta la qualità generale del cibo che ha scelto?”;
-
Q6, rispondente alla domanda “Può ritenersi soddisfatto della cortesia e della gentilezza del
personale?”;
-
Q7, rispondente alla domanda “Si ritiene mediamente soddisfatto del tempo di attesa dei
prodotti ordinati?”;
-
Q8, rispondente alla domanda “Qual è la valutazione complessiva relativamente alla sua
visita?”.
L‟ultima parte, quella relativa all‟anagrafica, è invece caratterizzata da domande che alternano
possibilità di risposta chiusa, ad altre semichiusa; di nuovo, l‟alternanza delle modalità possibili
garantisce che il rispondente non si trovi di fronte ad un andamento monotòno e sia quindi
maggiormente incoraggiato alla compilazione, non risultandosi annoiato o poco attento. Posizionare
la parte relativa al profilo del cliente nella parte finale, dove l‟attenzione è mediamente più bassa
rispetto all‟iter di compilazione delle restanti parti del questionario, significa permettere
all‟intervistato di poter rispondere in maniera comunque meno attenta e impegnata, in quanto le
risposte provengono non da una riflessione relativa all‟esperienza appena vissuta o a competenze
specifiche, quanto piuttosto da conoscenze già mentalizzate relative alla sua persona.
43
CAPITOLO 4
L’ANALISI DEI RISULTATI:
TEORIA E METODI DI
SEGMENTAZIONE
In tale capitolo ci si propone di analizzare i metodi che permettono di ridurre e interpretare i dati
raccolti per mezzo di strumenti legati al CRM, quali ad esempio sono i questionari somministrati
per mezzo di un intervistatore o compilati in maniera autonoma (ed anonima) da parte di una
persona intervistata; nel dettaglio, lasciando alla successiva sezione una sintesi dei concetti di
analisi univariata e bivariata, si espone di seguito il concetto di clusterizzazione – o segmentazione
– e la sua applicazione nel contesto dell‟analisi compiuta.
4.1
L’ANALISI DEI GRAPPOLI O CLUSTER ANALYSIS
Con il termine clustering, o segmentazione, si indica in statistica un complesso di tecniche di analisi
multivariata dei dati raccolti mediante intervista, e finalizzate all‟identificazione e alla
concentrazione di elementi omogenei presenti all‟interno di un insieme eterogeneo di dati; tali
tecniche si fondano cioè sulla misurazione della somiglianza tra gli elementi della popolazione
oggetto di indagine.
Nella maggior parte dei casi, tale dissimilarità è interpretata alla stregua di distanza all‟interno dello
spazio pluridimensionale: si identifica cioè una misura di distanza dij (ovvero relativa alla i-esima
riga e j-esima colonna) allo scopo di operare una sintesi delle informazioni contenute nella matrice
iniziale X ( n´ p) dei dati - con n numero dei rispondenti e p numero delle risposte da essi date alle
relative domande presenti all‟interno del questionario - attuata in funzione delle relazioni esistenti
tra le unità di riga, di colonna, oppure di riga e colonna. Si possono distinguere alcune proprietà
fondamentali delle misure di distanza:
44
-
dij > 0 detta “non negatività”, implica che la distanza tra gli item considerati sia sempre
maggiore di zero;
-
dii = 0 ovvero è nulla la distanza di un elemento da se stesso;
-
dij = dji detta “simmetria”: è uguale cioè la distanza esistente tra i e j o tra j e i;
-
dij < dir + drj detta “diseguaglianza triangolare”, ovvero quel teorema geometrico per il quale
la somma dei cateti di un quadrato è sempre maggiore della lunghezza dell‟ipotenusa.
Fissate quindi le variabili che si ritengono utili all‟analisi, è opportuno operare un esame delle
misure di distanza che sussistono tra le unità statistiche al fine di valutare come queste possano
essere eventualmente raggruppate in un processo di segmentazione della popolazione rispondente; è
possibile perciò utilizzare diversi tipi di indicatori di distanza, di cui i più utilizzati sono:
1. distanza euclidea: equivale, in sintesi, alla distanza geometrica delle variabili all‟interno
dello spazio pluridimensionale;
2. distanza euclidea ponderata: nei casi in cui esistano pesi differenti relativamente alle
variabili che sono, nello spazio, più distanti; in particolare, maggiori saranno le distanze,
maggiore sarà il peso attribuito alla variabile in esame;
3. distanza assoluta, o di Manhattan: detta anche “city-block”, rappresenta unicamente la
differenza media che esiste tra le dimensioni considerate; tale distanza viene spesso usata
nel caso in cui le variabili sono classificate in maniera ordinale
4. distanza di Chebychev, considerata nei casi in cui a incidere sul concetto di “differenti” sono
le differenze rilevate in entrambe le dimensioni della variabile;
5. distanza di Mahalanobis: tale distanza considera le variabili attraverso le quali differenti
pattern possono essere identificati ed analizzati. […] Differisce dalla distanza euclidea in
quanto tiene conto delle correlazioni all'interno dell'insieme dei dati.10
6. distanza di Minkowsky: generalizzazione sia della distanza euclidea che della distanza di
Manhattan.11
La scelta della distanza più opportuna all‟analisi che si sta compiendo influisce in modo importante
sulla bontà del risultato della stessa: è quindi fondamentale calcolare in modo corretto la distanza
esistente tra le variabili considerate, posto che il clustering raggruppa i dati in base alla loro
dissimilarità vicendevole e, di conseguenza, all'appartenenza o meno ad uno degli insieme che
emergono dall‟esame. Scelta la misura di disuguaglianza migliore per l‟analisi dei dati raccolti
10
11
http://it.wikipedia.org/wiki/Distanza_di_Mahalanobis
http://it.wikipedia.org/wiki/Distanza_di_Minkowski
45
attraverso la somministrazione dei questionari, si procede perciò alla scelta dell‟algoritmo idoneo
alla clusterizzazione degli stessi. Normalmente, si distingue tra:
-
metodi gerarchici: portano alla creazione di gruppi ordinabili mediante livelli crescenti, per
giungere ad un numero di cluster che va da n ad 1; tali metodi si distinguono a loro volta in
agglomerativi e non.
-
metodi non gerarchici: conducono alla formazione di una distribuzione unica delle n unità in
un numero g di cluster, aprioristicamente determinato.
Si arriva in questo modo a determinare un‟ampissima quantità di metodi di classificazione, i più
importanti dei quali si distinguono – come visto – in base alla loro capacità di agglomerare o
dividere i dati raccolti mediante l‟intervista – quindi relativamente al risultato fornito – oppure,
sulla base dell‟algoritmo, in gerarchici e non gerarchici. In ogni caso, l‟importanza che ogni
variabile ricopre nella composizione di ciascun grappolo è direttamente connessa alla varianza
insista nelle variabili stesse; di conseguenza, le variabili che presentano un grado maggiormente
elevato di dispersione avranno maggior influenza sulla misura della distanza.
Le tecniche di clustering gerarchiche possono essere a loro volta distinte in due grandi gruppi:
-
metodi aggregativi o dal basso verso l‟alto (bottom-up): l‟iter di tale metodo presuppone che
ogni elemento della popolazione sia inizialmente considerato come un cluster singolo; vi
saranno pertanto tanti gruppi quante sono le osservazioni registrate durante l‟intervista. Il
secondo passo è quindi l‟aggregazione dei segmenti più vicini; l'algoritmo segue unendo i
diversi elementi fino al raggiungimento di un numero di gruppi inizialmente fissato, o
fintantoché la distanza minima esistente tra i differenti cluster non risulti superiore ad un
valore stabilito secondo un determinato criterio statistico prefissato;
-
metodi divisivi o top-down, ovvero dall‟alto verso il basso: l‟intero insieme di elementi è
inizialmente posizionato all‟interno di un singolo cluster; successivamente, l'algoritmo
inizia ad elaborare la segmentazione dividendo il gruppo iniziale in tanti sotto-gruppi che
presentano dimensioni minori, secondo il criterio per il quale si cerca di ottenere grappoli
che risultino sempre più omogenei tra loro, fino al caso limite nel quale vi saranno tanti
cluster quanti sono gli iniziali elementi della popolazione; se non vi è un numero prefissato
di gruppi, è ovviamente questo il momento nel quale l‟algoritmo si blocca.
46
La caratteristica chiave che distingue questi due metodi da quelli non gerachici è che, assegnato un
oggetto ad un relativo cluster, tale decisione diventa irrevocabile; i secondi, al contrario, risultano
essere solamente di tipo agglomerativo, fornendo quindi un risultato composto da una sola
partizione, considerata ottimale sulla base di un criterio precedentemente definito, e ottenuta
attraverso riassegnazioni continue delle singole unità i vari gruppi definiti.
Indipendentemente dal fatto che il metodo considerato sia agglomerativo o divisivo, esso risulterà
sempre e comunque caratterizzato da due caratteristiche fondamentali:
-
misura l‟intensità della disomogeneità esistente tra le coppie di unità;
-
è un algoritmo che permette la ricerca dei cluster sussistenti all‟interno delle unità.
4.2
I METODI GERARCHICI AGGLOMERATIVI
Elaborati da S.C.Johnson nel suo Hierarchical clustering schemes del 1967, e B.S.Everitt in
Unresolved Problems in Cluster Analysis del 1979, si riferiscono a tutte quelle situazioni in cui, a
partire da n cluster eterogeneamente diffusi si giunge, attraverso una serie di fusioni successive dei
grappoli posti a distanze minori tra loro, alla condizione di un unico gruppo contenente le intere
unità n registrate durante l‟intervista.
Sia vero che l‟insieme degli oggetti che ci si propone di classificare abbia al suo interno una certa
misura di dissimilarità e, per semplicità, s‟immagini che tale misura sia identificata da una distanza
D ; si può quindi costruire una matrice di tali distanze esistenti tra le n unità statistiche considerate.
Le due unità con distanza minima, ovvero le due più vicine, vengono aggregate in un cluster,
registrando contestualmente a che distanza è avvenuta la fusione; si calcola poi, al passo successivo,
la distanza esistente tra il gruppo appena creato dalle unità considerate, ed i gruppi – o le unità –
restanti: tali unità statistiche entreranno a far parte del cluster realizzato, oppure verranno fuse tra di
loro al fine di formare un cluster differente.
A livello grafico, dalla matrice iniziale delle distanze D vengono eliminate due righe e due colonne,
corrispondenti ai gruppi (eventualmente) fusi, e rimpiazzate da una riga ed una colonna sole,
rappresentanti la nuova distanza trovata; si procede con questi passi fino a che non si arrivi ad una
struttura formata da un unico cluster.
47
Lo strumento mediante il quale è possibile visualizzare questa serie di passaggi è una
rappresentazione chiamata „dendrogramma‟: tale grafico presenta nell‟asse delle ascisse le unità di
riferimento identificate dalla matrice dei dati iniziali, e in quello delle ordinate, invece, le distanze
alle quali sono avvenute le fusioni oggetto di analisi; ad ogni livello di distanza corrisponderà
quindi una determinata partizione.
unità statistiche
Mediante tale rappresentazione, è possibile apprezzare la distanza esistente tra un gruppo e l‟altro,
al fine di analizzare a posteriori la similarità o la dissimilarità di due o più gruppi di unità; nella
prima fusione, rappresentata dal punto di unione più in basso, le unità statistiche saranno più simili
– e quindi più vicine – tra loro, in quanto il livello di entrata nel cluster è relativamente basso: in
questo caso l‟altezza del punto di fusione sarà ridotta. Il rapporto tra il livello di distanza a cui viene
formato un gruppo e quello in cui questo stesso si fonde poi con un altro è invece tanto maggiore
quanto più il grappolo è diverso dagli altri gruppi; naturalmente, la linea di collegamento
orizzontale altro non è che la distanza alla quale i due cluster si uniscono.
In sostanza, il dendrogramma permette di visualizzare graficamente l‟intero processo di
aggregazione delle varie unità attraverso una gerarchia di successive partizioni, e che termina con
quello che in gergo è definito come “taglio” del dendrogramma stesso; subentra pertanto il
problema di dove effettuare tale divisione, appurato che l‟interesse sarà quello di ottenere il numero
minore possibile di gruppi, ognuno dei quali dovrà presentare massima omogeneità al suo interno, e
massima eterogeneità al suo esterno. Stante queste condizioni, si può arrivare facilmente alla
conclusione che il miglior taglio genericamente possibile è quello effettuato alla base dell‟insieme
delle verticali con maggiori altezze, cioè, nell‟esempio grafico citato:
48
taglio
unità statistiche
I metodi interessati nell‟analisi di tali processi agglomerativi gerarchici si differenziano per la
modalità di calcolo della distanza tra i gruppi al fine della creazione di cluster in serie, come
descritto nel procedimento appena illustrato; in particolare, in letteratura si identificano: metodo del
legame singolo, metodo del legame completo, metodo del legame medio, metodo del centroide,
metodo di Ward.
In questa analisi considereremo però solamente quelli effettivamente utilizzati in corso di analisi,
lasciando al lettore l‟approfondimento sui metodi restanti citati.
4.2.1 METODO DEL LEGAME SINGOLO
Dall‟inglese nearest neighbour (ovvero „vicino più prossimo‟), tale metodo indica un iter di analisi
dei dati statistici attraverso il quale la distanza esistente tra i gruppi viene misurata considerando la
distanza minore tra gli elementi che appartengono ad un grappolo, rispetto a quelli appartenenti ad
un altro. Si supponga di aver rilevato quattro unità statistiche, chiamate per semplicità A,B,C,D, e di
aver determinato una misura di distanza tra le stesse, identificata con dAB, dAC,..., dCD ; ipotizzando
poi che due unità (ad esempio A e B) si siano unite in un solo gruppo, la distanza tra tale cluster AB
e la terza unità C sarà definita mediante la formula:
d( AB)C = min(dAC, dBC )
Posto successivamente che le restanti due unità C e D si siano fuse in un secondo cluster, questa
volta chiamato pertanto CD, la distanza esistente tra il primo cluster AB ed il secondo cluster CD
49
sarà definita secondo l‟equazione:
d( AB)(CD) = min(dAC, dAB, dBC, dBD, )
Al primo passo si fonderanno dunque le due unità che presentano la distanza minore, ottenendo
quindi n-1 cluster:
si riesce a calcolare ora una nuova matrice composta dalle distanze esistenti
tra gli n-1 gruppi; è in questo momento che si uniscono i due cluster con distanza minima,
continuando poi fino al punto di ottenere un cluster unico che contiene n unità.
L‟uso di tale metodo di composizione dei cluster permette di evidenziare in modo più accentuato le
somiglianze che sussistono tra gli elementi esistenti negli insiemi di osservazioni, sottolineando
maggiormente le differenze tra i grappoli rispetto alle uguaglianze all‟interno degli stessi.
4.2.2 METODO DEL LEGAME COMPLETO
Tale metodo, il cui nome deriva dall‟inglese furthest neighbour (vicino più lontano), è basato sul
criterio di distanza massima esistente tra gli individui componenti la matrice dei dati iniziali. In
breve, si supponga nuovamente di considerare 4 unità A,B,C,D e di avere determinato, anche questa
volta, una misura di distanza tra le stesse, identificata anche questa volta con dAB, dAC,..., dCD ;
ipotizzando poi che due unità (ad esempio A e B) si uniscano in un solo gruppo, la distanza tra tale
cluster AB e la terza unità C sarà definita mediante la formula:
d( AB)C = max(dAC, dBC )
Posto poi che le restanti due unità C e D siano fuse in un secondo cluster, questa volta chiamato di
nuovo quindi CD, la distanza esistente tra il primo cluster AB ed il secondo cluster CD è definita
secondo l‟equazione:
d( AB)(CD) = max(dAC, dAB, dBC, dBD, )
Si procede con tale metodo fino a che si ottengono i due cluster finali composti dall‟insieme delle
unità inziali; tale algoritmo permette di evidenziare nettamente le differenze che esistono tra i
singoli elementi, a discapito talvolta di una netta distinzione esistente tra i gruppi. La
rappresentazione mediante dendrogramma presenterà in questo caso ramificazioni molto più lunghe,
in quanto i singoli cluster si formano ad altezze molto maggiori: rispetto al primo metodo analizzato,
con questo secondo algoritmo gli elementi risultano essere meno fitti.
50
4.2.3 METODO DI WARD
Anche quest‟ultimo metodo gerarchico aggregativo può essere considerato nell‟analisi in oggetto,
anche se differisce da tutti gli altri in quanto basato fondamentalmente sulla scomposizione della
devianza (cioè il numeratore della varianza), ovvero quel processo che permette di calcolarne il
valore entro i gruppi (o within) e tra i gruppi (o between): questo metodo, in particolare, è
finalizzato a minimizzare la varianza all‟interno dei gruppi – è evidente quindi che tale criterio è da
considerare solo in presenza di variabili quantitative -. Nel passaggio da g+1 a g gruppi, attraverso
quindi l‟aggregazione tra elementi, la devianza entro i gruppi aumenta, mentre al contrario
diminuisce la devianza tra i gruppi.
Passo dopo passo, si considera l‟aggregazione di tutte le possibili coppie di gruppi, e tale unione –
basata su un concetto di varianza minima – dovrà tendere all‟ottimizzazione della partizione
ottenuta, considerata tanto migliore quanto le classi risulteranno eterogenee tra loro ed omogenee al
loro interno, aggregando ad ogni step i gruppi che presentano una minore crescita della devianza
within.
Conducendo l‟analisi dei dati mediante i metodi gerarchici associativi o agglomerativi, è possibile
scegliere il numero ottimo di cluster da considerare mediante l‟esame della distanza alla quale si
fondono i vari gruppi; se, come visto, si analizza il dendrogramma disegnato durante o dopo
l‟applicazione dell‟algoritmo, tale scelta si può facilmente compiere mediante un taglio nel punto di
massimo - o comunque di forte - incremento della distanza a cui avvengono le differenti fusioni.
Esistono tuttavia differenti altri metodi che permettono di condurre tale scelta, in particolare,
sempre mediante l‟uso della distanza di fusione si definiscono l‟indice di silhouette e il rispettivo
grafico.
4.3.
I METODI GERARCHICI DIVISIVI
Differentemente dai metodi analizzati poco sopra, e come già brevemente visto nella parte
introduttiva, tali iter gerarchici divisivi partono da un cluster iniziale, composto dall‟insieme di tutte
le unità derivanti dall‟osservazione compiuta, e suddividono in modo progressivo tale complesso in
un numero sempre maggiore di sottoinsiemi, fino al caso limite di g gruppi tra loro distinti,
corrispondenti alle n osservazioni rilevate; il processo che porta a tale conclusione si svolgerà di
volta in volta basandosi sulla suddivisione delle classi in solo e soltanto due gruppi.
51
Fanno parte di questa categoria i cosiddetti metodi nodali, ovvero quelli che si riferiscono ad un
algoritmo riassumibile in tre punti fondamentali:
-
s‟individua, nel primo passo, la coppa di unità che presenta la massima distanza, definita a
questo livello “coppia di punti nodali”;
-
successivamente, tutte le rimanenti unità sono assegnate a tali due nodi, sulla base della
distanza minima calcolata tra ognuna delle n-2 unità restanti e il punto nodale;
-
si ripetono questi due primi passi, identificando di volta in volta nuovi punti nodali
all‟interno di ogni singolo gruppo, fino all‟ottenimento di n gruppi.
Per concludere l‟esame di tali metodi, occorre sottolineare pregi e difetti che ognuno di questi
algoritmi reca con se. In primis, si può evidenziare come sia necessario presupporre ai fini
dell‟analisi una regola che permetta la classificazione delle unità, attraverso la quale sia possibile
far rientrare o meno le stesse all‟interno di un gruppo piuttosto che di un altro; chiaramente, se nel
contesto all‟interno del quale si conduce questa analisi non è possibile determinare una regola
classificatoria sufficientemente strutturata, l‟utilizzo di metodi gerarchici risulterà piuttosto
approssimativa e limitata, oltre che limitante, nel senso che può condurre a tipologie di
clusterizzazione errate. Se questo è uno degli svantaggi principali dell‟applicazione di questi
algoritmi, è certamente invece un vantaggio il fatto che tali metodi rendono possibile lo studio dei
processi che portano elementi con caratteristiche comuni ad assimilarsi, anche se questo potrebbe
essere limitante per lo studio oggetto di questa analisi in quanto presuppone delle ipotesi di
divisione aprioristicamente determinate, cosa poco realistica nell‟esame della clientela di un punto
vendita; al contrario, è proprio attraverso la somministrazione dei questionari che si tenta di
evincere eventuali caratteristiche comuni che hanno favorito la clusterizzazione della popolazione.
4.4.
I METODI NON GERARCHICI
Contrariamente a quanto considerato per gli algoritmi gerarchici divisi, tali metodi sono
caratterizzati dalla supposizione a priori del numero di cluster che s‟intende ottenere per ripartire
l‟eterogeneo gruppo di misurazioni iniziali; in sintesi, tali algoritmi sono caratterizzati da alcune
peculiarità, tra le quali le più importanti risultano essere:
-
sono metodi solitamente aggregativi, che finiscono per produrre come output una sola
partizione, partendo da n misurazioni disposte in g cluster, per arrivare ad un prodotto finale
52
costituito da un solo grappolo contenente tutte le unità di partenza;
-
è di fondamentale importanza identificare, all‟inizio del processo, il numero k dei punti da
determinare in modo tale che l‟algoritmo usato generi una partizione unica delle unità
iniziali in g gruppi finali.
Diversamente da quanto accade con gli algoritmi gerarchici, attraverso i quali si cerca passo dopo
passo la scissione – o aggregazione – ottima, nel caso di metodi non gerarchici il procedimento
permette il partizionamento delle unità sulla base di un criterio predefinito, e l‟allocazione di una
unità all‟interno di un gruppo non risulta irrevocabile, ma è al contrario possibile la sua
riassegnazione ad un cluster differente qualora il posizionamento inizialmente scelto. Posto a priori
il numero k di cluster in cui si desidera dividere il gruppo iniziale, il procedimento che regola tali
metodi non gerarchici si divide fondamentalmente in due momenti:
-
generazione di una prima partizione contenente gli n individui osservati in g cluster;
-
inizio dell‟iter algoritmico, che permette una successione di spostamenti delle varie
osservazioni all‟interno dei grappoli, al fine di conseguire una suddivisione che risponda il
maniera il più ottimale possibile alle caratteristiche di omogeneità all‟interno dei gruppi, e di
eterogeneità al loro esterno.
Va sottolineato, però, come questo secondo punto contenente l‟individuazione dell‟ottima
partizione sottintenda un‟operazione di calcolo di dimensioni tutt‟altro che modeste, viste tutte le
possibili combinazioni che permettono l‟assegnazione di un individuo n ad un gruppo g. La
letteratura propone perciò lo sviluppo di un metodo di raggruppamento che tenga in considerazione
solamente un numero plausibile di distribuzioni alternative: scelta cioè l‟iniziale suddivisione, si
prosegue riallocando le osservazioni che fanno parte dell‟analisi in maniera tale da ottimizzare la
funzione fissata come obbiettivo dell‟esame, determinata mediante k di suddivisioni, in un numero
massimo di interazioni possibili. L‟esempio migliore di questi metodi non gerarchici è quello delle
k medie - o di McQueen, 1967 - algoritmo che parte da una popolazione inziale, per riallocare
successivamente le unità al cluster che presenta il centroide più vicino, fino al punto nel quale non
esista gruppo diverso da quello di appartenenza che abbia centroide più vicino all‟unità stessa; la
procedura permette la minimizzazione – evidentemente – della devianza all‟interno dei gruppi.
53
In sintesi, se l‟algoritmo non viene sviluppato mediante software statistici – come ad esempio, nel
caso dell‟analisi in oggetto, R – si può riassumere l‟iter procedurale da seguire per lo sviluppo dei
metodi non gerachici nelle seguenti sei fasi:
1. scelta dei centri k, riferiti allo stesso numero g di gruppi;
2. posizionamento delle unità vicino al centro di riferimento, secondo la teoria per la quale
dovrà risultare minima la distanza rispetto a questo che a qualsiasi altro;
3. valutazione dei centroidi dei cluster ottenuti da questo primo posizionamento, mediante
calcolo per i g gruppi;
4. calcolo dell‟intervallo che separa ogni elemento dal corrispondente centroide del gruppo
cui appartiene: se non è minima la distanza da questo, si procede a riallocare l‟unità in
esame, posizionandola all‟interno del cluster che corrisponde al centroide con la distanza
minore; normalmente, per il calcolo di tale distanza viene considerata la distanza
euclidea;
5. si ricalcolano i centroidi dei gruppi così formati con la nuova riallocazione;.
6. si ripetono gli step 4 e 5 fino al punto in cui la formazione dei gruppi non subisce
ulteriori variazioni rispetto all‟allocazione precedente.
Si sono considerati dunque vantaggi e svantaggi dei metodi non gerarchici, come fatto per i metodi
gerarchici; dal punto di vista degli aspetti positivi, è ragionevole citare la velocità con la quale è
possibile eseguire i calcoli, e la possibilità che viene data alle varie unità di raggrupparsi tra loro in
nuovi gruppi, o di allontanarsi dagli stessi, anche se questo aspetto necessita tuttavia di ipotizzare a
priori la composizione della struttura dell‟indagine e della successiva clusterizzazione. Per
semplificare questa questione si può pensare di procedere principalmente secondo due modi
differenti: applicando un metodo di tipo gerarchico, oppure scegliendo un intervallo razionale di
accettazione del valore g onde evitare reiterazioni impegnative ma poco costruttive ai fini di una
corretta analisi dei dati raccolti.
Passando invece alle criticità di questi algoritmi non gerarchici, è utile sottolineare in particolare il
problema relativo all‟influenza che la scelta iniziale del numero di cluster e della composizione dei
gruppi mediante analisi dei centroidi può avere nell‟esito della clusterizzazione; oltre a questo, è
importante considerare che valori anomali, costruzione dei gruppi poco strutturata e numerosità
delle osservazioni insufficiente possono portare a soluzioni poco stabili.
54
In particolare, ai fini di una clusterizzazione strutturata e solida, si considerino le valutazioni
relativamente al processo di segmentazione evidenziate da Hill e Silvestri nel loro “Some problems
of the taxornetric approach” del 1964; i criteri che i due autori evidenziano, comprendono in
particolare:
-
oggettività, riferita al fatto che lavoratori che operano in maniera indipendente alla stessa
cluster analisi su identico campione, dovrebbero in linea teorica giungere agli stessi risultati;
-
stabilità, con particolare riferimento a quanto emerge dalla clusterizzazione fatta su
osservazioni equivalenti;
-
capacità di predizione delle variabili rispetto ad un nuovo gruppo di osservazioni.
A conclusione delle due analisi compiute, si può sicuramente evincere che se il fine dell'indagine è
la creazione di cluster che presentino alta omogeneità al loro interno, intesa come rapporto stretto
tra le unità che appartengono ad uno stesso cluster, è utile procedere mediante tecniche non
gerarchiche; viceversa, si può pensare di ricorrere ai metodi gerarchici. È altresì vero che nel corso
di un‟analisi statistica su un campione misurato, ad esempio, mediante questionario, le due tipologie
di metodo possono convivere, intendendo che una – quella gerarchica – può essere utilizzata ai fini
della ricerca dell‟ottima divisione in cluster della popolazione iniziale, mentre l‟altra – non
gerarchica – può essere adoperata per valutare e verificare l‟effettiva correttezza dell‟ipotesi di
segmentazione svolta mediante il metodo scelto.
55
CAPITOLO 5
L’ANALISI DEI RISULTATI:
ANALISI UNIVARIATA, ANALISI
BIVARIATA, SEGMENTAZIONE
5.1.
L’ANALISI UNIVARIATA
In questa prima parte di disamina, verranno analizzate le variabili considerate singolarmente:
un‟analisi univariata condurrà chi legge all‟esposizione di alcuni tratti salienti del questionario,
analizzandone la distribuzione in frequenza e rappresentando i dati raccolti in grafici a barre, o
istogrammi, e grafici a torta.
D‟ora innanzi, per semplificare l‟esposizione dell‟analisi univariata, ai quesiti verranno assegnati i
seguenti nomi:
1. FREQUENTAZIONE SETTIMANALE, risponde alla domanda “Quante volte frequenta
mediamente il nostro punto vendita durante la settimana?”;
2. PIETANZA SCELTA, risponde alla domanda “Quale pietanza ha scelto?”;
3. VALUTAZIONE COMPLESSIVA, risponde alla domanda “Qual è la valutazione
complessiva relativamente alla sua visita?”;
4. ETÀ, risponde alla domanda “Età”;
5. SESSO, risponde alla domanda “Genere”;
6. PROVINCIA DI RESIDENZA, risponde alla domanda relativa alla provincia di residenza;
7. PROVINCIA DI OCCUPAZIONE, risponde alla domanda relativa alla provincia di
occupazione;
8. STRUTTURA FAMILIARE, ingloba le domande relative ai componenti del nucleo
familiare e di quanti di essi concorrono alla formazione del reddito;
9. PROFESSIONE, risponde alla domanda relativa alla professione;
10. TITOLO, identifica le risposte relative al titolo di studio.
56
1.
FREQUENTAZIONE SETTIMANALE
La prima domanda utile ai fini dell‟analisi univariata delle risposte del questionario è quella relativa
alla frequentazione settimanale: è una variabile quantitativa che ci permette di capire l‟assiduità con
la quale i rispondenti al questionario frequentano il punto vendita; i risultati, riassunti in una
distribuzione che esprime frequenze, frequenze relative proporzionali (f.r.p.) e frequenze relative
percentuali (f.r. %), sono rappresentati poi dal grafico a barre - o istogramma – e dal grafico a torta:
Q1
frequenza
f.r.p.
f.r. %
0
63
0,3119
31,19%
1
29
0,1436
14,36%
2
33
0,1634
16,34%
3
30
0,1485
14,85%
4
16
0,0792
7,92%
5
31
0,1535
15,35%
totale
202
1
100%
Figura 1: frequenze osservate per la variabile FREQUENTAZIONE SETTIMANALE. L‟immagine a sinistra
corrisponde al grafico a barre, con l‟asse delle ascisse che riflette il numero di volte a settimana (n/7) nelle quali il
consumatore frequenta il punto vendita, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata
modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio.
La modalità “0” corrisponde ad una visita occasionale da parte del consumatore; la scelta di
comprendere unicamente i giorni feriali è voluta dall‟azienda per la quale è stato redatto il
questionario, in quanto si considera più interessante valutare la frequenza presso i punti vendita
durante l‟orario della pausa pranzo, che non rispetto alla globalità dei giorni della settmana.
2.
PIETANZA SCELTA
La seconda domanda dell‟analisi univariata delle risposte del questionario è relativa alla pietanza
scelta dal consumatore; è una variabile qualitativa in 4 modalità e che permette di capire l‟assiduità
con la quale i rispondenti al questionario scelgono le differenti offerte presenti all‟interno del punto
57
vendita; i risultati, riassunti in una tabella con le distribuzioni di frequenza, sono rappresentati poi
dal grafico a barre - o istogramma – e dal grafico a torta:
Q3
frequenza
f.r.p
f.r. %
1
109
0,5396
53,96%
2
60
0,2970
29,70%
3
26
0,1287
12,87%
4
7
0,0347
3,47%
totale
202
1
100%
Figura 2: frequenze osservate per la variabile PIETANZA SCELTA. L‟immagine a sinistra corrisponde al grafico a
barre, con l‟asse delle ascisse che riflette la pietanza scelta, e l‟asse delle ordinate la percentuale di rispondenti a quella
determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio.
3.
VALUTAZIONE COMPLESSIVA
La terza domanda dell‟analisi univariata delle risposte del questionario è quella relativa alla
valutazione complessiva del consumatore in riferimento alla sua visita: si tratta questa volta di una
variabile qualitativa costruita mediate l‟uso di una scala Likert in 7 modalità e permette di valutare
la visione globale dei rispondenti al questionario; i risultati, riassunti in una distribuzione di
frequenza, sono rappresentati dal grafico a barre - o istogramma – e dal grafico a torta:
Q8
frequenza
f.r.p.
f.r. %
58
1
4
0,0198
1,98%
2
2
0,0099
0,99%
3
14
0,0693
6,93%
4
14
0,0693
6,93%
5
102
0,5050
50,50%
6
44
0,2178
21,78%
7
22
0,1089
10,89%
totale
202
1
100%
Figura 3: frequenze osservate per la variabile VALUTAZIONE COMPLESSIVA. L‟immagine a sinistra corrisponde al
grafico a barre, con l‟asse delle ascisse che riflette la valutazione globale su una scala da 1 a 7, e l‟asse delle ordinate la
percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta,
costruito mediante il medesimo criterio.
4.
ETÀ
La quarta domanda è quella relativa all‟età del rispondente. È una variabile qualitativa ordinale, in
quanto è possibile un ordinamento naturale all‟interno delle sue modalità: meno di 20 anni, tra 20 e
29 anni, tra 30 e 39 anni, tra 40 e 49 anni, tra 50 e 59 anni, più di 60 anni; i risultati, riassunti in una
distribuzione di frequenza, sono rappresentati poi dal grafico a barre - o istogramma – e dal grafico
a torta:
Q10
frequenza
f.r.p.
f.r. %
1
7
0,0347
3,47%
2
38
0,1881
18,81%
3
50
0,2475
24,75%
4
75
0,3713
37,13%
5
21
0,1040
10,40%
6
11
0,0545
5,45%
totale
202
1
100%
59
Figura 4: frequenze osservate per la variabile ETÀ. L‟immagine a sinistra corrisponde al grafico a barre, con
l‟asse delle ascisse che riflette l‟età su una scala ordinata in modo crescente, e l‟asse delle ordinate la
percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a
torta, costruito mediante il medesimo criterio.
5.
SESSO
La quinta domanda utile ai fini di analisi è quella relativa al sesso del rispondente. È una variabile
qualitativa dicotomica 12 , in quanto sono possibili solamente due tipi di risposta: maschio o
femmina; i risultati dei rispondenti al questionario sono per il 55,94% uomini, e per il restante
44,06% donne. Questa variabile si rivelerà molto utile in un secondo momento, ai fini dell‟analisi
bivariata, che ha permesso di capire eventuali relazioni tra la risposta relativa al sesso del
rispondente, e la sua attenzione verso i fattori principali di analisi, come la qualità del cibo, il livello
di prezzo, il tempo di attesa, la gentilezza e la cortesia del personale.
I risultati, riassunti in una distribuzione di frequenza, sono rappresentati ancora una volta dal
grafico a barre - o istogramma –, contenente ovviamente le due sole modalità, e dal grafico a torta:
Q11
frequenza
f.r.p.
f.r. %
0
113
0,5594
55,94%
1
89
0,4406
44,06%
totale
202
1
100%
Figura 5: frequenze osservate per la variabile SESSO. L‟immagine a sinistra corrisponde al grafico a barre,
con l‟asse delle ascisse che riflette il sesso, e l‟asse delle ordinate la percentuale di rispondenti a quella
determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il
medesimo criterio.
12
Piccolo, 2010
60
6.
PROVINCIA DI RESIDENZA
La sesta domanda esaminata per l‟analisi è quella relativa alla provincia in cui risiede il rispondente.
È una variabile qualitativa che permette 7 tipi di risposta: Padova (PD), Venezia (VE), Vicenza (VI),
Verona (VR), Treviso (TV), Belluno (BL), o altre, di seguito raggruppate per comodità nella
modalità “altro”; i risultati dei rispondenti al questionario riflettono in gran parte le due province
nelle quali sono stati somministrati i questionari, ovvero quella di Padova – per quanto riguarda il
centro commerciale “Le Brentelle” di Rubano, e Vicenza – per quanto riguarda la somministrazione
all‟interno del centro commerciale “Il Grifone” di Bassano del Grappa -.
I risultati, riassunti in una distribuzione di frequenza, sono rappresentati, ancora una volta, dal
grafico a barre, e dal grafico a torta:
Q12
frequenza
f.r.p.
f.r. %
1
113
0,5594
55,94%
2
23
0,1139
11,39%
3
44
0,2178
21,78%
4
1
0,0050
0,50%
5
10
0,0495
4,95%
6
3
0,0149
1,49%
7
8
0,0396
3,96%
totale
202
1
100%
Figura 6: frequenze osservate per la variabile PROVINCIA DI APPARTENENZA. L‟immagine a sinistra
corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la provincia, e l‟asse delle ordinate la
percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a
torta, costruito mediante il medesimo criterio.
7.
PROVINCIA DI OCCUPAZIONE
La settima domanda esaminata per l‟analisi è quella relativa alla provincia in cui lavora il
rispondente. È una variabile qualitativa che permette anch‟essa, come la precedente, 7 tipi di
risposta: Padova (PD), Venezia (VE), Vicenza (VI), Verona (VR), Treviso (TV), Belluno (BL), o
61
altre, di seguito raggruppate per comodità nella modalità “altro”;
i risultati dei rispondenti al
questionario, anche questa volta, riflettono in gran parte le due province nelle quali sono stati
somministrati i questionari, ovvero quella di Padova – per quanto riguarda il centro commerciale
“Le Brentelle” di Rubano, e Vicenza – per quanto riguarda la somministrazione effettuata
all‟interno del centro commerciale “Il Grifone” di Bassano del Grappa -.
Q13
frequenza
f.r.p.
f.r. %
1
120
0,5941
59,41%
2
13
0,0644
6,44%
3
46
0,2277
22,77%
4
2
0,0099
0,99%
5
6
0,0297
2,97%
6
4
0,0198
1,98%
7
11
0,0545
5,45%
totale
202
1
100%
Figura 7: frequenze osservate per la variabile PROVINCIA DI OCCUPAZIONE. L‟immagine a sinistra
corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la provincia, e l‟asse delle ordinate la
percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a
torta, costruito mediante il medesimo criterio.
8.
STRUTTURA FAMILIARE
L‟ottava domanda in analisi, riguarda la struttura familiare del rispondente. È una variabile
qualitativa ordinale, che permette 6 tipi di risposta sia relativamente alla questione “Componenti del
nucleo familiare” – le barre blu dell‟istogramma - che alla questione successiva “Componenti del
nucleo familiare che concorrono alla formazione del reddito” – le barre rosse -;
i risultati dei
rispondenti al questionario evidenziano come, a differenza di componenti del nucleo la cui
maggioranza delle risposte si attesta sulle modalità “2” (23,76% dei rispondenti) e “3” (23,76% dei
rispondenti), con un valore molto vicino anche per la modalità “4” (23,27% dei rispondenti), per i
concorrenti alla formazione del reddito vi è un picco sulla modalità di risposta “2” (58,42% dei
62
rispondenti), che identifica come a parità di persone occupate vi siano famiglie anche molto
numerose, composte da tre o più membri, e che ci fa quindi capire come potenzialmente questo
fattore possa abbassare la capacità di acquisto degli intervistati e la loro volontà di trovare
promozioni di prezzo all‟interno del punto vendita.
Q14
frequenza
f.r.p.
f.r. %
1
22
0,1089
10,89%
2
54
0,2673
26,73%
3
54
0,2673
26,73%
4
47
0,2327
23,27%
5
20
0,0990
9,90%
6
5
0,0248
2,48%
totale
202
1
100%
Q15
frequenza
f.r.p.
f.r. %
1
55
0,2723
27,23%
2
118
0,5842
58,42%
3
18
0,0891
8,91%
4
7
0,0347
3,47%
5
1
0,0050
0,50%
6
3
0,0149
1,49%
totale
202
1
100%
Figura 8: frequenze osservate per la variabile STRUTTURA FAMILIARE. L‟immagine corrisponde al
grafico a barre, con l‟asse delle ascisse che riflette il numero di facenti parte del nucleo familiare in blu, e del
numero degli occupati in rosso, mentre l‟asse delle ordinate indica la percentuale di rispondenti a quella
determinata modalità.
9.
PROFESSIONE
La penultima domanda utile ai fini di questa prima analisi riguarda la professione del rispondente. È
una variabile qualitativa che permette 9 tipi di risposta predefiniti: Operario, Impiegato, Dirigente,
Imprenditore, Studente, Pensionato, Libero Professionista, Disoccupato, Non rispondente;
un‟ultima modalità denominata “altro” raggruppa tutte le risposte date da chi non è riuscito a
trovare in una delle possibilità precedenti un‟alternativa che lo identifichi. Anche i risultati dei
63
rispondenti alla domanda sono stati utili, una volta incrociati con i dati relativi alla struttura
familiare, per stimare una capacità di spesa dei frequentatori del punto vendita, e capire quali tipo di
promozioni è utile attivare al fine di fidelizzare i clienti già presenti, o di acquisirne di nuovi.
Nella tabella di distribuzione delle frequenze, nell‟istogramma a barre e nel grafico a torta sono
riassunti i risultati:
Q16
1
2
3
4
5
6
7
8
9
10
totale
frequenza
19
75
8
19
9
8
33
4
4
23
202
f.r.p.
0,0941 0,3713 0,0396 0,0941 0,0446 0,0396 0,1634 0,0198 0,0198 0,1139
1
f.r. %
9,41% 37,13% 3,96% 9,41% 4,46% 3,96% 16,34% 1,98% 1,98% 11,39% 100%
Figura 9: frequenze osservate per la variabile
OCCUPAZIONE. L‟immagine corrisponde al
grafico a barre, con l‟asse delle ascisse che riflette le
modalità possibili, in particolare: “ope” = operaio,
“imp” = impiegato, “dir” = dirigente, “impr” =
imprenditore, “stud” = studente, “pens” =
pensionato, “lp” = libero professionista, “dis” =
disoccupato, “nr” = non rispondente, “altro” = altro,
intesa come modalità residuale. Nell‟asse delle
ordinate, invece, la percentuale di rispondenti a
quella determinata modalità.
10.
TITOLO (DI STUDIO)
L‟ultima domanda utilizzata per l‟analisi univariata riguarda il titolo di studio del rispondente:
ancora una volta, dopo la clusterizzazione effettuata sui dati raccolti, e che sarà adeguatamente
illustrata nel proseguo di questo documento, questa variabile è stata utile alla profilazione della
64
clientela del punto vendita, al fine di meglio comprenderne le caratteristiche ed attarne di
conseguenza l‟offerta.
Q17
elem medie
sup laurea t laurea s
nr
totale
frequenza
4
26
49
36
60
27
202
f.r.p.
0,0198 0,1287 0,2426 0,1782 0,2970 0,1337
1
f.r. %
1,98% 12,87% 24,26% 17,82% 29,70% 13,37% 100%
Figura 10: frequenze osservate per la variabile
TITOLO DI STUDIO. L‟immagine precedente
corrisponde al grafico a barre, con l‟asse delle
ascisse che riflette le modalità possibili, in
particolare: “elem” = licenza elementare, “medie”
= licenza media, “sup” = licenza media superiore,
“laurea t” = laurea triennale, “laurea s” = laurea
specialistica, “nr” = non rispondente. Nell‟asse
delle ordinate, invece, la percentuale di
rispondenti a quella determinata modalità. Con
logica simile è stato poi preparato il grafico a
torta.
5.1.1. UNA PRIMA PROFILAZIONE DEL CLIENTE FREQUENTANTE
A conclusione di questa prima esposizione dei dati appena illustrati, è semplice ma al contempo
utile esporre quello che risulta il profilo medio del cliente che ha risposto alle domande del
questionario, che quindi frequenta il punto vendita in questione, e che sarà il soggetto al quale sono
– e verranno - rivolte le comunicazioni e le promozioni; in particolare, stiamo parlando di un
65
consumatore uomo (56% dei rispondenti), di età compresa tra i 40 e i 49 anni (37% dei rispondenti),
con laurea specialistica (30% delle risposte), impiegato (37 risposte su 100), che vive e lavora nella
provincia di somministrazione del questionario, e che appartiene ad un nucleo familiare composto
mediamente da 3 membri, di cui solo 2 lavorano, e che si trova all‟interno del punto vendita
occasionalmente (31%). Tale cliente medio, infine, predilige il self-service, dal momento che il
54% lo indica come risposta alla domanda “Che pietanza ha scelto” e ne esce soddisfatto, essendo
“5 su 7” il punteggio assegnato alla visita nel 50% dei casi.
Questa prima identificazione del cliente tipo permette già di capire che si è di fronte ad un cliente
presumibilmente in pausa pranzo (suggerimento dato dalla maggioranza d‟impiegati), che potrebbe
potenzialmente essere fidelizzato per aumentare il numero delle sue visite settimanali - in quanto ad
ora frequenta il punto vendita solo occasionalmente – e che molto probabilmente potrebbe essere
disposto ad esserlo in cambio di una promozione dal punto di vista economico, dato che vive
mediamente non da solo ma in una famiglia, spesso composta anche da 3-4 membri, e il che porta a
concludere che vi sia una necessità di risparmio in un ottica di breve/medio periodo. Nell‟analisi
che segue verrà analizzato se effettivamente sussistano delle correlazioni tra il profilo del
rispondente e la risposta data alle varie domande; in particolar modo saranno presi in esame i
quesiti per così dire “centrali”, che esprimono cioè la soddisfazione del cliente relativamente agli
aspetti fondamentali della sua visita: prezzo speso, rispetto delle aspettative iniziali, qualità generale
del cibo consumato, cortesia e gentilezza del personale, tempo medio di attesa dalla richiesta al
ricevimento dei piatti ordinati.
5.2
STUDIO DELLE RELAZIONI SUSSISTENTI TRA LE VARIABILI
RILEVATE, ANALISI BIVARIATA E TEST CHI QUADRATO
In seguito alla sintesi esposta e ad una breve disamina delle osservazioni delle singole variabili, si
può dunque passare a verificare se coppie di variabili, considerate in modo bivariato, si comportino
o meno in modo dipendente tra loro.
Le tabelle di contingenza permetteranno di studiare in modo congiunto due variabili, riportando in
modo tabellare le frequenze rilevate per tutte le possibili coppie di modalità delle due variabili
considerate.
66
x1
…
…
xi
xr
f1i
…
…
y1
f11
…
yj
…
f j1
…
…
…
f ji
…
…
…
f jr
…
…
…
fc1
…
…
…
yc
…
…
X1=
åx
1
…
fci
Xi=
åx
1
…
F
f11
Y1=
1
…
Yj=
åy
j
…
fcr
Xr=
åy
Yc=
åx
r
åy
c
n
Tabella 1: esempio di tabella delle frequenze osservate o di contingenza
La Tabella 1 mostra la distribuzione congiunta delle due variabili considerate; sono esposte in
dettaglio le frequenze congiunte f ji misurate sull‟intero campione statistico, con i = 1, …, r righe e
j = 1, …, c colonne. La i-esima riga identifica la distribuzione della variabile X dato Y=yj, mentre la
j-esima colonna identifica la distribuzione della variabile Y dato X=xi. In modo simile può essere
costruita la tabella delle frequenze attese, indicate questa volta con fˆ , dove fˆji = Yc ´ Xi calcolata
per ogni rilevazione della tabella delle frequenze osservate.
Prima di procedere è doverosa una breve postilla: il calcolo dei valori di seguito proposti è stato
effettuato mediante l‟uso del software statistico R, attraverso l‟applicazione del comando
chisq.test. Per ogni tabella considerata sono state prese in considerazione due specifiche
coppie di variabili, e valutato se esista o meno dipendenza tra le stesse; ad ogni singolo caso sono
quindi esposti – come già detto - i risultati mediante una tabella di contingenza delle frequenze
relative e pesate per numero di rispondenti, e verrà eseguito il test d‟indipendenza con l‟indice χ2 di
Pearson. Tale metodo permette di evitare ulteriori calcoli relativamente alla tabella dei dati attesi:
inserendo infatti all‟interno dell‟ambiente software l‟intera tabella dei dati osservati, esso calcolerà
in automatico le frequenze ipotetiche, mostrando l‟output relativo ai tre valori più importanti: indice
chi quadrato, gradi di libertà della rappresentazione tabellare e p-value, che sono illustrati di seguito
nel dettaglio delle loro principali caratteristiche. Vale la pena analizzare brevemente l‟analisi
effettuata.
L‟indice χ2, in particolare, è il metodo più diffuso per il calcolo della dipendenza all‟interno di una
distribuzione, si fonda sul confronto tra le frequenze osservate e quelle attese ed è definito
numericamente come:
c2 =å
(F - F̂)2
F̂
67
con:
-
F : sommatoria dei valori f osservati in riga, calcolato per ogni valore;
-
F̂ : sommatoria dei valori fˆ attesi in riga, calcolato per ogni valore.
Indichiamo poi le principali proprietà dell‟indice chi quadrato:
-
l‟indice χ2 è sempre maggiore o uguale a zero;
-
se esiste indipendenza tra le variabili, χ2 risulta nullo, ovvero f = fˆ per ogni valore di i e j
considerati;
-
l‟indice χ2 è crescente al crescere che le frequenze osservate si allontanano da quelle attese.
Al fine della valutazione di dipendenza tra le due variabili considerate, è essenziale osservare il
valore del p value che risulta associato al test del chi quadrato per ogni tabella in esame: si dimostra
che, stante l‟ipotesi d‟indipendenza, l‟indice assume la distribuzione di una variabile casuale χ2, con
gradi di libertà in numero corrispondente a (r-1)(c-1), posto r numero delle righe della tabella a
doppia entrata, e c numero delle sue colonne. È stato pertanto condotto un test d‟ipotesi,
confrontando le serie di dati realmente osservati con quelli attesi; in particolare, si considerino le
due seguenti ipotesi:
-
H0 : le due variabili considerate sono indipendenti, ovvero non sussiste presenza di relazione
tra le due variabili stesse;
-
H1 : le due variabili considerate sono dipendenti, ovvero sussiste presenza di relazione tra le
due variabili stesse.
Se l‟ipotesi 0 viene respinta dal test mediante R, in modo conseguente si accetta la correttezza
dell‟ipotesi 1 (di relazione). Tanto maggiore sarà la differenza tra le frequenze attese e osservate,
tanto maggiore sarà la dipendenza tra le due variabili.
Una volta ottenuti tutti i valori necessari alla conduzione dell‟analisi, si passa al controllo nelle
tavole di distribuzione del chi quadrato: questo passaggio permette di capire se il χ2 trovato
mediante il test è piccolo abbastanza da doverlo associare ad errori del tutto casuali – quindi ad una
ripartizione casuale delle unità tabellari – o se permette di desumere al contrario una relazione tra la
variabili, e quanto effettivamente tale relazione risulti significativa.
68
5.2.1
ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE
E SODDISFAZIONE RELATIVAMENTE AL PREZZO SPESO
La prima analisi bivariata esposta riguarda la soddisfazione degli intervistati relativamente al prezzo
speso; in particolare, con l'aiuto di una tabella pivot, si studierà se il fatto di essere rispondente
uomo o donna influisca nella risposta data, e quindi se al variare della Q11 del questionario,
identificata dalla domanda “Genere”, vari o meno anche la Q2, rispondente alla domanda “Si
ritiene mediamente soddisfatto del prezzo speso?”.
Nelle colonne della Tabella 2, si trova la variabile qualitativa dicotomica Q11, con due sole risposte
possibili non numeriche; nelle righe invece si trovano rappresentati i dati relativi alla Q2, variabile
quantitativa costruita mediante l‟uso di una scala likert su 7 possibili risposte. Di seguito, le risposte
raccolte:
Q2
1
2
3
4
5
6
7
Totale
Uomo
5
8
16
16
54
11
3
113
Donna
4
3
14
9
43
7
9
89
Totale
9
11
30
25
97
18
12
202
Tabella 2: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q2
Interessante potrebbe essere altresì analizzare la distribuzione delle risposte pesate con il numero di
rispondenti per ciascun genere, ovvero 113 uomini e 89 donne. Di seguito, la tabella dei dati
raccolti secondo questa logica, mostra come le sentenze si dividano all‟interno dei due diversi
generi:
Q2
1
2
3
4
5
6
7
Totale
Uomo
4,42%
7,08%
14,16%
14,16%
47,79%
9,73%
2,65%
100,00%
Donna
4,49%
3,37%
15,73%
10,11%
48,31%
7,87%
10,11%
100,00%
69
Tabella 3: frequenze pesate per genere, relative alle domande Q11 e Q2
Tale rappresentazione è utile altresì per verificare la distribuzione di ciascuna modalità di risposta
all‟interno dei due differenti generi; procediamo però per step: poiché l‟analisi del test chi quadrato
è stata condotta come detto mediante il software R, si è deciso di tralasciare in questa esposizione il
calcolo delle tabelle delle frequenze attese per le variabili considerate, svolto in automatico dal
software stesso mediante il comando poco sopra descritto.
Per questo primo test d‟ipotesi, e per tutti quelli che seguiranno, verranno rappresentati i dati
raccolti (e riassunti nella tabella esposta) mediante il diagramma a barre sovrapposte: in tale metodo
di rappresentazione, in particolare, l‟altezza di ogni componente risulterà proporzionale alle
frequenze registrate per le diverse modalità, in base al fatto che i rispondenti siano uomini o donne.
Il diagramma riportato evidenzia come, solamente per le modalità di risposta corrispondenti a 2/7, a
7/7 e in parte anche a 4/7, emerga una netta differenza in base al genere, o meglio emerga una
quantità più alta di risposte per l‟uno o per l‟altro genere; per tutte le modalità rimanenti vi è un
risultato pressoché equivalente in termini di rispondenti per genere.
Per un'analisi più approfondita del motivo per il quale le risposte si distribuiscano in tal modo tra
uomini e donne o, per essere più precisi, per valutare se il fatto stesso di essere uomo o donna abbia
influito nella riposta dell'intervistato, si sono studiati i risultati dell'analisi del test chi quadrato
eseguita con R.
70
Nello specifico, per la tabella a doppia entrata considerata, riguardante genere e voto dato al prezzo
speso all‟interno del punto vendita durante il pasto, il valore del χ2 6,8588 con 6
,e
il p-value del test considerato risulta pari a 0,3341. Questo, rifacendoci alle due ipotesi sopra citate
e confrontandoci con i valori riportati nelle tavole di distribuzione del chi quadrato, ci porta a
rifiutare l‟ipotesi H0 d‟indipendenza delle due variabili con un intervallo di confidenza fissato a
0,90, ovvero il comportamento dell‟una influisce nel comportamento dell‟altra: essendo infatti
6,8588 più grande del valore di riferimento per 6 gradi di libertà, ovvero 2,20, si conclude che il
genere dell‟intervistato influisce nel giudizio dato alla soddisfazione relativa al prezzo speso. Tale
dato non era del tutto deducibile - se non a livello statistico - dalla distribuzione rappresentata nel
grafico a barre riportato, nel quale non emerge in modo spiccato significativa prevalenza dell‟uno o
dell‟altro genere nelle risposte date.
Da sempre, la natura più “familiare” della donna la porta ad essere maggiormente attenta alle spese,
in un‟ottica di lungo periodo che l‟uomo spesso fatica invece ad avere; questi due differenti punti di
vista influenzano, o possono influenzare, la modalità di risposta relativa alla soddisfazione sul
prezzo speso. Il concetto più moderno di famiglia ha spesso stravolto però questo concetto:
tornando alla Tabella 3, emergono infatti differenze di risposta in percentuale tra i due generi, anche
se non sempre questo sbilanciamento è a favore di quello femminile; le differenze più evidenti sono
sicuramente quelle che si riferiscono alle modalità di risposta 2,4 e 7.
5.2.2
ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE
E VALUTAZIONE SULLA QUALITÀ DEL CIBO
La seconda analisi bivariata è quella riguardante la soddisfazione degli intervistati relativamente
alla qualità del cibo consumato, anche questa volta in relazione al fatto di essere uomo o donna; in
particolare, si ricorrerà nuovamente ad una tabella pivot, verificando se al variare della Q11 del
questionario, identificata dalla domanda “Genere”, vari o meno la Q5, rispondente alla domanda
“Come valuta la qualità generale del cibo che ha scelto?” Nelle colonne, sono presenti sempre i
valori relativi alla variabile qualitativa dicotomica Q11, nelle righe invece sono rappresentati i dati
relativi alla Q5, anche questa basata su una scala likert con 7 possibili risposte. Di seguito, quindi,
la tabella di contingenza:
71
Q4
1
2
3
4
5
6
7
Totale
Uomo
1
1
7
5
81
15
3
113
Donna
3
1
11
4
54
12
4
89
Totale
4
2
18
9
135
27
7
202
Tabella 4: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q5
Anche questa volta, e ugualmente per il resto dell‟analisi esposta, si tralascia l‟esposizione del
calcolo delle tabelle delle frequenze attese per le variabili considerate, e si rappresentano i dati
raccolti mediante il diagramma a barre sovrapposte: in colonna sono pertanto presentate le diverse
opportunità di risposta alla domanda considerata, ovvero le modalità, ordinate in modo crescente da
1 a 7.
Una rapida analisi del diagramma sotto riportato non evidenza ipotesi relative ad una possibile
influenza di risposta in base al genere o, per meglio dire, quasi l‟intero campione si distribuisce in
modo pressoché equivalente in termini di rispondenti alle varie possibili modalità, ripartendosi tra
uomini e donne:
Poiché una sola analisi grafica non permette di valutare in modo sufficientemente valido ai fini
statistici se il fatto stesso di essere uomo o donna abbia influito nella riposta dell'intervistato, si
studia anche questa volta i risultati dati dall'analisi del test chi quadrato eseguita con R.
72
Nello specifico, il valore del χ2 risulta pari a 5,0967 con 6
, e il p-value del test
considerato vale 0,5315. Si può pertanto rifiutare anche questa volta l‟ipotesi H0 di indipendenza
delle due variabili, essendo 5,0967 più grande del valore di riferimento 2,20 per l‟intervallo di
confidenza scelto: la variabile di genere e quella di soddisfazione relativamente alla qualità del cibo
da parte del consumatore presentano quindi dipendenza, avendo accettato di conseguenza H1.
Diamo uno sguardo dunque alle frequenze pesate per genere dei rispondenti:
1
2
3
4
5
6
7
Totale
Uomo
0,88%
0,88%
6,19%
4,42%
71,68%
13,27%
2,65%
100,00%
Donna
3,37%
1,12%
12,36%
4,49%
60,67%
13,48%
4,49%
100,00%
Tabella 5: frequenze pesate per genere, relative alle domande Q11 e Q5
Analizzando rapidamente quest‟ultimo dato, si può pensare alla maggiore considerazione che
spesso le donne riservano alla qualità del cibo consumato; una dieta sana ed equilibrata, e
l‟attenzione ad alimenti più light rispetto agli uomini, sono elementi che possono aver influito nella
risposta data alla domanda in analisi. I trend degli ultimi anni, tuttavia, evidenziano come anche gli
uomini prestino una cura sempre maggiore verso il cibo; a questo si deve una distribuzione non
completamente orientata all‟uno o all‟altro genere dei valori contenuti nella Tabella 5, ma
sufficientemente significativa da incidere nel modo in cui i rispondenti hanno scelto la modalità di
risposta.
5.2.3
ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE
E
VALUTAZIONE
SULLA
CORTESIA
E
GENTILEZZA
DEL
PERSONALE
La terza analisi riguarda la relazione che può, o potrebbe, sussistere tra la soddisfazione
relativamente alla gentilezza e cortesia del personale del punto vendita e, ancora una volta, il genere
del rispondente: di seguito sono esposte le frequenze rilevate per la domanda Q11, e la domanda Q4,
73
rispondente a “Può ritenersi soddisfatto della cortesia e della gentilezza del personale?”; in
colonna, come anche per le tabelle precedenti, il genere Uomo/Donna, e in riga le possibili modalità
di risposta, costruite mediante l‟uso di una scala Likert a 7 valori.
Q5
1
2
3
4
5
6
7
Totale
Uomo
8
1
2
2
39
27
34
113
Donna
7
1
3
3
27
24
24
89
Totale
15
2
5
5
66
51
58
202
Tabella 6: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q4
Si vedano dunque ora tali valori nell‟istogramma a barre sovrapposte, come per le precedenti
analisi:
Da una rapida analisi dell‟istogramma, si potrebbe pensare come non vi sia una spiccata differenza
di risposta dipendente dal genere; le sentenze, in effetti, presentano una distribuzione mediamente
uniforme tra i due generi, all‟interno delle sette diverse modalità di responso possibili. Si veda
dunque come si comportano i dati raccolti per questa risposta all‟interno dell‟analisi della
distribuzione chi quadrato: a fronte dei 6 gradi di libertà che caratterizzano anche questa terza
tabella in analisi,
1,7219, e il p-value del test considerato risulta pari a 0,9434.
Contrariamente a quanto successo per le prime due analisi, pertanto, questa volta l‟ipotesi H0
74
d‟indipendenza delle due variabili può essere accettata, essendo il chi quadrato più piccolo del
valore di riferimento 2,20 per l‟intervallo di confidenza scelto: il genere non influisce quindi nella
soddisfazione sulla gentilezza del personale; anche questa volta, la Tabella 7 può aiutare per tratti
sommari a capire il motivo, o i motivi, che hanno condotto a questi risultati.
1
2
3
4
5
6
7
Totale
Uomo
7,08%
0,88%
1,77%
1,77%
34,51%
23,89%
30,09%
100,00%
Donna
7,87%
1,12%
3,37%
3,37%
30,34%
26,97%
26,97%
100,00%
Tabella 7: frequenze pesate per genere, relative alle domande Q11 e Q4
La prima conclusione che il lettore può trarre – e quindi anche chi sta conducendo questa analisi – è
che per quanto la sensibilità e il carattere del consumatore possano influire nel rapporto che esso ha
con l‟operatore nel momento in cui si trova all‟interno del punto vendita, è altresì vero che esiste un
concetto globalmente riconosciuto di gentilezza e cortesia, dal quale è difficile prescindere; salvo
problemi che possono saltuariamente sorgere durante la visita del cliente e che possono portare a
disguidi e disagi vari, sicuramente un sorriso da parte degli operatori, un saluto e un modo di
rivolgersi gentile ed educato sono elementi globalmente riconosciuti sia dagli uomini e dalle donne.
Nonostante si notino delle differenze nelle modalità di risposta riassunte nella Tabella 7, queste non
sono sufficienti a concludere che sussiste una dipendenza statisticamente rilevante tra le due
variabili considerate.
5.2.4. ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE
E
VALUTAZIONE
SULLA
CORTESIA
E
SODDISFAZIONE
RELATIVAMENTE AL TEMPO DI ATTESA
La penultima analisi riguarda il rapporto tra la risposta relativa al genere uomo/donna, come già
visto fino ad ora per le precedenti, e la soddisfazione sul tempo di attesa che intercorre tra l‟ordine
del prodotto, e la ricezione dello stesso da parte del cliente per mezzo dell‟operatore, espressa per
mezzo della risposta alla domanda Q7 “Si ritiene mediamente soddisfatto del tempo di attesa dei
75
prodotti ordinati?”.
È stata analizzata anche questa volta la distribuzione delle risposte mediante la presentazione dei
dati raccolti in una tabella a doppia entrata, la rappresentazione grafica effettuata in un istogramma
a barre sovrapposte, e il test dell‟indice chi quadrato.
In primis, i dati riassunti in tabella: nelle colonne le 2 possibili risposte alla domanda Q11 (Uomo,
Donna), mentre nelle righe le sette modalità di risposta possibili alla domanda Q7 (1,2,3,4,5,6,7).
Q7
1
2
3
4
5
6
7
Totale
Uomo
1
2
5
8
51
32
14
113
Donna
4
2
4
3
39
25
12
89
Totale
5
4
9
11
90
57
26
202
Tabella 8: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q7
Una rapida analisi evidenzia una distribuzione spostata verso le modalità di risposta che
identificano una soddisfazione medio-alta rispetto al tempo di attesa delle pietanze (5,6), e divisa tra
uomini e donne in modo relativamente simile, con alcune evidenti eccezioni nel caso delle modalità
4, 5 e in parte 6, che presentano una maggioranza di uomini.
76
Di seguito, invece, quello che emerge dall‟analisi del chi quadrato. I dati raccolti ed elaborati nella
Tabella 8 evidenziano come, considerati i 6 gradi di libertà, il valore del χ2 risulta di 4,0023, e il pvalue del test considerato risulta pari a 0,6764: si torna pertanto a rifiutare l‟ipotesi H0, essendo tale
valore del χ2 più grande di quello di riferimento, fissato a 2,20 come da tavole di distribuzione; le
due variabili considerate sono tra loro dipendenti, e questo significa che vi è una relazione
statisticamente significativa tra il genere del rispondente al questionario e la soddisfazione
relativamente al tempo di attesa; si analizza dunque, mediante la tabella seguente, come tale
dipendenza influisce nella risposta alla Q7:
1
2
3
4
5
6
7
Totale
Uomo
0,88%
1,77%
4,42%
7,08%
45,13%
28,32%
12,39%
100,00%
Donna
4,49%
2,25%
4,49%
3,37%
43,82%
28,09%
13,48%
100,00%
Tabella 9: frequenze pesate per genere, relative alle domande Q11 e Q7
Seppur non così evidenti come le precedenti analisi in cui emergeva una dipendenza tra le due
variabili, si noti che talune modalità presentano divergenze legate al fatto che il rispondente sia
uomo o donna, con particolare riferimento alla modalità di risposta 1 e 4, dettaglio che emerge
tuttavia anche con lo studio dell‟istogramma, nel quale le barre si dispongono in modo non
omogeneo proprio in corrispondenza di queste due possibilità di risposta. Una maggioranza di
risposte non positive (modalità 1) da parte delle donne, e di risposte indifferenti/soddisfatte per i
rispondenti uomini, può portare a concludere che molto probabilmente questo sia dovuto al maggior
tempo che gli uomini hanno a disposizione, o quantomeno la necessità delle donne di un pranzo
spesso più veloce per concludere gli acquisti e tornare a casa, nel caso si parli ovviamente di
casalinghe, ovvero di una rispondente donna su 5.
77
5.2.5
ANALISI DI DIPENDENZA TRA FREQUENZA DI VISITA
E SODDISFAZIONE RELATIVAMENTE AL PREZZO SPESO
L‟ultima analisi bivariata esposta è quella numericamente più complessa; in questa fase si sono
messe a confronto due variabili differenti da quelle precedentemente esposte, ovvero la frequenza di
visita da parte del cliente nei confronti dei punti vendita protagonisti dell‟intervista in relazione alla
soddisfazione di prezzo del prodotto acquistato e o consumato: il fine di tale ultima analisi è
valutare lo spazio di una possibile azione di fidelizzazione da parte dell‟azienda erogatrice dei
prodotti/servizi – in questo caso Berica Chef -.
Le domande alle quali appartengono le risposte analizzate sono quindi:
-
Q1: “Quante volte frequenta mediamente il nostro punto vendita durante le settimana?”,
che presenta modalità in numero pari a 6, racchiuse in un intervallo compreso tra
“occasionalmente” (rappresentato più facilmente in tabella con il numero zero) e 5, in
un‟ottica di analisi – come detto - della presenza dei rispondenti durante i giorni lavorativi;
-
Q2: risponde alla domanda “Si ritiene mediamente soddisfatto del prezzo speso?” e si
distribuisce secondo una scala likert in 7 modalità, che vanno da “completamente
insoddisfatto” a “molto soddisfatto”.
Vediamo ora, attraverso una tabella pivot a due entrate, come si distribuiscono le risposte
relativamente a queste due variabili:
1
2
3
4
5
6
7
Totale
zero
2
1
5
8
36
7
4
63
uno
2
1
1
3
16
2
4
29
due
0
1
7
4
18
2
1
33
tre
1
3
5
4
13
2
2
30
quattro
0
2
2
4
5
3
0
16
cinque
4
3
10
2
9
2
1
31
Totale
9
11
30
25
97
18
12
202
Tabella 10: tabella a doppia entrata rappresentante il rapporto che sussiste tra Q1 e Q2
Rappresentiamo questa distribuzione anche dal punto di vista grafico, con un istogramma a barre
sovrapposte, che presenta in riga la frequentazione settimanale ordinata in modo crescente da zero
(“occasionalmente”) a cinque, e nelle barre i voti sovrapposti per ogni modalità di risposta di Q1:
78
L‟analisi condotta questa quinta ed ultima volta è caratterizzata da un numero di gradi di libertà pari
a 30 (7 modalità di righe, meno uno, moltiplicato per 6 modalità di colonna, meno uno), ed una
volta eseguito il test d‟indipendenza, l‟ambiente software statistico R presenta un valore del chi
quadrato pari a 41,5968 e un p-value di 0,07746. Stante le ipotesi di indipendenza H0 e H1
sopracitate, si può concludere che l‟ipotesi zero “le due variabili considerate sono indipendenti”
dev‟essere rifiutata, sussiste pertanto l‟ipotesi alternativa uno di dipendenza tra le variabili
considerate: la frequenza con la quale un rispondente è presente all‟interno del punto vendita
oggetto di analisi influisce sulla risposta relativa alla soddisfazione di prezzo.
Vediamo ora come queste frequenze si comportano in termini percentuali, rispetto al totale della
popolazione che corrisponde a determinate modalità di risposta:
1
2
3
4
5
6
7
Totale
zero
3,17%
1,59%
7,94%
12,70%
57,14%
11,11%
6,35%
100,00%
uno
6,90%
3,45%
3,45%
10,34%
55,17%
6,90%
13,79%
100,00%
due
0,00%
3,03%
21,21%
12,12%
54,55%
6,06%
3,03%
100,00%
tre
3,33%
10,00%
16,67%
13,33%
43,33%
6,67%
6,67%
100,00%
quattro
0,00%
12,50%
12,50%
25,00%
31,25%
18,75%
0,00%
100,00%
cinque
12,90%
9,68%
32,26%
6,45%
29,03%
6,45%
3,23%
100,00%
79
Tabella 11: frequenze pesate per frequenza di visita, relative alle domande Q1 e Q2; dimostra, come le
precedenti, la distribuzione effettiva delle modalità di risposta rispondenti alla scala Likert in 7
modalità, rispetto alla frequentazione del punto vendita, da occasionalmente a 5/7.
Se non fosse vero quanto detto relativamente al test di ipotesi, ovvero se non avessimo rifiutato H0 e
di conseguenza accettato H1, ci troveremo di fronte ad una distribuzione tabellare nella quale le
percentuali delle frequenze presenterebbero valori tra loro uguali, o quantomeno molto simili
rispetto alle varie colonne. Ad esempio, cioè, la prima riga non avrebbe una distribuzione così
differente tra le varie colonne, come anche le due seguenti; nel dettaglio, è verosimile pensare che
una dipendenza tra frequenza di visita del punto vendita e soddisfazione relativamente alla spesa sia
influenzata da una fidelizzazione basata su una promozione di prezzo: focalizzando l‟attenzione
sulla quinta riga, emerge infatti come a mano a mano la frequenza delle visite si faccia più alta, la
percentuale di soddisfatti cali, a favore del “poco soddisfatto” o del “completamente insoddisfatto”.
Non è difficile immaginare che questo risultato emerga a causa di una verosimile richiesta latente
dei consumatori di essere fidelizzati, ovvero di avere un “guadagno” economico a seguito di una
maggior frequentazione del punto vendita, inteso come risparmio sulla quantità acquistata o premio
ottenuto a seguito di un numero n di visite o scontrini accumulati.
Importante è, a seguito di questo risultato, una comprensione da parte dell‟azienda della necessità di
reagire a questa richiesta, realizzando una promozione basata anche sulla profilazione del cliente
ottenuta dall‟anagrafica del questionario, riassunta ed esposta nella prima parte di questo elaborato
durante l‟analisi univariata dell‟intervista.
5.3
LA SEGMENTAZIONE DEGLI INTERVISTATI:
LA CLUSTERIZZAZIONE DELLA POPOLAZIONE E L’ANALISI
DEI GRUPPI OTTENUTI
La terza ed ultima parte dell‟analisi del questionario è finalizzata alla comprensione della possibilità
eventuale di ottenere una segmentazione della popolazione inziale in gruppi di rispondenti tra loro
omogenei, sulla base sella qualità delle scelte effettuate per ogni domanda cui sono stati sottoposti
durante l‟intervista somministrata loro, e ottenuta attraverso la tecnica di analisi multivariata della
Cluster Analysis, al fine di minimizzare la lontananza esistente tra le unità di un cluster,
massimizzando al contempo quella tra i differenti gruppi.
80
Nel dettaglio, la segmentazione è stata effettuata mediante lo studio di tre metodi gerarchici
agglomerativi: metodo del legame singolo, metodo del legame completo e metodo di Ward,
ciascuno dei quali considerando come indicatore di lontananza tra le misurazioni quello della
distanza euclidea che, come visto, corrisponde alla distanza geometrica delle variabili all‟interno
dello spazio pluridimensionale.
Si è optato per non considerare la parte anagrafica per il processo di segmentazione, riservandola
alla parte della profilazione del cliente medio rispondente appartenente ai due differenti cluster, e
dando quindi la possibilità di dare loro dei nomi in base all‟importanza che le singole variabili
hanno avuto nella costruzione degli stessi grappoli.
Una volta valutate le rappresentazioni grafiche – dendrogrammi – che emergono dall‟utilizzo di
questi primi tre metodi, e valutato il numero di cluster emergenti dalla miglior segmentazione
possibile della popolazione, si è passati ad una seconda analisi, mediante questa volta il metodo non
gerarchico delle k-medie. Inserendo nella costruzione di tale metodo K-means in ambiente di lavoro
R il numero di cluster che si considera migliore rispetto all‟analisi compiuta mediante i tre
precedenti, è stato possibile verificarne la veridicità dell‟ipotesi mediante la scomposizione della
devianza e l‟analisi della silhouette della distribuzione in cluster, per valutare il corretto
posizionamento delle singole unità statistiche all‟interno dei diversi segmenti della popolazione ed
accertarne da ultimo la validità.
L‟intera analisi di segmentazione è stata compiuta partendo dalla matrice X dei dati raccolti
mediante l‟intervista, organizzati in tabella secondo le risposte degli n intervistati a ciascuna delle
17 domande e si è proceduto alla costruzione di una matrice di distanze n´ n tra le n coppie di
osservazioni rilevate, basata sull‟uso – come detto – dell‟indice di distanza euclidea; si sono quindi
analizzati i tre algoritmi agglomerativi gerarchici e quello non gerarchico. Vediamo l‟analisi nel
dettaglio.
81
5.3.1
CLUSTER ANALYSIS – METODO AGGLOMERATIVO DEL LEGAME
SINGOLO
Per questo primo metodo, e solamente per questo, verranno esposti i singoli passaggi che hanno
portato alla costruzione e all‟analisi della segmentazione e delle sue rappresentazioni grafiche.
Partendo dal presupposto che la Cluster Analysis non abbia bisogno di assunzioni aprioristiche sulla
distribuzione delle risposte rilevate, è stata richiamata la tabella contenente le risposte dei 202
soggetti
intervistati:
tabella.df
<-
read.table(file.choose(),dec=".",
na.strings="NA",header=TRUE).
Si è successivamente passati a costruire la matrice delle distanze euclidee sussistenti all‟interno
delle n osservazioni, mediante l‟utilizzo del comando distanze <- dist(tabella.df,
method = "euclidean"); per semplicità di esposizione si è scelto di non inserirla
direttamente in questa disamina.
Il passo successivo, mediante l‟input hclust <- hclust(distanze,"single")è stata
eseguita la clusterizzazione mediante il metodo del legame singolo; la rappresentazione grafica per
mezzo del dendrogramma (plot(hclust)), e l‟analisi della associazioni delle osservazioni
risultanti dal criterio scelto per l‟agglomerazione (il grafico plot(hclust$height)) portano a
concludere come questo metodo non possa essere considerato valido per ricavare il numero di
cluster nei quali è possibile segmentare la popolazione iniziale.
6165
105
172
135
119
50
23
19
147
70
76
83
8
3
40
65
60
58
129
108
107
106
103
100
14
90
88
84
59
79
80
22
26
199
64
7
43
202
195
193
190
183
181
31
179
176
109
173
164
153
125
13
146
116
34
4
141
distanze
hclust (*, "single")
82
77
123
188
120
82
73
78
52
81
148
48
98
54
159
138
5
92
134
10
89
198
197
192
191
186
182
170
166
163
140
127
118
114
95
87
75
69
63
12
53
47
44
11
37
196
168
71
102
160
152
38
136
30
122
128
28
93
156
15
51
2
121
99
104
161
167
145
150
36
157
143
154
142
180
45
67
137
178
113
174
29
185
189
9
94
74
131
24
46
0
62
200
184
194
57
110
32
187
155 20
126
117
112
55
201
133
171
139
124
101
96
85
68
66
61
42
175
162
91
39
130
115
86
49
41
97
16
169
149
132
111
72
35
151
21 1
17
56
27
177
25
158
18
144
2
1
Height
3
33
4
Cluster Dendrogram
4
3
2
0
1
hclust$height
0
50
100
150
200
Index
Come è verificabile dalle due rappresentazioni grafiche non vi sono altezze tali tra i differenti
momenti agglomerativi da permettere di delineare in modo soddisfacente una clusterizzazione della
popolazione; occorre quindi passare all‟utilizzo di un secondo metodo gerarchico agglomerativo, ed
esaminarne la distribuzione che ne emerge.
5.3.2
CLUSTER ANALYSIS – METODO AGGLOMERATIVO DEL LEGAME
COMPLETO
Per questa seconda analisi, si è scelto di mantenere come misuratore della dissimilarità sussistente
tra le n variabili l‟indice delle distanze euclidee – al contrario, infatti, non avremmo potuto
confrontare in modo attendibile i risultati ottenuti dalle due agglomerazioni -; nella scelta del
metodo di clusterizzazione è stata però data indicazione al software di utilizzare il completo, in
luogo del precedente singolo, mediante l‟input: hclust
<-
hclust(distanze,
"complete").
Anche per questo secondo passaggio dell‟esame della clusterizzazione, sono stati considerati i
fattori di analisi illustrati nella disamina del metodo del legame singolo: vediamo come risultano
distribuite le osservazioni all‟interno dei segmenti creati con questa seconda analisi, partendo dal
dendrogramma.
83
0
5
hclust$height
10
15
96
80
65
52
81
20
85
133
184
194
66
58
195
107
3
198
197
192
191
186
182
170
166
163
140
127
118
114
95
87
75
69
63
12
53
176
190
145
150
100
40
47
44
11
37
111
55
117
103
77
123
138
5
92
134
10
89
60
148
48
98
54
159
179
31
29
185
34
141
109
173
199
189
9
94
201
13
125
101
62
200
164
45
67
137
178
126
59
79
183
22
188
120
82
73
78
14
99
104
161
167
156
15
51
160
152
38
136
153
146
4
116
106
30
122
124
181
26
202
108
128
28
93
113
174
84
83
2
121
88
193
90
8
196
168
71
102
42
61
68
142
180
171
36
157
143
154
64
129
7
43
32
187
97
57
110
21
49
18
144
16
86
115
25
158
72
132
33
91
50
74
131
162
139
155
172
135
70
76
175
130
23
112
41
6
105
165
119
19
147
1
27
177
17
56
169
35
39
24
46
149
151
0
5
Height
10
15
Dendrogram
distanze
hclust (*, "complete")
Si può notare come, rispetto al dendrogramma rappresentante la clusterizzazione per mezzo del
metodo del legame singolo, cominci ad emergere una divisione leggermente più evidente delle
osservazioni raccolte, anche se le altezze delle differenti fusioni non possono essere considerate
sufficienti per validare l‟analisi in corso relativa alle ipotesi di segmentazione della popolazione.
0
84
50
100
Index
150
200
Anche considerando il grafico contenente la distribuzione delle altezze di fusione lungo il processo
di segmentazione delle 202 osservazioni considerate, non emerge la presenza di un preciso numero
di cluster in cui poter dividere la popolazione: non è evidente cioè un “salto” tra due fusioni
successive talmente netto da poter permette di effettuare un taglio del dendrogramma che identifichi
una divisione netta all‟interno dell‟insieme globale degli intervistati. Occorre perciò passare
all‟analisi di un terzo metodo, anche questa volta agglomerativo gerarchico: il metodo di Ward.
5.3.3
CLUSTER ANALYSIS – METODO DI WARD
Per questo terzo e ultimo processo agglomerativo gerarchico, si è preferito l‟utilizzo del metodo di
Ward; si ricordi come tale metodo differisca dai precedenti in quanto basato sulla scomposizione
della devianza, che aumenterà – quella entro i gruppi – all‟aumentare del numero g dei cluster,
mentre al contrario diminuirà quella all‟esterno degli stessi.
In questo caso, partendo nuovamente dalla matrice delle distanze euclidee, la stessa quindi utilizzata
per i primi due metodi di segmentazione in precedenza illustrati, il procedimento seguito in R è
stato quello di inserire il comando hclust <- hclust(distanze, "ward.D").
Tale metodo ha condotto alla rappresentazione grafica del seguente dendrogramma:
40
20
62
200
201
109
173
153
146
4
116
101
124
13
125
199
189
9
94
29
185
31
179
34
141
128
28
93
193
108
83
88
26
202
106
30
122
161
167
42
61
36
157
143
154
142
180
126
68
171
156
15
51
190
14
99
104
160
152
38
136
188
120
82
73
78
181
176
40
84
2
121
113
174
129
8
90
196
168
71
102
100
139
45
67
137
178
59
79
20
85
60
65
148
48
98
52
81
164
54
159
16
86
115
74 33
131
162
66
155
55
117
72
132
198
197
192
191
186
182
170
166
163
140
127
118
114
95
87
75
69
63
12
53
138
5
92
103
134
10
89
111
133
184
194
183
22
80
195
77
123
107
3
58
47
44
11
37
145
150
25
158
149
151
130
96
23
112
6
105
41
165
50
172
147
70
76
19
119
91
135
175
64
7
43
21
49
32
187
97
57
110
24
46
17
56
18
144
169
35
39
271
177
0
Height
60
80
100
120
Cluster Dendrogram
distanza
hclust (*, "ward.D")
85
Si può concludere che questa volta, a differenza dei casi precedenti, emerge la formazione di
(almeno) due cluster ben definiti, distanziati da un‟altezza sufficiente da caratterizzare la
popolazione dei rispondenti mediante una divisione in due sotto-popolazioni.
Valutiamo questa distribuzione anche mediante l‟analisi del grafico rappresentante le altezze delle
60
0
20
40
clust$height
80
100
120
fusioni tra le varie unità:
0
50
100
150
200
Index
È visibile, verso la parte destra della rappresentazione grafica, e negli ultimi tre dati dell‟ultima
colonna della tabella riportata in appendice riportante le quote delle fusioni (Tavola 3), si verifichi
un salto in corrispondenza delle ultime aggregazioni, nelle quali le altezze diventano più
significative, fino a raggiungere quote pari a circa, rispettivamente,
20, 15 e 50; questa
osservazione può aiutare a dedurre una prima ipotesi di divisione della popolazione in 2, 3 o 4
cluster. Vediamo però nel dettaglio quale di queste soluzioni rappresenta quella ottima ai fini
dell‟analisi che si sta compiendo, attraverso diversi metodi di validazione, dei quali i due principali
che si è scelto di considerare sono:
86
-
Analisi della scomposizione della devianza; posto DevT=DevW+DevB, ovvero che la
devianza totale del collettivo della sotto-popolazione (o dei due, tre, quattro collettivi) è
somma della devianza all‟interno del gruppo considerato e delle devianze esterne al gruppo
stesso, l‟obiettivo dell‟analisi è la segmentazione che minimizzi la devianza within o intra,
massimizzando al contempo quella between, o inter.
-
Elaborazione del grafico di Silhouette e del suo indice: ottenuto un raggruppamento ideale
delle osservazioni composto da k sottopopolazioni, evidenziato nel dendrogramma da un
taglio orizzontale posto ad un‟altezza che designi il numero di cluster scelti, è possibile
elaborare un grafico (per l‟appunto il Silhouette plot) che permetta di verificare la bontà di
ciascun segmento e della struttura nella sua globalità, riportando i valori medi, e che può
essere utilizzato ai fini di analisi. La decisione sul numero di cluster più adeguati alla
divisione della popolazione in oggetto di analisi si basa sulla realizzazione di molteplici
grafici di silhouette, costruiti cambiando di volta in volta il numero delle sotto-popolazioni
in cui dividere le osservazioni: il plot che presenta l‟indice di silhouette media migliore,
oltre che una miglior rappresentazione grafica della clusterizzazione, corrisponderà anche
alla suddivisione migliore.
Nel dettaglio, identificando ciascun‟osservazione rilevata con i, possiamo definire a(i)
media delle dissimilarità interna, ovvero tra i stesso e gli altri oggetti che appartengono al
cluster, e b(i) come il più piccolo tra i valori di d(i,C), ovvero della media d delle distanze
tra l‟oggetto i e gli altri oggetti , per ogni altro cluster C. Si può quindi ora definire la
larghezza della silhouette s(i) come:
s(i) =
indice di silhouette media
0.71-1.0
0.51-0.70
0.26-0.50
≤ 0.25
b(i) - a(i)
Î [-1,1]
max(a(i), b(i))
interpretazione
segmentazione molto valida
segmentazione ragionevole
segmentazione piuttosto debole
assenza di struttura di segmentazione
Nel caso vi fossero cluster al cui interno vi è un solo elemento, per definizione si avrà un
valore s(i) = 0;
un valore alto di s(i), indica di contro che le osservazioni risultano ben
suddivise; se s(i) tende allo 0, l‟osservazione si troverà a metà tra il gruppo cui appartiene, e
87
il più vicino; nel caso invece s(i) si presentasse con un valore minore di zero, l‟osservazione
è stata probabilmente segmentata in modo sbagliato, e appartiene ad un cluster non consono.
Considertate le tre ipotesi di clusterizzazione, si è quindi proceduto a verificarle in prima istanza
mediante l‟uso del metodo agglomerativo non gerarchico delle k-medie, inputando di volta in volta
come numero di cluster obiettivo quelli emersi con l‟analisi della segmentazione mediante il
metodo di Ward, ovvero 2, 3 o 4, con il comando kmeans(x, centers), dove centers
corrisponde - per l‟appunto - al numero di gruppi ipotizzati. La risposta del software permetterà di
analizzare parametri come:
-
“cluster means”, vettori di numeri interi da 1 a k e che rappresentano la composizione dei
gruppi, indicando le medie per ognuno, in riferimento alle diverse variabili considerate
durante l‟analisi;
-
“clustering vector”, vettore che identifica l‟appartenenza di ogni osservazione i al cluster di
riferimento: permette di capire come i diversi rispondenti si suddividano all‟interno dei
sottogruppi identificati durante la segmentazione;
-
“within cluster sum of squares by cluster”, indica un valore dato dal rapporto tra la devianza
between e la devianza totale: l‟analisi trova il suo valore ideale, espresso nell‟ambiente
software da una percentuale, in un numero che tenda a zero; ragioniamo brevemente sul
significato di questo valore e sul perché il fine dell‟analisi sia la sua minimizzazione. Si
parta dall‟ipotesi che sia DevT=DevW+DevB per costruzione: dividendo tutto per DevT si
ottiene 1 =
R2 =1-
DevB DevW
DevB
DevW
, che può essere scritto anche come
, ovvero
+
=1DevT DevT
DevT
DevT
DevW
. A questo punto, se la devianza interna ai gruppi tendesse a 0 – risultato che
DevT
sarebbe ottimale ai fini della segmentazione in atto - è evidente che l‟indice R2 tenderebbe
di conseguenza a uno, in virtù del fatto che la frazione a destra dell‟uguale risulterebbe zero.
Al contrario, se la devianza within risultasse uguale - o quantomeno tendesse - al valore
della devianza totale, avremmo allora che l‟indice R2 risulterebbe zero, risultato non
positivo ai fini dell‟analisi in corso e sintomo di una clusterizzazione non ben effettuata o
generalmente non ottimale. È da considerare altresì che questo indicatore da solo non
permette di valutare in modo soddisfacente la divisione della popolazione in gruppi; è
necessario quindi ponderare tale valore con un secondo parametro di verifica, rappresentato
88
in questo caso dall‟indice di silhouette: un R2 che tenda a 1, a fronte di una silhouette mal
strutturata, è sintomo di una clusterizzazione comunque non ottimale.
5.3.4
CLUSTER ANALYSIS – METODO AGGLOMERATIVO DELLE
K-MEDIE PER 4 CLUSTER
La prima ipotesi in analisi è quella della suddivisione della popolazione globale in 4 sottocluster,
mediante l‟input al software R kmeans(dati,4)dove dati indica come già visto la tabella delle
osservazioni iniziali relative alle opinioni degli intervistati alle domande prese in esame. La risposta
data dall‟ambiente del software presenta le seguenti caratteristiche:
-
clustering with 4 clusters of sizes 30, 31, 77, 64
-
between_SS / total_SS =
47.7 %
Il grafico di silhouette, si presenta invece nel seguente modo:
Silhouette plot of (x = kdati4$cl, dist = dissE)
4 clusters Cj
j : nj | aveiÎCj si
n = 202
1 : 30 | 0.27
2 : 31 | 0.11
3 : 77 | 0.24
4 : 64 | 0.09
0.0
0.2
0.4
0.6
0.8
1.0
Silhouette width si
Average silhouette width : 0.18
89
Per osservare in primis la bontà del rapporto tra devianza totale e devianza tra i gruppi è necessario
il confronto con quelli risultanti dalla segmentazione mediante il metodo delle k-medie anche sotto
l‟ipotesi di 2 e 3 cluster - esposte nel proseguo dell‟analisi -, anche se un valore pari a 0,47 potrebbe
spingere a considerare tale clusterizzazione come verosimile, in quanto l‟indice risulta a metà tra i
limiti 0 e 1. È già possibile, invece, studiare quanto emerge dal silhouette plot: si osservi nel
dettaglio che l‟indice di silhouette medio presenta un valore di 0,21, ovvero piuttosto basso, al di
sotto anche del benchmark minimo di riferimento sopra esposto e fissato a 0,25 - sintomo di
un‟assenza generale di struttura da parte del cluster -. Tale valore deriva dalla media di quattro
singoli indici di larghezza di silhouette, uno per ogni gruppo creato: il primo sottoinsieme,
composto da 30 osservazioni, presenta un valore corrispondente a 0,27; seppur più alto della media
generale, indica comunque che le componenti non sono ben raggruppate, e anzi si trovano
presumibilmente a giacere a metà strada tra il cluster cui appartengono e quello immediatamente
vicino. Il secondo sottoinsieme, composto da 31 osservazioni, ha un indice di silhouette pari a 0,11:
un valore così basso deve far pensare ad una clusterizzazione non correttamente effettuata.
Senza dilungarci oltre in analisi troppo approfondite per questo primo step, si consideri solamente
che i restanti due cluster, formati relativamente da 77 e 64 osservazioni, presentano un valore di
larghezza della silhouette corrispondente a 0,24 e 0,09, sufficientemente bassi da confermare
l‟ipotesi della necessità di sviluppare raggruppamenti alternativi della popolazione rispondente; il
tutto aggravato poi dalla presenza di valori negativi nel grafico di silhouette.
5.3.5
CLUSTER ANALYSIS – METODO DELLE K-MEDIE PER 3 CLUSTER
Procedendo poi allo sviluppo di una clusterizzazione basata sul metodo k-means basato su 3
segmenti obiettivo, per mezzo del comando kmeans(dati,4) si ottengono i seguenti risultati:
-
clustering with 3 clusters of sizes 137, 62, 3
-
between_SS / total_SS =
37.0 %
Partendo dalla composizione dei cluster si può credibilmente concludere che, per quanto un numero
non omogeneo delle componenti dei gruppi sia mediamente un buon segno, un segmento composto
da soli tre elementi non può, anche solo in via teorica, far desumere che la clusterizzazione sia stata
effettuata in modo ottimo; inoltre, un valore più basso del rapporto tra devianza between e devianza
totale non può far presumere – quantomeno se considerato da solo - che si è in presenza di una
miglior segmentazione rispetto alla precedente.
90
La verifica di quanto detto è stata condotta mediante l‟analisi del grafico di silhouette costruito per
la clusterizzazione in 3 gruppi:
Silhouette plot of (x = kdati3$cl, dist = dissE)
3 clusters Cj
j : nj | aveiÎCj si
n = 202
1 : 137 | 0.46
2 : 62 | 0.05
3 : 3 | 0.51
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Silhouette width si
Average silhouette width : 0.33
La clusterizzazione presenta indici di silhouette che ancora non soddisfano: seppur compaiano
valori mediamente più alti per due gruppi su tre (segmento 1: 0,46 e segmento 3: 0,51), è altresì
vero che il secondo cluster per grandezza (segmento 2: 62 elementi) è caratterizzato da un valore
vicino allo zero, conseguenza di osservazioni posizionate in modo presumibilmente sbagliato, che
dovrebbero cioè appartenere al cluster più vicino piuttosto che a quello cui effettivamente
appartengono.
Relativamente all‟indice medio della larghezza della silhouette, esso presenta un valore pari a 0,33:
più alto di quello risultante dalla divisione in 4 sotto-popolazioni, ma non ancora all‟altezza delle
aspettative, in quanto identifica una segmentazione debole e con una struttura pressoché assente;
queste considerazioni sono inoltre consolidate dalla presenza all‟interno del cluster 2 – quello cioè
ragionevolmente peggio costruito rispetto agli altri due – di valori negativi, prossimi e talvolta
inferiori a -0,2. Risulta perciò necessario procedere considerando un‟ulteriore clusterizzazione in 2
91
gruppi, e analizzarne la relazione devianza between/devianza totale, l‟indice di silhouette, e la
costruzione del rispettivo grafico, come già fatto per le precedenti.
5.3.6
CLUSTER ANALYSIS – METODO DELLE K-MEDIE PER 2 CLUSTER
Per quest‟ultima analisi si è deciso di prendere in considerazione un taglio del dendrogramma che
identificasse solamente due cluster, comprensivi di tutte le osservazioni raccolte durante
l‟intervista: il risultato del comando kmeans(dati,2) è la creazione di due raggruppamenti di
rispettivamente 141 e 61 osservazioni, il cui indice di relazione devianza between/totale più basso
rispetto ai precedenti analizzati e pari a 0,304. Tale valore non è sintomo di una clusterizzazione
ottima rispetto a quelle considerate - se preso da solo -, e va pertanto affiancato dalle considerazioni
riguardanti i parametri già visti per le precedenti segmentazioni.
La distribuzione non omogenea delle osservazioni, però, identifica un segnale positivo: la necessità
principe della clusterizzazione è, infatti, che le osservazioni in essa contenute si differenzino tra
loro a livello intra-cluster per una o più specifiche caratteristiche, e che verosimilmente porta ad una
divisione non concorde, come nel caso in analisi.
Si verifichino le premesse di bontà di questa clusterizzazione mediante l‟analisi del grafico di
silhouette:
Silhouette plot of (x = kmeans2$cl, dist = dissE)
2 clusters Cj
j : nj | aveiÎCj si
n = 202
1 : 141 | 0.48
2 : 61 | 0.05
-0.2
0.0
0.2
0.4
Silhouette width si
Average silhouette width : 0.35
92
0.6
0.8
1.0
Nonostante la costante presenza di valori di silhouette negativi (nel secondo cluster quasi la metà
delle osservazioni presentano un indice inferiore allo zero) tratto che caratterizza nella generalità
dei tre casi di clusterizzazione analizzati una distribuzione evidentemente mai del tutto netta dei
rispondenti - che non rispondono cioè a caratteristiche definite in modo chiaro, risultando di
conseguenza “mal distribuiti” -, ci si trova di fronte in ogni caso al miglior grafico di silhouette
finora proposto; questa conclusione è dovuta sì al valore di larghezza di silhouette del primo cluster,
composto dalla maggior parte delle osservazioni – 141 – e pari a 0,48, indicatore di una struttura
che seppur risulti ancora classificabile come debole si avvicina di molto ad un range di
segmentazione ragionevole (0,50 – 0,70), ma anche e soprattutto al valore medio di silhouette, che
con il suo 0,35 rappresenta il più alto rispetto a quelli analizzati.
Si può quindi ragionevolmente concludere che, come evidenziato per mezzo del metodo di Ward e
confermato dunque con l‟analisi compiuta utilizzando il metodo delle k-medie, è verosimile
l‟ipotesi di dividere la popolazione in 2 sottocluster, rispettivamente di 121 e 81, e di cui riportiamo
la composizione generata usando il metodo gerarchico appena citato nella Tavola 4 dell‟appendice,
con anche il relativo taglio del dendrogramma, evidenziato dal segmento colorato di rosso nel
grafico della pagina seguente.
I comandi utilizzati in ambiente R per lo studio di tale segmentazione sono i seguenti:
-
distanze<-dist(dati,
"euclidean")
e
clust<-hclust(distanze,
"ward.D") sono stati richiamati per il calcolo delle distanze euclidee in matrice i ´ i , con i
numero delle osservazioni, e per realizzarne la clusterizzazione mediante metodo di Ward;
-
plot(clust, cex=0.3) è il comando utilizzato per creare il dendrogramma della
distribuzione considerata nel corso di questo tratto dell‟analisi;
-
rect.hclust(clust, k=2, border="red") ha permesso di dividere il grafico
di clusterizzazione nei gruppi in cui si è scelto di effettuare la segmentazione; due segmenti
di colore rosso evidenziano le sotto-popolazioni all‟interno del dendrogramma disegnato;
-
beta<-cutree(clust, k=2) evidenzia le formazioni dei due cluster, identificando a
quale delle due segmentazioni create appartiene ciascuna delle 202 osservazioni registrate;
tali indicazioni, riassunte nel vettore beta, possono essere opportunamente aggiunte alla
tabella dei dati iniziali mediante il comando data<-data.frame(dati,beta).
L‟aggiunta di questa stringa al dataset iniziale ci permetterà, una volta estratta la tabella
grazie all‟input write.table di profilare i rispondenti sulla base dell‟appartenenza
all‟uno o all‟altro cluster.
93
5.3.7
CLUSTER ANALYSIS – L‟ANALISI DEI GRUPPI
Detto della segmentazione ottenuta mediante il citato metodo di Ward, si analizzi ora come si
dividono nei suddetti cluster i rispondenti al questionario, e quali criteri – sicuramente presenti, in
caso contrario non si sarebbe ottenuta una clusterizzazione della popolazione – hanno influenzato
tale divisione.
Nel dettaglio, si prenderanno in considerazione sia le variabili che hanno contribuito direttamente
alla formazione dei cluster, sia quelle che non sono state coinvolte nello specifico processo:
-
le prime, permettono di dare un nome al cluster: una volta validate mediante t test le
differenze esistenti tra le statistiche rispetto ai due singoli cluster, e dei cluster rispetto alla
popolazione globale, è possibile identificare quale delle modalità considerate abbia
influenzato in maniera più importante la formazione del cluster, determinandone la
segmentazione rispetto alla popolazione globale. Questa stessa segmentazione potrà quindi
prendere il nome della modalità maggiormente influente.
-
le seconde invece permetteranno di identificare le peculiarità dei due distinti gruppi di
rispondenti; è verosimile pensare come, in fase di analisi, si riscontrino differenti
caratteristiche tra le segmentazioni registrate: in caso contrario, risulterebbe poco chiaro il
perché dell‟esistenza di una clusterizzazione all‟interno della popolazione intervistata.
5.3.8
CLUSTER ANALYSIS – LA DENOMINAZIONE DEI CLUSTER E LA
PROFILAZIONE DELLA CLIENTELA
Il primo passo, dunque, consiste nell‟analizzare quale delle variabili considerate abbia influenzato
maggiormente la composizione dei cluster identificati durante il processo di segmentazione,
mediante il metodo di Ward. Si consideri nel dettaglio la seguente tabella:
P
C1
C2
analisi della clusterizzazione mediante metodo Ward.D
Q2
Q4
Q5
Q6
Q7
Q8
4,44554
4,81188
4,87129
5,42574
5,23762
5,11881
3,82645
4,33884
4,52066
4,76860
4,71074
4,57851
5,37037
5,51852
5,39506
6,40741
6,02469
5,92593
Tabella 12: analisi delle medie delle variabili considerate nel processo di clusterizzazione
94
totale
4,98515
4,45730
5,77366
Il primo passo da compiere è quindi lo studio della significatività delle differenze esistenti tra le
medie, effettuato mediante il t-test - o test della t di Student -: si tratta di un test statistico
parametrico – si riferisce cioè ad una distribuzione libera dei dati – che ha il fine di accertare se,
considerata la distribuzione in esame, il suo valore medio si scosti significativamente o meno da un
determinato benchmark. Il test in analisi è stato sviluppato come test a due code, in quanto ci si
troverà di fronte a due alternative: le medie dei due vettori considerati sono statisticamente uguali,
oppure risultano diverse; nel caso specifico del test a due code, le aree di rifiuto sono distribuite in
modo simmetrico ai due estremi della curva (le due code, appunto) ed è solitamente usato quanto
non si hanno dati certi sull‟eventuale risultato, ovvero ci si pone il problema se esista una differenza
statisticamente rilevante tra le medie considerate, senza però avere indicazione alcuna su quale delle
due risulti maggiore oppure minore. Tale test è stato condotto mediante l‟uso del software statistico
R, applicato al confronto di coppie di medie prese singolarmente, al fine di mettere a confronto
dapprima la differenza esistente tra i valori di ogni cluster (C1,C2) rispetto alla popolazione globale
(P), e successivamente per confrontare tra loro i valori dei cluster; l‟operazione permetterà di
validare la clusterizzazione e procedere all‟assegnazione di un nome agli stessi, in base alla media
dei valori considerati per ogni variabile.
Nel dettaglio, al comando t.test utilizzato sono stati assegnati i seguenti parametri:
-
alternative = "two.sided": il test considerato si comporta cioè come una
distribuzione a due code;
-
mu = 0: l‟ipotesi da testare H0 (ovvero: le medie considerate non sono statisticamente
significative) ha come valore 0; questo implica che accettare tale ipotesi significa
stabilire che i due vettori considerati hanno media uguale, e quindi differenze non
notevoli relativamente alle medie considerate;
-
paired = FALSE: il test NON viene effettuato su dati appaiati, ma riguarda la verifica
dell‟ipotesi relativa all‟uguaglianza delle medie di campioni estratti da una popolazione;
-
var.equal = FALSE: le varianze dei due gruppi non sono considerate come uguali, ma
è presa in considerazione l‟approssimazione ai gradi di libertà;
-
conf.level = 0.90: il livello di significatività del test è del 90%.
95
Si consideri duenque la seguente tabella:
variabile
Q2
Q4
Q5
Q6
Q7
Q8
vettori di dati confidenza
P,C1
0,90
P,C2
0,90
C1,C2
0,90
P,C1
0,90
P,C2
0,90
C1,C2
0,90
P,C1
0,90
P,C2
0,90
C1,C2
0,90
P,C1
0,90
P,C2
0,90
C1,C2
0,90
P,C1
0,90
P,C2
0,90
C1,C2
0,90
P,C1
0,90
P,C2
0,90
C1,C2
0,90
t test
3,913
-6,929
-10,062
3,072
-5,624
-7,8114
2,842
-5,128
-7,121
3,392
-6,984
-9,277
3,649
-6,760
-9,532
3,261
-6,160
-10,281
p value
< 0,001
< 0,001
< 0,001
0,002
0,002
< 0,001
0,005
0,006
< 0,001
0,001
< 0,001
< 0,001
< 0,001
< 0,001
< 0,001
0,001
< 0,001
< 0,001
H0
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
rifiutata
Per tutte le ipotesi considerate nell‟analisi appena compiuta l‟ipotesi H0 di non-significatività della
differenza tra le medie è stata rifiutata, risultato indicato direttamente dall‟output fornito in sede
d‟interrogazione del software statistico R utilizzato a tale scopo: ci si trova pertanto di fronte ad una
clusterizzazione in due gruppi che presenta significatività statistica in termini di differenza delle
medie dei campioni esaminati tra i gruppi stessi, e tra ciascun gruppo e l‟intera popolazione dei
rispondenti.
Fatta questa necessaria analisi preliminare, è stato possibile passare poi all‟assegnazione dei nomi
descrittivi ai cluster ottenuti; nel dettaglio, tale operazione consente di identificare in modo più
semplice la composizione dei gruppi della popolazione dei rispondenti, e di verificare
successivamente la composizione di tali segmenti mediante quella che viene definita “profilazione
del cliente”. Questo processo si rifà alle medie ed alle frequenze delle variabili che non sono state
precedentemente utilizzate durante lo svolgimento della clusterizzazione, e permette di identificare
il profilo medio dei rispondenti che appartengono all‟uno o all‟altro segmento, evidenziandone le
caratteristiche che presumibilmente li hanno (inconsapevolmente) portati ad appartenere a tale
specifico cluster.
96
Ciò che emerge dalla profilazione è la situazione seguente:
-
cluster 1: ne fanno parte i 121 rispondenti che presentano una media di risposta pari a 4,457
e che verosimilmente possono essere identificati con l‟appellativo di “insoddisfatti”. Il
profilo di tale rispondenti è quello di un consumatore uomo (61,7%), impiegato (32,3%) e
con una fascia d‟età compresa tra i 40 e i 49 anni (35,5%): ha una frequentazione media del
punto vendita di 2,5 (si può - per comodità - approssimare a 3) giorni sui 5 lavorativi a
settimana, e si dichiara mediamente indifferente (3,8 su 7) relativamente al prezzo speso
durante la sua visita;
-
cluster 2: ne fanno invece parte gli 81 rispondenti che, con una media delle modalità di
risposta pari a 5,773, si possono denominare – arrotondando a 6 per eccesso - “più che
soddisfatti”. Il profilo del frequentatore più che sodisfatto risponde alle caratteristiche
ancora una volta di consumatore uomo (59,0%), anch‟esso impiegato (44,4 risposte su 100)
e con la medesima fascia d‟età 40-49 anni per il 38,3%. Questa volta, tuttavia, il rispondente
è meno presente all‟interno del punto vendita, presentando una frequentazione media del
punto vendita di 1,7 (approssimiamo a 2) giorni sui 5 lavorativi di ogni settimana, e si
dichiara però mediamente più soddisfatto rispetto agli appartenenti al cluster 1 rispetto al
prezzo speso durante la visita: 5,4 su 7.
Proviamo a capire il significato di tale dato. È ragionevole pensare che, accertato che la popolazione
rispondente con maggior frequenza è altresì la stessa che risponde al nome di “generalmente
insoddisfatta”, con un focus particolare sull‟aspetto relativo al prezzo, tale aspetto sia conseguenza
di un‟assenza di qualsiasi forma di fidelizzazione o promozione che garantisca un risparmio in
termini di spesa per i clienti alto-frequentanti - se si considera difatti la Tabella 12 sopra riportata, è
facilmente evidenziabile come la media voto più bassa del cluster 1 si riferisca proprio al quesito
numero 2 “Si ritiene mediamente sodisfatto del prezzo speso?” –. A fronte cioè di una visita più
frequente rispetto agli appartenenti al cluster 2, essi si trovano di fronte al medesimo trattamento
economico, senza la possibilità di avere un ritorno sotto forma di “premio” per la loro fedeltà verso
i punti vendita Berica Chef; tutto questo non dovrà però sviare il lettore: l‟insoddisfazione non sta
infatti ad indicare prezzi considerati troppo alti dalla popolazione rispondente – si consideri infatti
che la variabile relativa alla soddisfazione del prezzo presenta una media globale di quasi 5 su 7 –
quanto piuttosto, come appena visto, solamente una sfiducia che emerge in chi è maggiormente
presente e fedele.
Si lasciano alle conclusioni le ipotesi fatte da chi scrive per riuscire a migliorare quanto emerso.
97
CAPITOLO 6
CONCLUSIONI
L‟analisi appena compiuta evidenzia, ancora una volta, l‟importanza che ricopre la fidelizzazione
nel rapporto cliente-impresa: un consumatore appagato ritorna ad acquistare, e una cerchia di clienti
sicuri e fidelizzati permette di conseguenza che una parte di fatturato risulti stabile nel tempo.
Fidelizzare in modo efficace, conoscendo i propri clienti, significa riuscire ad ottenere un concreto
Return On Investiment, in modo particolare nel medio e lungo termine ma, soprattutto, risulta
importante poiché il costo eventualmente supportato per acquisire clienti nuovi è molto spesso di
superiore rispetto a quelli che l‟azienda sostiene per mantenere quelli già possiede, in termini sia di
sforzi da compiere, che dal punto di vista prettamente economico. Un piano adeguato di
fidelizzazione contribuisce in modo notevole anche al rafforzamento del brand aziendale, grazie al
rapporto fortemente emozionale che si viene a creare tra marchio e cliente/consumatore.
Sviluppare un questionario su basi solide e strutturate significa riuscire ad estrarre più informazioni
possibili dal rispondente, profilandolo sulla base delle sue caratteristiche intrinseche, e segmentando
di conseguenza la popolazione in base alle variabili considerate maggiormente rilevanti
dall‟azienda; inoltre, un‟intervista ben fatta rende possibile valutare plus e minus del servizio
fornito, correggendo gli errori e gli aspetti negativi sottolineati dai clienti, prima che questi
diventino “cronici” e rechino come conseguenza l‟abbandono da parte del consumatore.
L‟analisi svolta, in dettaglio, ha fatto emergere una verosimile richiesta latente di fidelizzazione da
parte della clientela, attuabile ad esempio mediante la creazione di programmi di fidelity-card,
offerte speciali, prezzi scontati o agevolati, comunicazione di notizie che possano risultare utili in
quanto relative ad esempio allo sviluppo di un nuovo prodotto o di una nuova linea, o più in
generale relative ad argomenti per il quale egli possa aver manifestato un interesse diretto o
indiretto.
Con riferimento specifico ai risultati esposti nel capitolo precedente, Berica Chef potrebbe
sviluppare dunque un programma – ad esempio mediante la distribuzione di fidelity card – che
garantisca alla stessa azienda entrate sicure nel tempo grazie all‟assiduità con la quale il cliente
affezionato frequenterà di conseguenza il punto vendita e, di contro, assicurare al consumatore una
98
promozione di prezzo che si possa tradurre poi in uno sconto sull‟ammontare totale degli acquisti
cumulati, oppure in un omaggio con cui l'impresa premi il suo atteggiamento fedele.
Potrebbe essere interessante, ad esempio, sfruttare la vicinanza del marchio a quello della
torrefazione padovana Caffè Diemme per omaggiare i clienti di un determinato quantitativo di caffè
da consumare a casa, al raggiungimento di un ammontare obiettivo dello scontrino: dal momento
che il caffè è un bene largamente consumato, facendo spesso parte di quella categoria di prodotti
primari a cui molte famiglie non rinunciano, si può immaginare che averne una confezione in regalo,
seppur di una quantità ridotta, possa essere sicuramente apprezzato e apprezzabile, garantendo di
fatto un vero e proprio risparmio sugli acquisti che normalmente avvengono all‟interno del nucleo
familiare.
99
APPENDICE
TAVOLA 1
QUESTIONARIO SULLA SODDISFAZIONE DEL CLIENTE
(nel caso non fosse mai stato in uno o più locali, scrivere “mai stato” in fianco alla domanda)
1) In che misura si ritiene soddisfatto dei ns. servizi nei locali “l‟Albero l‟Italia a tavola” in
merito ai seguenti aspetti:
PREZZO
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
QUALITA‟
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
CORTESIA E ORGANIZZAZIONE
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
ASSORTIMENTO OFFERTA
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
2) In che misura si ritiene soddisfatto dei ns. servizi nei locali “Tarantella…che pizza!!”in
merito ai seguenti aspetti:
PREZZO
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
100
QUALITA‟
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
CORTESIA E ORGANIZZAZIONE
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
ASSORTIMENTO OFFERTA
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
3) In che misura si ritiene soddisfatto dei ns. servizi nei locali “Pepè – Italian Fast Food” in
merito ai seguenti aspetti:
PREZZO
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
QUALITA‟
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
CORTESIA E ORGANIZZAZIONE
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
ASSORTIMENTO OFFERTA
Molto soddisfatto
Soddisfatto
Abbastanza soddisfatto
Insoddisfatto
101
4) Cosa le piacerebbe trovare nei nostri locali:
Miglior comunicazione delle proposte
Maggior assortimento prodotti e novità
Maggior efficienza del personale
Miglior disposizione ed accesso ai locali
5) Come valuta il nostro nuovo sito internet e i suoi contenuti?
Molto soddisfacente
Soddisfacente
Abbastanza soddisfacente
Insoddisfacente
Mai visitato
102
TAVOLA 2
103
104
TAVOLA 3
H fusione
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
ΔH fusione
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
H fusione
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,276142
1,276142
1,276142
1,276142
1,276142
1,276142
1,276142
1,333333
1,333333
1,333333
1,333333
1,345178
1,345178
1,345178
1,373773
1,414214
1,414214
1,414214
1,414214
1,414214
1,414214
1,414214
1,500000
1,500000
1,666667
ΔH fusione
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
1,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,276142
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,057191
0,000000
0,000000
0,000000
0,011845
0,000000
0,000000
0,028595
0,040440
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,085786
0,000000
0,166667
H fusione
1,732051
1,732051
1,732051
1,764176
1,764176
1,764176
1,764176
1,780239
1,837997
1,914214
2,000000
2,000000
2,000000
2,000000
2,000000
2,028474
2,060144
2,121320
2,134097
2,174008
2,198038
2,236068
2,236068
2,236068
2,236068
2,236068
2,373652
2,449490
2,459438
2,546355
2,587880
2,625396
2,645751
2,645751
2,666667
2,747190
2,796189
2,828427
2,837430
2,897541
2,978463
3,084937
3,104569
3,140754
3,191318
3,258446
3,292778
3,306130
3,335029
3,357716
3,408736
ΔH fusione
0,065384
0,000000
0,000000
0,032125
0,000000
0,000000
0,000000
0,016063
0,057758
0,076217
0,085786
0,000000
0,000000
0,000000
0,000000
0,028474
0,031670
0,061176
0,012776
0,039911
0,024030
0,038030
0,000000
0,000000
0,000000
0,000000
0,137584
0,075838
0,009949
0,086916
0,041525
0,037516
0,020356
0,000000
0,020915
0,080523
0,048999
0,032238
0,009003
0,060111
0,080922
0,106473
0,019633
0,036185
0,050564
0,067128
0,034332
0,013353
0,028899
0,022687
0,051020
H fusione
3,418264
3,535846
3,653864
3,685145
3,811834
3,839342
4,000000
4,116032
4,136516
4,146881
4,301650
4,405239
4,444444
4,497819
4,690945
5,173104
5,357566
5,422948
5,529397
5,646848
5,926881
5,998288
6,146651
6,406391
6,723967
6,737819
6,971946
6,982941
7,799361
7,897027
7,924544
8,176229
8,486844
8,513978
8,938867
9,376667
12,121343
12,868527
14,488331
14,896276
16,090211
19,467275
27,886860
29,005808
32,323821
52,892814
68,313829
118,783754
ΔH fusione
0,009527
0,117582
0,118018
0,031281
0,126689
0,027508
0,160658
0,116032
0,020484
0,010365
0,154769
0,103588
0,039206
0,053375
0,193126
0,482159
0,184462
0,065382
0,106449
0,117451
0,280033
0,071407
0,148363
0,259741
0,317576
0,013852
0,234127
0,010995
0,816420
0,097666
0,027517
0,251685
0,310615
0,027134
0,424889
0,437800
2,744676
0,747185
1,619804
0,407945
1,193935
3,377064
8,419585
1,118948
3,318013
20,568993
15,421015
50,469925
105
TAVOLA 4
Height
0
74
131
162
66
155
55
117
72
132
198
197
192
191
186
182
170
166
163
140
127
118
114
95
87
75
69
63
12
53
138
5
92
103
134
10
89
111
133
184
194
183
22
80
195
77
123
107
3
58
47
44
11
37
145
150
25
158
149
151
130
96
23
112
6
105
41
165
50
172
147
70
76
19
119
91
135
175
64
7
43
21
49
32
187
97
57
110
24
46
17
56
18
144
169
35
39
1
27
177
33
40
60
80
100
120
Cluster Dendrogram
distanze
hclust (*, "ward.D")
106
62
200
201
109
173
153
146
4
116
101
124
13
125
199
189
9
94
29
185
31
179
34
141
128
28
93
193
108
83
88
26
202
106
30
122
161
167
42
61
36
157
143
154
142
180
126
68
171
156
15
51
190
14
99
104
160
152
38
136
188
120
82
73
78
181
176
40
84
2
121
113
174
129
8
90
196
168
71
102
100
139
45
67
137
178
59
79
20
85
60
65
148
48
98
52
81
164
54
159
16
86
115
20
BIBLIOGRAFIA
Auty S. (1992). Consumer Choice and Segmentation in the Restaurant Industry, Service Industries
Journal, 12(3), pp.324-339.
Barcaroli G. - D'Aurizio L. - Luzi O. - Manzari A. - Pallara S. (1999), Metodi e software per la
produzione dei dati, ISTAT.
Bradburn N. - Sudman S. (1991) The current status of questionnaire design, in Measurement error
in surveys. John Wiley and Sons, NY.
Cacciola S. - Marradi A. (1988) Contributo al dibattito sulle scale Likert basato sull’analisi di
interviste registrate. Franco Angeli, Milano.
ISTAT (1989); Manuali di tecniche di indagine. Roma.
J. A. Hartigan and M. A. Wong (1979), A K-Means Clustering Algorithm. Journal of the Royal
Statistical Society, Londra.
L. Fabbris (1997). Statistica Multivariata. McGraw-Hill, Milano.
L. Molteni & G. Troilo (2003). Ricerche di Marketing. McGraw-Hill, Milano.
Marbach, G. (1975). Sull'uso di quesiti che tutelano la completezza dell'informazione, Metron.
Martini M. (2000), L’integrazione statistica di registri ed indagini, F. Angeli, Milano.
Piccolo, D. (2010), Statistica per le decisioni. Il Mulino.
R Core Team (2012). R: a language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria.
R. A. Johnson - D. W. Wichern (2002), Applied Multivariate Statistical Analysis. Prentice-Hall,
Upper Saddle River, NJ.
Schuman H - Presser S. (1981), Questions and answers in attitude surveys. Academic press, NY.
Wind Y.J., Mahajan V. (2002), Il consumatore centauro. Ovvero il marketing della convergenza,
Milano, Etas.
107
SITOGRAFIA
http:// www.quint-essenz.ch [lunedì 19 maggio]
http://networklab.univpm.it/sp/internet-in-italia-una-cosa-da-adulti.3sp [15 luglio 2014]
http://video.ilsole24ore.com/SoleOnLine5/Video/Notizie/Italia/2012/bufacchi-18-gennaio/bufacchi18-gennaio.php
http://www.bericachef.com [20 luglio 2014]
http://www.ch.unich.it/facolta/psicologia/contributi/04/alparone.pdf [venerdì 13 settembre 2013]
http://www.diemmecaffe.com [20 dicembre 2014]
http://www.lafeltrinelli.it [20 luglio 2014]
http://www.me-teor.it/marr_opere/italiano/articoli/REAZOGG.pdf
http://www.nmfs.noaa.gov/sfa/reg_svcs/social%20guid&pri.pdf
http://www.puntarellarossa.it/2013/06/18/fast-food-i-giovani-americani-abbandonano-mcdonalds/
[mercoledì 28 agosto ore 9.24]
http://www.repubblica.it/tecnologia/2013/10/07/news/privacy_online_censis-68081776/
http://www.uniroma2.it/didattica/statistica_sociale_B/deposito/corbettametodologia_e_tecniche_del
la_ricerca_socialeriassunto.pdf
http://www.valutazioneitaliana.it/riv/num7/giordano.pdf [venerdì 13 settembre 2013]
108
RINGRAZIAMENTI
Dopo quasi due anni di ricerche, lavoro, e analisi, sono finalmente giunto alla conclusione di questa
tesi, e quindi della mia carriera universitaria; sono stati – soprattutto nell‟ultimo periodo – mesi che
hanno messo a dura prova il mio convincimento di potercela fare, e di conseguenza che tante volte
hanno finito per intaccare la sicurezza in me stesso e la consapevolezza di potercela fare. Sono tante
le persone che vorrei e dovrei ringraziare, per alcune lo farò qui, per altre le farò di persona, per
altre ancora posso farlo solo con un pensiero, a chi in questo momento è distante, ma al contempo
profondamente vicino.
Tante persone in questo periodo mi hanno incoraggiato a terminare questo percorso, coronato lo
scorso anno dall‟assunzione in un‟azienda del territorio in cui posso crescere, e che mi da
l‟opportunità di farlo accompagnandomi di giorno in giorno in un cammino formativo che pochi
ragazzi della mia età, soprattutto in questo periodo, hanno la possibilità di avere.
Mio padre, i miei fratelli, la mia famiglia, gli amici, che mi hanno sostenuto direttamente – e
indirettamente – e mi hanno spronato affinché non perdessi mai di vista l‟obiettivo, quella Laurea
che ho rincorso tra molti sacrifici, sia loro che miei.
I miei colleghi, che mi hanno aiutato nella realizzazione del questionario e sostenuto nell‟analisi dei
risultati e che in questo ultimo periodo si sono preoccupati talmente tanto della mia tesi che sono
arrivati a scriversi le scadenze sul calendario, loro al posto mio…
La mia Relatrice, che è stata capace di trasmettermi la serenità giusta per capire gli errori che stavo
commettendo, o i progressi svolti, e dandomi di volta in volta i suggerimenti mirati affinchè
riuscissi a capire quale doveva essere lo step successivo dell‟analisi.
Alice, ultima ma non per importanza, grazie cui tutto questo è stato possibile; c‟è stata nei momenti
di rassegnazione quando le cose non andavano bene, c‟è stata nei momenti di euforia quando
finalmente la tesi stava cominciando a prendere la forma che desideravo e speravo, ma soprattutto
mi ha convinto del fatto che con gli sforzi giusti e la costanza avrei potuto portare a termine questo
lavoro. Semplicemente: c‟è stata, e ci sarà.
109
110