Transcript View/Open
Corso di Laurea magistrale in Marketing e Comunicazione Tesi di Laurea Customer satisfaction e segmentazione, due strumenti fondamentali per l’analisi della clientela. Il caso Berica Chef. Relatore Ch. Prof. Isabella Procidano Laureando Francesco Stevanato Matricola 821102 Anno Accademico 2014 / 2015 1 INDICE INTRODUZIONE 1. BREVE ANALISI DELLE AZIENDE pag. 7 1.1. Caffè Diemme: una visione storica dell‟azienda pag. 7 1.2. L‟altra principale azienda del gruppo: Berica Chef Srl pag. 9 2. IL C.R.M. 2 pag. 5 pag. 13 2.1. Il CRM analitico ed operativo – un‟analisi globale pag. 14 2.2. Il questionario pag. 15 2.2.1. Il questionario: la struttura delle domande pag. 16 2.2.2. Il questionario: i vari tipi di domande possibili pag. 17 2.2.2.1. Le domande filtro e di controllo pag. 18 2.2.2.2. Le domande aperte pag. 19 2.2.2.3. Le domande semichiuse pag. 19 2.2.2.4. Le domande chiuse pag. 20 2.2.2.5. Le domande dirette e indirette pag. 21 2.2.2.6. Le domande primarie e secondarie pag. 21 2.2.2.7. Le domande di scale e la struttura delle risposte pag. 21 2.2.3. Le scale pag. 23 2.2.3.1. La scala Likert pag. 23 2.2.3.2. La scala di Thurstone pag. 29 2.2.3.3. La scala (o scalogramma) di Guttman pag. 29 2.2.3.4. La scala di Bogardus pag. 30 2.2.3.5. Il metodo del differenziale semantico pag. 31 3. QUESTIONARIO ESISTENTE E NUOVA INTERVISTA pag. 34 3.1. La visione generale e la mission dell‟intervista pag. 34 3.1.1. Il questionario esistente: analisi generale pag. 35 3.1.2. Gli errori principali commessi nel precedente questionario pag. 40 3.2. Il nuovo questionario: la struttura delle domande 4. L’ANALISI DEI RISULTATI: TEORIA E METODI DI SEGMENTAZIONE pag. 42 pag. 44 4.1. L‟analisi dei grappoli o cluster analysis pag. 44 4.2. I metodi gerarchici agglomerativi pag. 47 4.2.1. Metodo del legame singolo pag. 49 4.2.2. Metodo del legame completo pag. 50 4.2.3. Metodo di Ward pag. 51 4.3. I metodi gerarchici divisivi pag. 51 4.4. I metodi non gerarchici pag. 52 5. L’ANALISI DEI RISULTATI: ANALISI UNIVARIATA, ANALISI BIVARIATA, SEGMENTAZIONE pag. 56 5.1. L‟analisi univariata pag. 56 5.2. Studio delle relazioni sussistenti tra le variabili rilevate, analisi bivariata e test chi quadrato pag. 66 5.2.1. Analisi di dipendenza tra genere del rispondente e soddisfazione relativamente al prezzo speso pag. 69 5.2.2. Analisi di dipendenza tra genere del rispondente e valutazione sulla qualità del cibo pag. 71 5.2.3. Analisi di dipendenza tra genere del rispondente e valutazione sulla cortesia e gentilezza del personale pag. 73 5.2.4. Analisi di dipendenza tra genere del rispondente e valutazione relativamente al tempo di attesa pag. 75 3 5.2.5. Analisi di dipendenza tra frequenza di visita e soddisfazione relativamente al prezzo speso pag. 78 5.3. La segmentazione degli intervistati: la clusterizzazione della popolazione e l‟analisi dei gruppi ottenuti pag. 80 5.3.1. Cluster Analysis – metodo agglomerativo del legame singolo pag. 82 5.3.2. Cluster Analysis – metodo agglomerativo del legame completo pag. 83 5.3.3. Cluster Analysis – metodo di Ward pag. 85 5.3.4. Cluster Analysis – metodo agglomerativo delle k-medie per 4 cluster pag. 89 5.3.5. Cluster Analysis – metodo delle k-medie per 3 cluster pag. 90 5.3.6. Cluster Analysis – metodo delle k-medie per 2 cluster pag. 92 5.3.7. Cluster Analysis – l‟analisi dei gruppi pag. 94 5.3.8. Cluster Analysis – la denominazione dei cluster e la profilazione della clientela 6. CONCLUSIONI pag. 94 pag. 98 APPENDICE pag. 100 BIBLIOGRAFIA pag. 107 SITOGRAFIA pag. 108 RIGRAZIAMENTI pag. 109 4 INTRODUZIONE Questa analisi è stata elaborata in seguito allo svolgimento di uno stage stage presso Diemme SPA, più nota ai consumatori con il marchio Caffè Diemme, e che racchiude all‟interno della sua sede di Albignasego (Padova) una serie di altre interessanti realtà, com‟è ad esempio Berica Chef SRL. Durante tutta la durata dello stage, sostenuto per 14 settimane, ho avuto la possibilità di confrontarmi con attività svolte in diversi ambiti aziendali, due delle quali – le più importanti - il customer care, e tutte quelle relative all'ufficio marketing e comunicazione. Tra queste, la più importante ed interessante è stata, verso la fine della mia esperienza come stagista all‟interno dell‟azienda, la realizzazione di un nuovo questionario – in sostituzione a quello on-line preesistente - rivolto ai clienti di diversi punti vendita dislocati sul territorio della regione, il controllo del suo svolgimento durante tutto il periodo, e l‟organizzazione dei dati raccolti con l‟obiettivo di analizzare opinioni riguardo il servizio di ristorazione offerto. Nella prima parte di questo elaborato, verrà esposto mediante una breve analisi il contesto all‟interno del quale il questionario è stato sviluppato, e verrà svolta un‟analisi dell‟attività di customer relationship management e di tutte quelle attività che permettono l‟analisi e la segmentazione della clientela, mediante abitudini o comportamenti simili. Una seconda parte analizzerà il questionario on-line esistente, descriverà rapidamente lo stato dell‟arte al momento dell‟ideazione del nuovo questionario, e presenterà la costruzione della nuova intervista. Nell‟ultima parte, infine, l‟analisi dei dati e le procedure che hanno portato alla segmentazione dei rispondenti. Per ciascuna variabile, i dati raccolti sono stati sintetizzati mediante analisi univariata in tabelle di frequenza, istogrammi e grafici a torta. Nella prima parte di questa relazione si andrà ad esporre il questionario e verrà svolta un‟analisi descrittiva dei dati: per ogni variabile, i dati raccolti verranno sintetizzati in tabelle di frequenza e grafici a torta e a barre. Nella seconda parte, dopo una breve introduzione teorica, verrà sviluppata un‟analisi bivariata al fine di valutare possibili relazioni significative a livello statistico tra le coppie di variabili, in particolare mediante tabelle di contingenza e test chi-quadrato χ2. 5 Nella parte finale, lo sviluppo della segmentazione della popolazione mediante diversi metodi agglomerativi permetterà di analizzare le caratteristiche dei rispondenti, delineandone un profilo dettagliato, e verranno dunque riassunte le conclusioni. 6 CAPITOLO 1 BREVE ANALISI DELLE AZIENDE Berica Chef Srl è un‟azienda che fa parte del gruppo Dubbini Srl, il cui brand più importante per dimensioni e notorietà tra i consumatori è sicuramente “Caffè Diemme”, che contraddistingue l‟unica – ormai – torrefazione presente nella provincia di Padova. Vale la pena, prima di procedere, esaminare in un rapido excursus queste due importanti realtà locali. 1.1. CAFFE DIEMME: UNA VISIONE STORICA DELL’AZIENDA Caffè Diemme nasce a Padova nel 1927, anno in cui il fondatore Romeo Dubbini decise di dedicarsi totalmente alla sua grande passione per il caffè, facendone il fulcro della sua attività imprenditoriale. Ad oggi la terza generazione - composta dai tre fratelli Giannandrea (attuale presidente della società), Sebastiano e Federico, da sempre saldamente uniti e cresciuti nella realtà del nonno Romeo - è riuscita a mantenere l‟azienda legata alla tradizione e ad importanti valori tramandati dalla famiglia, quali l'impegno, la serietà e, non per ultimi, la qualità ed uno spiccato gusto per la raffinatezza, ma al tempo stesso con un ampio sguardo rivolto al futuro. Oggi l‟azienda interpreta al meglio la sfida del fondatore, credendo ancora nel binomio tradizione-modernità: alta qualità costante nel tempo, un servizio attento e puntuale, attività di marketing mirate a sostegno dei clienti, con costanti consulenze da parte sia degli agenti di zona, sempre pronti a nuove proposte e nuove soluzioni per chi appartiene al mondo dell‟Ho.Re.Ca, sia direttamente dalla sede centrale, con idee e sfide che talvolta partono anche dal presidente stesso, ancora attentissimo a tutto ciò che ruota attorno ad un‟azienda ormai internazionale. Un‟analisi veloce per punti permette di comprenderne meglio il posizionamento nel mercato: - Vision aziendale: accanto ad una costante vocazione per l‟alta qualità dei prodotti proposti, Caffè Diemme offre un elevato standard nei servizi ed un‟immagine moderna e accattivante per distinguersi ed essere competitivi nel mercato, e non apparire come meri fornitori di materie prime; 7 - Mission: racchiudere in una tazzina tutta l‟eccellenza in cui l‟azienda crede, trasferendo la vera cultura dell‟espresso in Italia e nel mondo; - Cultura aziendale: Caffè Diemme coniuga la lunga tradizione di quasi novant‟anni di storia ed esperienza ad una visione orientata ai nuovi mercati. Tradizione ed innovazione rappresentano le due anime dell‟azienda, che coesistono perfettamente assieme: passione, valori e tradizioni familiari che ne hanno costituito le origini si fondono con i tratti più moderni dell‟azienda, mantenimento di elevati standard qualitativi, formazione, ricerca di prodotto e attività di marketing mirate a sostegno dei clienti; - Descrizione del mercato nel quale opera: l‟azienda opera nel mercato business to business, specificatamente nel settore Ho.Re.Ca. (bar, ristoranti e caffè), essendo da sempre vocata ad elevati standard qualitativi. Il settore ho.re.ca. rappresenta la sintesi tra alta qualità e costante innovazione, ed è un settore che richiede sempre elevata professionalità; - Tipo di prodotto che l’azienda offre nel mercato e canale di vendita: l‟azienda si occupa principalmente della produzione e distribuzione di caffè torrefatto in grani, e di tutti i prodotti complementari che ne accompagnano la vendita completandone l‟offerta finale (es. cioccolata, tè, infusi, orzo, caffè al ginseng). La fascia di prezzo di vendita del prodotto è medio alta. Il canale di riferimento è l‟ho.re.ca: si rivolge ai gestori di bar, caffetterie, pasticcerie, ristoranti, e tutti i prodotti arrivano al cliente finale solo ed esclusivamente attraverso tali canali; - Principali concorrenti e SWOT ANALYSIS: nel mercato, tutte le aziende, grandi o piccole che siano, rappresentano ovviamente dei concorrenti: tra i grandi competitor ci sono i marchi Illy, Segafredo, Vergnano, Lavazza, tra i competitor più diretti, per citarne alcuni, i marchi Goppion, Dersut, Vescovi, Caffè Vero, Pedron; PUNTI DI FORZA - ricerca della massima qualità del PUNTI DI DEBOLEZZA - prodotto diversi da quelli della GDO può portare - cura per il dettaglio all‟interno del p.v. ad una conoscenza relativa del brand, - professionalità nel servizio non inclusa nella “top of mind” OPPORTUNITÀ - 8 la selezione di canali distributivi nuovi modi di consumo del caffè: MINACCE - “guerra dei prezzi” dovuta ad un capsule, caffè come life style, caffè continuo innalzamento del costo del come opportunità di aggregazione caffè crudo quotato in borsa - Informazioni sul target di riferimento: tipo di cliente che si vuole attirare: nel pensiero di Caffè Diemme, il Bar è un luogo in cui il consumatore deve trovare l‟eccellenza; egli deve riuscire a degustare in una tazzina di caffè tutto un mondo di emozioni, assaporarla in un ambiente gradevole e, non per ultimo, deve essergli servita con il sorriso. Diemme predilige dunque i clienti che, nello stesso spirito aziendale che la contraddistinguono, pongono la massima attenzione possibile per la qualità delle materie prime e del servizio che offrono ai propri consumatori. 1.2. L’ALTRA PRINCIPALE AZIENDA DEL GRUPPO: BERICA CHEF SRL Berica Chef Srl è un‟azienda veneta con sede ad Albignasego (Padova), che dal 2001 si dedica alla ristorazione con professionalità e dedizione grazie all‟esperienza maturata in questo campo. Nel giro di pochi anni è riuscita, grazie a punti di forza come la qualità del servizio, la cortesia, la professionalità e l‟immagine, a farsi conoscere dentro e fuori provincia con i suoi 3 marchi: - “L‟Albero l‟Italia a Tavola” è il marchio che contraddistingue i self service, luoghi dove ogni giorno il consumatore può gustare pietanze preparate con cura e con ingredienti sempre freschi; - “Tarantella…che pizza!” è il marchio che contraddistingue le pizzerie da asporto, dalle quali si sfornano ogni minuto pizze sempre differenti: bianche, rosse, soffici, croccanti, alte, sottili. Accanto alle pizze, prodotti tipici come i pizzotti, i crescioni, le schiacciate e le spianatelle; - “D-Burger” nato nel 2009 da una costola del self-service, è l‟unico marchio che ad oggi contraddistingue la linea fast food e club house. Ciò che distingue tali prodotti da quelli dei brand americani è sicuramente il pane sempre fresco e gli ingredienti migliori della tradizione italiana e locale; i panini sono preparati al momento e accompagnati da fritti, insalata fresca o frutta. Nel 2011 l‟azienda festeggia i suoi 10 anni e passa sotto l‟ombrello del Gruppo Dubbini, iniziando una collaborazione di know how e di immagine con il marchio Caffe Diemme. Grazie all‟affiancamento ad un‟azienda di più grande spessore sia economico che di conoscenze, Berica Chef ha avuto la possibilità di crescere e di affrontare nuove sfide, quali la gestione di un primo bar al di fuori del circuito dei Centri Commerciali, e l‟inserimento in ambienti di alto livello come il recentissimo punto vendita all‟interno de “La Nave de Vero” di Marghera. 9 L‟azienda rappresenta la seconda realtà più importante, dopo la stessa torrefazione, in termini di fatturato rispetto al bilancio consolidato, e vanta la presenza in tre dei più importanti centri commerciali della provincia di Padova (“Ipercity” di Albignasego, “Le Brentelle” di Rubano, “Airone” di Monselice), oltre che al recente “Il Grifone Shopping Center” di Bassano del Grappa, Vicenza. Una veloce SWOT analysis può aiutarci, anche in questo caso, a capire la situazione attuale dei punti vendita all‟interno dei quali verranno somministrati i questionari durante il periodo dell‟intervista; è in particolare interessante, a questo proposito, attuare una prima ed elementare divisione in base al centro commerciale all‟interno del quale sono situati i punti vendita: - “IPERCITY” DI ALBIGNASEGO, PADOVA L‟Albero l‟Italia a tavola: il self service PUNTI DI FORZA PUNTI DI DEBOLEZZA - numerosi posti a sedere - - unico self con cibo italiano (o comunque resto ai concorrenti, ma offerta diversa e non fast-food) all‟interno del centro più completa prezzi leggermente superiori rispetto al commerciale OPPORTUNITÀ MINACCE - sviluppo di un‟attività serale - - sviluppo di menù a prezzo fisso Caffè Diemme al piano terra che offre - secondi piatti vegetariani/vegani/bio una pausa pranzo veloce rischio di cannibalizzazione con bar Tarantella che pizza!: la pizzeria PUNTI DI FORZA PUNTI DI DEBOLEZZA - numerosi posti a sedere - - unica pizzeria del cc - lievitazione e lavorazione in loco - prezzi competitivi scarsi cambi di offerta e poche novità stagionali OPPORTUNITÀ MINACCE - - - sviluppo di farine kamut e integrali per differenziare l‟offerta McDonalds su tutti, offrono prodotti di sviluppo di prodotti senza glutine per chi fascia simile a prezzi più bassi ha problemi di intolleranza 10 fast food vicini che, con marchio - LE BRENTELLE – SARMEOLA DI RUBANO L‟Albero l‟Italia a tavola e Tarantella che pizza!: il self service e la pizzeria; uniamo queste due realtà in quanto la posizione all‟interno del centro commerciale ne fanno pressochè un'unica realtà PUNTI DI FORZA PUNTI DI DEBOLEZZA - - unico self service con cibo “slow” all‟interno del centro commerciale - design moderno e funzionale - semplicità di fruizione posizione dislocata rispetto al cuore del centro commerciale OPPORTUNITÀ MINACCE - - possibilità di sviluppo di una linea nessuna nel breve periodo vegetariana e vegana, adatta alle intolleranze o alle semplici scelte dei clienti - IL GRIFONE SHOPPING CENTER DI BASSANO DEL GRAPPA L‟Albero l‟Italia a tavola e Tarantella che pizza!: il self service e la pizzeria PUNTI DI FORZA PUNTI DI DEBOLEZZA - - - unica offerta di ristorazione all‟interno scarsa capacità di comunicare l‟offerta in del centro commerciale tutte le sue caratteristiche, soprattutto ampia scelta e molto varia riguardo alla preparazione espressa dei pasti OPPORTUNITÀ MINACCE - - possibilità di sviluppo di una linea vegetariana e vegana, adatta alle intolleranze o alle semplici scelte dei minaccia indiretta, legata allo scarso traino del centro commerciale - clienti D-Burger: club house PUNTI DI FORZA PUNTI DI DEBOLEZZA - - cibo più salutare rispetto agli altri fast food, a prezzi relativamente competitivi - scarsa comunicazione dell‟offerta e del differenziale rispetto agli altri fast food ampia scelta anche per chi non volesse panini/differenziazione dell‟offerta 11 OPPORTUNITÀ MINACCE - - sviluppo di un brand monoprodotto calo dei consumi nei fast food di fronte ad una maggiore sensibilizzazione verso il “mangiare sano” - 12 McDonald‟s a pochi metri CAPITOLO 2 IL C.R.M. Dopo l‟analisi dell‟ambiente all‟interno del quale l‟analisi in oggetto è stata svolta, si passa quindi ad una disamina del concetto di Gestione del Rapporto con i Clienti, applicato al contesto d‟interesse per l‟azienda per la quale è stato sviluppata l‟intervista. Per CRM, o Customer Relationship Management, s‟intende in dettaglio quella strategia di business che ha come scopo ultimo quello di creare una relazione personalizzata di lungo periodo con il cliente. Da un punto di vista tecnologico, esso coinvolge dunque: - individuazione e raccolta dei dati sui vari clienti nell‟intera azienda; - il loro consolidamento in un database unico (detto anche Customer Database); - la loro analisi per l‟individuazione di informazioni; - la distribuzione dei risultati all‟intera organizzazione per creare un rapporto migliore con il cliente, a prescindere dal canale di comunicazione scelto. Si tratta quindi di un approccio integrato, di una modalità di management che integra concetti e strumenti di marketing (ad esempio il one-to-one), sistemi informativi (hardware e software) e, non da ultimo, organizzazione dei processi che sottostanno alla gestione del cliente: la disponibilità di informazioni non rappresenta di per se la conoscenza, se non sottoposte ad un‟analisi mirata. Le funzionalità di base del CRM sono, in breve, l‟automatizzazione e l‟ottimizzazione delle attività di marketing, vendita e customer service sui canali online e offline del mercato: il fine ultimo è quello di un‟integrazione di molteplici dati relativi ai clienti e di analisi del comportamento per creare nuova conoscenza sul consumatore, e supportare le decisioni che maggiormente impattano su valore degli acquirenti attuali e futuri. Per fare ciò, un CRM mirato dovrà rispondere a poco semplici domande: - Chi è il mio cliente? Quando e dove acquista? - Quali sono i prodotti più venduti? - Quali sono le eventuali opportunità di cross selling di prodotti al cliente? - Qual è il livello di soddisfazione della mia clientela? - Come posso migliorare la mia offerta al fine di aumentare la fedeltà dei clienti? 13 2.1 IL CRM ANALITICO E OPERATIVO – UN’ANALISI GLOBALE Un Customer Relationship Management ben strutturato, dovrà essere diviso in operativo - che gestisce cioè l‟esecuzione delle attività e dei processi d‟interazione con il mercato - e analitico che analizza e applica le logiche e gli indicatori di marketing sui dati dei clienti per generare nuovi contatti con la clientela -. Nel dettaglio: - il CRM operativo è costituito dall‟insieme di software e processi volti al supporto della attività di interazione quotidiana con il mercato effettivo o potenziale: vengono quindi indentificati, in questa fase, i canali di contatto più opportuni per raggiungere il target a cui intendiamo riferirci, a scelta tra: la presenza fisica (vendita diretta, presenza di un operatore all‟interno dei punti vendita, agenti di commercio), la posta (lettere, cartoline prestampate), la voce (telefono o VOIP), la posta elettronica, il web (contatti tramite chat, portali ecc), l‟allestimento di una postazione dedicata all‟interno del punto vendita, non necessariamente accompagnato da una presenza fisica; alla base delle varie attività, se ne viene messa in atto più di una simultaneamente, dovrà esserci una pianificazione che le renda omogenee tra loro; - il CRM analitico è invece la parte del sistema che consente di estrarre e rendere fruibili le varie informazioni, grazie all‟elaborazione dei dati provenienti dall‟antecedente parte operativa, mediante quindi analisi univariate, bivariate, analisi in componenti principali, e processi di clusterizzazione e profilazione. Il fine ultimo cui tutto questo è rivolto è la riduzione del churn in uscita: secondo semplici indicatori, cioè, è possibile prevedere dinamicamente la probabilità che un cliente stia scegliendo di andarsene, smettendo cioè di usufruire del servizio erogato e tramutandosi, in cifre, in una perdita in termini di fatturato; la gestione di tale indice consiste quindi nella minimizzazione dei flussi in uscita dei clienti, tipici di un ambiente molto competitivo. Con tale analisi si possono costruire indicatori e report giornalieri o mensili per il controllo di tale fenomeno e il suo contenimento, tramite la pianificazione di attività come, ad esempio, la creazione di offerte mirate, di fidelizzazione dei clienti, o realizzazione di azioni push o pull. Il CRM permette quindi di passare da un modello di marketing centrato sul prodotto, o “product centric” a quello costruito attorno al cliente consumatore o “customer centric”. Il caso più vivido, se prendiamo come riferimento il canale distributivo della GDO o degli stessi bar che appartengono al canale ho.re.ca, è sicuramente la distribuzione delle carte fedeltà: si passa in questo modo da 14 campagne di fidelizzazione senza un‟analisi storica, allo stimolo del comportamento di acquisto al fine di ottenere un ritorno positivo ed aumentare la conoscenza che il venditore ha del consumatore, fino ad arrivare alla creazione ed alla gestione di una relazione personalizzata attraverso un database specifico, per incrementare il fatturato. Non è da sottovalutale poi la possibilità di individuare lo stile di vita di un cliente, in modo tale da poter proporre azioni promozionali maggiormente adatte ai suoi interessi: la scoperta del “dna” del consumatore, ci porta a dialogare in modo diretto, individuando meglio i suoi bisogni, o addirittura creandone di nuovi. È proprio dalla volontà di scoprire il comportamento e le caratteristiche dei propri clienti, che porta Berica Chef alla volontà di creare un questionario (in questo caso di analisi on line prima – mediante un processo meno diretto e più macchinoso - e con una più semplice presenza all‟interno dei contri commerciali poi), dedicato alla raccolta di dati relativi alla shopping experience dei consumatori presso i punti vendita di proprietà, sotto le varie egide del gruppo. 2.2 IL QUESTIONARIO Il questionario è lo strumento base utilizzato nella maggior parte delle interviste e, di conseguenza, nell‟analisi delle relazioni con i clienti: è, in sostanza, una sequenza di domande atta a raccogliere dall‟intervistato le informazioni oggetto della stessa indagine. Esso fornisce cioè la possibilità di ottenere una classificazione omogenea dei dati raccolti, in quanto – se formulato correttamente – garantisce l‟uniformità dell‟intervista e consente agli intervistati di somministrare sempre le stesse domande, nello stesso ordine: la sua corretta preparazione assicura infatti che le domande risultino ordinate sistematicamente secondo uno schema opportuno, in modo da facilitarne la consultazione anche a chi non ne risulta direttamente coinvolto, e l‟analisi da parte di chi invece lo ha strutturato per il fine preposto. L‟importanza della preparazione di un questionario è un aspetto troppo spesso trascurato, e risulta un argomento affrontato nella maggior parte delle volte in modo superficiale e poco attento: sfumature all‟apparenza irrilevanti possono però provocare variazioni nei risultati decisamente non trascurabili e comportare problemi operativi sia durante la somministrazione, sia nella fase di elaborazione dei dati. Una fase preliminare esplorativa ben sviluppata, ed una stesura curata, consentono di eliminare una elevata quota dei potenziali errori che possono emergere nella costruzione del questionario, fornendo un migliore apporto di informazioni e di idee al “mandante” dell‟intervista, e ponendolo in una situazione maggiormente obiettiva, riuscendo a superare tutta una serie di vincoli che inevitabilmente derivano dalla sua personalità, dalla professione, dalla cultura, ecc. 15 Eventualmente, potrebbe essere utile anche prevedere una fase di collaudo (o fase pilota), da svolgere nella fase antecedente la somministrazione, al fine di permettere modifiche eventuali prima della stesura definitiva e garantire così che il questionario possa restare inalterato nel corso di eventuali ripetizioni dell‟indagine, poiché buona parte dei problemi risulterebbero già eliminati. Se, al contrario, s‟interviene sul questionario già avviato, modificandolo in una fase successiva a quella iniziale, si rischia di perdere la confrontabilità dei risultati ottenuti; è oltretutto importante che tali collaudi vengano fatti in condizioni analoghe a quelle che andranno a caratterizzare le interviste, al fine di simulare in maniera più veritiera possibile eventuali problemi legati alla costruzione del questionario. A tal proposito, è interessante capire come riuscire a disporre di uno strumento di rilevazione adeguato, e coerente con gli obiettivi di indagine che ci si è posti. 2.2.1. IL QUESTIONARIO: LA STRUTTURA DELLE DOMANDE Mentre i principali errori commessi nella stesura del precedente questionario verranno analizzati nel capitolo successivo, si prende subito in considerazione l‟analisi della formazione dei quesiti che fanno parte dell‟intervista. La base di partenza per la costruzione di un buon questionario è, senza dubbio, lo studio della struttura delle domande: se mal formulate, i dati generati risulteranno inutilizzabili a fronte di qualsiasi metodo analitico si utilizzi nella elaborazione successiva. È quindi il caso di delineare alcune regole fondamentali per una buona realizzazione dei quesiti, e che hanno costituito la base fondante su cui partire per a costruzione della nuova indagine; in particolare: - adeguare il linguaggio dell‟intervista alle abitudini linguistiche dei soggetti interrogati: non è pensabile, infatti, di usare termini accademici se si pensa di dover somministrare il questionario all‟interno, ad esempio, di un centro per anziani; le parole da utilizzare, la struttura delle domande e delle risposte, e la lunghezza complessiva delle frasi dovranno essere adeguate al target di riferimento; - porre quesiti a cui gli interpellati siano capaci di rispondere: si dovrà calibrare la domanda al livello di istruzione che ci si aspetta dagli intervistati. Un livello di domande troppo alto potrebbe comportare il rischio di una mancata risposta, di risposte false date per non sembrare inadeguati o di risposte date a caso e quindi non conformi al vero pensiero del soggetto a cui li questionario è stato sottoposto; 16 - formulare le domande nel modo più specifico e chiaro possibile, al fine di facilitare il lavoro di interpretazione nel momento dell‟elaborazione dei risultati: può risultare talvolta opportuno spiegare all‟intervistato gli aspetti più significativi di un quesito particolarmente importante o complicato, se prevista una presenza fisica durante l‟intervista; - porre una sola domanda per volta, in modo tale che gli interpellati non debbano, in caso di risposte discordanti alle due domande, dare un riscontro valido solo in parte o che fornisca risposte eterogenee tra loro e quindi non confrontabili; sono perciò da evitare domande del tipo: “in che misura valuta il servizio del punto vendita e in che modo si potrebbe a suo parere migliorare?”; - evitare le insinuazioni personali o i tentativi di suggestione: nel momento in cui l‟intervistatore fornisce ipotesi proprie, o la domanda è posta in modo poco obiettivo, subentra il rischio di una risposta non neutra e quindi influenzata. Da evitare, ad esempio, una domanda del tipo: “se fosse stato meglio informato, avrebbe frequentato prima il punto vendita?”; è evidente come in questo caso l‟intervistatore dia per scontato che il soggetto in questione fosse poco informato ed egli, a sua volta, rischia di autoconvincersi di esserlo stato; - evitare la doppia negazione: considerato il grado di complessità risultante vi sarebbe in questo caso il rischio di risposte falsate o comunque non corrispondenti alla vera opinione dell‟intervistato; non è infatti chiaro, nella mente del soggetto, se per esprimere il proprio accordo sia necessario rispondere in modo affermativo o negativo; - affidare le domande ad un chiaro riferimento temporale, al contrario per gli intervistati risulterà complicato fornire una risposta affidabile perché costretti in autonomia a delineare un punto di riferimento, completamente soggettivo. I dati in questione risulterebbero evidentemente poco indicativi, in quanto riferiti ad archi temporali che potrebbero essere totalmente differenti tra i rispondenti, e inficiare nella confrontabilità delle risposte; - evitare possibilità di risposta che siano pluridimensionali, adeguando le osservazioni attraverso la standardizzazione dei dati raccolti. 2.2.2. IL QUESTIONARIO: I VARI TIPI DI DOMANDE POSSIBILI Relativamente ai tipi di domanda utilizzabili nel questionario, esse possono essere distinte in base al loro contenuto, o alla loro forma. A livello di contenuto, si possono riferire ad atteggiamenti, opinioni, credenze, conoscenze ed interventi che appartengono agli intervistati: in quest‟ottica, le domande sono classificabili in: 17 - domande di base: riguardano le caratteristiche anagrafiche, di genere, di professione, di reddito, ecc. dell‟intervistato; - domande filtro e di controllo, se necessarie per una scrematura iniziale degli interrogati; - domande strutturali: quesiti relativi agli attributi di base del soggetto intervistato in relazione alla ricerca attuata; - domande di comportamento: relative a fatti ed esperienze concrete vissuti dall‟intervistato. Relativamente alla forma, invece, le domande si suddividono in base alla possibilità di risposta in: - domande aperte, semichiuse e chiuse; - domande dirette e indirette; - domande primarie e secondarie. 2.2.2.1. DOMANDE FILTRO E DI CONTROLLO È possibile che all‟inizio di un questionario siano presenti delle domande cosiddette “filtro”, atte cioè a valutare l‟effettiva corrispondenza tra le caratteristiche del soggetto intervistato e gli obiettivi che sono stati prefissati nella preparazione dell‟indagine; da queste dipenderà l‟effettuazione o meno dell‟intervista stessa o, quantomeno, il peso da assegnare alle risposte di soggetti che risultino più o meno distanti in termini di caratteristiche dall‟ideale di intervistato. Per esempio, se si volessero intervistare solamente le persone che hanno fatto uso di un determinato servizio, basterà predisporre una domanda del tipo “le è capitato di usare il servizio x?”. In caso di risposta negativa, e di questionario non autocompilato, l‟intervistatore non effettuerà l‟indagine. Per quanto riguarda le domande di controllo, invece, sono quei quesiti il cui fine è di controllare la significatività e l'affidabilità di una risposta: poste a opportuna distanza dalle domande da verificare, servono ad attestare che la scelta dell‟intervistato sia effettivamente in linea con il suo pensiero; capita di frequente, ad esempio, che domande poste al condizionale e riferite a intenzioni future o disponibilità meritino di essere approfondite ed analizzate attraverso l‟uso di domande più concrete, riprese in un punto successivo del questionario. 18 2.2.2.2. LE DOMANDE APERTE S‟identificano con questa categoria i quesiti le cui modalità di risposta non vengono anticipatamente previste dal ricercatore: non esiste, quindi, nessun vincolo alle possibili risposte; l‟intervistato risponde con parole proprie e questo permette spesso di rilevare concetti e possibilità non contemplate nella fase di stesura del questionario. La risposta è strettamente dipendente dalle capacità che ha l‟intervistato nella verbalizzazione: un chiaro esempio di domanda aperta riferita all‟ambito di analisi in questione relativa a Berica Chef potrebbe essere: “a quali elementi dà più importanza quando sceglie un ristorante o un punto dove effettuare la pausa pranzo?”. A discapito della possibilità di argomentare liberamente, spaziando anche al di fuori dei temi previsti, i difetti principali delle domande aperte sono: - il rischio di influenzare con proprie interpretazioni le risposte date dall‟intervistato, sia nella fase di raccolta dei dati, sia nella successiva elaborazione e classificazione degli stessi; - la possibile dispersione dei concetti espressi dagli intervistati, se espressi in maniera poco concisa o non chiara; - la difficoltà nel riuscire a sintetizzare le risposte, nel tentativo di creare un‟omogeneità tale da renderle tra loro confrontabili: relativamente a questo aspetto, è inutile sottolineare come questo tipo di risposte necessitino di un lavoro aggiuntivo nel momento della loro elaborazione; lo studio del contenuto delle stesse inizia con l‟analisi di un primo numero di interviste, e la trascrizione delle risposte ottenute: queste risposte sono poi raggruppate in aree concettuali omogenee per ottenere una prima classificazione mediante l‟applicazione di un determinato codice da usare poi per le risposte dei successivi questionari. D‟altro canto, però, se questa fase richiede da un lato un impegno cospicuo di tempo, è altresì vero che tali quesiti aperti si rivelano particolarmente utili giacchè permettono un‟analisi più approfondita degli argomenti, permettendo una raccolta ricca di dettagli e di spunti per l‟intervistatore. 2.2.2.3. LE DOMANDE SEMICHIUSE Spesso, per far fronte alle criticità sopracitate, nel tentativo però di mantenere parte dei vantaggi legati alla libera interpretazione della risposta aperta da parte del soggetto intervistato e a quelli di una classificazione più semplice riscontrabile nell‟uso delle risposte chiuse, si fa ricorso alle domande cosiddette “semichiuse”: quesiti, cioè, che oltre alla categorie prestabilite, offrono ulteriori possibilità di risposta aperta, contraddistinte da termini come “diverso” o “altro”. 19 Ne sono un esempio i quesiti Q9 e QV del nuovo questionario, inserito nella Tavola 2 dell‟appendice. 2.2.2.4. LE DOMANDE CHIUSE Quando si parla di domande chiuse, si intende quei quesiti le cui possibilità di risposta sono già prestabilite: il soggetto cui è sottoposto il questionario dovrà quindi scegliere solo nell‟ambito di quanto già predisposto nella fase di progettazione dell‟intervista. Se da un certo punto di vista questo aspetto facilità senza dubbio la valutazione quantitativa, dall‟altro possono emergere diversi problemi legati alla ristrettezza delle alternative previste; in particolare, le maggiori criticità riscontrabili con questo metodo sono sostanzialmente tre: - la possibilità che nessuna delle risposte previste identifichi perfettamente il pensiero della persona intervistata; in questo caso, il risultato dipende da un lato da quante e quali possibilità di risposta vengono fornite nella previsione iniziale, dall‟altro dalla capacità di adattare il proprio pensiero ad una risposta possibile tra quelle fornite; - l‟intervento da parte di chi si occupa dell‟analisi successiva del questionario per far rientrare la risposta ottenuta in una delle classi che sono state previste: il soggetto preposto all‟analisi deve cioè riuscire ad interpretare correttamente il pensiero dell‟intervistato. Questo è relativo solamente al caso in cui non sia prevista l‟auto compilazione da parte dell‟intervistato, ma sia presente in loco un intervistatore; - il numero e l‟ordine delle modalità previste possono influenzare i risultati, poiché solitamente vengono ricordate maggiormente le prime e le ultime risposte, a discapito di quelle centrali. Le domande chiuse, possono a loro volta essere suddivise in domande a risposta singola, alle quali si può fornire cioè un‟unica risposta, e domande a risposta multipla, alle quali possono essere date più di una soluzione: un esempio delle prime è “quante volte ha mangiato in questo punto vendita nell’ultima settimana?”, mentre per quanto riguarda le seconde, si può pensare ad un caso del tipo “quali ristoranti all’interno dei questo centro commerciale ha frequentato nell’ultima settimana?”. È evidente che una domanda a scelta multipla possa fornire una ricchezza maggiore di spunti di analisi, anche se, d‟altro canto, comporta una maggiore dispendiosità in termini di elaborazione dei risultati, soprattutto nel caso in cui all‟intervistato non venga chiarito il numero minimo o massimo di possibili risposte da dare: in questo caso, si potrebbero creare comportamenti discordanti da parte degli interrogati, andando ad aumentare la difficoltà dell‟analisi successiva da parte degli 20 intervistatori. Esempi di domanda chiusa, riferiti al nuovo questionario della Tabella 2 in appendice sono le QIII e QIV, che si riferiscono rispettivamente al numero di componenti del nucleo familiare dell‟intervistato, e quanti dei quali concorrono alla formazione del reddito. 2.2.2.5. LE DOMANDE DIRETTE E INDIRETTE Sono domande dirette quelle in cui il soggetto intervistato è coinvolto direttamente dall‟intervistato o dal questionario, raggiungendolo con quesiti quali: “quante volte frequenta mediamente questo punto vendita nell’arco di una settimana?”. Sono invece indirette quelle domande con le quali si tenta di raggiungere l‟intervistato in modo meno personale e più generico; costituite prevalentemente dalle tecniche proiettive, si possono distinguere con esempi quali: “secondo lei, quanta gente frequenta mediamente questo punto vendita nell’arco della settimana?”. Un esempio di domanda diretta, in riferimento al questionario oggetto di questa tesi, è la Q9, che corrisponde al quesito “Cosa le piacerebbe trovare nei nostri locali?” e implica che il rispondente possa esprimere una sua preferenza su un aspetto da migliorare all‟interno del punto vendita nel quale si trova. 2.2.2.6. LE DOMANDE PRIMARIE E SECONDARIE Un‟ulteriore importante distinzione è quella tra domande primarie, dalla cui risposta dipende cioè l'esecuzione o meno di una o più domande secondarie – la cui effettuazione dipende quindi dalla risposta data in precedenza -; un esempio potrebbe essere: “se ci fosse il servizio al tavolo, lei lo gradirebbe?” – domanda primaria – (se no) per quali motivi? – domanda secondaria. Nel caso questo tipo di domande fossero numerose, potrebbe risultare utile, al fine di evitare errori e salti tra le varie domande, predisporre un diagramma di flusso che permetta all‟intervistatore – o al relatore del questionario – di seguire un dato percorso nella somministrazione – o nella preparazione – dell'indagine. 2.2.2.7. LE DOMANDE DI SCALA E LA STRUTTURA DELLE RISPOSTE Un discorso a parte meritano invece quelle domande che, dal punto di vista ancora una volta formale, prendono la classificazione di “domande di scala”; con il termine “scala”, nello specifico, 21 si identifica una particolare tecnica per la misurazione dell‟atteggiamento dell‟intervistato in un questionario. Si tratta in breve di un caso particolare di domanda chiusa, attraverso la quale si chiede all'intervistato di collocarsi lungo una serie di possibili risposte, tra loro ordinate secondo un criterio preciso. È quindi possibile, attraverso tali strumenti, evidenziare le modalità con le quali una variabile rilevata da una domanda può mostrarsi: - scala nominale: la variabile si manifesta con due o più modalità qualitative non ordinabili; - scala ordinale: la variabile si manifesta secondo due o più modalità qualitative ordinabili; - scala basata su concetti (es: per niente soddisfatto, poco soddisfatto, soddisfatto, abbastanza soddisfatto,. molto soddisfatto): ha il vantaggio di una veloce comprensibilità da parte degli intervistati, ma di contro il pericolo di un response set, come vedremo; - scala numerica: la variabile si manifesta secondo modalità quantitative; è quindi utilizzabile in qualsiasi intervista e permette di elaborare facilmente i risultati. In questo ambito, è possibile utilizzare scale con possibilità di risposta dispari: 3,5,7,9 ecc, al fine di ottenere un maggior equilibrio tra risposte positive e negative. A livello pratico, maggiore è il numero di livelli disponibili nella risposta, maggiore sarà il dettaglio dei risultati, rendendoli quindi teoricamente più validi. In realtà, è emerso come storicamente tale scala comporti problemi di interpretazione negli intervistati: ciascuno si focalizza su determinate parti della sequenza fornita, divenendo quindi incapace di avere una visione globale. Al contrario, un numero contenuto di livelli (ad esempio solo tre) ha il vantaggio di un‟ottima chiarezza interpretativa da parte dell‟intervistato, ma non permette un adeguato dettaglio del risultato. Il punto di partenza è quello di ampliare le alternative base si/no in quanto, nella maggior parte dei casi, gli intervistati potrebbero trovarsi nella difficoltà di voler scegliere una risposta intermedia alla domanda sottoposta, ma non riescono a trovarla. Vi è in generale la tendenza a trovare una mediazione tra scale molto numerose, e quindi più precise, e scale più corte, più facilmente gestibili (ma anche più approssimative). Esempio di scala applicata alla misurazione della customer satisfaction 1. Quanto è importante per lei …. ? L‟illuminazione del locale 1 2 3 4 5 La silenziosità del locale 1 2 3 4 5 22 2. Quanto è soddisfatto di … ? L‟illuminazione del locale 1 2 3 4 5 La silenziosità del locale 1 2 3 4 5 Teorie differenti conducono verso un numero dispari o pari di modalità; in quest‟ultimo caso, la scala è caratterizzata dal difetto dell‟assenza di un baricentro, un punto centrale di equilibrio. Tale soluzione può tuttavia risultare interessante quando si intende sollecitare l‟intervistato a prendere una decisione netta, sia essa positiva o negativa, che non sia quindi una condizione neutrale. È possibile, inoltre, ricorrere alla tradizionale scala di valutazione numerica scolastica, con possibili risposte che vanno da 1 a 10: tale soluzione, essendo la più conosciuta tra le persone, risulta più facilmente comprensibile. Tuttavia, proprio l‟associazione con l‟esperienza scolastica, comporta una sostanziale riduzione del range di valutazione, riferendolo alla sola parte effettivamente utilizzata a scuola, dove il punteggio 4 rappresenta un voto già decisamente negativo. 2.2.3. LE SCALE Come anticipato poco fa, differenti sono le teorie presenti in letteratura relativamente alle possibilità di formulazione delle risposte di un questionario. Tra le più comuni possiamo trovare: 1. scala Likert; 2. scala di Bogardus; 3. scala di Thurstone; 4. scala di Guttman; 5. metodo del differenziale semantico; 6. termometro dei sentimenti. 2.2.3.1. LA SCALA LIKERT Merita una disamina più approfondita delle altre questo tipo di scala, in quanto è stata la base di partenza per lo sviluppo del nuovo questionario somministrato nel periodo di redazione di questa analisi. Nel dettaglio, come si può vedere nella Tabella 2 in Appendice, fanno riferimento a questa 23 scala, sviluppata su sette modalità (completamente insoddisfatto, non soddisfatto, poco soddisfatto, indifferente, soddisfatto, più che soddisfatto, molto soddisfatto) i quesiti Q2 e da Q4 a Q8. Nel dettaglio dei questionari e delle interviste, la scala Likert si differenzia dalle altre scale esaminate nei paragrafi successivi - una su tutte quella di Thurstone - per la rapidità e la semplicità (tanto da essere adottato tuttora in numerosi settori della ricerca applicata) e, maggiormente, per la possibilità di applicazione di metodi di analisi del item che siano basati sulle proprietà statistiche delle scale di misura a intervalli o rapporti. È il metodo di misurazione più diffuso, soprattutto per la sua semplicità e per i bassi costi di costruzione. Questa tecnica fu creata infatti dallo psicologo statunitense Rensis Likert, da cui prende il nome, al fine di elaborare uno strumento nuovo e più semplice per misurare gli atteggiamenti e le opinioni degli intervistati. La scala prevede che una lista di items (o affermazioni), collegati ad atteggiamenti su cui si vuole condurre l‟analisi, sia sottoposta ad un gruppo di individui con la possibilità di scegliere originariamente tra cinque risposte alternative: ad es. “completamente d’accordo, d’accordo, incerto, in disaccordo, in completo disaccordo (che nella versione originale utilizzata da Likert vengono così definite: strongly agree, agree, uncertain, disagree, strongly disagree).” 1 In fase di costruzione, si assegnano ad ognuna di queste cinque risposte determinati pesi (ad esempio 5,4,3,2,1) che hanno la precisa funzione di mettere in ordine le alternative di risposta. Come delineato nel 1994 nelle Guidelines and Principles fos SIA, sussistono degli assunti che sottostanno a tale metodo e permettono di registrare e codificare le risposte in modo rapido: - unidimensionalità degli atteggiamenti oggetto d‟indagine; - concettualizzazione di questa dimensione come continua; - equidistanza tra le categorie di risposta. La procedura di costruzione della scala Likert consta di quattro passi operativi principali: 1. formulazione delle singole affermazioni: in questo primo passo, si formulano un numero predefinito di items, riferiti alla dimensione oggetto della misurazione e solitamente formulati in modo monotòno rispetto all‟oggetto da misurare, cosicché quanto più favorevole sia l‟atteggiamento dell‟intervistato nei confronti dell‟oggetto, tanto maggiore sarà la sua valutazione per l‟item; 2. eventuale sottoposizione di tali item ad un campione di soggetti ai quali sarà applicata poi la scala definitiva, per essere poi valutati su un range di categorie che va generalmente da 4 a 7, ad esempio: 1 Osservazioni sulla scala di Likert, Mariassunta Giordano 24 - completamente d‟accordo; - parzialmente d‟accordo; - d‟accordo; - neutrale; - in disaccordo; - parzialmente in disaccordo; - in completo disaccordo. Le alternative possibili devono essere bilanciate in maniera ponderata, cioè dev‟esserci equità tra le indicazioni di accordo e di disaccordo. Nel caso in cui si predisponesse un numero dispari di alternative, l‟opzione intermedia dovrà per forza di cose rappresentare l‟indicazione neutra, quella cioè che non risulta ne in accordo ne in disaccordo; nel caso invece di alternative pari, si impone al rispondente di prendere una posizione netta relativamente alla questione (si parla in questo caso di “scelta strategica”); 3. calcolo dell‟item-score: in questa penultima fare fase, ad ogni singola modalità di risposta viene assegnato un preciso punteggio da 1 a 7 – in questo specifico caso -; questo importante passaggio, in cui le singole etichette vengono trasformate in una scala ordinale, permette di calcolare successivamente media, mediana, moda, varianza, deviazione standard, ponderando quindi le affermazioni a seconda del loro scostamento proprio dal valore medio degli items. Tali pesi così creati consentiranno di fornite un criterio in grado di dare maggior valore ad una risposta su un item estremo, piuttosto che ad uno stesso riscontro su uno più moderato, e ordinare quindi i soggetti dai più sfavorevoli a quelli più favorevoli. Nel caso di formulazione di items monotòni negativi, i valori associati alle categorie dovranno necessariamente essere invertiti: è infatti fondamentale in questo passaggio considerare il verso delle scale degli item per riuscire a sommare i valori; 4. selezione delle affermazioni per la scala finale, da inserire nel questionario definitivo: al fine di verificare che le affermazioni che sono state inserite all‟interno della scale discriminino effettivamente gli individui che hanno atteggiamenti tra loro differenti, e lascino invece all‟interno dello stesso insieme individui con comportamenti simili, viene talvolta effettuata un‟analisi degli item attraverso diversi indici, i cui principali sono: 4.1. analisi della correlazione tra gli elementi del questionario e la scala: questo passaggio è utile al fine di individuare gli item che non risultino coerenti con gli altri e che è necessario, quindi, escludere. Solamente le affermazioni che riescono a superare questa fase di analisi verranno poi considerate per la composizione finale della scala, oppure per successive analisi, come indicatori dell'aspetto che si intende osservare e misurare; 25 4.2. coefficiente alfa di coerenza interna: indice che serve a stimare il grado di coerenza interna della scala scelta; tale coefficiente si costruisce a partire dalla matrice di correlazione tra gli elementi appartenenti alla scala e il loro numero; maggiore è il valore che assume , tanto più grande è la coerenza interna; 4.3. capacità discriminante degli item: mediante questo indice vengono esclusi gli item per i quali tale capacità risulta troppo bassa; è calcolato come differenza tra la media semplice relativa ai punteggi dei soggetti con gli scores più elevati e la media semplice relativa ai punteggi dei soggetti con gli scores meno elevati. I vantaggi della scala Likert sono riassumibili in due punti fondamentali: - semplicità di costruzione della scala stessa; - uso dei dati empirici come base per la realizzazione. Gli svantaggi, invece, meritano un‟analisi più complessa: - se si ha a che fare con una scala ordinale è possibile conoscere solamente l‟ordine con cui i vari individui risultano favorevoli o non favorevoli ad un'asserzione, ma non di quanto essi siano più o meno favorevoli rispetto ad altri soggetti; - un medesimo punteggio totale riportato da due individui differenti può nascere da combinazioni differenti di riscontri date alle varie asserzioni; - può emergere il cosiddetto “fenomeno della curvilinearità”, che si verifica nel momento in cui un item centrale nell‟insieme delle risposte possibili è disapprovato, per motivi totalmente differenti tra loro, sia da chi manifesta atteggiamenti positivi/favorevoli, sia da individui che invece hanno comportamenti opposti: quando ciò accade, entrambi questi due tipi differenti di soggetti otterranno il medesimo punteggio 2 , pur non riflettendo un'uguaglianza di pensiero. È verosimile perciò che si verifichi che questi soggetti, fornendo la stessa risposta (che deriva però da opinioni totalmente divergenti), finiscano per ottenere un pari risultato: tutto questo porta alla trasformazione del continuum di risposte possibili in una “U”; si parla pertanto di “curvilinearità”. Una delle possibilità per scongiurare questo problema è selezionare asserzioni talmente radicali da riuscire a differenziare in modo netto gli individui favorevoli da quelli contrari. Secondo quanto scritto da Coombs 3, “per cercare di eliminare il rischio di curvilinearità da ciascun item [...] sarà opportuno scegliere un’affermazione così estrema da rendere improbabile che ci siano individui tanto estremi 2 3 Giudicini 1995, 98 Coombs 1953, 530 26 da respingerla perché non è sufficientemente estrema”. Seguendo Marradi4, invece, anche tale opzione provocherebbe delle distorsioni, in quanto “tende a comprimere le posizioni che si trovano nella metà opposta del continuum, confondendo quelle moderate con quelle estreme”; - un secondo fenomeno nel quale può capitare di imbattersi è quello della “reazione all‟oggetto”: si verifica nel momento in cui il soggetto intervistato non reagisce alle affermazioni, ma ai personaggi, alle azioni, alle situazioni menzionate dalle affermazioni stesse 5 ; pertanto tale fenomeno accade principalmente quando l‟individuo soggetto del questionario non riesce a separare l‟affermazione (che potrà essere favorevole o contraria) dall‟oggetto (che potrà essere accettato o rifiutato). Es. “I politici si interessano solo al voto, non ai bisogni degli elettori”: “Completamente in disaccordo… dovrebbero interessarsi anche ai bisogni, non solo al voto. Sono in disaccordo con loro”6. Spiegando in via teorica l‟esempio appena citato, un intervistato che come in questo caso si concentra solamente sull‟oggetto, se risulterà in accordo con esso approverà ugualmente l‟item, anche se quest‟ultimo è espressione di un‟opinione negativa (al contrario, il soggetto dovrebbe esprimere disaccordo). Tale fenomeno emerge solo nel caso in cui l‟intervistato premetta o faccia seguire i commenti al parere appena dato; ecco perché lo stesso non emerge durante i sondaggi di massa, che non permettono i commenti a seguito degli items Likert7. Il metodo migliore per identificare tale articolato fenomeno, che come visto può portare a forti distorsioni nella compilazione del questionario, è di considerare accuratamente la possibilità di inserire la possibilità di commento da parte degli intervistati all‟interno delle diverse affermazioni. Difatti “ove i commenti liberi di un intervistato ad un’affermazione e la relativa risposta data con una tecnica di rilevazione siano incompatibili, si può ritenere che il commento sia quello che rispecchia il suo pensiero sull’oggetto, mentre la risposta codificata sia affetta da qualche forma di distorsione8”; - da ultimo, i problemi che possono emergere nel sottoporre al rispondente una serie di batterie di domande che abbiano le medesime modalità di risposta (questo, tra l‟altro, è un problema generale di tutte le scale), in particolare: 4 Marradi 1980, 63 Cacciola – Marradi 1988, 86 6 Marradi 2007, 145-162 7 Sapignoli 1992, 101 8 Marradi 1992, 108 5 27 - riscontri dati a caso, dati senza cioè leggere in modo approfondito e attento le domande presenti all‟interno del questionario, ma solo ed esclusivamente per la fretta o per la volontà di terminare il questionario, in modo quindi superficiale; - risposte fornite in modo meccanico (response set), con la scelta della stessa modalità per tutti i quesiti, spesso omettendo addirittura la lettura degli stessi; Una soluzione utile a ridurre questi rischi nelle risposte alle batterie di domande è di immettere affermazioni sia “favorevoli” che “sfavorevoli” all‟oggetto della questione, o di alternare le risposte preparate con la scala scelta a domande con risposte aperte o con differente numero di modalità di scelta. Un rapido accenno va in ultima analisi fatto ai concetti di validità e affidabilità della misurazione effettuata: - validità degli indicatori: un indicatore si può considerare valido quando effettivamente rappresenta il concetto che nelle intenzioni dell‟intervistatore deve rappresentare.; se così non fosse, tale scala non è più da considerarsi valida poiché verrà rilevata una cosa differente da quella che effettivamente ci si era preposti di rilevare. La validità, tuttavia, risulta impossibile da rilevare in modo diretto: non esiste metodo né per misurarla, né per stimarla esplicitamente; esistono però alcuni criteri che permettono di attribuire validità ad una determinata scala: - a vista o “face to face”: è il ricercatore stesso che individua, in base all‟esperienza, alla sua padronanza dell‟argomento e alla sua sensibilità in merito, un indicatore come effettivamente valido o meno; è, in breve, un parere che il ricercatore esprime relativamente a quell‟indicatore; - validazione tramite criterio: il concetto da “approvare” va messo in relazione con un indicatore già in precedenza validato – ovviamente mediante l‟unico criterio possibile, quello della validazione a vista -; è palese come si crei quindi una contraddizione in termini, nel senso che poiché il primo indicatore è stato validato a vista, accettando dunque tale metodo, non c‟è motivo per il quale anche per il secondo non si debba fare altrimenti, senza relazionarlo con il primo; - validazione per costruzione: si tratta di un metodo molto sofisticato, che si contraddistingue dalle altre perché risulta necessario in questo caso riferirsi in modo esplicito alla sociologi; in questo caso sono presenti un metodo esterno, una logicità fra indicatore ed indice, e una teoria fondata relativamente all‟oggetto rilevato dall‟indice o dall‟indicatore. 28 - Per quanto riguarda il concetto di attendibilità, invece, si ha a che fare con una materia meno complessa della validità, e si riferisce in particolar modo alla variabile, più che all‟indicatore. È verosimile pensare all‟attendibilità come prodotto di alcune azioni, come – appunto - la tecnica del test-ritest, ovvero reiterare due volte una stessa rilevazione: è facilmente intuibile come, al fine di valutare l'affidabilità delle variabili in esame ripresentando agli stessi intervistati gli stessi interrogativi, occorra lasciar passare un periodo di almeno un mese perché queste persone possano dimenticarsi le risposte date nel questionario precedente; è però così complicato riuscire ad entrare nuovamente in contatto con le medesime persone e a ricreare le stesse condizioni ambientali, che il test-ritest non si effettua di fatto frequentemente. 2.2.3.2. LA SCALA DI THURSTONE Tale scala è organizzata in undici frasi, scelte da un insieme costituito da un totale di 150 valutate da persone scelte in base alle loro competenze (docenti universitari, persone che fanno parte di associazioni, ecc..) e che sono quindi ritenute in grado di analizzarle correttamente: ogni soggetto ha il compito di analizzare tali frasi una per una, ordinandole dal livello più basso a quello più alto di significatività; si procede quindi alla scelta delle 11 definitive. Se i giudici sono stati selezionati in maniera mirata, si dovrebbero ottenere undici frasi, ordinate secondo intervalli che misurano la stessa ampiezza, e quindi equidistanti tra loro. Senza dubbio la scala di Thurstone dipende molto dai soggetti che intervengono nella ricerca, ed è inoltre evidente come la preparazione di una scala come quella di Thurstone richieda grande dispendio di denaro e tempo. 2.2.3.3. LA SCALA (O SCALOGRAMMA) DI GUTTMAN La scala di Guttman nasce dalla volontà di trovare una soluzione alla questione dell‟unidimensionalità presente nella scala Likert: tale scalogramma consta di un insieme di items capaci di rappresentare, mediante i loro contenuti, il crescere o il diminuire di uno specifico atteggiamento; per fare ciò è quindi indispensabile rispettare la prerogativa della gerarchia perfetta degli items. 29 Diversamente da quanto accade nella scala Likert, nella scala Guttman i quesiti dovranno ricoprire l‟intera estensione del continuum di risposte: mentre quindi, usando la scala di Likert è verosimile poter ottenere un medesimo punteggio in modi differenti, con quella Guttman ad un preciso punteggio corrisponderà in via teorica una ed una sola serie di risposte. Per dare un esempio pratico, si considerino un soggetto A e un soggetto B, e si immagini che A abbia un punteggio totale maggiore di B: la serie di items in questione verrà definita come “scala unidimensionale” solamente nel caso un cui il soggetto A consegua in ognuna delle risposte del questionario un punteggio che sia identico o superiore a B; in questo caso, è possibile identificare le risposte che ogni individuo ha dato ai singoli items della scala partendo dal punteggio complessivo. In pratica, però, è sostanzialmente impossibile riuscire a realizzare una scala perfetta in quanto è verosimile che i soggetti forniscano risposte differenti da quanto previsto in fase di redazione del questionario: spesso, quindi, l‟uso di questa scala è limitato alla fase di organizzazione dei dati ottenuti, al fine di verificare l'effettiva unidimensionalità di una determinata batteria di item. Il problema principale nella realizzazione e nell‟analisi della scala di Guttman è senza dubbio quello relativo alla sua natura: tale modello risulta strettamente deterministico e teorico, quando al contrario la realtà sociale può venire compresa in modo corretto solo mediante l‟uso di modelli probabilistici che ammettano la possibilità di errori, in modo tale da rispecchiare più fedelmente il divenire presente nella vita di tutti i giorni. 2.2.3.4. LA SCALA DI BOGARDUS La scala di Bogardus rappresenta sostanzialmente una semplificazione dello scalogramma di Guttman; ideata da Emory Bogardus nel 1928, è la più antica tra quelle che la letteratura annovera come principali. Nasce come scala per misurare la “distanza sociale” dei nativi americani rispetto agli stranieri, in un contesto caratterizzato da profondi scontri etnici come quello degli Stati Uniti in questo particolare momento storico. Questo metodo di misurazione prevede sette frasi – o item ognuno delle quali indica uno stesso concetto, ma con una particolare sfumatura differente in relazione all‟atteggiamento che si vuole cogliere. S‟inizia, in sostanza, con la frase che esprime la più ampia distanza sociale, come ad esempio potrebbe essere, nel caso specifico del giudizio sulla presenza di persone straniere: “sarebbe disposto ad escluderli dal suo Paese?”; qualora l‟intervistato rispondesse in maniera positiva, l‟intervista potrebbe considerarsi conclusa e la risposta data etichettata come “razzista”. Se l‟intervistato rispondesse invece in maniera negativa, si potrebbe passare alla frase superiore, che 30 risulterà caratterizzata da una minore distanza rispetto a quella precedente, e così fino a che viene data risposta positiva, o si arriva all‟inizio della scala, un punto caratterizzato dal massimo della tolleranza: una domanda esemplificatrice di questo livello potrebbe essere, in questo caso, “Lo accetterebbe mai come padre dei suoi nipoti?”. Il punto debole di questo metodo di rilevazione, è che tutti gli item vengono assunti come indicatori del medesimo concetto di “razzismo”: questa relazione univoca tra concetto espresso ed indicatore in realtà non esiste in quanto uno stesso indicatore potrebbe rappresentare concetti tra loro differenti come anche, al contrario, un concetto potrebbe venire rappresentato da più di un solo indicatore; inoltre, ad esempio, è verosimile che io accetti la possibilità di avere uno straniero come vicino di casa, ma non sia altresì favorevole a concedergli la cittadinanza. È sempre importante avere ben presente che le persone non necessariamente rispondono in maniera fedele a quanto teorizzato nei manuali, e che non sempre nelle risposte che vengono date è presente la coerenza. A parte queste ultime considerazioni (relativamente) marginali, nel caso tutte e sette le frasi vengano somministrate alla persona intervistata si andrà a calcolare la media dei valori degli item accettati. 2.2.3.5. IL METODO DEL DIFFERENZIALE SEMANTICO Tale scala, scarsamente utilizzata fino a pochi anni fa in ambito statistico, fu sviluppata da uno psicologo americano negli anni „50, ed ha recentemente assunto maggiore importanza nell‟ambito dello studio del soggetto. La serie, in questo caso, è inserita all‟interno di una coppia di concetti (o di aggettivi), uno dei quali con significato esattamente opposto all'altro come, per fare degli esempi: nuovo/vecchio, maschile/femminile, debole/forte, ecc. Ad esempio, ancora, si può chiedere quanto un determinato aspetto della qualità (come la cortesia del personale, la qualità del cibo, ecc.) sia più vicino all‟idea di “importante” oppure a quella di “trascurabile”. Il metodo del differenziale semantico misura, in sostanza, il significato "affettivo" (inteso come il livello di disposizione a favore o meno nei confronti di un concetto) di stimoli o pareri, misurato tramite una scala saldata a due aggettivi di senso opposto. Mediante tale scelta da parte dell‟intervistato, è possibile valutare le differenze che ogni individuo pone nell‟analisi dei concetti: è per questo che il differenziale semantico è spesso considerato uno strumento atto a cogliere l'idea di oggetti o concetti che il soggetto ha, più che gli atteggiamenti che egli dimostra nei loro confronti. Per la costruzione di tale modello si procede nella scelta di una coppia di aggettivi bipolari che andrà a costituire il continuum: per determinare la direzione e il grado del giudizio che il soggetto 31 ha espresso mediante segno in corrispondenza della posizione che ritiene più rappresentativo del proprio giudizio in merito all‟oggetto dell‟analisi. Si veda l‟esempio: La cortesia del personale ha deluso le sue aspettative o ha superato le sue aspettative? Ha deluso le aspettative 5 4 3 2 Ha superato le aspettative 1 0 1 2 3 4 5 Al fine di ottenere un‟analisi più veritiera e valida, è necessario che vengano rispettati determinati criteri nel momento della scelta degli aggettivi agli estremi del continuum, in modo tale che essi siano rispondenti del basilare requisito di bipolarità; il limite maggiore di questo metodo è rappresentato dalla difficoltà di riuscire ad identificare aggettivi a due a due completamente bipolari in termini semantici: è infatti verosimile pensare che due aggettivi apparentemente opposti varino il loro significato in base al contesto, andando ad intaccare la validità della misurazione mediante differenziale semantico. È in secondo luogo complicato riuscire a trovare aggettivi che risultino ugualmente carichi di significato sia per l‟intervistato che per il ricercatore. Può essere utile, a tal fine, adottare piccoli accorgimenti quali: - avvalersi di coppie di aggettivi che siano formalmente estranee al tema oggetto di analisi, al fine di non assumere significati differenti in base al pensiero del soggetto che sta procedendo alla compilazione del questionario, risultando quindi sensibili all‟ “ambiente” all‟interno del quale il modello viene redatto; - preferire una compilazione “d‟istinto”, al fine di ottenere una risposta che risulti più una “reazione emozionale” del soggetto piuttosto che un pensiero razionale influenzato, ancora una volta, dall‟ambiente di compilazione o da esperienze personali; - disporre in maniera casuale la polarità delle risposte ai vari quesiti, intervallando aggettivi con direzione diversa al fine di stimolare l‟attenzione del soggetto ed evitare il fenomeno del response set; - utilizzare un numero non superiore a 4/5 coppie di attributi polari per ogni dimensione al fine di ottenere uno strumento che risulti abbastanza valido ed attendibile. L‟analisi iniziale condotta da Osgood nell‟impiego del metodo del differenziale semantico nel campo psicologico, trasferita poi anche nella sua applicazione più generale nell‟esame della 32 customer satisfaction, presumeva l‟esistenza di tre dimensioni semantiche all‟interno delle quali dovranno essere ricondotti gli aggettivi scelti per la scala; in particolare: 1. valutazione: esprime un giudizio di valore con funzione di differenziare ciò che viene giudicato in maniera positiva da ciò che non lo è, o con altre parole, quanto suscita una concezione positiva rispetto a quanto invece viene rifiutato (es: bello/brutto, buono/cattivo); 2. potenza: si riferisce alla “forza” dei giudizi in esame, misurata dalla resistenza che essi riescono a porre contro l‟azione del soggetto (es: largo/stretto, forte/debole); 3. attività: esprime il grado di attivazione che i concetti suscitato nell‟organismo (veloce/lento, prevedibile/imprevedibile, veloce/lento). 33 CAPITOLO 3 QUESTIONARIO ESISTENTE E NUOVA INTERVISTA 3.1. LA VISIONE GENERALE E LA MISSION DELL’INTERVISTA Il questionario presentato in questa analisi, riportato in appendice – Tavola 2 – e ideato per valutare la soddisfazione della clientela all‟interno dei punti vendita Berica Chef, è stato sviluppato nei mesi di dicembre e gennaio scorsi, e sottoposto alla clientela durante le due settimane centrali di febbraio: l‟obiettivo finale ed unico è quello di capire come si rapportano i consumatori rispetto all‟azienda, valutandone la soddisfazione, ed estrapolarne eventuali segmentazioni rispetto alla popolazione totale dei rispondenti. Il questionario in oggetto è diviso in tre parti, riguardanti rispettivamente la conoscenza generale del punto vendita, la soddisfazione del cliente in seguito alla sua visita, e una conclusiva riguardante la personale anagrafica. Nel dettaglio, la prima parte identifica solo ed esclusivamente la frequenza settimanale con cui il cliente frequenta mediamente il punto vendita in oggetto; ci sarà utile in corso di analisi per valutare eventuali richieste latenti di fidelizzazione da parte del consumatore. La parte centrale entra nello specifico dell‟esame della visita, guidando il consumatore attraverso un percorso di analisi della soddisfazione relativamente al prezzo, alla qualità del cibo, alla cortesia e gentilezza del personale, e al tempo di attesa dei prodotti. Questa fase centrale si conclude con un suggerimento richiesto allo stesso cliente in relazione ad un miglioramento generale dell‟offerta, al fine di un aumento della qualità percepita ali occhi dell‟intervistato e, non da ultimo, l‟idea di una partecipazione al miglioramento aziendale. La terza e ultima parte, contenente l‟anagrafica del consumatore, permette di profilarlo e creare quindi una serie di tali utili a capirne l‟età media, il sesso, la provincia di residenza e occupazione, i componenti del nucleo familiare, il titolo di studio, la professione. 34 3.1.1. IL QUESTIONARIO ESISTENTE: ANALISI GENERALE La realizzazione del questionario oggetto di questa tesi parte dall‟analisi dell‟intervista precedente, messa a punto in condizioni e per scopi analoghi, ma con una struttura più debole e difficilmente adattabile allo scopo, se non in sue poche parti. Nel caso particolare, l‟idea del questionario esistente - posto in una sezione dedicata del sito web di Berica Chef - nasce dall‟attenzione che l‟azienda da sempre pone nel rapporto con i propri clienti: la cura dei particolari, il focus su aspetti quali la cortesia, l‟organizzazione degli operatori, l‟assortimento e l‟esposizione delle pietanze, sono quid sui quali è fortemente basato il credo aziendale, ed è per questo che l‟opinione dei consumatori che ogni giorno frequentano i punti vendita „L‟Albero‟, „La Tarantella‟ e „D-Burger‟ diventa fondamentale nell‟analisi delle prestazioni del marchio Berica Chef. Lo spunto per la creazione dell‟intervista sono quindi stati i pochi ma fondamentali punti che caratterizzano la vita di un punto di ristorazione self service: - qualità; - prezzo; - cortesia del personale; - organizzazione ed assortimento dell‟offerta. Attraverso questi aspetti è stato possibile delineare il percorso da seguire negli ultimi anni, confermando aspetti già analizzati dagli amministratori dell‟azienda stessa, con risultati che si attestano su valori mediamente soddisfacenti per tutti i caratteri analizzati; spiccano, in particolare, la cortesia degli operatori e l‟organizzazione con il quale viene esercitato il servizio all‟interno dei vari punti self service. Si lascia alla curiosità di chi legge la lettura del questionario, presente in appendice (Tavola 1), e ci si concentra sui risultati esaminati attraverso l‟analisi tabellare; è necessario chiarire che la presente intervista è stata estrapolato dal sito istituzionale di Berica Chef, ed è consultabile e compilabile esclusivamente online (questo aspetto verrà esaminato in seguito, nella disamina realizzata per verificare eventuali lacune o difetti presenti nella redazione). Prima di procedere all‟esamina delle tabelle sottostanti riassumenti i dati raccolti mediante analisi online, è necessario chiarire a questo punto alcune notazioni presenti nelle tavole stesse; in particolare, si considerino le seguenti abbreviazioni: 35 - “m.sod” = molto soddisfatto: stato che indica il grado massimo di soddisfazione esprimibile dal cliente del self service, corrispondente al livello di servizio complessivo ottimale; - “sodd” = soddisfatto: indice intermedio/positivo, si rifà ad un giudizio mediamente positivo relativamente alle caratteristiche prese in esame. È importante capire su quali aspetti poter migliorare perché il cliente possa ritenersi “molto soddisfatto” e scelga il punto vendita dell‟azienda committente come sua prima scelta nel caso di una successiva visita; - “abb.sod” = abbastanza soddisfatto: indice appena sufficiente, rappresenta il giudizio di chi può ritenersi complessivamente soddisfatto, ma che può aver verosimilmente notato qualche aspetto negativo nell‟offerta sottopostagli. Fondamentale, a questo punto della classificazione, riuscire ad identificare le criticità percepite dal cliente, al fine di intervenire prima che la suo opinione passi al grado di insoddisfazione; in questo momento, infatti, è verosimile pensare che possa subentrare la sfiducia nei confronti del marchio, e il successivo abbandono da parte del cliente. È evidente che richiede un dispendio di energie molto minore l‟aggiustamento dell‟offerta fintantoché l‟acquirente nutre ancora fiducia sufficiente nell‟offerta, piuttosto che la sua successiva riconquista dello stesso: il CRM trova il suo scopo finale proprio nel riuscire ad analizzare le criticità, anche grazie all‟aiuto che il consumatore stesso riesce a fornire attraverso la compilazione di un questionario strutturato adeguatamente dall‟azienda, ed adattarne di conseguenza l‟offerta; - “ins” = insoddisfatto: indice peggiore tra quelli eleggibili, rappresenta la totale nonsoddisfazione da parte del cliente e un suo probabile abbandono dell‟offerta proposta, con successivi costi elevati di riconquista dello stesso. È necessario in questa fase modificare parzialmente o totalmente l‟offerta, intervenendo se possibile sugli aspetti che il rispondente identifica come criticità o negatività; fondamentale anche che nella compilazione del questionario venga perciò data la possibilità di esprimersi relativamente a quanto di non positivo è stato riscontrato durante la fruizione del servizio: sarà questo uno degli aspetti fondamentali su cui si baserà la stesura della nuova intervista, oltre che su una maggio capacità di clusterizzazione della clientela finora non considerata, e basata su molteplici variabili ritenute interessanti da chi ha chiesto la stesura dell‟intervista, e da chi si è occupato della realizzazione. Si vedano dunque i risultati riassunti nelle seguenti tabelle, estratte dai documenti utilizzati dall‟amministrazione per una sommaria analisi dei dati raccolti, sulle quali sono state fatte alcune semplici analisi sulla base dei dati in esse contenute, e mediante le quali è stato possibile riassumere i dati in istogrammi al fine di meglio comprendere la distribuzione delle risposte: 36 Riassunto tabellare dei risultati relativi al self-service “L’Albero…l’Italia a tavola”: N. questionari Albero 39 m.sod prezzo 1 qualità 1 cortesia e organizzazione 2 assortimento offerta 5 % 2,56 2,56 5,13 12,82 sodd 13 19 24 18 % abb.sod 33,33 18 48,72 15 61,54 8 46,15 13 % 46,15 38,46 20,51 33,33 ins 7 4 5 3 % 17,95 10,26 12,82 7,69 tot 39 39 39 39 Riassunto tabellare dei risultati relativi al fast-food “D-Burger – Club House”: N. questionari D-Burger prezzo qualità cortesia e organizzazione assortimento offerta 14 m.sod % 3 21,43 4 28,57 2 14,29 1 7,14 sodd 7 5 8 10 % 50,00 35,71 57,14 71,43 abb.sod 4 5 4 3 % 28,57 35,71 28,57 21,43 ins. 0 0 0 0 % 0,00 0,00 0,00 0,00 tot 14 14 14 14 Riassunto tabellare dei risultati relativi alla pizzeria “Tarantella…che pizza!”: N. questionari Tarantella prezzo qualità cortesia e organizzazione assortimento offerta 22 m.sod 0 2 0 4 % 0,00 9,09 0,00 18,18 sodd 11 8 16 8 % 50,00 36,36 72,73 36,36 abb.sod 9 11 5 9 % 40,91 50,00 22,73 40,91 ins 2 1 1 1 % 9,09 4,55 4,55 4,55 tot 22 22 22 22 Riassunto tabellare dei risultati relativi alla sezione riservata ai suggerimenti da parte dei clienti: cosa le piacerebbe trovare nei locali servizio al tavolo miglior comunicazione maggior assortimento maggior efficienza miglior disposizione e accesso nessun suggerimento totale 75 pepe 0 6 4 2 2 1 15 % 0,00 8,00 5,33 2,67 2,67 1,33 20,00 albero 1 13 13 4 5 4 40 % 1,33 17,33 17,33 5,33 6,67 5,33 52,00 tarantella 0 8 9 1 0 2 20 % 0,00 10,67 12,00 1,33 0,00 2,67 26,67 Riassunto tabellare dei risultati relativi alla valutazione dei sito web: come valuta il nostro sito web molto soddisfacente soddisfacente abbastanza soddisfacente insoddisfacente indifferente totale 75 n. % 7 9,33 19 25,33 17 22,67 10 13,33 22 29,33 75 100,00 37 Si considerino poi le seguenti rappresentazioni: Rappresentazione grafica dei risultati relativi al self-service “L’Albero…l’Italia a tavola”: Rappresentazione grafica dei risultati relativi al fast-food “D-Burger – Club House”: 38 Rappresentazione grafica dei risultati relativi alla pizzeria “Tarantella…che pizza!”: Rappresentazione grafica dei risultati relativi alla sezione riservata ai suggerimenti da parte dei clienti: Rappresentazione grafica dei risultati relativi alla valutazione dei sito web: 39 Mediante una rapida disamina dei dati raccolti in tabella, possiamo trarre alcune conclusioni relative ai risultati stessi, di seguito brevemente riassunti; l‟analisi occuperà giusto lo spazio di alcune riflessioni, per lasciare poi spazio all‟analisi della struttura dell‟intervista e del processo che ha condotto alla stesura di quella nuova. Per quanto riguarda i dati riassumenti le opinioni degli intervistati, nel dettaglio, emerge una soddisfazione mediamente diffusa, con risposte che si concentrano in tutti gli ambiti di intervista riassunti nelle prime tre rappresentazioni (sia tabellare che grafica) sulle due modalità centrali, corrispondenti nel dettaglio alle risposte “soddisfatto” e “abbastanza soddisfatto”; relativamente ai suggerimenti rispetto ad un adeguamento dell‟offerta fornita, il cliente suggerisce mediamente una miglior comunicazione e un maggior assortimento; da ultimo, la valutazione sul sito web, al riguardo del quale emerge un‟opinione piuttosto indifferente A partire dall'osservazione del questionario precedente, si deve procedere quindi ponendosi alcune domande fondamentali: - quali sono gli errori principali commessi nell‟analisi esistente? - quale organizzazione dei dati avrebbe permesso di ottenere maggiori informazioni? - in che misura voglio ottenere informazioni differenziate e, di conseguenza, quante domande avrà e in che modo saranno strutturate e formulate al fine di aiutare la clusterizzazione dei rispondendi? - che tipo di domande ho intenzione di inserire nel questionario? - quale sarà la struttura delle risposte possibili? - cosa voglio sapere concretamente dalla nuova stesura e per quale scopo ultimo utilizzerò le risposte raccolte? 3.1.2. GLI ERRORI PRINCIPALI COMMESSI NEL PRECEDENTE QUESTIONARIO L‟errore principale commesso nel questionario presente è sicuramente la mancanza di una parte dedicata all‟anagrafica: in questo modo, non è possibile identificare – e quindi classificare – le risposte date dagli intervistati, non potendo di conseguenza creare profilazioni del rispondente in base all‟età, al reddito, all‟occupazione, alla provincia di nascita e residenza e, non da meno, è impossibile capire come tali variabili abbiano influenzato la risposta data dal soggetto cui è stata sottoposta l‟intervista. 40 Un secondo punto debole, sicuramente meno impattante del primo ai fini di un‟eventuale clusterizzazione futura, ma altrettanto importante per valutare l‟efficacia della struttura dell‟intervista, è la sola possibilità di compilazione online. Se è vero che l‟accesso a internet ormai non rappresenta più un limite come poteva esserlo fino ai primi anni „90, è altresì vero che l‟Italia rappresenta ancora, a fine 2014, il fanalino di coda in Europa per diffusione del web all‟interno della popolazione.9 Nello specifico, nonostante un aumento del numero complessivo delle famiglie che dispongono di una connessione alla rete, una parte consistente di esse, rappresentate nel dettaglio dal 38,3% della popolazione che risiede nel territorio italiano, ha ancora delle difficoltà di fruizione del web o, addirittura, non ne ha mai avuto accesso. Il terzo errore, si riferisce ad una struttura delle risposte disponibili troppo poco complessa: esse, infatti, non permettono al cliente finale una corretta espressione del suo pensiero, costringendolo a decidere sulla base di solamente quattro possibilità; se da un lato potrebbe al contrario essere considerata un aspetto positivo, in quanto permette una maggiore attenzione e concentrazione sulle alternative accettabili, non ponendo il rispondente di fronte ad un elenco talvolta troppo lungo di possibilità, è altresì vero che non sempre il pensiero di quest‟ultimo potrà risultare in sintonia con le sole quattro modalità presentate, non considerando poi anche il fatto che nessun di queste quattro rappresenta a tutti gli effetti una posizione, ad esempio, neutrale. Da considerare inoltre lo sbilanciamento delle risposte possibili: cercando una divisione delle stesse sulla base della loro connotazione positiva o negativa, risulta evidente come tre possibilità su quattro permettano di esprimere una posizione a favore del quesito posto, mentre solo una ne condivide l‟aspetto contrario; a tal proposito il nuovo questionario è stato strutturato per permettere un equilibrio consistente nello sviluppo delle alternative possibili, e rispecchiare in maniera più fedele la clusterizzazione dei consumatori attorno all‟una o all‟altra posizione. Un aumento delle risposte eventuali – sette - ha inoltre permesso di rendere più facile il riconoscersi di ogni cliente nei confronti di una delle posizioni contemplate nella stesura dell‟intervista, evitando così risposte date per sommi capi o per mera volontà di non lasciare incompleto il questionario, e permettendo una veridicità e affidabilità maggiore dell‟analisi compiuta. Da ultimo, è utile sottolineare come l‟analisi compiuta solo per mezzo di tabelle riassuntive dell‟esame univariato delle diverse domande, e la rappresentazione mediante istogrammi, penalizzi una possibilità di valutazione più approfondita delle risposte date. Nello specifico, l‟assenza di tabelle pivot per l‟analisi bivariata, o di analisi delle componenti principali, non permette di sfruttare al meglio i dati raccolti dalle poche interviste effettuate. 9 http://www.istat.it/it/archivio/143073 41 3.2. IL NUOVO QUESTIONARIO: LA STRUTTURA DELLE DOMANDE Come anticipato nel primo paragrafo di questo capitolo, il questionario risulta strutturato in tre parti; per svilupparle, si è scelto di seguire un processo che permettesse al lettore la massima attenzione lungo tutto il proseguo dell‟intervista, cercando – salvi pochi casi relativi ai quesiti centrali – di alternare le domande con modalità di risposta differenti, al fine di evitare il fenomeno del response set ma anche solamente per non fare in modo che il soggetto potesse annoiarsi e abbandonare la compilazione prima del termine dell‟intervista. Nel dettaglio, si alternano pertanto domande con possibilità di risposta chiusa (Q1) e semichiusa (Q3, Q9) ad altre costruite sulla base di una scala Likert in 7 modalità di risposta tra loro equidistanti: - Completamente insoddisfatto; - Non soddisfatto; - Poco soddisfatto; - Indifferente; - Soddisfatto; - Più che soddisfatto; - Molto soddisfatto. Tale numero di alternative possibili garantisce, grazie allo studio che ha portato al loro sviluppo, da un lato l‟esistenza di una risposta neutra centrale, nel caso il rispondente non volesse sbilanciarsi relativamente al quesito, d‟altro canto un numero così piuttosto elevato di opzioni permette al rispondente una più facile identificazione con una di esse, evitando che si scoraggi e – di nuovo – scelga di abbandonare l‟intervista o continui la compilazione in maniera casuale solo perché si senta in dovere di farlo. S‟identificano con questa scala le domande considerate fondamentali per la segmentazione della popolazione, e che si rispecchiano nei quesiti che vanno da Q2 a Q8, tralasciando però – come detto – la domanda Q3; nel dettaglio siano: 42 - Q2, rispondente alla domanda “Si ritiene mediamente soddisfatto del prezzo speso?”; - Q4, rispondente alla domanda “La pietanza ha rispettato le sue aspettative iniziali?”; - Q5, rispondente alla domanda “Come valuta la qualità generale del cibo che ha scelto?”; - Q6, rispondente alla domanda “Può ritenersi soddisfatto della cortesia e della gentilezza del personale?”; - Q7, rispondente alla domanda “Si ritiene mediamente soddisfatto del tempo di attesa dei prodotti ordinati?”; - Q8, rispondente alla domanda “Qual è la valutazione complessiva relativamente alla sua visita?”. L‟ultima parte, quella relativa all‟anagrafica, è invece caratterizzata da domande che alternano possibilità di risposta chiusa, ad altre semichiusa; di nuovo, l‟alternanza delle modalità possibili garantisce che il rispondente non si trovi di fronte ad un andamento monotòno e sia quindi maggiormente incoraggiato alla compilazione, non risultandosi annoiato o poco attento. Posizionare la parte relativa al profilo del cliente nella parte finale, dove l‟attenzione è mediamente più bassa rispetto all‟iter di compilazione delle restanti parti del questionario, significa permettere all‟intervistato di poter rispondere in maniera comunque meno attenta e impegnata, in quanto le risposte provengono non da una riflessione relativa all‟esperienza appena vissuta o a competenze specifiche, quanto piuttosto da conoscenze già mentalizzate relative alla sua persona. 43 CAPITOLO 4 L’ANALISI DEI RISULTATI: TEORIA E METODI DI SEGMENTAZIONE In tale capitolo ci si propone di analizzare i metodi che permettono di ridurre e interpretare i dati raccolti per mezzo di strumenti legati al CRM, quali ad esempio sono i questionari somministrati per mezzo di un intervistatore o compilati in maniera autonoma (ed anonima) da parte di una persona intervistata; nel dettaglio, lasciando alla successiva sezione una sintesi dei concetti di analisi univariata e bivariata, si espone di seguito il concetto di clusterizzazione – o segmentazione – e la sua applicazione nel contesto dell‟analisi compiuta. 4.1 L’ANALISI DEI GRAPPOLI O CLUSTER ANALYSIS Con il termine clustering, o segmentazione, si indica in statistica un complesso di tecniche di analisi multivariata dei dati raccolti mediante intervista, e finalizzate all‟identificazione e alla concentrazione di elementi omogenei presenti all‟interno di un insieme eterogeneo di dati; tali tecniche si fondano cioè sulla misurazione della somiglianza tra gli elementi della popolazione oggetto di indagine. Nella maggior parte dei casi, tale dissimilarità è interpretata alla stregua di distanza all‟interno dello spazio pluridimensionale: si identifica cioè una misura di distanza dij (ovvero relativa alla i-esima riga e j-esima colonna) allo scopo di operare una sintesi delle informazioni contenute nella matrice iniziale X ( n´ p) dei dati - con n numero dei rispondenti e p numero delle risposte da essi date alle relative domande presenti all‟interno del questionario - attuata in funzione delle relazioni esistenti tra le unità di riga, di colonna, oppure di riga e colonna. Si possono distinguere alcune proprietà fondamentali delle misure di distanza: 44 - dij > 0 detta “non negatività”, implica che la distanza tra gli item considerati sia sempre maggiore di zero; - dii = 0 ovvero è nulla la distanza di un elemento da se stesso; - dij = dji detta “simmetria”: è uguale cioè la distanza esistente tra i e j o tra j e i; - dij < dir + drj detta “diseguaglianza triangolare”, ovvero quel teorema geometrico per il quale la somma dei cateti di un quadrato è sempre maggiore della lunghezza dell‟ipotenusa. Fissate quindi le variabili che si ritengono utili all‟analisi, è opportuno operare un esame delle misure di distanza che sussistono tra le unità statistiche al fine di valutare come queste possano essere eventualmente raggruppate in un processo di segmentazione della popolazione rispondente; è possibile perciò utilizzare diversi tipi di indicatori di distanza, di cui i più utilizzati sono: 1. distanza euclidea: equivale, in sintesi, alla distanza geometrica delle variabili all‟interno dello spazio pluridimensionale; 2. distanza euclidea ponderata: nei casi in cui esistano pesi differenti relativamente alle variabili che sono, nello spazio, più distanti; in particolare, maggiori saranno le distanze, maggiore sarà il peso attribuito alla variabile in esame; 3. distanza assoluta, o di Manhattan: detta anche “city-block”, rappresenta unicamente la differenza media che esiste tra le dimensioni considerate; tale distanza viene spesso usata nel caso in cui le variabili sono classificate in maniera ordinale 4. distanza di Chebychev, considerata nei casi in cui a incidere sul concetto di “differenti” sono le differenze rilevate in entrambe le dimensioni della variabile; 5. distanza di Mahalanobis: tale distanza considera le variabili attraverso le quali differenti pattern possono essere identificati ed analizzati. […] Differisce dalla distanza euclidea in quanto tiene conto delle correlazioni all'interno dell'insieme dei dati.10 6. distanza di Minkowsky: generalizzazione sia della distanza euclidea che della distanza di Manhattan.11 La scelta della distanza più opportuna all‟analisi che si sta compiendo influisce in modo importante sulla bontà del risultato della stessa: è quindi fondamentale calcolare in modo corretto la distanza esistente tra le variabili considerate, posto che il clustering raggruppa i dati in base alla loro dissimilarità vicendevole e, di conseguenza, all'appartenenza o meno ad uno degli insieme che emergono dall‟esame. Scelta la misura di disuguaglianza migliore per l‟analisi dei dati raccolti 10 11 http://it.wikipedia.org/wiki/Distanza_di_Mahalanobis http://it.wikipedia.org/wiki/Distanza_di_Minkowski 45 attraverso la somministrazione dei questionari, si procede perciò alla scelta dell‟algoritmo idoneo alla clusterizzazione degli stessi. Normalmente, si distingue tra: - metodi gerarchici: portano alla creazione di gruppi ordinabili mediante livelli crescenti, per giungere ad un numero di cluster che va da n ad 1; tali metodi si distinguono a loro volta in agglomerativi e non. - metodi non gerarchici: conducono alla formazione di una distribuzione unica delle n unità in un numero g di cluster, aprioristicamente determinato. Si arriva in questo modo a determinare un‟ampissima quantità di metodi di classificazione, i più importanti dei quali si distinguono – come visto – in base alla loro capacità di agglomerare o dividere i dati raccolti mediante l‟intervista – quindi relativamente al risultato fornito – oppure, sulla base dell‟algoritmo, in gerarchici e non gerarchici. In ogni caso, l‟importanza che ogni variabile ricopre nella composizione di ciascun grappolo è direttamente connessa alla varianza insista nelle variabili stesse; di conseguenza, le variabili che presentano un grado maggiormente elevato di dispersione avranno maggior influenza sulla misura della distanza. Le tecniche di clustering gerarchiche possono essere a loro volta distinte in due grandi gruppi: - metodi aggregativi o dal basso verso l‟alto (bottom-up): l‟iter di tale metodo presuppone che ogni elemento della popolazione sia inizialmente considerato come un cluster singolo; vi saranno pertanto tanti gruppi quante sono le osservazioni registrate durante l‟intervista. Il secondo passo è quindi l‟aggregazione dei segmenti più vicini; l'algoritmo segue unendo i diversi elementi fino al raggiungimento di un numero di gruppi inizialmente fissato, o fintantoché la distanza minima esistente tra i differenti cluster non risulti superiore ad un valore stabilito secondo un determinato criterio statistico prefissato; - metodi divisivi o top-down, ovvero dall‟alto verso il basso: l‟intero insieme di elementi è inizialmente posizionato all‟interno di un singolo cluster; successivamente, l'algoritmo inizia ad elaborare la segmentazione dividendo il gruppo iniziale in tanti sotto-gruppi che presentano dimensioni minori, secondo il criterio per il quale si cerca di ottenere grappoli che risultino sempre più omogenei tra loro, fino al caso limite nel quale vi saranno tanti cluster quanti sono gli iniziali elementi della popolazione; se non vi è un numero prefissato di gruppi, è ovviamente questo il momento nel quale l‟algoritmo si blocca. 46 La caratteristica chiave che distingue questi due metodi da quelli non gerachici è che, assegnato un oggetto ad un relativo cluster, tale decisione diventa irrevocabile; i secondi, al contrario, risultano essere solamente di tipo agglomerativo, fornendo quindi un risultato composto da una sola partizione, considerata ottimale sulla base di un criterio precedentemente definito, e ottenuta attraverso riassegnazioni continue delle singole unità i vari gruppi definiti. Indipendentemente dal fatto che il metodo considerato sia agglomerativo o divisivo, esso risulterà sempre e comunque caratterizzato da due caratteristiche fondamentali: - misura l‟intensità della disomogeneità esistente tra le coppie di unità; - è un algoritmo che permette la ricerca dei cluster sussistenti all‟interno delle unità. 4.2 I METODI GERARCHICI AGGLOMERATIVI Elaborati da S.C.Johnson nel suo Hierarchical clustering schemes del 1967, e B.S.Everitt in Unresolved Problems in Cluster Analysis del 1979, si riferiscono a tutte quelle situazioni in cui, a partire da n cluster eterogeneamente diffusi si giunge, attraverso una serie di fusioni successive dei grappoli posti a distanze minori tra loro, alla condizione di un unico gruppo contenente le intere unità n registrate durante l‟intervista. Sia vero che l‟insieme degli oggetti che ci si propone di classificare abbia al suo interno una certa misura di dissimilarità e, per semplicità, s‟immagini che tale misura sia identificata da una distanza D ; si può quindi costruire una matrice di tali distanze esistenti tra le n unità statistiche considerate. Le due unità con distanza minima, ovvero le due più vicine, vengono aggregate in un cluster, registrando contestualmente a che distanza è avvenuta la fusione; si calcola poi, al passo successivo, la distanza esistente tra il gruppo appena creato dalle unità considerate, ed i gruppi – o le unità – restanti: tali unità statistiche entreranno a far parte del cluster realizzato, oppure verranno fuse tra di loro al fine di formare un cluster differente. A livello grafico, dalla matrice iniziale delle distanze D vengono eliminate due righe e due colonne, corrispondenti ai gruppi (eventualmente) fusi, e rimpiazzate da una riga ed una colonna sole, rappresentanti la nuova distanza trovata; si procede con questi passi fino a che non si arrivi ad una struttura formata da un unico cluster. 47 Lo strumento mediante il quale è possibile visualizzare questa serie di passaggi è una rappresentazione chiamata „dendrogramma‟: tale grafico presenta nell‟asse delle ascisse le unità di riferimento identificate dalla matrice dei dati iniziali, e in quello delle ordinate, invece, le distanze alle quali sono avvenute le fusioni oggetto di analisi; ad ogni livello di distanza corrisponderà quindi una determinata partizione. unità statistiche Mediante tale rappresentazione, è possibile apprezzare la distanza esistente tra un gruppo e l‟altro, al fine di analizzare a posteriori la similarità o la dissimilarità di due o più gruppi di unità; nella prima fusione, rappresentata dal punto di unione più in basso, le unità statistiche saranno più simili – e quindi più vicine – tra loro, in quanto il livello di entrata nel cluster è relativamente basso: in questo caso l‟altezza del punto di fusione sarà ridotta. Il rapporto tra il livello di distanza a cui viene formato un gruppo e quello in cui questo stesso si fonde poi con un altro è invece tanto maggiore quanto più il grappolo è diverso dagli altri gruppi; naturalmente, la linea di collegamento orizzontale altro non è che la distanza alla quale i due cluster si uniscono. In sostanza, il dendrogramma permette di visualizzare graficamente l‟intero processo di aggregazione delle varie unità attraverso una gerarchia di successive partizioni, e che termina con quello che in gergo è definito come “taglio” del dendrogramma stesso; subentra pertanto il problema di dove effettuare tale divisione, appurato che l‟interesse sarà quello di ottenere il numero minore possibile di gruppi, ognuno dei quali dovrà presentare massima omogeneità al suo interno, e massima eterogeneità al suo esterno. Stante queste condizioni, si può arrivare facilmente alla conclusione che il miglior taglio genericamente possibile è quello effettuato alla base dell‟insieme delle verticali con maggiori altezze, cioè, nell‟esempio grafico citato: 48 taglio unità statistiche I metodi interessati nell‟analisi di tali processi agglomerativi gerarchici si differenziano per la modalità di calcolo della distanza tra i gruppi al fine della creazione di cluster in serie, come descritto nel procedimento appena illustrato; in particolare, in letteratura si identificano: metodo del legame singolo, metodo del legame completo, metodo del legame medio, metodo del centroide, metodo di Ward. In questa analisi considereremo però solamente quelli effettivamente utilizzati in corso di analisi, lasciando al lettore l‟approfondimento sui metodi restanti citati. 4.2.1 METODO DEL LEGAME SINGOLO Dall‟inglese nearest neighbour (ovvero „vicino più prossimo‟), tale metodo indica un iter di analisi dei dati statistici attraverso il quale la distanza esistente tra i gruppi viene misurata considerando la distanza minore tra gli elementi che appartengono ad un grappolo, rispetto a quelli appartenenti ad un altro. Si supponga di aver rilevato quattro unità statistiche, chiamate per semplicità A,B,C,D, e di aver determinato una misura di distanza tra le stesse, identificata con dAB, dAC,..., dCD ; ipotizzando poi che due unità (ad esempio A e B) si siano unite in un solo gruppo, la distanza tra tale cluster AB e la terza unità C sarà definita mediante la formula: d( AB)C = min(dAC, dBC ) Posto successivamente che le restanti due unità C e D si siano fuse in un secondo cluster, questa volta chiamato pertanto CD, la distanza esistente tra il primo cluster AB ed il secondo cluster CD 49 sarà definita secondo l‟equazione: d( AB)(CD) = min(dAC, dAB, dBC, dBD, ) Al primo passo si fonderanno dunque le due unità che presentano la distanza minore, ottenendo quindi n-1 cluster: si riesce a calcolare ora una nuova matrice composta dalle distanze esistenti tra gli n-1 gruppi; è in questo momento che si uniscono i due cluster con distanza minima, continuando poi fino al punto di ottenere un cluster unico che contiene n unità. L‟uso di tale metodo di composizione dei cluster permette di evidenziare in modo più accentuato le somiglianze che sussistono tra gli elementi esistenti negli insiemi di osservazioni, sottolineando maggiormente le differenze tra i grappoli rispetto alle uguaglianze all‟interno degli stessi. 4.2.2 METODO DEL LEGAME COMPLETO Tale metodo, il cui nome deriva dall‟inglese furthest neighbour (vicino più lontano), è basato sul criterio di distanza massima esistente tra gli individui componenti la matrice dei dati iniziali. In breve, si supponga nuovamente di considerare 4 unità A,B,C,D e di avere determinato, anche questa volta, una misura di distanza tra le stesse, identificata anche questa volta con dAB, dAC,..., dCD ; ipotizzando poi che due unità (ad esempio A e B) si uniscano in un solo gruppo, la distanza tra tale cluster AB e la terza unità C sarà definita mediante la formula: d( AB)C = max(dAC, dBC ) Posto poi che le restanti due unità C e D siano fuse in un secondo cluster, questa volta chiamato di nuovo quindi CD, la distanza esistente tra il primo cluster AB ed il secondo cluster CD è definita secondo l‟equazione: d( AB)(CD) = max(dAC, dAB, dBC, dBD, ) Si procede con tale metodo fino a che si ottengono i due cluster finali composti dall‟insieme delle unità inziali; tale algoritmo permette di evidenziare nettamente le differenze che esistono tra i singoli elementi, a discapito talvolta di una netta distinzione esistente tra i gruppi. La rappresentazione mediante dendrogramma presenterà in questo caso ramificazioni molto più lunghe, in quanto i singoli cluster si formano ad altezze molto maggiori: rispetto al primo metodo analizzato, con questo secondo algoritmo gli elementi risultano essere meno fitti. 50 4.2.3 METODO DI WARD Anche quest‟ultimo metodo gerarchico aggregativo può essere considerato nell‟analisi in oggetto, anche se differisce da tutti gli altri in quanto basato fondamentalmente sulla scomposizione della devianza (cioè il numeratore della varianza), ovvero quel processo che permette di calcolarne il valore entro i gruppi (o within) e tra i gruppi (o between): questo metodo, in particolare, è finalizzato a minimizzare la varianza all‟interno dei gruppi – è evidente quindi che tale criterio è da considerare solo in presenza di variabili quantitative -. Nel passaggio da g+1 a g gruppi, attraverso quindi l‟aggregazione tra elementi, la devianza entro i gruppi aumenta, mentre al contrario diminuisce la devianza tra i gruppi. Passo dopo passo, si considera l‟aggregazione di tutte le possibili coppie di gruppi, e tale unione – basata su un concetto di varianza minima – dovrà tendere all‟ottimizzazione della partizione ottenuta, considerata tanto migliore quanto le classi risulteranno eterogenee tra loro ed omogenee al loro interno, aggregando ad ogni step i gruppi che presentano una minore crescita della devianza within. Conducendo l‟analisi dei dati mediante i metodi gerarchici associativi o agglomerativi, è possibile scegliere il numero ottimo di cluster da considerare mediante l‟esame della distanza alla quale si fondono i vari gruppi; se, come visto, si analizza il dendrogramma disegnato durante o dopo l‟applicazione dell‟algoritmo, tale scelta si può facilmente compiere mediante un taglio nel punto di massimo - o comunque di forte - incremento della distanza a cui avvengono le differenti fusioni. Esistono tuttavia differenti altri metodi che permettono di condurre tale scelta, in particolare, sempre mediante l‟uso della distanza di fusione si definiscono l‟indice di silhouette e il rispettivo grafico. 4.3. I METODI GERARCHICI DIVISIVI Differentemente dai metodi analizzati poco sopra, e come già brevemente visto nella parte introduttiva, tali iter gerarchici divisivi partono da un cluster iniziale, composto dall‟insieme di tutte le unità derivanti dall‟osservazione compiuta, e suddividono in modo progressivo tale complesso in un numero sempre maggiore di sottoinsiemi, fino al caso limite di g gruppi tra loro distinti, corrispondenti alle n osservazioni rilevate; il processo che porta a tale conclusione si svolgerà di volta in volta basandosi sulla suddivisione delle classi in solo e soltanto due gruppi. 51 Fanno parte di questa categoria i cosiddetti metodi nodali, ovvero quelli che si riferiscono ad un algoritmo riassumibile in tre punti fondamentali: - s‟individua, nel primo passo, la coppa di unità che presenta la massima distanza, definita a questo livello “coppia di punti nodali”; - successivamente, tutte le rimanenti unità sono assegnate a tali due nodi, sulla base della distanza minima calcolata tra ognuna delle n-2 unità restanti e il punto nodale; - si ripetono questi due primi passi, identificando di volta in volta nuovi punti nodali all‟interno di ogni singolo gruppo, fino all‟ottenimento di n gruppi. Per concludere l‟esame di tali metodi, occorre sottolineare pregi e difetti che ognuno di questi algoritmi reca con se. In primis, si può evidenziare come sia necessario presupporre ai fini dell‟analisi una regola che permetta la classificazione delle unità, attraverso la quale sia possibile far rientrare o meno le stesse all‟interno di un gruppo piuttosto che di un altro; chiaramente, se nel contesto all‟interno del quale si conduce questa analisi non è possibile determinare una regola classificatoria sufficientemente strutturata, l‟utilizzo di metodi gerarchici risulterà piuttosto approssimativa e limitata, oltre che limitante, nel senso che può condurre a tipologie di clusterizzazione errate. Se questo è uno degli svantaggi principali dell‟applicazione di questi algoritmi, è certamente invece un vantaggio il fatto che tali metodi rendono possibile lo studio dei processi che portano elementi con caratteristiche comuni ad assimilarsi, anche se questo potrebbe essere limitante per lo studio oggetto di questa analisi in quanto presuppone delle ipotesi di divisione aprioristicamente determinate, cosa poco realistica nell‟esame della clientela di un punto vendita; al contrario, è proprio attraverso la somministrazione dei questionari che si tenta di evincere eventuali caratteristiche comuni che hanno favorito la clusterizzazione della popolazione. 4.4. I METODI NON GERARCHICI Contrariamente a quanto considerato per gli algoritmi gerarchici divisi, tali metodi sono caratterizzati dalla supposizione a priori del numero di cluster che s‟intende ottenere per ripartire l‟eterogeneo gruppo di misurazioni iniziali; in sintesi, tali algoritmi sono caratterizzati da alcune peculiarità, tra le quali le più importanti risultano essere: - sono metodi solitamente aggregativi, che finiscono per produrre come output una sola partizione, partendo da n misurazioni disposte in g cluster, per arrivare ad un prodotto finale 52 costituito da un solo grappolo contenente tutte le unità di partenza; - è di fondamentale importanza identificare, all‟inizio del processo, il numero k dei punti da determinare in modo tale che l‟algoritmo usato generi una partizione unica delle unità iniziali in g gruppi finali. Diversamente da quanto accade con gli algoritmi gerarchici, attraverso i quali si cerca passo dopo passo la scissione – o aggregazione – ottima, nel caso di metodi non gerarchici il procedimento permette il partizionamento delle unità sulla base di un criterio predefinito, e l‟allocazione di una unità all‟interno di un gruppo non risulta irrevocabile, ma è al contrario possibile la sua riassegnazione ad un cluster differente qualora il posizionamento inizialmente scelto. Posto a priori il numero k di cluster in cui si desidera dividere il gruppo iniziale, il procedimento che regola tali metodi non gerarchici si divide fondamentalmente in due momenti: - generazione di una prima partizione contenente gli n individui osservati in g cluster; - inizio dell‟iter algoritmico, che permette una successione di spostamenti delle varie osservazioni all‟interno dei grappoli, al fine di conseguire una suddivisione che risponda il maniera il più ottimale possibile alle caratteristiche di omogeneità all‟interno dei gruppi, e di eterogeneità al loro esterno. Va sottolineato, però, come questo secondo punto contenente l‟individuazione dell‟ottima partizione sottintenda un‟operazione di calcolo di dimensioni tutt‟altro che modeste, viste tutte le possibili combinazioni che permettono l‟assegnazione di un individuo n ad un gruppo g. La letteratura propone perciò lo sviluppo di un metodo di raggruppamento che tenga in considerazione solamente un numero plausibile di distribuzioni alternative: scelta cioè l‟iniziale suddivisione, si prosegue riallocando le osservazioni che fanno parte dell‟analisi in maniera tale da ottimizzare la funzione fissata come obbiettivo dell‟esame, determinata mediante k di suddivisioni, in un numero massimo di interazioni possibili. L‟esempio migliore di questi metodi non gerarchici è quello delle k medie - o di McQueen, 1967 - algoritmo che parte da una popolazione inziale, per riallocare successivamente le unità al cluster che presenta il centroide più vicino, fino al punto nel quale non esista gruppo diverso da quello di appartenenza che abbia centroide più vicino all‟unità stessa; la procedura permette la minimizzazione – evidentemente – della devianza all‟interno dei gruppi. 53 In sintesi, se l‟algoritmo non viene sviluppato mediante software statistici – come ad esempio, nel caso dell‟analisi in oggetto, R – si può riassumere l‟iter procedurale da seguire per lo sviluppo dei metodi non gerachici nelle seguenti sei fasi: 1. scelta dei centri k, riferiti allo stesso numero g di gruppi; 2. posizionamento delle unità vicino al centro di riferimento, secondo la teoria per la quale dovrà risultare minima la distanza rispetto a questo che a qualsiasi altro; 3. valutazione dei centroidi dei cluster ottenuti da questo primo posizionamento, mediante calcolo per i g gruppi; 4. calcolo dell‟intervallo che separa ogni elemento dal corrispondente centroide del gruppo cui appartiene: se non è minima la distanza da questo, si procede a riallocare l‟unità in esame, posizionandola all‟interno del cluster che corrisponde al centroide con la distanza minore; normalmente, per il calcolo di tale distanza viene considerata la distanza euclidea; 5. si ricalcolano i centroidi dei gruppi così formati con la nuova riallocazione;. 6. si ripetono gli step 4 e 5 fino al punto in cui la formazione dei gruppi non subisce ulteriori variazioni rispetto all‟allocazione precedente. Si sono considerati dunque vantaggi e svantaggi dei metodi non gerarchici, come fatto per i metodi gerarchici; dal punto di vista degli aspetti positivi, è ragionevole citare la velocità con la quale è possibile eseguire i calcoli, e la possibilità che viene data alle varie unità di raggrupparsi tra loro in nuovi gruppi, o di allontanarsi dagli stessi, anche se questo aspetto necessita tuttavia di ipotizzare a priori la composizione della struttura dell‟indagine e della successiva clusterizzazione. Per semplificare questa questione si può pensare di procedere principalmente secondo due modi differenti: applicando un metodo di tipo gerarchico, oppure scegliendo un intervallo razionale di accettazione del valore g onde evitare reiterazioni impegnative ma poco costruttive ai fini di una corretta analisi dei dati raccolti. Passando invece alle criticità di questi algoritmi non gerarchici, è utile sottolineare in particolare il problema relativo all‟influenza che la scelta iniziale del numero di cluster e della composizione dei gruppi mediante analisi dei centroidi può avere nell‟esito della clusterizzazione; oltre a questo, è importante considerare che valori anomali, costruzione dei gruppi poco strutturata e numerosità delle osservazioni insufficiente possono portare a soluzioni poco stabili. 54 In particolare, ai fini di una clusterizzazione strutturata e solida, si considerino le valutazioni relativamente al processo di segmentazione evidenziate da Hill e Silvestri nel loro “Some problems of the taxornetric approach” del 1964; i criteri che i due autori evidenziano, comprendono in particolare: - oggettività, riferita al fatto che lavoratori che operano in maniera indipendente alla stessa cluster analisi su identico campione, dovrebbero in linea teorica giungere agli stessi risultati; - stabilità, con particolare riferimento a quanto emerge dalla clusterizzazione fatta su osservazioni equivalenti; - capacità di predizione delle variabili rispetto ad un nuovo gruppo di osservazioni. A conclusione delle due analisi compiute, si può sicuramente evincere che se il fine dell'indagine è la creazione di cluster che presentino alta omogeneità al loro interno, intesa come rapporto stretto tra le unità che appartengono ad uno stesso cluster, è utile procedere mediante tecniche non gerarchiche; viceversa, si può pensare di ricorrere ai metodi gerarchici. È altresì vero che nel corso di un‟analisi statistica su un campione misurato, ad esempio, mediante questionario, le due tipologie di metodo possono convivere, intendendo che una – quella gerarchica – può essere utilizzata ai fini della ricerca dell‟ottima divisione in cluster della popolazione iniziale, mentre l‟altra – non gerarchica – può essere adoperata per valutare e verificare l‟effettiva correttezza dell‟ipotesi di segmentazione svolta mediante il metodo scelto. 55 CAPITOLO 5 L’ANALISI DEI RISULTATI: ANALISI UNIVARIATA, ANALISI BIVARIATA, SEGMENTAZIONE 5.1. L’ANALISI UNIVARIATA In questa prima parte di disamina, verranno analizzate le variabili considerate singolarmente: un‟analisi univariata condurrà chi legge all‟esposizione di alcuni tratti salienti del questionario, analizzandone la distribuzione in frequenza e rappresentando i dati raccolti in grafici a barre, o istogrammi, e grafici a torta. D‟ora innanzi, per semplificare l‟esposizione dell‟analisi univariata, ai quesiti verranno assegnati i seguenti nomi: 1. FREQUENTAZIONE SETTIMANALE, risponde alla domanda “Quante volte frequenta mediamente il nostro punto vendita durante la settimana?”; 2. PIETANZA SCELTA, risponde alla domanda “Quale pietanza ha scelto?”; 3. VALUTAZIONE COMPLESSIVA, risponde alla domanda “Qual è la valutazione complessiva relativamente alla sua visita?”; 4. ETÀ, risponde alla domanda “Età”; 5. SESSO, risponde alla domanda “Genere”; 6. PROVINCIA DI RESIDENZA, risponde alla domanda relativa alla provincia di residenza; 7. PROVINCIA DI OCCUPAZIONE, risponde alla domanda relativa alla provincia di occupazione; 8. STRUTTURA FAMILIARE, ingloba le domande relative ai componenti del nucleo familiare e di quanti di essi concorrono alla formazione del reddito; 9. PROFESSIONE, risponde alla domanda relativa alla professione; 10. TITOLO, identifica le risposte relative al titolo di studio. 56 1. FREQUENTAZIONE SETTIMANALE La prima domanda utile ai fini dell‟analisi univariata delle risposte del questionario è quella relativa alla frequentazione settimanale: è una variabile quantitativa che ci permette di capire l‟assiduità con la quale i rispondenti al questionario frequentano il punto vendita; i risultati, riassunti in una distribuzione che esprime frequenze, frequenze relative proporzionali (f.r.p.) e frequenze relative percentuali (f.r. %), sono rappresentati poi dal grafico a barre - o istogramma – e dal grafico a torta: Q1 frequenza f.r.p. f.r. % 0 63 0,3119 31,19% 1 29 0,1436 14,36% 2 33 0,1634 16,34% 3 30 0,1485 14,85% 4 16 0,0792 7,92% 5 31 0,1535 15,35% totale 202 1 100% Figura 1: frequenze osservate per la variabile FREQUENTAZIONE SETTIMANALE. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette il numero di volte a settimana (n/7) nelle quali il consumatore frequenta il punto vendita, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. La modalità “0” corrisponde ad una visita occasionale da parte del consumatore; la scelta di comprendere unicamente i giorni feriali è voluta dall‟azienda per la quale è stato redatto il questionario, in quanto si considera più interessante valutare la frequenza presso i punti vendita durante l‟orario della pausa pranzo, che non rispetto alla globalità dei giorni della settmana. 2. PIETANZA SCELTA La seconda domanda dell‟analisi univariata delle risposte del questionario è relativa alla pietanza scelta dal consumatore; è una variabile qualitativa in 4 modalità e che permette di capire l‟assiduità con la quale i rispondenti al questionario scelgono le differenti offerte presenti all‟interno del punto 57 vendita; i risultati, riassunti in una tabella con le distribuzioni di frequenza, sono rappresentati poi dal grafico a barre - o istogramma – e dal grafico a torta: Q3 frequenza f.r.p f.r. % 1 109 0,5396 53,96% 2 60 0,2970 29,70% 3 26 0,1287 12,87% 4 7 0,0347 3,47% totale 202 1 100% Figura 2: frequenze osservate per la variabile PIETANZA SCELTA. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la pietanza scelta, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 3. VALUTAZIONE COMPLESSIVA La terza domanda dell‟analisi univariata delle risposte del questionario è quella relativa alla valutazione complessiva del consumatore in riferimento alla sua visita: si tratta questa volta di una variabile qualitativa costruita mediate l‟uso di una scala Likert in 7 modalità e permette di valutare la visione globale dei rispondenti al questionario; i risultati, riassunti in una distribuzione di frequenza, sono rappresentati dal grafico a barre - o istogramma – e dal grafico a torta: Q8 frequenza f.r.p. f.r. % 58 1 4 0,0198 1,98% 2 2 0,0099 0,99% 3 14 0,0693 6,93% 4 14 0,0693 6,93% 5 102 0,5050 50,50% 6 44 0,2178 21,78% 7 22 0,1089 10,89% totale 202 1 100% Figura 3: frequenze osservate per la variabile VALUTAZIONE COMPLESSIVA. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la valutazione globale su una scala da 1 a 7, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 4. ETÀ La quarta domanda è quella relativa all‟età del rispondente. È una variabile qualitativa ordinale, in quanto è possibile un ordinamento naturale all‟interno delle sue modalità: meno di 20 anni, tra 20 e 29 anni, tra 30 e 39 anni, tra 40 e 49 anni, tra 50 e 59 anni, più di 60 anni; i risultati, riassunti in una distribuzione di frequenza, sono rappresentati poi dal grafico a barre - o istogramma – e dal grafico a torta: Q10 frequenza f.r.p. f.r. % 1 7 0,0347 3,47% 2 38 0,1881 18,81% 3 50 0,2475 24,75% 4 75 0,3713 37,13% 5 21 0,1040 10,40% 6 11 0,0545 5,45% totale 202 1 100% 59 Figura 4: frequenze osservate per la variabile ETÀ. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette l‟età su una scala ordinata in modo crescente, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 5. SESSO La quinta domanda utile ai fini di analisi è quella relativa al sesso del rispondente. È una variabile qualitativa dicotomica 12 , in quanto sono possibili solamente due tipi di risposta: maschio o femmina; i risultati dei rispondenti al questionario sono per il 55,94% uomini, e per il restante 44,06% donne. Questa variabile si rivelerà molto utile in un secondo momento, ai fini dell‟analisi bivariata, che ha permesso di capire eventuali relazioni tra la risposta relativa al sesso del rispondente, e la sua attenzione verso i fattori principali di analisi, come la qualità del cibo, il livello di prezzo, il tempo di attesa, la gentilezza e la cortesia del personale. I risultati, riassunti in una distribuzione di frequenza, sono rappresentati ancora una volta dal grafico a barre - o istogramma –, contenente ovviamente le due sole modalità, e dal grafico a torta: Q11 frequenza f.r.p. f.r. % 0 113 0,5594 55,94% 1 89 0,4406 44,06% totale 202 1 100% Figura 5: frequenze osservate per la variabile SESSO. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette il sesso, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 12 Piccolo, 2010 60 6. PROVINCIA DI RESIDENZA La sesta domanda esaminata per l‟analisi è quella relativa alla provincia in cui risiede il rispondente. È una variabile qualitativa che permette 7 tipi di risposta: Padova (PD), Venezia (VE), Vicenza (VI), Verona (VR), Treviso (TV), Belluno (BL), o altre, di seguito raggruppate per comodità nella modalità “altro”; i risultati dei rispondenti al questionario riflettono in gran parte le due province nelle quali sono stati somministrati i questionari, ovvero quella di Padova – per quanto riguarda il centro commerciale “Le Brentelle” di Rubano, e Vicenza – per quanto riguarda la somministrazione all‟interno del centro commerciale “Il Grifone” di Bassano del Grappa -. I risultati, riassunti in una distribuzione di frequenza, sono rappresentati, ancora una volta, dal grafico a barre, e dal grafico a torta: Q12 frequenza f.r.p. f.r. % 1 113 0,5594 55,94% 2 23 0,1139 11,39% 3 44 0,2178 21,78% 4 1 0,0050 0,50% 5 10 0,0495 4,95% 6 3 0,0149 1,49% 7 8 0,0396 3,96% totale 202 1 100% Figura 6: frequenze osservate per la variabile PROVINCIA DI APPARTENENZA. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la provincia, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 7. PROVINCIA DI OCCUPAZIONE La settima domanda esaminata per l‟analisi è quella relativa alla provincia in cui lavora il rispondente. È una variabile qualitativa che permette anch‟essa, come la precedente, 7 tipi di risposta: Padova (PD), Venezia (VE), Vicenza (VI), Verona (VR), Treviso (TV), Belluno (BL), o 61 altre, di seguito raggruppate per comodità nella modalità “altro”; i risultati dei rispondenti al questionario, anche questa volta, riflettono in gran parte le due province nelle quali sono stati somministrati i questionari, ovvero quella di Padova – per quanto riguarda il centro commerciale “Le Brentelle” di Rubano, e Vicenza – per quanto riguarda la somministrazione effettuata all‟interno del centro commerciale “Il Grifone” di Bassano del Grappa -. Q13 frequenza f.r.p. f.r. % 1 120 0,5941 59,41% 2 13 0,0644 6,44% 3 46 0,2277 22,77% 4 2 0,0099 0,99% 5 6 0,0297 2,97% 6 4 0,0198 1,98% 7 11 0,0545 5,45% totale 202 1 100% Figura 7: frequenze osservate per la variabile PROVINCIA DI OCCUPAZIONE. L‟immagine a sinistra corrisponde al grafico a barre, con l‟asse delle ascisse che riflette la provincia, e l‟asse delle ordinate la percentuale di rispondenti a quella determinata modalità, mentre l‟immagine a destra corrisponde al grafico a torta, costruito mediante il medesimo criterio. 8. STRUTTURA FAMILIARE L‟ottava domanda in analisi, riguarda la struttura familiare del rispondente. È una variabile qualitativa ordinale, che permette 6 tipi di risposta sia relativamente alla questione “Componenti del nucleo familiare” – le barre blu dell‟istogramma - che alla questione successiva “Componenti del nucleo familiare che concorrono alla formazione del reddito” – le barre rosse -; i risultati dei rispondenti al questionario evidenziano come, a differenza di componenti del nucleo la cui maggioranza delle risposte si attesta sulle modalità “2” (23,76% dei rispondenti) e “3” (23,76% dei rispondenti), con un valore molto vicino anche per la modalità “4” (23,27% dei rispondenti), per i concorrenti alla formazione del reddito vi è un picco sulla modalità di risposta “2” (58,42% dei 62 rispondenti), che identifica come a parità di persone occupate vi siano famiglie anche molto numerose, composte da tre o più membri, e che ci fa quindi capire come potenzialmente questo fattore possa abbassare la capacità di acquisto degli intervistati e la loro volontà di trovare promozioni di prezzo all‟interno del punto vendita. Q14 frequenza f.r.p. f.r. % 1 22 0,1089 10,89% 2 54 0,2673 26,73% 3 54 0,2673 26,73% 4 47 0,2327 23,27% 5 20 0,0990 9,90% 6 5 0,0248 2,48% totale 202 1 100% Q15 frequenza f.r.p. f.r. % 1 55 0,2723 27,23% 2 118 0,5842 58,42% 3 18 0,0891 8,91% 4 7 0,0347 3,47% 5 1 0,0050 0,50% 6 3 0,0149 1,49% totale 202 1 100% Figura 8: frequenze osservate per la variabile STRUTTURA FAMILIARE. L‟immagine corrisponde al grafico a barre, con l‟asse delle ascisse che riflette il numero di facenti parte del nucleo familiare in blu, e del numero degli occupati in rosso, mentre l‟asse delle ordinate indica la percentuale di rispondenti a quella determinata modalità. 9. PROFESSIONE La penultima domanda utile ai fini di questa prima analisi riguarda la professione del rispondente. È una variabile qualitativa che permette 9 tipi di risposta predefiniti: Operario, Impiegato, Dirigente, Imprenditore, Studente, Pensionato, Libero Professionista, Disoccupato, Non rispondente; un‟ultima modalità denominata “altro” raggruppa tutte le risposte date da chi non è riuscito a trovare in una delle possibilità precedenti un‟alternativa che lo identifichi. Anche i risultati dei 63 rispondenti alla domanda sono stati utili, una volta incrociati con i dati relativi alla struttura familiare, per stimare una capacità di spesa dei frequentatori del punto vendita, e capire quali tipo di promozioni è utile attivare al fine di fidelizzare i clienti già presenti, o di acquisirne di nuovi. Nella tabella di distribuzione delle frequenze, nell‟istogramma a barre e nel grafico a torta sono riassunti i risultati: Q16 1 2 3 4 5 6 7 8 9 10 totale frequenza 19 75 8 19 9 8 33 4 4 23 202 f.r.p. 0,0941 0,3713 0,0396 0,0941 0,0446 0,0396 0,1634 0,0198 0,0198 0,1139 1 f.r. % 9,41% 37,13% 3,96% 9,41% 4,46% 3,96% 16,34% 1,98% 1,98% 11,39% 100% Figura 9: frequenze osservate per la variabile OCCUPAZIONE. L‟immagine corrisponde al grafico a barre, con l‟asse delle ascisse che riflette le modalità possibili, in particolare: “ope” = operaio, “imp” = impiegato, “dir” = dirigente, “impr” = imprenditore, “stud” = studente, “pens” = pensionato, “lp” = libero professionista, “dis” = disoccupato, “nr” = non rispondente, “altro” = altro, intesa come modalità residuale. Nell‟asse delle ordinate, invece, la percentuale di rispondenti a quella determinata modalità. 10. TITOLO (DI STUDIO) L‟ultima domanda utilizzata per l‟analisi univariata riguarda il titolo di studio del rispondente: ancora una volta, dopo la clusterizzazione effettuata sui dati raccolti, e che sarà adeguatamente illustrata nel proseguo di questo documento, questa variabile è stata utile alla profilazione della 64 clientela del punto vendita, al fine di meglio comprenderne le caratteristiche ed attarne di conseguenza l‟offerta. Q17 elem medie sup laurea t laurea s nr totale frequenza 4 26 49 36 60 27 202 f.r.p. 0,0198 0,1287 0,2426 0,1782 0,2970 0,1337 1 f.r. % 1,98% 12,87% 24,26% 17,82% 29,70% 13,37% 100% Figura 10: frequenze osservate per la variabile TITOLO DI STUDIO. L‟immagine precedente corrisponde al grafico a barre, con l‟asse delle ascisse che riflette le modalità possibili, in particolare: “elem” = licenza elementare, “medie” = licenza media, “sup” = licenza media superiore, “laurea t” = laurea triennale, “laurea s” = laurea specialistica, “nr” = non rispondente. Nell‟asse delle ordinate, invece, la percentuale di rispondenti a quella determinata modalità. Con logica simile è stato poi preparato il grafico a torta. 5.1.1. UNA PRIMA PROFILAZIONE DEL CLIENTE FREQUENTANTE A conclusione di questa prima esposizione dei dati appena illustrati, è semplice ma al contempo utile esporre quello che risulta il profilo medio del cliente che ha risposto alle domande del questionario, che quindi frequenta il punto vendita in questione, e che sarà il soggetto al quale sono – e verranno - rivolte le comunicazioni e le promozioni; in particolare, stiamo parlando di un 65 consumatore uomo (56% dei rispondenti), di età compresa tra i 40 e i 49 anni (37% dei rispondenti), con laurea specialistica (30% delle risposte), impiegato (37 risposte su 100), che vive e lavora nella provincia di somministrazione del questionario, e che appartiene ad un nucleo familiare composto mediamente da 3 membri, di cui solo 2 lavorano, e che si trova all‟interno del punto vendita occasionalmente (31%). Tale cliente medio, infine, predilige il self-service, dal momento che il 54% lo indica come risposta alla domanda “Che pietanza ha scelto” e ne esce soddisfatto, essendo “5 su 7” il punteggio assegnato alla visita nel 50% dei casi. Questa prima identificazione del cliente tipo permette già di capire che si è di fronte ad un cliente presumibilmente in pausa pranzo (suggerimento dato dalla maggioranza d‟impiegati), che potrebbe potenzialmente essere fidelizzato per aumentare il numero delle sue visite settimanali - in quanto ad ora frequenta il punto vendita solo occasionalmente – e che molto probabilmente potrebbe essere disposto ad esserlo in cambio di una promozione dal punto di vista economico, dato che vive mediamente non da solo ma in una famiglia, spesso composta anche da 3-4 membri, e il che porta a concludere che vi sia una necessità di risparmio in un ottica di breve/medio periodo. Nell‟analisi che segue verrà analizzato se effettivamente sussistano delle correlazioni tra il profilo del rispondente e la risposta data alle varie domande; in particolar modo saranno presi in esame i quesiti per così dire “centrali”, che esprimono cioè la soddisfazione del cliente relativamente agli aspetti fondamentali della sua visita: prezzo speso, rispetto delle aspettative iniziali, qualità generale del cibo consumato, cortesia e gentilezza del personale, tempo medio di attesa dalla richiesta al ricevimento dei piatti ordinati. 5.2 STUDIO DELLE RELAZIONI SUSSISTENTI TRA LE VARIABILI RILEVATE, ANALISI BIVARIATA E TEST CHI QUADRATO In seguito alla sintesi esposta e ad una breve disamina delle osservazioni delle singole variabili, si può dunque passare a verificare se coppie di variabili, considerate in modo bivariato, si comportino o meno in modo dipendente tra loro. Le tabelle di contingenza permetteranno di studiare in modo congiunto due variabili, riportando in modo tabellare le frequenze rilevate per tutte le possibili coppie di modalità delle due variabili considerate. 66 x1 … … xi xr f1i … … y1 f11 … yj … f j1 … … … f ji … … … f jr … … … fc1 … … … yc … … X1= åx 1 … fci Xi= åx 1 … F f11 Y1= 1 … Yj= åy j … fcr Xr= åy Yc= åx r åy c n Tabella 1: esempio di tabella delle frequenze osservate o di contingenza La Tabella 1 mostra la distribuzione congiunta delle due variabili considerate; sono esposte in dettaglio le frequenze congiunte f ji misurate sull‟intero campione statistico, con i = 1, …, r righe e j = 1, …, c colonne. La i-esima riga identifica la distribuzione della variabile X dato Y=yj, mentre la j-esima colonna identifica la distribuzione della variabile Y dato X=xi. In modo simile può essere costruita la tabella delle frequenze attese, indicate questa volta con fˆ , dove fˆji = Yc ´ Xi calcolata per ogni rilevazione della tabella delle frequenze osservate. Prima di procedere è doverosa una breve postilla: il calcolo dei valori di seguito proposti è stato effettuato mediante l‟uso del software statistico R, attraverso l‟applicazione del comando chisq.test. Per ogni tabella considerata sono state prese in considerazione due specifiche coppie di variabili, e valutato se esista o meno dipendenza tra le stesse; ad ogni singolo caso sono quindi esposti – come già detto - i risultati mediante una tabella di contingenza delle frequenze relative e pesate per numero di rispondenti, e verrà eseguito il test d‟indipendenza con l‟indice χ2 di Pearson. Tale metodo permette di evitare ulteriori calcoli relativamente alla tabella dei dati attesi: inserendo infatti all‟interno dell‟ambiente software l‟intera tabella dei dati osservati, esso calcolerà in automatico le frequenze ipotetiche, mostrando l‟output relativo ai tre valori più importanti: indice chi quadrato, gradi di libertà della rappresentazione tabellare e p-value, che sono illustrati di seguito nel dettaglio delle loro principali caratteristiche. Vale la pena analizzare brevemente l‟analisi effettuata. L‟indice χ2, in particolare, è il metodo più diffuso per il calcolo della dipendenza all‟interno di una distribuzione, si fonda sul confronto tra le frequenze osservate e quelle attese ed è definito numericamente come: c2 =å (F - F̂)2 F̂ 67 con: - F : sommatoria dei valori f osservati in riga, calcolato per ogni valore; - F̂ : sommatoria dei valori fˆ attesi in riga, calcolato per ogni valore. Indichiamo poi le principali proprietà dell‟indice chi quadrato: - l‟indice χ2 è sempre maggiore o uguale a zero; - se esiste indipendenza tra le variabili, χ2 risulta nullo, ovvero f = fˆ per ogni valore di i e j considerati; - l‟indice χ2 è crescente al crescere che le frequenze osservate si allontanano da quelle attese. Al fine della valutazione di dipendenza tra le due variabili considerate, è essenziale osservare il valore del p value che risulta associato al test del chi quadrato per ogni tabella in esame: si dimostra che, stante l‟ipotesi d‟indipendenza, l‟indice assume la distribuzione di una variabile casuale χ2, con gradi di libertà in numero corrispondente a (r-1)(c-1), posto r numero delle righe della tabella a doppia entrata, e c numero delle sue colonne. È stato pertanto condotto un test d‟ipotesi, confrontando le serie di dati realmente osservati con quelli attesi; in particolare, si considerino le due seguenti ipotesi: - H0 : le due variabili considerate sono indipendenti, ovvero non sussiste presenza di relazione tra le due variabili stesse; - H1 : le due variabili considerate sono dipendenti, ovvero sussiste presenza di relazione tra le due variabili stesse. Se l‟ipotesi 0 viene respinta dal test mediante R, in modo conseguente si accetta la correttezza dell‟ipotesi 1 (di relazione). Tanto maggiore sarà la differenza tra le frequenze attese e osservate, tanto maggiore sarà la dipendenza tra le due variabili. Una volta ottenuti tutti i valori necessari alla conduzione dell‟analisi, si passa al controllo nelle tavole di distribuzione del chi quadrato: questo passaggio permette di capire se il χ2 trovato mediante il test è piccolo abbastanza da doverlo associare ad errori del tutto casuali – quindi ad una ripartizione casuale delle unità tabellari – o se permette di desumere al contrario una relazione tra la variabili, e quanto effettivamente tale relazione risulti significativa. 68 5.2.1 ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE E SODDISFAZIONE RELATIVAMENTE AL PREZZO SPESO La prima analisi bivariata esposta riguarda la soddisfazione degli intervistati relativamente al prezzo speso; in particolare, con l'aiuto di una tabella pivot, si studierà se il fatto di essere rispondente uomo o donna influisca nella risposta data, e quindi se al variare della Q11 del questionario, identificata dalla domanda “Genere”, vari o meno anche la Q2, rispondente alla domanda “Si ritiene mediamente soddisfatto del prezzo speso?”. Nelle colonne della Tabella 2, si trova la variabile qualitativa dicotomica Q11, con due sole risposte possibili non numeriche; nelle righe invece si trovano rappresentati i dati relativi alla Q2, variabile quantitativa costruita mediante l‟uso di una scala likert su 7 possibili risposte. Di seguito, le risposte raccolte: Q2 1 2 3 4 5 6 7 Totale Uomo 5 8 16 16 54 11 3 113 Donna 4 3 14 9 43 7 9 89 Totale 9 11 30 25 97 18 12 202 Tabella 2: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q2 Interessante potrebbe essere altresì analizzare la distribuzione delle risposte pesate con il numero di rispondenti per ciascun genere, ovvero 113 uomini e 89 donne. Di seguito, la tabella dei dati raccolti secondo questa logica, mostra come le sentenze si dividano all‟interno dei due diversi generi: Q2 1 2 3 4 5 6 7 Totale Uomo 4,42% 7,08% 14,16% 14,16% 47,79% 9,73% 2,65% 100,00% Donna 4,49% 3,37% 15,73% 10,11% 48,31% 7,87% 10,11% 100,00% 69 Tabella 3: frequenze pesate per genere, relative alle domande Q11 e Q2 Tale rappresentazione è utile altresì per verificare la distribuzione di ciascuna modalità di risposta all‟interno dei due differenti generi; procediamo però per step: poiché l‟analisi del test chi quadrato è stata condotta come detto mediante il software R, si è deciso di tralasciare in questa esposizione il calcolo delle tabelle delle frequenze attese per le variabili considerate, svolto in automatico dal software stesso mediante il comando poco sopra descritto. Per questo primo test d‟ipotesi, e per tutti quelli che seguiranno, verranno rappresentati i dati raccolti (e riassunti nella tabella esposta) mediante il diagramma a barre sovrapposte: in tale metodo di rappresentazione, in particolare, l‟altezza di ogni componente risulterà proporzionale alle frequenze registrate per le diverse modalità, in base al fatto che i rispondenti siano uomini o donne. Il diagramma riportato evidenzia come, solamente per le modalità di risposta corrispondenti a 2/7, a 7/7 e in parte anche a 4/7, emerga una netta differenza in base al genere, o meglio emerga una quantità più alta di risposte per l‟uno o per l‟altro genere; per tutte le modalità rimanenti vi è un risultato pressoché equivalente in termini di rispondenti per genere. Per un'analisi più approfondita del motivo per il quale le risposte si distribuiscano in tal modo tra uomini e donne o, per essere più precisi, per valutare se il fatto stesso di essere uomo o donna abbia influito nella riposta dell'intervistato, si sono studiati i risultati dell'analisi del test chi quadrato eseguita con R. 70 Nello specifico, per la tabella a doppia entrata considerata, riguardante genere e voto dato al prezzo speso all‟interno del punto vendita durante il pasto, il valore del χ2 6,8588 con 6 ,e il p-value del test considerato risulta pari a 0,3341. Questo, rifacendoci alle due ipotesi sopra citate e confrontandoci con i valori riportati nelle tavole di distribuzione del chi quadrato, ci porta a rifiutare l‟ipotesi H0 d‟indipendenza delle due variabili con un intervallo di confidenza fissato a 0,90, ovvero il comportamento dell‟una influisce nel comportamento dell‟altra: essendo infatti 6,8588 più grande del valore di riferimento per 6 gradi di libertà, ovvero 2,20, si conclude che il genere dell‟intervistato influisce nel giudizio dato alla soddisfazione relativa al prezzo speso. Tale dato non era del tutto deducibile - se non a livello statistico - dalla distribuzione rappresentata nel grafico a barre riportato, nel quale non emerge in modo spiccato significativa prevalenza dell‟uno o dell‟altro genere nelle risposte date. Da sempre, la natura più “familiare” della donna la porta ad essere maggiormente attenta alle spese, in un‟ottica di lungo periodo che l‟uomo spesso fatica invece ad avere; questi due differenti punti di vista influenzano, o possono influenzare, la modalità di risposta relativa alla soddisfazione sul prezzo speso. Il concetto più moderno di famiglia ha spesso stravolto però questo concetto: tornando alla Tabella 3, emergono infatti differenze di risposta in percentuale tra i due generi, anche se non sempre questo sbilanciamento è a favore di quello femminile; le differenze più evidenti sono sicuramente quelle che si riferiscono alle modalità di risposta 2,4 e 7. 5.2.2 ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE E VALUTAZIONE SULLA QUALITÀ DEL CIBO La seconda analisi bivariata è quella riguardante la soddisfazione degli intervistati relativamente alla qualità del cibo consumato, anche questa volta in relazione al fatto di essere uomo o donna; in particolare, si ricorrerà nuovamente ad una tabella pivot, verificando se al variare della Q11 del questionario, identificata dalla domanda “Genere”, vari o meno la Q5, rispondente alla domanda “Come valuta la qualità generale del cibo che ha scelto?” Nelle colonne, sono presenti sempre i valori relativi alla variabile qualitativa dicotomica Q11, nelle righe invece sono rappresentati i dati relativi alla Q5, anche questa basata su una scala likert con 7 possibili risposte. Di seguito, quindi, la tabella di contingenza: 71 Q4 1 2 3 4 5 6 7 Totale Uomo 1 1 7 5 81 15 3 113 Donna 3 1 11 4 54 12 4 89 Totale 4 2 18 9 135 27 7 202 Tabella 4: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q5 Anche questa volta, e ugualmente per il resto dell‟analisi esposta, si tralascia l‟esposizione del calcolo delle tabelle delle frequenze attese per le variabili considerate, e si rappresentano i dati raccolti mediante il diagramma a barre sovrapposte: in colonna sono pertanto presentate le diverse opportunità di risposta alla domanda considerata, ovvero le modalità, ordinate in modo crescente da 1 a 7. Una rapida analisi del diagramma sotto riportato non evidenza ipotesi relative ad una possibile influenza di risposta in base al genere o, per meglio dire, quasi l‟intero campione si distribuisce in modo pressoché equivalente in termini di rispondenti alle varie possibili modalità, ripartendosi tra uomini e donne: Poiché una sola analisi grafica non permette di valutare in modo sufficientemente valido ai fini statistici se il fatto stesso di essere uomo o donna abbia influito nella riposta dell'intervistato, si studia anche questa volta i risultati dati dall'analisi del test chi quadrato eseguita con R. 72 Nello specifico, il valore del χ2 risulta pari a 5,0967 con 6 , e il p-value del test considerato vale 0,5315. Si può pertanto rifiutare anche questa volta l‟ipotesi H0 di indipendenza delle due variabili, essendo 5,0967 più grande del valore di riferimento 2,20 per l‟intervallo di confidenza scelto: la variabile di genere e quella di soddisfazione relativamente alla qualità del cibo da parte del consumatore presentano quindi dipendenza, avendo accettato di conseguenza H1. Diamo uno sguardo dunque alle frequenze pesate per genere dei rispondenti: 1 2 3 4 5 6 7 Totale Uomo 0,88% 0,88% 6,19% 4,42% 71,68% 13,27% 2,65% 100,00% Donna 3,37% 1,12% 12,36% 4,49% 60,67% 13,48% 4,49% 100,00% Tabella 5: frequenze pesate per genere, relative alle domande Q11 e Q5 Analizzando rapidamente quest‟ultimo dato, si può pensare alla maggiore considerazione che spesso le donne riservano alla qualità del cibo consumato; una dieta sana ed equilibrata, e l‟attenzione ad alimenti più light rispetto agli uomini, sono elementi che possono aver influito nella risposta data alla domanda in analisi. I trend degli ultimi anni, tuttavia, evidenziano come anche gli uomini prestino una cura sempre maggiore verso il cibo; a questo si deve una distribuzione non completamente orientata all‟uno o all‟altro genere dei valori contenuti nella Tabella 5, ma sufficientemente significativa da incidere nel modo in cui i rispondenti hanno scelto la modalità di risposta. 5.2.3 ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE E VALUTAZIONE SULLA CORTESIA E GENTILEZZA DEL PERSONALE La terza analisi riguarda la relazione che può, o potrebbe, sussistere tra la soddisfazione relativamente alla gentilezza e cortesia del personale del punto vendita e, ancora una volta, il genere del rispondente: di seguito sono esposte le frequenze rilevate per la domanda Q11, e la domanda Q4, 73 rispondente a “Può ritenersi soddisfatto della cortesia e della gentilezza del personale?”; in colonna, come anche per le tabelle precedenti, il genere Uomo/Donna, e in riga le possibili modalità di risposta, costruite mediante l‟uso di una scala Likert a 7 valori. Q5 1 2 3 4 5 6 7 Totale Uomo 8 1 2 2 39 27 34 113 Donna 7 1 3 3 27 24 24 89 Totale 15 2 5 5 66 51 58 202 Tabella 6: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q4 Si vedano dunque ora tali valori nell‟istogramma a barre sovrapposte, come per le precedenti analisi: Da una rapida analisi dell‟istogramma, si potrebbe pensare come non vi sia una spiccata differenza di risposta dipendente dal genere; le sentenze, in effetti, presentano una distribuzione mediamente uniforme tra i due generi, all‟interno delle sette diverse modalità di responso possibili. Si veda dunque come si comportano i dati raccolti per questa risposta all‟interno dell‟analisi della distribuzione chi quadrato: a fronte dei 6 gradi di libertà che caratterizzano anche questa terza tabella in analisi, 1,7219, e il p-value del test considerato risulta pari a 0,9434. Contrariamente a quanto successo per le prime due analisi, pertanto, questa volta l‟ipotesi H0 74 d‟indipendenza delle due variabili può essere accettata, essendo il chi quadrato più piccolo del valore di riferimento 2,20 per l‟intervallo di confidenza scelto: il genere non influisce quindi nella soddisfazione sulla gentilezza del personale; anche questa volta, la Tabella 7 può aiutare per tratti sommari a capire il motivo, o i motivi, che hanno condotto a questi risultati. 1 2 3 4 5 6 7 Totale Uomo 7,08% 0,88% 1,77% 1,77% 34,51% 23,89% 30,09% 100,00% Donna 7,87% 1,12% 3,37% 3,37% 30,34% 26,97% 26,97% 100,00% Tabella 7: frequenze pesate per genere, relative alle domande Q11 e Q4 La prima conclusione che il lettore può trarre – e quindi anche chi sta conducendo questa analisi – è che per quanto la sensibilità e il carattere del consumatore possano influire nel rapporto che esso ha con l‟operatore nel momento in cui si trova all‟interno del punto vendita, è altresì vero che esiste un concetto globalmente riconosciuto di gentilezza e cortesia, dal quale è difficile prescindere; salvo problemi che possono saltuariamente sorgere durante la visita del cliente e che possono portare a disguidi e disagi vari, sicuramente un sorriso da parte degli operatori, un saluto e un modo di rivolgersi gentile ed educato sono elementi globalmente riconosciuti sia dagli uomini e dalle donne. Nonostante si notino delle differenze nelle modalità di risposta riassunte nella Tabella 7, queste non sono sufficienti a concludere che sussiste una dipendenza statisticamente rilevante tra le due variabili considerate. 5.2.4. ANALISI DI DIPENDENZA TRA GENERE DEL RISPONDENTE E VALUTAZIONE SULLA CORTESIA E SODDISFAZIONE RELATIVAMENTE AL TEMPO DI ATTESA La penultima analisi riguarda il rapporto tra la risposta relativa al genere uomo/donna, come già visto fino ad ora per le precedenti, e la soddisfazione sul tempo di attesa che intercorre tra l‟ordine del prodotto, e la ricezione dello stesso da parte del cliente per mezzo dell‟operatore, espressa per mezzo della risposta alla domanda Q7 “Si ritiene mediamente soddisfatto del tempo di attesa dei 75 prodotti ordinati?”. È stata analizzata anche questa volta la distribuzione delle risposte mediante la presentazione dei dati raccolti in una tabella a doppia entrata, la rappresentazione grafica effettuata in un istogramma a barre sovrapposte, e il test dell‟indice chi quadrato. In primis, i dati riassunti in tabella: nelle colonne le 2 possibili risposte alla domanda Q11 (Uomo, Donna), mentre nelle righe le sette modalità di risposta possibili alla domanda Q7 (1,2,3,4,5,6,7). Q7 1 2 3 4 5 6 7 Totale Uomo 1 2 5 8 51 32 14 113 Donna 4 2 4 3 39 25 12 89 Totale 5 4 9 11 90 57 26 202 Tabella 8: dati raccolti ed elaborati mediante una tabella pivot a due entrate Q11 e Q7 Una rapida analisi evidenzia una distribuzione spostata verso le modalità di risposta che identificano una soddisfazione medio-alta rispetto al tempo di attesa delle pietanze (5,6), e divisa tra uomini e donne in modo relativamente simile, con alcune evidenti eccezioni nel caso delle modalità 4, 5 e in parte 6, che presentano una maggioranza di uomini. 76 Di seguito, invece, quello che emerge dall‟analisi del chi quadrato. I dati raccolti ed elaborati nella Tabella 8 evidenziano come, considerati i 6 gradi di libertà, il valore del χ2 risulta di 4,0023, e il pvalue del test considerato risulta pari a 0,6764: si torna pertanto a rifiutare l‟ipotesi H0, essendo tale valore del χ2 più grande di quello di riferimento, fissato a 2,20 come da tavole di distribuzione; le due variabili considerate sono tra loro dipendenti, e questo significa che vi è una relazione statisticamente significativa tra il genere del rispondente al questionario e la soddisfazione relativamente al tempo di attesa; si analizza dunque, mediante la tabella seguente, come tale dipendenza influisce nella risposta alla Q7: 1 2 3 4 5 6 7 Totale Uomo 0,88% 1,77% 4,42% 7,08% 45,13% 28,32% 12,39% 100,00% Donna 4,49% 2,25% 4,49% 3,37% 43,82% 28,09% 13,48% 100,00% Tabella 9: frequenze pesate per genere, relative alle domande Q11 e Q7 Seppur non così evidenti come le precedenti analisi in cui emergeva una dipendenza tra le due variabili, si noti che talune modalità presentano divergenze legate al fatto che il rispondente sia uomo o donna, con particolare riferimento alla modalità di risposta 1 e 4, dettaglio che emerge tuttavia anche con lo studio dell‟istogramma, nel quale le barre si dispongono in modo non omogeneo proprio in corrispondenza di queste due possibilità di risposta. Una maggioranza di risposte non positive (modalità 1) da parte delle donne, e di risposte indifferenti/soddisfatte per i rispondenti uomini, può portare a concludere che molto probabilmente questo sia dovuto al maggior tempo che gli uomini hanno a disposizione, o quantomeno la necessità delle donne di un pranzo spesso più veloce per concludere gli acquisti e tornare a casa, nel caso si parli ovviamente di casalinghe, ovvero di una rispondente donna su 5. 77 5.2.5 ANALISI DI DIPENDENZA TRA FREQUENZA DI VISITA E SODDISFAZIONE RELATIVAMENTE AL PREZZO SPESO L‟ultima analisi bivariata esposta è quella numericamente più complessa; in questa fase si sono messe a confronto due variabili differenti da quelle precedentemente esposte, ovvero la frequenza di visita da parte del cliente nei confronti dei punti vendita protagonisti dell‟intervista in relazione alla soddisfazione di prezzo del prodotto acquistato e o consumato: il fine di tale ultima analisi è valutare lo spazio di una possibile azione di fidelizzazione da parte dell‟azienda erogatrice dei prodotti/servizi – in questo caso Berica Chef -. Le domande alle quali appartengono le risposte analizzate sono quindi: - Q1: “Quante volte frequenta mediamente il nostro punto vendita durante le settimana?”, che presenta modalità in numero pari a 6, racchiuse in un intervallo compreso tra “occasionalmente” (rappresentato più facilmente in tabella con il numero zero) e 5, in un‟ottica di analisi – come detto - della presenza dei rispondenti durante i giorni lavorativi; - Q2: risponde alla domanda “Si ritiene mediamente soddisfatto del prezzo speso?” e si distribuisce secondo una scala likert in 7 modalità, che vanno da “completamente insoddisfatto” a “molto soddisfatto”. Vediamo ora, attraverso una tabella pivot a due entrate, come si distribuiscono le risposte relativamente a queste due variabili: 1 2 3 4 5 6 7 Totale zero 2 1 5 8 36 7 4 63 uno 2 1 1 3 16 2 4 29 due 0 1 7 4 18 2 1 33 tre 1 3 5 4 13 2 2 30 quattro 0 2 2 4 5 3 0 16 cinque 4 3 10 2 9 2 1 31 Totale 9 11 30 25 97 18 12 202 Tabella 10: tabella a doppia entrata rappresentante il rapporto che sussiste tra Q1 e Q2 Rappresentiamo questa distribuzione anche dal punto di vista grafico, con un istogramma a barre sovrapposte, che presenta in riga la frequentazione settimanale ordinata in modo crescente da zero (“occasionalmente”) a cinque, e nelle barre i voti sovrapposti per ogni modalità di risposta di Q1: 78 L‟analisi condotta questa quinta ed ultima volta è caratterizzata da un numero di gradi di libertà pari a 30 (7 modalità di righe, meno uno, moltiplicato per 6 modalità di colonna, meno uno), ed una volta eseguito il test d‟indipendenza, l‟ambiente software statistico R presenta un valore del chi quadrato pari a 41,5968 e un p-value di 0,07746. Stante le ipotesi di indipendenza H0 e H1 sopracitate, si può concludere che l‟ipotesi zero “le due variabili considerate sono indipendenti” dev‟essere rifiutata, sussiste pertanto l‟ipotesi alternativa uno di dipendenza tra le variabili considerate: la frequenza con la quale un rispondente è presente all‟interno del punto vendita oggetto di analisi influisce sulla risposta relativa alla soddisfazione di prezzo. Vediamo ora come queste frequenze si comportano in termini percentuali, rispetto al totale della popolazione che corrisponde a determinate modalità di risposta: 1 2 3 4 5 6 7 Totale zero 3,17% 1,59% 7,94% 12,70% 57,14% 11,11% 6,35% 100,00% uno 6,90% 3,45% 3,45% 10,34% 55,17% 6,90% 13,79% 100,00% due 0,00% 3,03% 21,21% 12,12% 54,55% 6,06% 3,03% 100,00% tre 3,33% 10,00% 16,67% 13,33% 43,33% 6,67% 6,67% 100,00% quattro 0,00% 12,50% 12,50% 25,00% 31,25% 18,75% 0,00% 100,00% cinque 12,90% 9,68% 32,26% 6,45% 29,03% 6,45% 3,23% 100,00% 79 Tabella 11: frequenze pesate per frequenza di visita, relative alle domande Q1 e Q2; dimostra, come le precedenti, la distribuzione effettiva delle modalità di risposta rispondenti alla scala Likert in 7 modalità, rispetto alla frequentazione del punto vendita, da occasionalmente a 5/7. Se non fosse vero quanto detto relativamente al test di ipotesi, ovvero se non avessimo rifiutato H0 e di conseguenza accettato H1, ci troveremo di fronte ad una distribuzione tabellare nella quale le percentuali delle frequenze presenterebbero valori tra loro uguali, o quantomeno molto simili rispetto alle varie colonne. Ad esempio, cioè, la prima riga non avrebbe una distribuzione così differente tra le varie colonne, come anche le due seguenti; nel dettaglio, è verosimile pensare che una dipendenza tra frequenza di visita del punto vendita e soddisfazione relativamente alla spesa sia influenzata da una fidelizzazione basata su una promozione di prezzo: focalizzando l‟attenzione sulla quinta riga, emerge infatti come a mano a mano la frequenza delle visite si faccia più alta, la percentuale di soddisfatti cali, a favore del “poco soddisfatto” o del “completamente insoddisfatto”. Non è difficile immaginare che questo risultato emerga a causa di una verosimile richiesta latente dei consumatori di essere fidelizzati, ovvero di avere un “guadagno” economico a seguito di una maggior frequentazione del punto vendita, inteso come risparmio sulla quantità acquistata o premio ottenuto a seguito di un numero n di visite o scontrini accumulati. Importante è, a seguito di questo risultato, una comprensione da parte dell‟azienda della necessità di reagire a questa richiesta, realizzando una promozione basata anche sulla profilazione del cliente ottenuta dall‟anagrafica del questionario, riassunta ed esposta nella prima parte di questo elaborato durante l‟analisi univariata dell‟intervista. 5.3 LA SEGMENTAZIONE DEGLI INTERVISTATI: LA CLUSTERIZZAZIONE DELLA POPOLAZIONE E L’ANALISI DEI GRUPPI OTTENUTI La terza ed ultima parte dell‟analisi del questionario è finalizzata alla comprensione della possibilità eventuale di ottenere una segmentazione della popolazione inziale in gruppi di rispondenti tra loro omogenei, sulla base sella qualità delle scelte effettuate per ogni domanda cui sono stati sottoposti durante l‟intervista somministrata loro, e ottenuta attraverso la tecnica di analisi multivariata della Cluster Analysis, al fine di minimizzare la lontananza esistente tra le unità di un cluster, massimizzando al contempo quella tra i differenti gruppi. 80 Nel dettaglio, la segmentazione è stata effettuata mediante lo studio di tre metodi gerarchici agglomerativi: metodo del legame singolo, metodo del legame completo e metodo di Ward, ciascuno dei quali considerando come indicatore di lontananza tra le misurazioni quello della distanza euclidea che, come visto, corrisponde alla distanza geometrica delle variabili all‟interno dello spazio pluridimensionale. Si è optato per non considerare la parte anagrafica per il processo di segmentazione, riservandola alla parte della profilazione del cliente medio rispondente appartenente ai due differenti cluster, e dando quindi la possibilità di dare loro dei nomi in base all‟importanza che le singole variabili hanno avuto nella costruzione degli stessi grappoli. Una volta valutate le rappresentazioni grafiche – dendrogrammi – che emergono dall‟utilizzo di questi primi tre metodi, e valutato il numero di cluster emergenti dalla miglior segmentazione possibile della popolazione, si è passati ad una seconda analisi, mediante questa volta il metodo non gerarchico delle k-medie. Inserendo nella costruzione di tale metodo K-means in ambiente di lavoro R il numero di cluster che si considera migliore rispetto all‟analisi compiuta mediante i tre precedenti, è stato possibile verificarne la veridicità dell‟ipotesi mediante la scomposizione della devianza e l‟analisi della silhouette della distribuzione in cluster, per valutare il corretto posizionamento delle singole unità statistiche all‟interno dei diversi segmenti della popolazione ed accertarne da ultimo la validità. L‟intera analisi di segmentazione è stata compiuta partendo dalla matrice X dei dati raccolti mediante l‟intervista, organizzati in tabella secondo le risposte degli n intervistati a ciascuna delle 17 domande e si è proceduto alla costruzione di una matrice di distanze n´ n tra le n coppie di osservazioni rilevate, basata sull‟uso – come detto – dell‟indice di distanza euclidea; si sono quindi analizzati i tre algoritmi agglomerativi gerarchici e quello non gerarchico. Vediamo l‟analisi nel dettaglio. 81 5.3.1 CLUSTER ANALYSIS – METODO AGGLOMERATIVO DEL LEGAME SINGOLO Per questo primo metodo, e solamente per questo, verranno esposti i singoli passaggi che hanno portato alla costruzione e all‟analisi della segmentazione e delle sue rappresentazioni grafiche. Partendo dal presupposto che la Cluster Analysis non abbia bisogno di assunzioni aprioristiche sulla distribuzione delle risposte rilevate, è stata richiamata la tabella contenente le risposte dei 202 soggetti intervistati: tabella.df <- read.table(file.choose(),dec=".", na.strings="NA",header=TRUE). Si è successivamente passati a costruire la matrice delle distanze euclidee sussistenti all‟interno delle n osservazioni, mediante l‟utilizzo del comando distanze <- dist(tabella.df, method = "euclidean"); per semplicità di esposizione si è scelto di non inserirla direttamente in questa disamina. Il passo successivo, mediante l‟input hclust <- hclust(distanze,"single")è stata eseguita la clusterizzazione mediante il metodo del legame singolo; la rappresentazione grafica per mezzo del dendrogramma (plot(hclust)), e l‟analisi della associazioni delle osservazioni risultanti dal criterio scelto per l‟agglomerazione (il grafico plot(hclust$height)) portano a concludere come questo metodo non possa essere considerato valido per ricavare il numero di cluster nei quali è possibile segmentare la popolazione iniziale. 6165 105 172 135 119 50 23 19 147 70 76 83 8 3 40 65 60 58 129 108 107 106 103 100 14 90 88 84 59 79 80 22 26 199 64 7 43 202 195 193 190 183 181 31 179 176 109 173 164 153 125 13 146 116 34 4 141 distanze hclust (*, "single") 82 77 123 188 120 82 73 78 52 81 148 48 98 54 159 138 5 92 134 10 89 198 197 192 191 186 182 170 166 163 140 127 118 114 95 87 75 69 63 12 53 47 44 11 37 196 168 71 102 160 152 38 136 30 122 128 28 93 156 15 51 2 121 99 104 161 167 145 150 36 157 143 154 142 180 45 67 137 178 113 174 29 185 189 9 94 74 131 24 46 0 62 200 184 194 57 110 32 187 155 20 126 117 112 55 201 133 171 139 124 101 96 85 68 66 61 42 175 162 91 39 130 115 86 49 41 97 16 169 149 132 111 72 35 151 21 1 17 56 27 177 25 158 18 144 2 1 Height 3 33 4 Cluster Dendrogram 4 3 2 0 1 hclust$height 0 50 100 150 200 Index Come è verificabile dalle due rappresentazioni grafiche non vi sono altezze tali tra i differenti momenti agglomerativi da permettere di delineare in modo soddisfacente una clusterizzazione della popolazione; occorre quindi passare all‟utilizzo di un secondo metodo gerarchico agglomerativo, ed esaminarne la distribuzione che ne emerge. 5.3.2 CLUSTER ANALYSIS – METODO AGGLOMERATIVO DEL LEGAME COMPLETO Per questa seconda analisi, si è scelto di mantenere come misuratore della dissimilarità sussistente tra le n variabili l‟indice delle distanze euclidee – al contrario, infatti, non avremmo potuto confrontare in modo attendibile i risultati ottenuti dalle due agglomerazioni -; nella scelta del metodo di clusterizzazione è stata però data indicazione al software di utilizzare il completo, in luogo del precedente singolo, mediante l‟input: hclust <- hclust(distanze, "complete"). Anche per questo secondo passaggio dell‟esame della clusterizzazione, sono stati considerati i fattori di analisi illustrati nella disamina del metodo del legame singolo: vediamo come risultano distribuite le osservazioni all‟interno dei segmenti creati con questa seconda analisi, partendo dal dendrogramma. 83 0 5 hclust$height 10 15 96 80 65 52 81 20 85 133 184 194 66 58 195 107 3 198 197 192 191 186 182 170 166 163 140 127 118 114 95 87 75 69 63 12 53 176 190 145 150 100 40 47 44 11 37 111 55 117 103 77 123 138 5 92 134 10 89 60 148 48 98 54 159 179 31 29 185 34 141 109 173 199 189 9 94 201 13 125 101 62 200 164 45 67 137 178 126 59 79 183 22 188 120 82 73 78 14 99 104 161 167 156 15 51 160 152 38 136 153 146 4 116 106 30 122 124 181 26 202 108 128 28 93 113 174 84 83 2 121 88 193 90 8 196 168 71 102 42 61 68 142 180 171 36 157 143 154 64 129 7 43 32 187 97 57 110 21 49 18 144 16 86 115 25 158 72 132 33 91 50 74 131 162 139 155 172 135 70 76 175 130 23 112 41 6 105 165 119 19 147 1 27 177 17 56 169 35 39 24 46 149 151 0 5 Height 10 15 Dendrogram distanze hclust (*, "complete") Si può notare come, rispetto al dendrogramma rappresentante la clusterizzazione per mezzo del metodo del legame singolo, cominci ad emergere una divisione leggermente più evidente delle osservazioni raccolte, anche se le altezze delle differenti fusioni non possono essere considerate sufficienti per validare l‟analisi in corso relativa alle ipotesi di segmentazione della popolazione. 0 84 50 100 Index 150 200 Anche considerando il grafico contenente la distribuzione delle altezze di fusione lungo il processo di segmentazione delle 202 osservazioni considerate, non emerge la presenza di un preciso numero di cluster in cui poter dividere la popolazione: non è evidente cioè un “salto” tra due fusioni successive talmente netto da poter permette di effettuare un taglio del dendrogramma che identifichi una divisione netta all‟interno dell‟insieme globale degli intervistati. Occorre perciò passare all‟analisi di un terzo metodo, anche questa volta agglomerativo gerarchico: il metodo di Ward. 5.3.3 CLUSTER ANALYSIS – METODO DI WARD Per questo terzo e ultimo processo agglomerativo gerarchico, si è preferito l‟utilizzo del metodo di Ward; si ricordi come tale metodo differisca dai precedenti in quanto basato sulla scomposizione della devianza, che aumenterà – quella entro i gruppi – all‟aumentare del numero g dei cluster, mentre al contrario diminuirà quella all‟esterno degli stessi. In questo caso, partendo nuovamente dalla matrice delle distanze euclidee, la stessa quindi utilizzata per i primi due metodi di segmentazione in precedenza illustrati, il procedimento seguito in R è stato quello di inserire il comando hclust <- hclust(distanze, "ward.D"). Tale metodo ha condotto alla rappresentazione grafica del seguente dendrogramma: 40 20 62 200 201 109 173 153 146 4 116 101 124 13 125 199 189 9 94 29 185 31 179 34 141 128 28 93 193 108 83 88 26 202 106 30 122 161 167 42 61 36 157 143 154 142 180 126 68 171 156 15 51 190 14 99 104 160 152 38 136 188 120 82 73 78 181 176 40 84 2 121 113 174 129 8 90 196 168 71 102 100 139 45 67 137 178 59 79 20 85 60 65 148 48 98 52 81 164 54 159 16 86 115 74 33 131 162 66 155 55 117 72 132 198 197 192 191 186 182 170 166 163 140 127 118 114 95 87 75 69 63 12 53 138 5 92 103 134 10 89 111 133 184 194 183 22 80 195 77 123 107 3 58 47 44 11 37 145 150 25 158 149 151 130 96 23 112 6 105 41 165 50 172 147 70 76 19 119 91 135 175 64 7 43 21 49 32 187 97 57 110 24 46 17 56 18 144 169 35 39 271 177 0 Height 60 80 100 120 Cluster Dendrogram distanza hclust (*, "ward.D") 85 Si può concludere che questa volta, a differenza dei casi precedenti, emerge la formazione di (almeno) due cluster ben definiti, distanziati da un‟altezza sufficiente da caratterizzare la popolazione dei rispondenti mediante una divisione in due sotto-popolazioni. Valutiamo questa distribuzione anche mediante l‟analisi del grafico rappresentante le altezze delle 60 0 20 40 clust$height 80 100 120 fusioni tra le varie unità: 0 50 100 150 200 Index È visibile, verso la parte destra della rappresentazione grafica, e negli ultimi tre dati dell‟ultima colonna della tabella riportata in appendice riportante le quote delle fusioni (Tavola 3), si verifichi un salto in corrispondenza delle ultime aggregazioni, nelle quali le altezze diventano più significative, fino a raggiungere quote pari a circa, rispettivamente, 20, 15 e 50; questa osservazione può aiutare a dedurre una prima ipotesi di divisione della popolazione in 2, 3 o 4 cluster. Vediamo però nel dettaglio quale di queste soluzioni rappresenta quella ottima ai fini dell‟analisi che si sta compiendo, attraverso diversi metodi di validazione, dei quali i due principali che si è scelto di considerare sono: 86 - Analisi della scomposizione della devianza; posto DevT=DevW+DevB, ovvero che la devianza totale del collettivo della sotto-popolazione (o dei due, tre, quattro collettivi) è somma della devianza all‟interno del gruppo considerato e delle devianze esterne al gruppo stesso, l‟obiettivo dell‟analisi è la segmentazione che minimizzi la devianza within o intra, massimizzando al contempo quella between, o inter. - Elaborazione del grafico di Silhouette e del suo indice: ottenuto un raggruppamento ideale delle osservazioni composto da k sottopopolazioni, evidenziato nel dendrogramma da un taglio orizzontale posto ad un‟altezza che designi il numero di cluster scelti, è possibile elaborare un grafico (per l‟appunto il Silhouette plot) che permetta di verificare la bontà di ciascun segmento e della struttura nella sua globalità, riportando i valori medi, e che può essere utilizzato ai fini di analisi. La decisione sul numero di cluster più adeguati alla divisione della popolazione in oggetto di analisi si basa sulla realizzazione di molteplici grafici di silhouette, costruiti cambiando di volta in volta il numero delle sotto-popolazioni in cui dividere le osservazioni: il plot che presenta l‟indice di silhouette media migliore, oltre che una miglior rappresentazione grafica della clusterizzazione, corrisponderà anche alla suddivisione migliore. Nel dettaglio, identificando ciascun‟osservazione rilevata con i, possiamo definire a(i) media delle dissimilarità interna, ovvero tra i stesso e gli altri oggetti che appartengono al cluster, e b(i) come il più piccolo tra i valori di d(i,C), ovvero della media d delle distanze tra l‟oggetto i e gli altri oggetti , per ogni altro cluster C. Si può quindi ora definire la larghezza della silhouette s(i) come: s(i) = indice di silhouette media 0.71-1.0 0.51-0.70 0.26-0.50 ≤ 0.25 b(i) - a(i) Î [-1,1] max(a(i), b(i)) interpretazione segmentazione molto valida segmentazione ragionevole segmentazione piuttosto debole assenza di struttura di segmentazione Nel caso vi fossero cluster al cui interno vi è un solo elemento, per definizione si avrà un valore s(i) = 0; un valore alto di s(i), indica di contro che le osservazioni risultano ben suddivise; se s(i) tende allo 0, l‟osservazione si troverà a metà tra il gruppo cui appartiene, e 87 il più vicino; nel caso invece s(i) si presentasse con un valore minore di zero, l‟osservazione è stata probabilmente segmentata in modo sbagliato, e appartiene ad un cluster non consono. Considertate le tre ipotesi di clusterizzazione, si è quindi proceduto a verificarle in prima istanza mediante l‟uso del metodo agglomerativo non gerarchico delle k-medie, inputando di volta in volta come numero di cluster obiettivo quelli emersi con l‟analisi della segmentazione mediante il metodo di Ward, ovvero 2, 3 o 4, con il comando kmeans(x, centers), dove centers corrisponde - per l‟appunto - al numero di gruppi ipotizzati. La risposta del software permetterà di analizzare parametri come: - “cluster means”, vettori di numeri interi da 1 a k e che rappresentano la composizione dei gruppi, indicando le medie per ognuno, in riferimento alle diverse variabili considerate durante l‟analisi; - “clustering vector”, vettore che identifica l‟appartenenza di ogni osservazione i al cluster di riferimento: permette di capire come i diversi rispondenti si suddividano all‟interno dei sottogruppi identificati durante la segmentazione; - “within cluster sum of squares by cluster”, indica un valore dato dal rapporto tra la devianza between e la devianza totale: l‟analisi trova il suo valore ideale, espresso nell‟ambiente software da una percentuale, in un numero che tenda a zero; ragioniamo brevemente sul significato di questo valore e sul perché il fine dell‟analisi sia la sua minimizzazione. Si parta dall‟ipotesi che sia DevT=DevW+DevB per costruzione: dividendo tutto per DevT si ottiene 1 = R2 =1- DevB DevW DevB DevW , che può essere scritto anche come , ovvero + =1DevT DevT DevT DevT DevW . A questo punto, se la devianza interna ai gruppi tendesse a 0 – risultato che DevT sarebbe ottimale ai fini della segmentazione in atto - è evidente che l‟indice R2 tenderebbe di conseguenza a uno, in virtù del fatto che la frazione a destra dell‟uguale risulterebbe zero. Al contrario, se la devianza within risultasse uguale - o quantomeno tendesse - al valore della devianza totale, avremmo allora che l‟indice R2 risulterebbe zero, risultato non positivo ai fini dell‟analisi in corso e sintomo di una clusterizzazione non ben effettuata o generalmente non ottimale. È da considerare altresì che questo indicatore da solo non permette di valutare in modo soddisfacente la divisione della popolazione in gruppi; è necessario quindi ponderare tale valore con un secondo parametro di verifica, rappresentato 88 in questo caso dall‟indice di silhouette: un R2 che tenda a 1, a fronte di una silhouette mal strutturata, è sintomo di una clusterizzazione comunque non ottimale. 5.3.4 CLUSTER ANALYSIS – METODO AGGLOMERATIVO DELLE K-MEDIE PER 4 CLUSTER La prima ipotesi in analisi è quella della suddivisione della popolazione globale in 4 sottocluster, mediante l‟input al software R kmeans(dati,4)dove dati indica come già visto la tabella delle osservazioni iniziali relative alle opinioni degli intervistati alle domande prese in esame. La risposta data dall‟ambiente del software presenta le seguenti caratteristiche: - clustering with 4 clusters of sizes 30, 31, 77, 64 - between_SS / total_SS = 47.7 % Il grafico di silhouette, si presenta invece nel seguente modo: Silhouette plot of (x = kdati4$cl, dist = dissE) 4 clusters Cj j : nj | aveiÎCj si n = 202 1 : 30 | 0.27 2 : 31 | 0.11 3 : 77 | 0.24 4 : 64 | 0.09 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width si Average silhouette width : 0.18 89 Per osservare in primis la bontà del rapporto tra devianza totale e devianza tra i gruppi è necessario il confronto con quelli risultanti dalla segmentazione mediante il metodo delle k-medie anche sotto l‟ipotesi di 2 e 3 cluster - esposte nel proseguo dell‟analisi -, anche se un valore pari a 0,47 potrebbe spingere a considerare tale clusterizzazione come verosimile, in quanto l‟indice risulta a metà tra i limiti 0 e 1. È già possibile, invece, studiare quanto emerge dal silhouette plot: si osservi nel dettaglio che l‟indice di silhouette medio presenta un valore di 0,21, ovvero piuttosto basso, al di sotto anche del benchmark minimo di riferimento sopra esposto e fissato a 0,25 - sintomo di un‟assenza generale di struttura da parte del cluster -. Tale valore deriva dalla media di quattro singoli indici di larghezza di silhouette, uno per ogni gruppo creato: il primo sottoinsieme, composto da 30 osservazioni, presenta un valore corrispondente a 0,27; seppur più alto della media generale, indica comunque che le componenti non sono ben raggruppate, e anzi si trovano presumibilmente a giacere a metà strada tra il cluster cui appartengono e quello immediatamente vicino. Il secondo sottoinsieme, composto da 31 osservazioni, ha un indice di silhouette pari a 0,11: un valore così basso deve far pensare ad una clusterizzazione non correttamente effettuata. Senza dilungarci oltre in analisi troppo approfondite per questo primo step, si consideri solamente che i restanti due cluster, formati relativamente da 77 e 64 osservazioni, presentano un valore di larghezza della silhouette corrispondente a 0,24 e 0,09, sufficientemente bassi da confermare l‟ipotesi della necessità di sviluppare raggruppamenti alternativi della popolazione rispondente; il tutto aggravato poi dalla presenza di valori negativi nel grafico di silhouette. 5.3.5 CLUSTER ANALYSIS – METODO DELLE K-MEDIE PER 3 CLUSTER Procedendo poi allo sviluppo di una clusterizzazione basata sul metodo k-means basato su 3 segmenti obiettivo, per mezzo del comando kmeans(dati,4) si ottengono i seguenti risultati: - clustering with 3 clusters of sizes 137, 62, 3 - between_SS / total_SS = 37.0 % Partendo dalla composizione dei cluster si può credibilmente concludere che, per quanto un numero non omogeneo delle componenti dei gruppi sia mediamente un buon segno, un segmento composto da soli tre elementi non può, anche solo in via teorica, far desumere che la clusterizzazione sia stata effettuata in modo ottimo; inoltre, un valore più basso del rapporto tra devianza between e devianza totale non può far presumere – quantomeno se considerato da solo - che si è in presenza di una miglior segmentazione rispetto alla precedente. 90 La verifica di quanto detto è stata condotta mediante l‟analisi del grafico di silhouette costruito per la clusterizzazione in 3 gruppi: Silhouette plot of (x = kdati3$cl, dist = dissE) 3 clusters Cj j : nj | aveiÎCj si n = 202 1 : 137 | 0.46 2 : 62 | 0.05 3 : 3 | 0.51 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width si Average silhouette width : 0.33 La clusterizzazione presenta indici di silhouette che ancora non soddisfano: seppur compaiano valori mediamente più alti per due gruppi su tre (segmento 1: 0,46 e segmento 3: 0,51), è altresì vero che il secondo cluster per grandezza (segmento 2: 62 elementi) è caratterizzato da un valore vicino allo zero, conseguenza di osservazioni posizionate in modo presumibilmente sbagliato, che dovrebbero cioè appartenere al cluster più vicino piuttosto che a quello cui effettivamente appartengono. Relativamente all‟indice medio della larghezza della silhouette, esso presenta un valore pari a 0,33: più alto di quello risultante dalla divisione in 4 sotto-popolazioni, ma non ancora all‟altezza delle aspettative, in quanto identifica una segmentazione debole e con una struttura pressoché assente; queste considerazioni sono inoltre consolidate dalla presenza all‟interno del cluster 2 – quello cioè ragionevolmente peggio costruito rispetto agli altri due – di valori negativi, prossimi e talvolta inferiori a -0,2. Risulta perciò necessario procedere considerando un‟ulteriore clusterizzazione in 2 91 gruppi, e analizzarne la relazione devianza between/devianza totale, l‟indice di silhouette, e la costruzione del rispettivo grafico, come già fatto per le precedenti. 5.3.6 CLUSTER ANALYSIS – METODO DELLE K-MEDIE PER 2 CLUSTER Per quest‟ultima analisi si è deciso di prendere in considerazione un taglio del dendrogramma che identificasse solamente due cluster, comprensivi di tutte le osservazioni raccolte durante l‟intervista: il risultato del comando kmeans(dati,2) è la creazione di due raggruppamenti di rispettivamente 141 e 61 osservazioni, il cui indice di relazione devianza between/totale più basso rispetto ai precedenti analizzati e pari a 0,304. Tale valore non è sintomo di una clusterizzazione ottima rispetto a quelle considerate - se preso da solo -, e va pertanto affiancato dalle considerazioni riguardanti i parametri già visti per le precedenti segmentazioni. La distribuzione non omogenea delle osservazioni, però, identifica un segnale positivo: la necessità principe della clusterizzazione è, infatti, che le osservazioni in essa contenute si differenzino tra loro a livello intra-cluster per una o più specifiche caratteristiche, e che verosimilmente porta ad una divisione non concorde, come nel caso in analisi. Si verifichino le premesse di bontà di questa clusterizzazione mediante l‟analisi del grafico di silhouette: Silhouette plot of (x = kmeans2$cl, dist = dissE) 2 clusters Cj j : nj | aveiÎCj si n = 202 1 : 141 | 0.48 2 : 61 | 0.05 -0.2 0.0 0.2 0.4 Silhouette width si Average silhouette width : 0.35 92 0.6 0.8 1.0 Nonostante la costante presenza di valori di silhouette negativi (nel secondo cluster quasi la metà delle osservazioni presentano un indice inferiore allo zero) tratto che caratterizza nella generalità dei tre casi di clusterizzazione analizzati una distribuzione evidentemente mai del tutto netta dei rispondenti - che non rispondono cioè a caratteristiche definite in modo chiaro, risultando di conseguenza “mal distribuiti” -, ci si trova di fronte in ogni caso al miglior grafico di silhouette finora proposto; questa conclusione è dovuta sì al valore di larghezza di silhouette del primo cluster, composto dalla maggior parte delle osservazioni – 141 – e pari a 0,48, indicatore di una struttura che seppur risulti ancora classificabile come debole si avvicina di molto ad un range di segmentazione ragionevole (0,50 – 0,70), ma anche e soprattutto al valore medio di silhouette, che con il suo 0,35 rappresenta il più alto rispetto a quelli analizzati. Si può quindi ragionevolmente concludere che, come evidenziato per mezzo del metodo di Ward e confermato dunque con l‟analisi compiuta utilizzando il metodo delle k-medie, è verosimile l‟ipotesi di dividere la popolazione in 2 sottocluster, rispettivamente di 121 e 81, e di cui riportiamo la composizione generata usando il metodo gerarchico appena citato nella Tavola 4 dell‟appendice, con anche il relativo taglio del dendrogramma, evidenziato dal segmento colorato di rosso nel grafico della pagina seguente. I comandi utilizzati in ambiente R per lo studio di tale segmentazione sono i seguenti: - distanze<-dist(dati, "euclidean") e clust<-hclust(distanze, "ward.D") sono stati richiamati per il calcolo delle distanze euclidee in matrice i ´ i , con i numero delle osservazioni, e per realizzarne la clusterizzazione mediante metodo di Ward; - plot(clust, cex=0.3) è il comando utilizzato per creare il dendrogramma della distribuzione considerata nel corso di questo tratto dell‟analisi; - rect.hclust(clust, k=2, border="red") ha permesso di dividere il grafico di clusterizzazione nei gruppi in cui si è scelto di effettuare la segmentazione; due segmenti di colore rosso evidenziano le sotto-popolazioni all‟interno del dendrogramma disegnato; - beta<-cutree(clust, k=2) evidenzia le formazioni dei due cluster, identificando a quale delle due segmentazioni create appartiene ciascuna delle 202 osservazioni registrate; tali indicazioni, riassunte nel vettore beta, possono essere opportunamente aggiunte alla tabella dei dati iniziali mediante il comando data<-data.frame(dati,beta). L‟aggiunta di questa stringa al dataset iniziale ci permetterà, una volta estratta la tabella grazie all‟input write.table di profilare i rispondenti sulla base dell‟appartenenza all‟uno o all‟altro cluster. 93 5.3.7 CLUSTER ANALYSIS – L‟ANALISI DEI GRUPPI Detto della segmentazione ottenuta mediante il citato metodo di Ward, si analizzi ora come si dividono nei suddetti cluster i rispondenti al questionario, e quali criteri – sicuramente presenti, in caso contrario non si sarebbe ottenuta una clusterizzazione della popolazione – hanno influenzato tale divisione. Nel dettaglio, si prenderanno in considerazione sia le variabili che hanno contribuito direttamente alla formazione dei cluster, sia quelle che non sono state coinvolte nello specifico processo: - le prime, permettono di dare un nome al cluster: una volta validate mediante t test le differenze esistenti tra le statistiche rispetto ai due singoli cluster, e dei cluster rispetto alla popolazione globale, è possibile identificare quale delle modalità considerate abbia influenzato in maniera più importante la formazione del cluster, determinandone la segmentazione rispetto alla popolazione globale. Questa stessa segmentazione potrà quindi prendere il nome della modalità maggiormente influente. - le seconde invece permetteranno di identificare le peculiarità dei due distinti gruppi di rispondenti; è verosimile pensare come, in fase di analisi, si riscontrino differenti caratteristiche tra le segmentazioni registrate: in caso contrario, risulterebbe poco chiaro il perché dell‟esistenza di una clusterizzazione all‟interno della popolazione intervistata. 5.3.8 CLUSTER ANALYSIS – LA DENOMINAZIONE DEI CLUSTER E LA PROFILAZIONE DELLA CLIENTELA Il primo passo, dunque, consiste nell‟analizzare quale delle variabili considerate abbia influenzato maggiormente la composizione dei cluster identificati durante il processo di segmentazione, mediante il metodo di Ward. Si consideri nel dettaglio la seguente tabella: P C1 C2 analisi della clusterizzazione mediante metodo Ward.D Q2 Q4 Q5 Q6 Q7 Q8 4,44554 4,81188 4,87129 5,42574 5,23762 5,11881 3,82645 4,33884 4,52066 4,76860 4,71074 4,57851 5,37037 5,51852 5,39506 6,40741 6,02469 5,92593 Tabella 12: analisi delle medie delle variabili considerate nel processo di clusterizzazione 94 totale 4,98515 4,45730 5,77366 Il primo passo da compiere è quindi lo studio della significatività delle differenze esistenti tra le medie, effettuato mediante il t-test - o test della t di Student -: si tratta di un test statistico parametrico – si riferisce cioè ad una distribuzione libera dei dati – che ha il fine di accertare se, considerata la distribuzione in esame, il suo valore medio si scosti significativamente o meno da un determinato benchmark. Il test in analisi è stato sviluppato come test a due code, in quanto ci si troverà di fronte a due alternative: le medie dei due vettori considerati sono statisticamente uguali, oppure risultano diverse; nel caso specifico del test a due code, le aree di rifiuto sono distribuite in modo simmetrico ai due estremi della curva (le due code, appunto) ed è solitamente usato quanto non si hanno dati certi sull‟eventuale risultato, ovvero ci si pone il problema se esista una differenza statisticamente rilevante tra le medie considerate, senza però avere indicazione alcuna su quale delle due risulti maggiore oppure minore. Tale test è stato condotto mediante l‟uso del software statistico R, applicato al confronto di coppie di medie prese singolarmente, al fine di mettere a confronto dapprima la differenza esistente tra i valori di ogni cluster (C1,C2) rispetto alla popolazione globale (P), e successivamente per confrontare tra loro i valori dei cluster; l‟operazione permetterà di validare la clusterizzazione e procedere all‟assegnazione di un nome agli stessi, in base alla media dei valori considerati per ogni variabile. Nel dettaglio, al comando t.test utilizzato sono stati assegnati i seguenti parametri: - alternative = "two.sided": il test considerato si comporta cioè come una distribuzione a due code; - mu = 0: l‟ipotesi da testare H0 (ovvero: le medie considerate non sono statisticamente significative) ha come valore 0; questo implica che accettare tale ipotesi significa stabilire che i due vettori considerati hanno media uguale, e quindi differenze non notevoli relativamente alle medie considerate; - paired = FALSE: il test NON viene effettuato su dati appaiati, ma riguarda la verifica dell‟ipotesi relativa all‟uguaglianza delle medie di campioni estratti da una popolazione; - var.equal = FALSE: le varianze dei due gruppi non sono considerate come uguali, ma è presa in considerazione l‟approssimazione ai gradi di libertà; - conf.level = 0.90: il livello di significatività del test è del 90%. 95 Si consideri duenque la seguente tabella: variabile Q2 Q4 Q5 Q6 Q7 Q8 vettori di dati confidenza P,C1 0,90 P,C2 0,90 C1,C2 0,90 P,C1 0,90 P,C2 0,90 C1,C2 0,90 P,C1 0,90 P,C2 0,90 C1,C2 0,90 P,C1 0,90 P,C2 0,90 C1,C2 0,90 P,C1 0,90 P,C2 0,90 C1,C2 0,90 P,C1 0,90 P,C2 0,90 C1,C2 0,90 t test 3,913 -6,929 -10,062 3,072 -5,624 -7,8114 2,842 -5,128 -7,121 3,392 -6,984 -9,277 3,649 -6,760 -9,532 3,261 -6,160 -10,281 p value < 0,001 < 0,001 < 0,001 0,002 0,002 < 0,001 0,005 0,006 < 0,001 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 0,001 < 0,001 < 0,001 H0 rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata rifiutata Per tutte le ipotesi considerate nell‟analisi appena compiuta l‟ipotesi H0 di non-significatività della differenza tra le medie è stata rifiutata, risultato indicato direttamente dall‟output fornito in sede d‟interrogazione del software statistico R utilizzato a tale scopo: ci si trova pertanto di fronte ad una clusterizzazione in due gruppi che presenta significatività statistica in termini di differenza delle medie dei campioni esaminati tra i gruppi stessi, e tra ciascun gruppo e l‟intera popolazione dei rispondenti. Fatta questa necessaria analisi preliminare, è stato possibile passare poi all‟assegnazione dei nomi descrittivi ai cluster ottenuti; nel dettaglio, tale operazione consente di identificare in modo più semplice la composizione dei gruppi della popolazione dei rispondenti, e di verificare successivamente la composizione di tali segmenti mediante quella che viene definita “profilazione del cliente”. Questo processo si rifà alle medie ed alle frequenze delle variabili che non sono state precedentemente utilizzate durante lo svolgimento della clusterizzazione, e permette di identificare il profilo medio dei rispondenti che appartengono all‟uno o all‟altro segmento, evidenziandone le caratteristiche che presumibilmente li hanno (inconsapevolmente) portati ad appartenere a tale specifico cluster. 96 Ciò che emerge dalla profilazione è la situazione seguente: - cluster 1: ne fanno parte i 121 rispondenti che presentano una media di risposta pari a 4,457 e che verosimilmente possono essere identificati con l‟appellativo di “insoddisfatti”. Il profilo di tale rispondenti è quello di un consumatore uomo (61,7%), impiegato (32,3%) e con una fascia d‟età compresa tra i 40 e i 49 anni (35,5%): ha una frequentazione media del punto vendita di 2,5 (si può - per comodità - approssimare a 3) giorni sui 5 lavorativi a settimana, e si dichiara mediamente indifferente (3,8 su 7) relativamente al prezzo speso durante la sua visita; - cluster 2: ne fanno invece parte gli 81 rispondenti che, con una media delle modalità di risposta pari a 5,773, si possono denominare – arrotondando a 6 per eccesso - “più che soddisfatti”. Il profilo del frequentatore più che sodisfatto risponde alle caratteristiche ancora una volta di consumatore uomo (59,0%), anch‟esso impiegato (44,4 risposte su 100) e con la medesima fascia d‟età 40-49 anni per il 38,3%. Questa volta, tuttavia, il rispondente è meno presente all‟interno del punto vendita, presentando una frequentazione media del punto vendita di 1,7 (approssimiamo a 2) giorni sui 5 lavorativi di ogni settimana, e si dichiara però mediamente più soddisfatto rispetto agli appartenenti al cluster 1 rispetto al prezzo speso durante la visita: 5,4 su 7. Proviamo a capire il significato di tale dato. È ragionevole pensare che, accertato che la popolazione rispondente con maggior frequenza è altresì la stessa che risponde al nome di “generalmente insoddisfatta”, con un focus particolare sull‟aspetto relativo al prezzo, tale aspetto sia conseguenza di un‟assenza di qualsiasi forma di fidelizzazione o promozione che garantisca un risparmio in termini di spesa per i clienti alto-frequentanti - se si considera difatti la Tabella 12 sopra riportata, è facilmente evidenziabile come la media voto più bassa del cluster 1 si riferisca proprio al quesito numero 2 “Si ritiene mediamente sodisfatto del prezzo speso?” –. A fronte cioè di una visita più frequente rispetto agli appartenenti al cluster 2, essi si trovano di fronte al medesimo trattamento economico, senza la possibilità di avere un ritorno sotto forma di “premio” per la loro fedeltà verso i punti vendita Berica Chef; tutto questo non dovrà però sviare il lettore: l‟insoddisfazione non sta infatti ad indicare prezzi considerati troppo alti dalla popolazione rispondente – si consideri infatti che la variabile relativa alla soddisfazione del prezzo presenta una media globale di quasi 5 su 7 – quanto piuttosto, come appena visto, solamente una sfiducia che emerge in chi è maggiormente presente e fedele. Si lasciano alle conclusioni le ipotesi fatte da chi scrive per riuscire a migliorare quanto emerso. 97 CAPITOLO 6 CONCLUSIONI L‟analisi appena compiuta evidenzia, ancora una volta, l‟importanza che ricopre la fidelizzazione nel rapporto cliente-impresa: un consumatore appagato ritorna ad acquistare, e una cerchia di clienti sicuri e fidelizzati permette di conseguenza che una parte di fatturato risulti stabile nel tempo. Fidelizzare in modo efficace, conoscendo i propri clienti, significa riuscire ad ottenere un concreto Return On Investiment, in modo particolare nel medio e lungo termine ma, soprattutto, risulta importante poiché il costo eventualmente supportato per acquisire clienti nuovi è molto spesso di superiore rispetto a quelli che l‟azienda sostiene per mantenere quelli già possiede, in termini sia di sforzi da compiere, che dal punto di vista prettamente economico. Un piano adeguato di fidelizzazione contribuisce in modo notevole anche al rafforzamento del brand aziendale, grazie al rapporto fortemente emozionale che si viene a creare tra marchio e cliente/consumatore. Sviluppare un questionario su basi solide e strutturate significa riuscire ad estrarre più informazioni possibili dal rispondente, profilandolo sulla base delle sue caratteristiche intrinseche, e segmentando di conseguenza la popolazione in base alle variabili considerate maggiormente rilevanti dall‟azienda; inoltre, un‟intervista ben fatta rende possibile valutare plus e minus del servizio fornito, correggendo gli errori e gli aspetti negativi sottolineati dai clienti, prima che questi diventino “cronici” e rechino come conseguenza l‟abbandono da parte del consumatore. L‟analisi svolta, in dettaglio, ha fatto emergere una verosimile richiesta latente di fidelizzazione da parte della clientela, attuabile ad esempio mediante la creazione di programmi di fidelity-card, offerte speciali, prezzi scontati o agevolati, comunicazione di notizie che possano risultare utili in quanto relative ad esempio allo sviluppo di un nuovo prodotto o di una nuova linea, o più in generale relative ad argomenti per il quale egli possa aver manifestato un interesse diretto o indiretto. Con riferimento specifico ai risultati esposti nel capitolo precedente, Berica Chef potrebbe sviluppare dunque un programma – ad esempio mediante la distribuzione di fidelity card – che garantisca alla stessa azienda entrate sicure nel tempo grazie all‟assiduità con la quale il cliente affezionato frequenterà di conseguenza il punto vendita e, di contro, assicurare al consumatore una 98 promozione di prezzo che si possa tradurre poi in uno sconto sull‟ammontare totale degli acquisti cumulati, oppure in un omaggio con cui l'impresa premi il suo atteggiamento fedele. Potrebbe essere interessante, ad esempio, sfruttare la vicinanza del marchio a quello della torrefazione padovana Caffè Diemme per omaggiare i clienti di un determinato quantitativo di caffè da consumare a casa, al raggiungimento di un ammontare obiettivo dello scontrino: dal momento che il caffè è un bene largamente consumato, facendo spesso parte di quella categoria di prodotti primari a cui molte famiglie non rinunciano, si può immaginare che averne una confezione in regalo, seppur di una quantità ridotta, possa essere sicuramente apprezzato e apprezzabile, garantendo di fatto un vero e proprio risparmio sugli acquisti che normalmente avvengono all‟interno del nucleo familiare. 99 APPENDICE TAVOLA 1 QUESTIONARIO SULLA SODDISFAZIONE DEL CLIENTE (nel caso non fosse mai stato in uno o più locali, scrivere “mai stato” in fianco alla domanda) 1) In che misura si ritiene soddisfatto dei ns. servizi nei locali “l‟Albero l‟Italia a tavola” in merito ai seguenti aspetti: PREZZO Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto QUALITA‟ Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto CORTESIA E ORGANIZZAZIONE Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto ASSORTIMENTO OFFERTA Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto 2) In che misura si ritiene soddisfatto dei ns. servizi nei locali “Tarantella…che pizza!!”in merito ai seguenti aspetti: PREZZO Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto 100 QUALITA‟ Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto CORTESIA E ORGANIZZAZIONE Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto ASSORTIMENTO OFFERTA Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto 3) In che misura si ritiene soddisfatto dei ns. servizi nei locali “Pepè – Italian Fast Food” in merito ai seguenti aspetti: PREZZO Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto QUALITA‟ Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto CORTESIA E ORGANIZZAZIONE Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto ASSORTIMENTO OFFERTA Molto soddisfatto Soddisfatto Abbastanza soddisfatto Insoddisfatto 101 4) Cosa le piacerebbe trovare nei nostri locali: Miglior comunicazione delle proposte Maggior assortimento prodotti e novità Maggior efficienza del personale Miglior disposizione ed accesso ai locali 5) Come valuta il nostro nuovo sito internet e i suoi contenuti? Molto soddisfacente Soddisfacente Abbastanza soddisfacente Insoddisfacente Mai visitato 102 TAVOLA 2 103 104 TAVOLA 3 H fusione 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 ΔH fusione 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 H fusione 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,276142 1,276142 1,276142 1,276142 1,276142 1,276142 1,276142 1,333333 1,333333 1,333333 1,333333 1,345178 1,345178 1,345178 1,373773 1,414214 1,414214 1,414214 1,414214 1,414214 1,414214 1,414214 1,500000 1,500000 1,666667 ΔH fusione 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 1,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,276142 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,057191 0,000000 0,000000 0,000000 0,011845 0,000000 0,000000 0,028595 0,040440 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,085786 0,000000 0,166667 H fusione 1,732051 1,732051 1,732051 1,764176 1,764176 1,764176 1,764176 1,780239 1,837997 1,914214 2,000000 2,000000 2,000000 2,000000 2,000000 2,028474 2,060144 2,121320 2,134097 2,174008 2,198038 2,236068 2,236068 2,236068 2,236068 2,236068 2,373652 2,449490 2,459438 2,546355 2,587880 2,625396 2,645751 2,645751 2,666667 2,747190 2,796189 2,828427 2,837430 2,897541 2,978463 3,084937 3,104569 3,140754 3,191318 3,258446 3,292778 3,306130 3,335029 3,357716 3,408736 ΔH fusione 0,065384 0,000000 0,000000 0,032125 0,000000 0,000000 0,000000 0,016063 0,057758 0,076217 0,085786 0,000000 0,000000 0,000000 0,000000 0,028474 0,031670 0,061176 0,012776 0,039911 0,024030 0,038030 0,000000 0,000000 0,000000 0,000000 0,137584 0,075838 0,009949 0,086916 0,041525 0,037516 0,020356 0,000000 0,020915 0,080523 0,048999 0,032238 0,009003 0,060111 0,080922 0,106473 0,019633 0,036185 0,050564 0,067128 0,034332 0,013353 0,028899 0,022687 0,051020 H fusione 3,418264 3,535846 3,653864 3,685145 3,811834 3,839342 4,000000 4,116032 4,136516 4,146881 4,301650 4,405239 4,444444 4,497819 4,690945 5,173104 5,357566 5,422948 5,529397 5,646848 5,926881 5,998288 6,146651 6,406391 6,723967 6,737819 6,971946 6,982941 7,799361 7,897027 7,924544 8,176229 8,486844 8,513978 8,938867 9,376667 12,121343 12,868527 14,488331 14,896276 16,090211 19,467275 27,886860 29,005808 32,323821 52,892814 68,313829 118,783754 ΔH fusione 0,009527 0,117582 0,118018 0,031281 0,126689 0,027508 0,160658 0,116032 0,020484 0,010365 0,154769 0,103588 0,039206 0,053375 0,193126 0,482159 0,184462 0,065382 0,106449 0,117451 0,280033 0,071407 0,148363 0,259741 0,317576 0,013852 0,234127 0,010995 0,816420 0,097666 0,027517 0,251685 0,310615 0,027134 0,424889 0,437800 2,744676 0,747185 1,619804 0,407945 1,193935 3,377064 8,419585 1,118948 3,318013 20,568993 15,421015 50,469925 105 TAVOLA 4 Height 0 74 131 162 66 155 55 117 72 132 198 197 192 191 186 182 170 166 163 140 127 118 114 95 87 75 69 63 12 53 138 5 92 103 134 10 89 111 133 184 194 183 22 80 195 77 123 107 3 58 47 44 11 37 145 150 25 158 149 151 130 96 23 112 6 105 41 165 50 172 147 70 76 19 119 91 135 175 64 7 43 21 49 32 187 97 57 110 24 46 17 56 18 144 169 35 39 1 27 177 33 40 60 80 100 120 Cluster Dendrogram distanze hclust (*, "ward.D") 106 62 200 201 109 173 153 146 4 116 101 124 13 125 199 189 9 94 29 185 31 179 34 141 128 28 93 193 108 83 88 26 202 106 30 122 161 167 42 61 36 157 143 154 142 180 126 68 171 156 15 51 190 14 99 104 160 152 38 136 188 120 82 73 78 181 176 40 84 2 121 113 174 129 8 90 196 168 71 102 100 139 45 67 137 178 59 79 20 85 60 65 148 48 98 52 81 164 54 159 16 86 115 20 BIBLIOGRAFIA Auty S. (1992). Consumer Choice and Segmentation in the Restaurant Industry, Service Industries Journal, 12(3), pp.324-339. Barcaroli G. - D'Aurizio L. - Luzi O. - Manzari A. - Pallara S. (1999), Metodi e software per la produzione dei dati, ISTAT. Bradburn N. - Sudman S. (1991) The current status of questionnaire design, in Measurement error in surveys. John Wiley and Sons, NY. Cacciola S. - Marradi A. (1988) Contributo al dibattito sulle scale Likert basato sull’analisi di interviste registrate. Franco Angeli, Milano. ISTAT (1989); Manuali di tecniche di indagine. Roma. J. A. Hartigan and M. A. Wong (1979), A K-Means Clustering Algorithm. Journal of the Royal Statistical Society, Londra. L. Fabbris (1997). Statistica Multivariata. McGraw-Hill, Milano. L. Molteni & G. Troilo (2003). Ricerche di Marketing. McGraw-Hill, Milano. Marbach, G. (1975). Sull'uso di quesiti che tutelano la completezza dell'informazione, Metron. Martini M. (2000), L’integrazione statistica di registri ed indagini, F. Angeli, Milano. Piccolo, D. (2010), Statistica per le decisioni. Il Mulino. R Core Team (2012). R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. R. A. Johnson - D. W. Wichern (2002), Applied Multivariate Statistical Analysis. Prentice-Hall, Upper Saddle River, NJ. Schuman H - Presser S. (1981), Questions and answers in attitude surveys. Academic press, NY. Wind Y.J., Mahajan V. (2002), Il consumatore centauro. Ovvero il marketing della convergenza, Milano, Etas. 107 SITOGRAFIA http:// www.quint-essenz.ch [lunedì 19 maggio] http://networklab.univpm.it/sp/internet-in-italia-una-cosa-da-adulti.3sp [15 luglio 2014] http://video.ilsole24ore.com/SoleOnLine5/Video/Notizie/Italia/2012/bufacchi-18-gennaio/bufacchi18-gennaio.php http://www.bericachef.com [20 luglio 2014] http://www.ch.unich.it/facolta/psicologia/contributi/04/alparone.pdf [venerdì 13 settembre 2013] http://www.diemmecaffe.com [20 dicembre 2014] http://www.lafeltrinelli.it [20 luglio 2014] http://www.me-teor.it/marr_opere/italiano/articoli/REAZOGG.pdf http://www.nmfs.noaa.gov/sfa/reg_svcs/social%20guid&pri.pdf http://www.puntarellarossa.it/2013/06/18/fast-food-i-giovani-americani-abbandonano-mcdonalds/ [mercoledì 28 agosto ore 9.24] http://www.repubblica.it/tecnologia/2013/10/07/news/privacy_online_censis-68081776/ http://www.uniroma2.it/didattica/statistica_sociale_B/deposito/corbettametodologia_e_tecniche_del la_ricerca_socialeriassunto.pdf http://www.valutazioneitaliana.it/riv/num7/giordano.pdf [venerdì 13 settembre 2013] 108 RINGRAZIAMENTI Dopo quasi due anni di ricerche, lavoro, e analisi, sono finalmente giunto alla conclusione di questa tesi, e quindi della mia carriera universitaria; sono stati – soprattutto nell‟ultimo periodo – mesi che hanno messo a dura prova il mio convincimento di potercela fare, e di conseguenza che tante volte hanno finito per intaccare la sicurezza in me stesso e la consapevolezza di potercela fare. Sono tante le persone che vorrei e dovrei ringraziare, per alcune lo farò qui, per altre le farò di persona, per altre ancora posso farlo solo con un pensiero, a chi in questo momento è distante, ma al contempo profondamente vicino. Tante persone in questo periodo mi hanno incoraggiato a terminare questo percorso, coronato lo scorso anno dall‟assunzione in un‟azienda del territorio in cui posso crescere, e che mi da l‟opportunità di farlo accompagnandomi di giorno in giorno in un cammino formativo che pochi ragazzi della mia età, soprattutto in questo periodo, hanno la possibilità di avere. Mio padre, i miei fratelli, la mia famiglia, gli amici, che mi hanno sostenuto direttamente – e indirettamente – e mi hanno spronato affinché non perdessi mai di vista l‟obiettivo, quella Laurea che ho rincorso tra molti sacrifici, sia loro che miei. I miei colleghi, che mi hanno aiutato nella realizzazione del questionario e sostenuto nell‟analisi dei risultati e che in questo ultimo periodo si sono preoccupati talmente tanto della mia tesi che sono arrivati a scriversi le scadenze sul calendario, loro al posto mio… La mia Relatrice, che è stata capace di trasmettermi la serenità giusta per capire gli errori che stavo commettendo, o i progressi svolti, e dandomi di volta in volta i suggerimenti mirati affinchè riuscissi a capire quale doveva essere lo step successivo dell‟analisi. Alice, ultima ma non per importanza, grazie cui tutto questo è stato possibile; c‟è stata nei momenti di rassegnazione quando le cose non andavano bene, c‟è stata nei momenti di euforia quando finalmente la tesi stava cominciando a prendere la forma che desideravo e speravo, ma soprattutto mi ha convinto del fatto che con gli sforzi giusti e la costanza avrei potuto portare a termine questo lavoro. Semplicemente: c‟è stata, e ci sarà. 109 110