Tvorba datové matice
Download
Report
Transcript Tvorba datové matice
Marketingový výzkum v praxi
část 2B: od vyplněných dotazníků
k datové matici
Jiří Nepala
FOCUS, Centrum pro sociální a marketingovou analýzu
[email protected]
www.focus-agency.cz
Co nás dnes čeká?
• Prezentace technických zpráv jednotlivých týmů
• Proces ukládání dat
Způsoby ukládání dat
Tvorba datové matice
• Procesy kontroly dat
Kontrola v terénu
Zpětná kontrola validity dat
Kontrola dotazníků
Kontrola dat v matici
Čištění dat
Řešení problémů
• Etický aspekt průzkumu trhu a veřejného mínění
2
PROCES UKLÁDÁNÍ DAT
Způsoby ukládání dat
Ukládání pomocí dokumentového scanneru
Ruční ukládání do datových matic
Online ukládání dat
3
Způsoby ukládání dat
• DOKUMENTOVÝ SCANNER
Kompletní a řádně vyplněné dotazníky jsou naskenovány do datových
matic pomocí dokumentového scanneru
Výhodou skenování dotazníků je rychlost a spolehlivost přepisu dat
Použití scanneru pro uložení dat vyžaduje, aby dotazník byl upraven do
skenovací podoby
Vyplňování dotazníku určeného pro skenování se řídí specifickými
pravidly
4
Způsoby ukládání dat
Postup práce s dokumentovým scannerem
1.
2.
3.
4.
Zalomení dotazníku do skenovací podoby
Tisk dotazníku
Naskenování prázdného dotazníku
Vytvoření datové matice na základě naskenovaného dotazníku
i. vyznačení oblastí (polí) pro čtení dat
ii. definice proměnných, jejich hodnot, labelů atd.
5.
6.
7.
8.
Skenování dotazníků (uložení dat)
Kontrola dat
Export do standardně užívaného statistického softwaru (SPSS)
Finální kontrola datového souboru
Odpovědi na otevřené (volné) otázky se ukládají
zpravidla v tabulkovém procesoru (MS Excel)
5
Způsoby ukládání dat
UKÁZKA SKENOVACÍ PODOBY DOTAZNÍKU
6
Způsoby ukládání dat
UKÁZKA INSTRUKCÍ PRO VYPLŇOVÁNÍ SKENOVACÍHO DOTAZNÍKU
7
Způsoby ukládání dat
UKÁZKA SOFTWAROVÉHO PROSTŘEDÍ DOKUMENTOVÉHO SCANNERU –
TVORBA DATOVÉ MATICE (REMARK OFFICE)
8
Způsoby ukládání dat
• RUČNÍ UKLÁDÁNÍ DAT:
Použití softwaru pro vstup dat (např. modul Data Entry SPSS), který
umožňuje nastavení povolených rozsahů hodnot proměnných.
Do datových matic v modulu Data Entry se zapisují číselné kódy
odpovědí z dotazníku.
Pro ověření kvality zadávání dat je opakovaným uložením jiným
kodérem/operátorem kontrolováno 100% datového souboru.
Chyby v ukládání jsou eliminovány principem dvojího uložení:
Kodér, který opakovaně zadává data z dotazníku, nevidí v modulu data,
uložená prvním kodérem
Pokud druhý kodér zadá jinou hodnotu proměnné, než zadal kodér první, je
upozorněn pop-up oknem, že se odpovědi na tutéž otázku téhož dotazníku
ukládaného různými kodéry liší
Kodér po výzvě zadá skutečnou hodnotu proměnné – dojde buď k opravě
prvního kodéra, nebo sebe sama
9
Způsoby ukládání dat
Postup při ručním ukládání
1. Vytvoření datové matice ve statistickém softwaru na základě dotazníku
(definice proměnných, jejich hodnot, labelů atd.)
2. Export datové matice do Data Entry modulu a její nakopírování do
počítačů ukladačů
3. Uložení dat
4. Kontrolní (křížové) uložení dat
5. Spojení matic z Data Entry modulu
6. Finální kontrola datového souboru
Odpovědi na otevřené (volné) otázky se ukládají
zpravidla v tabulkovém procesoru (MS Excel).
10
Způsoby ukládání dat
UKÁZKA DOTAZNÍKU PRO RUČNÍ UKLÁDÁNÍ
11
Způsoby ukládání dat
UKÁZKA SOFTWAROVÉHO PROSTŘEDÍ PRO RUČNÍ UKLÁDÁNÍ DAT –
TVORBA DATOVÉ MATICE (SPSS)
12
Způsoby ukládání dat
• ONLINE UKLÁDÁNÍ DAT:
Ukládání dat do systému, který je totožný s CAPI
Neumožňuje zadání kódu mimo daný rozsah hodnot proměnných,
respektive zadat jinou odpověď, než je předprogramována
Chybovost je eliminována programováním dotazníku
13
Způsoby ukládání dat
Postup při online ukládání
1.
2.
3.
4.
Programování dotazníku
Uložení dat, včetně odpovědí na otevřené (volné) otázky
Export dat do standardně užívaného statistického softwaru (SPSS)
Finální kontrola datového souboru
14
Způsoby ukládání dat
UKÁZKA SOFTWAROVÉHO PROSTŘEDÍ PRO ONLINE UKLÁDÁNÍ DAT
(FOCUSIS)
15
Tvorba datové matice
1.
2.
3.
4.
5.
Vytvoření proměnné
Pojmenování proměnné (číslo otázky)
Definice formátu proměnné (numerická, textová, datum, čas
apod.)
Popis proměnné (znění otázky)
Definice hodnot proměnné a jejich pojmenování (číselné
hodnoty odpovědí a znění odpovědí)
Nezapomeňte na proměnnou ID (číslo) dotazníku!!!
16
PROCESY KONTROLY DAT
• KONTROLA V TERÉNU:
Slouží principiálně ke zjištění/odhadu, podaří-li se realizovat stanovený
počet rozhovorů (naplnit výběrový soubor)
Týdenní hlášení o počtu realizovaných rozhovorů a potenciálně se
vyskytujících problémech během dotazování
• ZPĚTNÁ KONTROLA:
Slouží principiálně ke kontrole práce tazatelů, a to:
Zdali uskutečnili rozhovor
Zdali uskutečnili rozhovor s vhodným/správným/uvedeným respondentem
Zdali odpovědi, které tazatel do dotazníku vyznačil, byly skutečnými
odpověďmi konkrétního respondenta
•
TYTO KONTROLNÍ MECHANISMY BYLY PROBRÁNY NA MINULÉ PŘEDNÁŠCE
17
Procesy kontroly dat
• KONTROLA DOTAZNÍKŮ:
Optická (formální) kontrola
Kontrola vyplněnosti dotazníků
Evidence průběžného stavu
Počty dotazníků od jednotlivých tazatelů
Počty dotazníků v jednotlivých krajích, respektive výběrových
jednotkách
Číslování dotazníků
Číslování je nutné v celém procesu od evidence dotazníků pro
zpracování dat
Umožňuje zpětně dohledat papírový (zdrojový) dotazník, tazatele,
který jej vyplňoval, i respondenta
Logická (obsahová) kontrola
V případě komplikovaných a dlouhých dotazníků, kde by bylo problematické
a zdlouhavé kontrolovat data až po uložení a dohledávat zdrojové dotazníky
Kontrola logických souvislostí, součtů apod.
18
Procesy kontroly dat
• PŘÍKLAD LOGICKÉ KONTROLY DOTAZNÍKŮ – průzkum mezi řidiči a
uživateli automobilů
Kontrola souladu modelu a roku výroby
Kontrola souladu počtu najetých kilometrů za uplynulý rok a údržby
provedené na vozidle (výměny olejů apod.)
Kontrola souladu spontánní a podpořené znalosti značek
autopříslušenství
Kontrola počtu servisních operací a prodejních/servisních míst, kde
byly tyto operace provedeny (baterie otázek uprostřed dotazníku) s
deklarovaným počtem návštěv autoservisu na konci dotazníku
Kontrola souladu provedených servisních operací během posledních
dvou návštěv servisu s všemi operacemi za celý rok
Kontrola souladu výše pojištění/leasingu s typem a stářím vozidla
apod.
19
Procesy kontroly dat
• KONTROLA DAT V MATICI:
Kontrola filtrů a přeskoků
Kontrola dodržení kvóty
kategorizace hodnot sociodemografických proměnných a srovnání s
celkovou zadanou kvótou
Kontrola logické vazby otázek, např.:
korelace spontánní a podpořené znalosti značky
konzistence odpovědí na využívání určitého produktu
20
Procesy kontroly dat
• PŘÍKLAD LOGICKÉ KONTROLY DATOVÉ MATICE – Evropský průzkum
pracovních podmínek (EWCS 2010)
Kontrola souladu uvedeného počtu členů domácnosti se součtem výčtu
jednotlivých osob
Kontrola věku ukončení studia s dosaženým vzděláním
Věk ukončení studia nesmí být vyšší než současný věk respondenta
Počet podřízených by neměl být vyšší než celkový počet
spolupracovníků
Počet dní pracovní neschopnosti z důvodu pracovního úrazu nesmí být
vyšší než celkový počet dní pracovní neschopnosti v daném časovém
období
apod.
21
Procesy kontroly dat
• ČIŠTĚNÍ DAT:
Během čištění se odstraňují či napravují nesrovnalosti a nekonzistence
v datech (mezi proměnnými, které spolu souvisí)
Nejčastěji jde o:
Nedodržení filtrů a přeskoků
o Řešení: vymazání odpovědí v otázce, která měla být přeskočena
Rozpor v odpovědích
o Řešení: na základě kontextu ostatních odpovědí zvolíme nadřazenou
proměnnou (odpověď), kterou považujeme za platnou; můžeme také
kontaktovat tazatele a ověřit, zda správně zaznamenal respondentovu odpověď
Chybějící odpovědi
o Řešení: dohledání dotazníku na základě jeho ID, ověření, zda nedošlo ke ztrátě
během ukládání; pokud ne, je nutné zpětně kontaktovat respondenta a doptat
se na odpověď
22
Procesy kontroly dat
• NEJSOU-LI DATA SEBRÁNA SPRÁVNĚ… (aneb řešení problémů
způsobených selháním lidského faktoru)
Nedůsledné/nekompletní vyplnění dotazníku
Řešení:
o Preventivní 10% navýšení výběrového souboru
o Opětovné kontaktování respondentů
Nedodržení kvóty, nedodržení zadaného počtu realizovaných
rozhovorů, podvodně vyplněné dotazníky
Řešení:
o Preventivní 10% navýšení výběrového souboru
o Dosběr, umožňuje-li to časový harmonogram projektu (je vždy lepší mít časovou
rezervu v timingu)
23
NA CO SE ZAMĚŘÍTE PŘI
KONTROLE SVÝCH DAT?
24
• KONTROLA VYPLNĚNOSTI DOTAZNÍKŮ
VYPLNĚNÍ VŠECH OTÁZEK
SPRÁVNÉ KÓDOVÁNÍ NON-RESPONSE KÓDŮ U VOLNÝCH OTÁZEK
(888, 999 APOD.)
• KONTROLA KVÓTY
q41, q42
• LOGICKÁ KONTROLA DAT
FILTRY A PŘESKOKY
před q3, q6, q10, q13, q16, q27, q28, q29, q32, q33
LOGICKÁ KONZISTENCE DAT
preference a konzumace nápojů (q20) a od ní se odvíjející (vynechané)
odpovědi na otázky q22 až q24
25
ETICKÝ ASPEKT PRŮZKUMU TRHU
A VEŘEJNÉHO MÍNĚNÍ
Ochrana osobních údajů
Archivace dotazníků
Profesní asociace a jejich kodexy
26
Etický aspekt průzkumu trhu a veřejného
mínění
• OCHRANA OSOBNÍCH ÚDAJŮ
Základem je důsledné dodržování českých zákonů a etických zásad
vztahujících se k ochraně osobních údajů.
Normy a zásady:
Spolupráce respondentů je dobrovolná
Je třeba zachovat plnou anonymitu ve všech fázích výzkumu
o Tj., že získané údaje se zpracovávají do souhrnných statistických a analytických
informací, které neumožňuji zpětnou identifikaci konkrétního respondenta.
Využití údajů o respondentech výlučně pro výzkumné účely
o Tj. nerozšiřovat je, neobchodovat s nimi, neposkytovat je třetím stranám
o Předmětem činnosti profesionální výzkumné agentury nesmí být činnosti, které
bezprostředně nesouvisí s výzkumnou činností (databázový marketing, přímý
marketing apod.)
Po ukončení zpětné kontroly jsou veškeré seznamy respondentů a jejich
osobní údaje skartovány
27
Etický aspekt průzkumu trhu a veřejného
mínění
• DUŠEVNÍ VLASTNICTVÍ, AUTORSKÁ PRÁVA
Na projekt se vztahují autorská práva agentury
Autorská práva – ve chvíli zaplacení přechází práva na celé dílo na stranu
zadavatele (data, závěrečná zpráva)
• ARCHIVACE DOTAZNÍKŮ
Dotazníky, audio a videozáznamy jsou archivovány po dobu minimálně 6
měsíců
Doba uchování může být delší, záleží na požadavcích klienta a smluvních
podmínkách
28
Etický aspekt průzkumu trhu a veřejného
mínění
• PROFESNÍ ASOCIACE
Profesionální výzkumné agentury, pokud nejsou členy profesních asociací,
respektují a dodržují pravidla, dané kodexy těchto organizací
Kodexy upravují:
Tvorbu projektů
Průběh sběru dat
Kontrolu dat
Ukládání dat
Nakládání s daty
Atd.
Nejvýznamnější profesní asociace:
ESOMAR (www.esomar.org, www.esomar.org/index.php/our-mission.html)
SIMAR (www.simar.cz)
ĆESKÁ MARKETINGOVÁ SPOLEČNOST (www.cms-cma.cz)
29
Etický aspekt průzkumu trhu a veřejného
mínění
• PROFESNÍ A ETICKÉ KODEXY:
http://www.simar.cz/standardy-kvality/kvalitativni-standardyefamro/kvalitativni-standardy-efamro.php#3
http://www.simar.cz/standardy-kvality/kvalitativni-standardy-iccesomar/kvalitativni-standardy-icc-esomar.php
http://www.simar.cz/clenstvi/eticke-zasady-oboru.php
http://www.simar.cz/standardy-kvality/kvalitativni-standardy/index.php
http://www.simar.cz/standardy-kvality/kvalitativni-standardy/sber-akontrola-porizovanych-dat.php
30
„DOMÁCÍ“ ÚKOL
31
Práce v týmech
•
DOPORUČENÍ: STÁHNĚTE SI 30-DENNÍ TRIAL VERZI SPSS
(http://www.spss.com/statistics/)
•
•
Vytvořte datovou matici, kterou do 18. 4. zašlete ke schválení lektorovi.
Do 21. 4. dostanete k zaslané matici zpětnou vazbu a bude vám zaslána finální
matice, do níž uložíte data ze svých dotazníků.
Provedete základní kontrolu a čištění dat a finální matici zašlete do 25. 4.
lektorovi.
Do 27. 4. dostanete zpět spojenou matici s daty ze všech vyplněných
dotazníků. S touto maticí budete pracovat během posledního bloku
workshopů.
•
•
•
Vypracované úkoly a veškeré dotazy, nápady a připomínky posílejte na adresu:
[email protected].
32
Co nás čeká příště?
• Další setkání: 27. 4. 2010
• Příštím setkáním začne blok workshopů věnovaný analýze dat a
interpretaci zjištěných výsledků.
33
Děkuji za pozornost
Jiří Nepala
FOCUS, Centrum pro sociální a marketingovou analýzu
[email protected]
www.focus-agency.cz