Rapport (sv) - Semone Kallin Clarke

Download Report

Transcript Rapport (sv) - Semone Kallin Clarke

 Informationsvisualisering – TNM048 Projektrapport Linköpings Universitet 2013-­‐04-­‐07 Ida Hellkvist -­‐ idahe633 Julia Freye – juifr807 Semone Kallin Clarke – semcl585 Sammanfattning Denna rapport är en sammanställning av ett projekt som genomförts i kursen TNM048 -­‐ Informationsvisualisering vid Linköpings Universitet. Rapporten beskriver tillvägagångsättet vid informationsvisualisering enligt “the sense-­‐making-­‐loop”, från insamling av data till visuella representationer och insikt i datan med hjälp av utforskning och storytelling. Rapporten presenterar resultatet av visualiseringen samt tar upp hur det har gått under processens gång. Innehållsförteckning Inledning och bakgrund .......................................................................................................................... 4 Insamling av data ...................................................................................................................................... 4 Från rådata till inläsningsfil -­‐ numerisk data. .............................................................................................. 5 Från rådata till inläsningsfil -­‐ kategorisk data ............................................................................................. 5 Uträkningar ................................................................................................................................................................. 6 Gruppering av indikatorer .................................................................................................................................... 6 Inläsning i Sverige-­‐ och MDim-­‐eXplorer ......................................................................................................... 6 Visualiseringsmetoder ............................................................................................................................ 7 Scatter Plot .................................................................................................................................................................. 7 Parallel Coordinates Plot ....................................................................................................................................... 7 Distribution Plot ........................................................................................................................................................ 7 Choropleth Map ......................................................................................................................................................... 7 Treemap ........................................................................................................................................................................ 7 Time Graph .................................................................................................................................................................. 8 Scatter Matrix ............................................................................................................................................................. 8 Bar Chart ....................................................................................................................................................................... 8 Time Bar Chart ........................................................................................................................................................... 8 Table Lens .................................................................................................................................................................... 8 Interaktivitet .............................................................................................................................................. 8 Utforska datan ............................................................................................................................................ 9 Storytelling .................................................................................................................................................. 9 Vilka kommuner har fler inflyttande än utflyttande? ............................................................................... 9 Utbildning och inkomst ....................................................................................................................................... 11 Var i Sverige mår människor bäst respektive sämst? ............................................................................ 15 Diskussion ................................................................................................................................................. 18 Källförteckning ........................................................................................................................................ 19 Bilaga 1 ....................................................................................................................................................... 20 Inledning och bakgrund Informationsvisualisering handlar om att med visuella metoder skapa interaktiva representationer av abstrakt data. Detta för att ge insikt i data, hitta extremer eller för att presentera något. I kursen TMN048 -­‐ Informationsvisualisering vid Linköpings universitet är uppgiften att samla in relevant data för att sedan visualisera denna med lämpliga metoder och hitta intressanta fakta och egenskaper hos datan. Uppgiften skall lösas i enlighet med “the sense-­‐making-­‐loop” processen. Temat för arbetet är Sverigedata med fokus på demografi-­‐, ekonomi-­‐, utbildnings-­‐ och samhällsdata. För den visuella representationen används Sverige-­‐ och MDim-­‐eXplorer från NComVA.
Data från olika myndigheter och organisationer samlas in. För att hitta korrelationer mellan data görs en explorativ analys där olika kommuner ställs mot varandra vad gäller olika demografiska-­‐, ekonomiska-­‐, utbildnings-­‐ och samhällsvariabler.
Förhoppningen är att hitta intressanta aspekter i den data som samlas in och förmedla dessa med hjälp av så kallad storytelling. Ingen konkret hypotes används då analysen är explorativ. Målet är att samla in mycket data och använda lämpliga visualiseringsmetoder, exploatera, komma till insikt och presentera resultatet på ett lämpligt sätt. Insamling av data
Den data som används är spatial-­‐, temporal data hämtad från öppna databaser hos svenska myndigheter och organisationer. Både numerisk och kategorisk data har samlats in.
Alla myndigheter och organisationer erbjöd nedladdningsbar data i form av Excelfiler. Dock såg Excelfilerna olika ut hos olika myndigheter och organisationer och filerna krävde bearbetning innan de lästes in i Sverige-­‐ och MDim-­‐eXplorer. Nedan följer de myndigheter och organisationer där data har laddats ner ifrån
•
SCB -­‐ Statistiska centralbyrån1 Från statistiska centralbyrån hämtades mestadels av datan, de samlar ihop mycket av den publika statistik som finns tillgänglig i Sverige. Sidan är något svårnavigerad, men då den önskade datan hittats är den smidig att ladda ner.
•
FHI -­‐ Statens folkhälsoinstitut2 Statens folkhälsoinstitut tillhandahåller hälsodata, här hämtades data om aborter och medellivslängd. •
SKL -­‐ Sveriges kommuner och landsting3 Data om arbetslöshet har hämtats från Sveriges kommuner och landsting databas, Kolada. Mycket av den data som finns på Kolada har korta tidsspann. •
Svenskt näringsliv4 Svenskt näringsliv har data om Sveriges företagsklimat. Denna data krävde en del städning då det fanns mycket onödig information i Excelarken. 4 •
Försäkringskassan5 Försäkringskassan har data med information ohälsotal och sjuktal. De använder sig av så kallade makron i sina Excelfiler, vilket gör dem krångliga att städa upp för inläsning. •
Socialstyrelsen6 Från Socialstyrelsen har data om socialutsatthet hämtats. De presenterar data i en egen insticksmodul där det går att se vald data både som tabell och diagram. Eftersom det är tvunget att använda insticksmodulen för att få fram data kan den vara otillgänglig om Java är blockerat på grund av dess säkerhetsrisk. Mer information om den data som laddats ner finns i Bilaga1 Från rådata till inläsningsfil -­‐ numerisk data.
Excelfilerna som laddades ner från myndigheter och organisationer var som nämnts tidigare upplagda på olika sätt vad gäller hur datan strukturerades. Sverige-­‐ och MDim-­‐
eXplorer kan läsa in Excelfiler direkt om de är strukturerade på något av de olika format som dessa applikationer kräver. Dock hade inga av Excelfilerna som laddades ner korrekt inläsningsstruktur från början.
De nedladdade filerna med data städades, vilket innebar att onödig information som inte hörde till datan togs bort så som information om var datasetet kom ifrån med mera. I vissa fall togs även oönskade indikatorer bort. Filerna kunde nu läsas in i Data Wizard, vilket är en applikation som läser in en Excelfil, strukturerar upp datan och ger en Unicode textfil som även detta är ett format som Sverige-­‐ och MDim-­‐explorer kan läsa in. I Data Wizard fanns även möjlighet att matcha kommunnamn med rätt kommunnummer om detta inte var angivet i den rådata som laddats ner från början. I de Excelfiler som laddats ner från SCB stod kommunnummer och kommunnamn oftast i samma cell, i städningsprocessen av dessa filer delades denna till två celler för att inte få med kommunnummer bredvid namnet i visualiseringen. Något som också gjordes med hjälp av Data Wizard var att sätta rätt enhet och precision på datan. Detta stod ofta i rubriken till dokumenten och följde inte med i inläsningen till Data Wizard.
Ett problem med Data Wizard var att applikationen inte ger några felmeddelanden. I vissa fall gick det inte att applicera varken en förvald template eller en egengjord template på den Excelfil som lästs in. Ibland kunde detta lösas genom att spara Excelfilen som .xls istället för xlsx. Från rådata till inläsningsfil -­‐ kategorisk data
Sveriges kommuner delas hos SKL in i olika kommungrupper7. Dessa grupper har använts för att gruppera kommunerna och hitta intressanta samband. Även kategorisk data för vilket län kommunerna tillhör lästes in8. Den kategoriska datan kunde inte läsas in i Data Wizard och den kunde inte heller läsas in i eXplorer i en ensam Excelfil utan var tvungen att läsas in tillsammans med numerisk data i en Excelfil. 5 Uträkningar
Mycket av datan som laddades ner från myndigheter och organisationer var baserad på antal, exempelvis “Antal högskoleutbildade per kommun”. I visualiseringen kan denna siffra vara missvisande då kommuner med större befolkning då också kan komma att ha till antalet fler högskoleutbildade. För att få ett rättvist jämförelsetal mellan kommunerna räknades andelen av högskoleutbildade ut. Detta kunde genomföras direkt i Sverige och MDim-­‐eXplorer med hjälp av verktyget “Aggregate transform”. För att räkna ut andelen i procent dividerades i detta fall antalet högskoleutbildade med folkmängden i kommunen för att sedan multipliceras med 100. Samma uträkning gjordes för att få ut andelen lågutbildade, osv. Gruppering av indikatorer
Då datan strukturerats upp med hjälp av Data Wizard och sparats ner som en Unicode-­‐
fil gjordes en gruppering av de indikatorer som på något sätt tillhörde samma kategori. Detta för att få en fin hierarkisk struktur på indikatorerna i eXplorer, se figur 1. Vid grupperingen av indikatorerna stöttes det på problem. Då de nedladdade Unicode-­‐
filerna öppnades försvann ibland, inte alltid, alla å, ä och ö. För att lösa detta söktes konstiga tecken upp och ersattes med korrekta tecken manuellt. Det fanns heller ingen möjlighet att låta någon indikator var utan grupp om det var så att andra indikatorer i samma Unicode-­‐fil skulle grupperas. Figur 1 -­‐ Gruppering av indikatorer Inläsning i Sverige-­‐ och MDim-­‐eXplorer
All data som städats och gjorts om till Unicode-­‐format lästes in i Sverige-­‐ och MDim-­‐
eXplorer. För att skapa en bättre struktur sparades alla filer ner till endast tre textfiler där alla indikatorer fanns, detta för att slippa ladda in så många filer. Då detta gjordes försvann all gruppering av indikatorerna som gjorts tidigare. Den kategoriska datan följde inte heller med då datan sparades ner och fick därför fortsatt läsas in för sig i en separat Excelfil. Grupperingen gjordes om från början. 6 Det upptäcktes här att det inte var tillräckligt att ändra indikatornamn endast i Data Wizard för att särskilja de indikatorer som från början hette samma i originaldataseten som laddats ner från de olika myndigheterna och organisationerna (exempelvis hade många data-­‐set indikatorerna män och kvinnor). När datan senare skulle laddas in i eXplorer hade Unicode-­‐filerna samma indikator-­‐ID, men indikatornamnet skiljde sig åt. Detta var länge ett problem då den använda eXplorern inte gav något felmeddelande. Två olika versioner av Sverige-­‐eXploreroch två olika versioner av MDim-­‐eXplorer användes9. Detta för att de tilldelade eXplorerna inte var tillräckliga. Exempelvis gavs inga konkreta felmeddelanden i de tilldelade eXplorerna.
Visualiseringsmetoder
För att visualisera datan på bästa sätt användes lämpliga metoder som fanns tillgängliga i Sverige-­‐ samt MDim-­‐eXplorer. Scatter Plot Scatter Plot användes för att enkelt se samband mellan tre till fyra variabler. Oftast användes olika variabler på x-­‐ respektive y-­‐axeln och på storleken, medan färgen mappades till någon av de tre variabler som redan använts eller till kommungrupp. Med tidsanimeringen ingår det även en tidsaspekt i representationen och med “time-­‐trace”-­‐
linjen går det att enkelt se hur variablerna för den eller de valda kommunerna ändras över tid. Parallel Coordinates Plot Parallel Coordinates Plot användes för att se korrelationer mellan många variabler, vilket var praktiskt för att hitta samband. Det var inte lika enkelt att använda denna metod för att presentera resultatet på ett tydligt sätt. Med Parallel Coordinates är det enkelt att filtrera och interagera med datan för att hitta samband. Distribution Plot
Distribution Plot var ett användbart för att överblicka kategorisk data. Metoden användes för att se om någon kommungrupp eller något län stack ut i förhållande till de andra. Kombinerat med Scatter Plot gav det en tydlig representation av datan och dess samband. Choropleth Map
En karta över Sverige var indelad i kommuner där färgen mappades till en variabel eller grupptillhörighet (kategorisk data). Det gick även att mappa färgen till län, dock användes det inte i det här projektet.
Treemap
Treemap användes för att visa skillnaden av hur många som flyttat till och ifrån de olika kommunerna, detta gav en tydlig bild av vilka kommuner som hade mer inflyttning än utflyttning och tvärtom. Kommunerna var grupperade efter kommungrupp och storleken indikerade befolkningsmängden. Kommuner med fler utflyttade än inflyttade fick en blå färg och kommuner med fler inflyttade än utflyttade fick en röd färg. Treemap tillhandahålls av MDim-­‐eXplorer. Det är i den här visualiseringen inte så tydligt vad det är färgen representerar, då de det inte framgår tydligt någonstans i applikationen. 7 En funktion som saknades här var att kunna se hur stor andel av kommunerna som hade lägre inflyttning än utflyttning och tvärtom. Detta kunde varit användbart för att få djupare förståelse i datan. Time Graph
Med Time Graph är det lätt att se förändringar över tid. Denna metod användes främst i utforskningen av datan, den visar tydligt plötsliga förändringar från år till år och den förenklar jämförelser mellan utvalda kommuner.
Scatter Matrix
För att snabbt se vilka variabler som hade en korrelation användes Scatter Matrix. När två variabler hittats med hög korrelation granskades de närmare i Scatter Plot. Denna metod var inte användbar för den slutgiltiga representationen, den användes endast till utforskningen av datan. Bar Chart
Bar Chart användes för att visa tydliga skillnader mellan kommunerna, den gav både en tydlig överblick och jämförelse mellan kommuner med liknande värde. Endast en variabel visas med Bar Chart men med tidsanimeringen visas förändringen över tid på ett bra sätt vilket var praktiskt både för utforskningen och representationen. För att markera vissa kommuner användes fokus, men då gick det bara att markera närliggande kommuner. Det hade varit bra om det gick att fokusera på kommuner med olika värden samtidigt, till exempel den med högst värde och den med lägst, för att kunna jämföra enklare under tidsanimeringen.
Time Bar Chart
Här visas ett stapeldiagram för en variabel av valda kommuner i olika tidssteg. Time Bar Chart användes till utforskning av datan, dock ansågs det bättre att använda Time Graph istället då denna metod visade fler kommuner samtidigt och som dessutom visade hela tidsspannet, vilket gav en bättre överblick vilket var vad som söktes. En fördel med Time Bar Chart är att det är enkelt att jämföra några utvalda kommuner för specifika år. En nackdel är dock att alla tidssteg oftast inte syns samtidigt om alla detaljer ska visas och detaljerna skrivs inte ut för varje stapel om flera kommuner är valda.
Table Lens
Denna metod användes i utforskningen av datan men inte i representationen då den är svårtolkad. För att se samband mellan flera variabler sorterades datan med avseende på lämplig variabel för att sedan jämföra den stapeln med de övriga. Här gick det att upptäcka om någon kommungrupp låg i toppen eller botten för en variabel och om det fanns något samband mellan fler variabler.
Interaktivitet
De viktigaste interaktiviteterna i projektet har varit tooltip, brushing och highlighting (linkedviews). Dessa interaktiviteter har underlättat i utforskningen och analysen av datan, det har varit enkelt att veta vilka linjer/cirklar/områden som är vilka och vad de har för exakta värden. För analys av utvalda kommuner har det varit praktiskt att kunna markera kommuner och se dem i flera vyer samtidigt. Tidsanimeringen och möjligheten att välja det tidssteg som visas tillsammans med “time-­‐trace”-­‐linjen har varit användbart för att visa förändringar över tid. Att kunna sortera datan med avseende på en variabel, 8 samt att kunna byta plats på variablerna i Table Lens och Parallel Coordinates har också varit viktigt för analys av datan. För att enklare kunna göra jämförelser mellan kommungrupperna hade det varit användbart att kunna byta platser i grupperingen i Distribution Plot. Det skulle underlätta analysen av datan om även kommun-­‐typ skrevs ut i tooltip, nu visas endast vilket län kommunen tillhör. Utforska datan När datan var inladdad i Sverige-­‐ och MDim-­‐eXplorer var det tid att undersöka den, detta gjordes explorativt, det vill säga utan hypotes. Kända samband så som att orter med hög inkomst korrelerar med orter där småhus kostar mycket hittades enkelt. Därefter testades många data-­‐set och indikatorer mot varandra för att undersöka om det fanns intressanta korrelationer, vilket hittades i några fall. För att få en överblick av flera indikatorer som var inlästa kunde Scatter Matrix användas med fördel i bägge eXplorerna. En del data-­‐set som lästes in fick väldigt små andelar efter att datan räknats om från antal till andel vilket vidare ledde till att det blev oproportionerligt stora variationer mellan olika orter. Denna data gick inte att korrelera med något under den explorativa analysen. För att upptäcka olika samband har olika visualiserings-­‐ och interaktivitetsmetoder använts. Ofta kunde en korrelation upptäckas med hjälp av Scatter Matrix som nämnts ovan för att få större förståelse för korrelation över tid användes ”time-­‐trace” och tidsanimering. Storytelling
Utifrån de korrelationer, samband och intressanta avvikelser som hittats i den utforskade datan har tre berättelser skrivits. Berättelserna förklarar vad som kan ses i datan, när det kan ses, var det kan ses och innehåller också en teori om varför det kan ses. Det går inte att använda kortkommandot för att ångra senaste eller expandera edit-­‐
textrutan där storyn skrivs vilket hade varit bra. Vilka kommuner har fler inflyttande än utflyttande?
Storyn “Vilka kommuner har fler inflyttande än utflyttande?” är skriven i MDim-­‐
eXplorer. Den tar upp vilka kommuner fler flyttar till än flyttar ifrån och ger en teori till varför det kan vara så. För att räkna ut vilka kommuner som har större inflyttning än utflyttning har skillnaden mellan antal inflyttade och utflyttade räknats ut, denna data hämtades ner från SCB och skillnaden räknades ut med hjälp av “Aggregate transform”. Datan sträcker sig från 2000 -­‐ 2011.
För att få en tydlig överblick över vilka kommuner fler flyttar till än flyttar ifrån har en Treemap använts. Den första vyn användaren möter är en Treemap där kommunerna är grupperade efter kommun-­‐typ se figur 2. Det skall här vara tydligt att se vilka kommuner fler flyttar till än ifrån då en divergerande färgskala används. De kommuner som ligger plus visas i röd nyans medan de som ligger minus är blåa. Storleken på rutorna är mappade till hur många det är som bor i de olika kommunerna, detta för att ge varje kommun en rättvis storlek, är det en stor kommun (befolkningsmässigt) får denna helt enkelt en större yta på skärmen.
9 Figur 2 -­‐ Treemap över inflyttning och utflyttning (2000)
Norrtälje är en kommun som sticker ut i sin kommungrupp, “Turism och besöknäringskommuner”, detta gör den i princip varje år från 2000 -­‐ 2011. Den första snapshoten visar en “drill-­‐down” i Treemapen där endast Norrtäljes kommungrupp visas för att förtydliga vad berättelsen vill säga se figur 3. Figur3 -­‐ Drill-­‐down iTreemap (2000) En förklaring kopplat till arbetslöshet ges till varför Norrtälje sticker ut i sin grupp. För att tydligt visa detta visas nu Treemapen tillsammans med en Distrubution Plot där andelen arbetslösa i varje kommun visas grupperat till kommungrupper. I Distrubution Ploten är det lätt att se hur Norrtälje ligger till vad gäller arbetslöshet jämfört med de andra kommunerna i samma grupp men också till övriga kommuner i landet. Norrtälje är markerat för att synas både i Treemapen och Distrubution Ploten se figur 4. 10 Figur 4 -­‐ Treemap och DistrubutionPlot med Norrtälje markerat Då arbetslösheten studeras över tid syns det tydligt hur arbetslösheten gått upp och ner under 00-­‐talet. Berättelsen tar upp att Alliansen fick makten 2006 och efter detta sjönk arbetslösheten drastiskt för att sedan 2008 öka markant igen. En förklaring ges i att de rådde en finanskris under de sista åren på 00-­‐talet. I den här snapshoten visas endast Distrubution Ploten med arbetslöshet, då denna tydligt visar det berättelsen säger. Berättelsen är förhållandevis enkel men visar på ett tydligt sätt hur Treemap kan användas på ett bra sätt. Utbildning och inkomst Storyn är skapad i Sverige-­‐eXplorer och berättar om samband i Sveriges kommuner mellan andel högutbildade, medelinkomst, kvinnors medelinkomst i förhållande till mäns medelinkomst, förstagångsföräldrars ålder samt köpeskilling för småhus. Den tar också upp hur dessa faktorer förändrats sedan 1991 till 2011. För att visa att andelen högutbildade och medelinkomst ökat i Sverige sedan 1991 visar den första snapshoten i figur 5 Sverigekartan, Scatter Plot och Bar Chart för 1991, med tidsanimeringen visas ökningen tydligt. Färgen indikerar andel högutbildade i kommunerna för alla representationer. I kartan visas alltså hur stor andel som är högutbildade i de olika kommunerna, och med tidsanimeringen illustreras hur andelen högutbildade förändras under åren 1991-­‐2011. I Scatter Plot visas också hur stor andelen högutbildade är i kommunerna, samt deras medelinkomst. Storleken på cirklarna är här mappade till folkmängd i kommunen. Med tidsanimeringen syns även här hur andel högutbildade ökat under de 20 åren, samt att medelinkomsterna ökat. I Bar Chart förtydligas ytterligare hur stor andelen högutbildade är i kommunerna och tillsammans med tidsanimeringen blir det väldigt tydligt hur andelen ökar. När animeringen stannar på 2011 syns i Scatter Plot en korrelation mellan andel högutbildade och medelinkomst och då dras slutsatsen att det lönar sig att utbilda sig eftersom att de kommunerna med högst medelinkomst också har en stor andel högutbildade. 11 Figur 5– Sverigekartan och Bar Chart visar andel högutbildade och Scatter Plot visar andel högutbildade samt medelinkomst (1991) I snapshot två som kan ses i figur 6 är kommunernas färg mappade till vilken kommun-­‐
typ de tillhör. Indikatorerna i Scatter Plot och Bar Chart är samma som i den förra snapshoten. Här har de kommuner med störst andel högutbildade “focus” på sig i Bar Chart för att det ska vara tydligt vilken kommungrupp de tillhör. I denna snapshot visas att kommuner med högst medelinkomst är förortskommuner till storstäder och de har även en relativt stor andel högutbildade. De kommunerna med störst andel högutbildade är storstäderna, förortskommuner till dessa samt kommuner med större städer. Figur 6– Andel högutbildade, medelinkomst och kommuntyper i sverigekartan, Bar Chart och Scatter Plot (2011) 12 I den tredje snapshoten, som kan ses i figur 7, visas endast kommuner med större städer på kartan, Scatter Plot och Distribution Plot. Indikatorerna i Scatter Plot är samma som i tidigare snapshots, i Distribution Plot visas medelinkomst för de olika kommunerna. Här syns att det inte är så stor skillnad på medelinkomst för kommuner med större städer, oavsett andelen högutbildade eller var i landet kommunen ligger. I den här kommungruppen finns Lund, Uppsala, Umeå och Linköping som också är markerade i snapshoten. Dessa städer har en betydligt större andel högutbildade än övriga i gruppen, antagligen på grund av att de är universitetsstäder. Figur 7– Andel högutbildade och medelinkomst visas för kommungruppen ”större städer” i kartan, Scatter Plot och Distribution Plot med Lund, Uppsala, Umeå och Linköping markerade (1991) I den fjärde snapshoten, figur 8, visas kartan återigen med färgen mappad till kommungrupp. I Scatter Plot är storleken på cirklarna fortfarande mappad till folkmängd och axlarna är mappade till kvinnans lön i förhållande till mannens och medelinkomst för män. Årjäng och Danderyd är markerade och ”time-­‐trace” visar hur de ändrats under 1991-­‐2011. Det finns en tydlig korrelation mellan medelinkomst och kvinnans lön i förhållande till mannens, där medelinkomsten är hög har kvinnor mycket lägre lön i jämförelse med männens och där medelinkomsten är låg så är klyftan mindre. I Danderyd är medelinkomsten högst och en kvinna tjänar i snitt hälften av vad en man tjänar. Danderyd är en förort till en storstad och dessa kommuner har generellt en högre inkomst än övriga kommuner. Årjäng är en glesbygdskommun och en av de kommuner där skillnaden mellan kvinnors och mäns löner är minst, men även medelinkomsten är låg där. I tidsanimeringen (1991-­‐2011) syns i Scatter Plot att för de kommunerna med låg medelinkomst så har klyftan mellan kvinnors och mäns löner minskat mer än för kommunerna med hög medelinkomst. 13 Figur 8– Kvinnans medelinkomst i förhållande till mannens medelinkomst för de olika kommuntyperna i kartan och Scatter Plot med Årjäng och Danderyd markerade (2011) I den första snapshoten i andra kapitlet visar kartan andel högutbildade, se figur 9. Scatter Plot visar här andel högutbildade och medelålder för förstagångsföräldrar och storleken på cirklarna är mappade till folkmängden. I Distribution Plot visas medelåldern för förstagångsföräldrar i kommunerna som är grupperade efter län. Med tidsanimeringen 1991-­‐2011 är det tydligt att åldern ökat för förstagångsföräldrar. Detta kan bero på att andelen högutbildade som sagt ökat i hela landet under den här tiden och att folk alltså väljer att utbilda sig och satsa på karriären innan de bildar familj. Figur 9– Andel högutbildade och medelålder vid första barnet i kartan, Scatter Plot och Distribution Plot (1993) 14 I den sista snapshoten som ses i figur 10 visas sverigekartan, Scatter Plot och Distribution Plot. Färgen är mappad till köpeskilling för småhus, i Scatter Plot visas sambandet mellan köpeskilling för småhus och medelålder för förstagångsföräldrar. Storleken är som tidigare en representation av folkmängd. I Distribution Plot visas medelinkomsten för kommunerna grupperade efter kommun-­‐typ. Med tidsanimeringen (1991-­‐2011) syns att det finns ett samband mellan köpeskilling för småhus, medelinkomst och medelålder vid första barnet; där folk tjänar mer så är det dyrare att köpa hus och förstagångsföräldrarna är äldre. Figur 10– Köpeskilling för småhus, medelålder vid första barnet samt medelinkomst representerade med sverigekartan, Scatter Plot och Distribution Plot (1991) Var i Sverige mår människor bäst respektive sämst? För att ta reda på utifrån sjuk-­‐ och ohälsotal var i och i vilken typ av kommungrupper svenskarna mår bäst respektive sämst har data från försäkringskassan använts. Sjuk-­‐ och ohälsotal är data som beskriver antal dagar med sjukpenning räknat på olika sätt. För att ge en mer generell bild av vad som menas med att må bra/sämre har följande indikatorer använts; livslängd, arbetslöshet, medelinkomst, medianinkomst och kommun-­‐typ. I figur 11 har Parallel Coordinates Plot använts för att påvisa korrelationen mellan medianinkomst och ohälsotal, den visar att de röda förortskommunerna är de kommuner i Sverige där medianinkomsten är högst. För att få fram de kommuner och kommuntyper där svenskarna mår sämre har filtrering i Parallel Coordinates tillämpats. De kommuner som filtrerats fram är färglagda på Sverigekartan i figur 12. 15 Figur11 -­‐ Parallel Coordinates Plot utan filtrering Figur 12 -­‐ De "sämre" kommunerna är färglagda 16 Det som visas i figur 12 är vilka kommuner, vilka kommungrupper samt var i Sverige svenskarna mår sämst enligt de ovan givna indikatorer. Det som också kan utläsas här är att de är kommuner där invånarna har lägre inkomster, lägre medellivslängd och högre arbetslöshet. De kommungrupper som finns representerade här är glesbefolkade kommuner, varuproducerande och pendlingskommuner. Ett undantag ifrån det är Lilla Edet som är en förortskommun till Göteborg. I figur 13 har filtrering använts för att få fram en grupp kommuner på datan från försäkringskassan, denna gång för att visa de kommuner med de lägsta ohälso-­‐ och sjuktalen. Det som visas mest här är förortskommuner till de tre största städerna. I Parallel Coordinates går det att se att i de kommuner där invånare mår bra också har de högre inkomster, längre medellivslängderna samt lägre arbetslöshet. Undantaget från detta är de stora universitetsstäderna Linköping, Lund och Uppsala där ohälso-­‐ och sjuktalen är låga även så inkomstnivån. Att det är just dessa studentstäder som visar på dessa samband kan bero på att det bor en stor andel unga människor där. Figur 13 -­‐ De "bättre" kommunerna färglagda 17 Diskussion En stor del av arbetet med projektet var att formatera Exceldokument med rådata för att kunna läsa in dem i eXplorerna. Det har varit stor skillnad på hur mycket som behövde ändras i filerna på grund av att datan hämtats från olika källor och därför har det varit stor skillnad på hur filerna sett ut och därmed har det tagit olika lång tid att formatera dokumenten. En standard för hur Excelfiler med statistik och data hos de olika myndigheterna och organisationerna skall se ut hade varit att rekommendera. Under den explorativa analysen av den insamlade datan upptäcktes samband som sedan kunde presenteras med storytelling. I en del av datan som samlades in hittades inga intressanta samband och därför användes den inte i historierna. I inledningen nämndes att ingen hypotes användes för arbetet och en nackdel med det var att mycket tid lades ner på att formatera data som sedan inte användes. Fördelen med att inte utgå från en hypotes var att det hittades samband som inte var tänkta på innan datan börjades utforskas. En annan fördel var att många olika visualiseringsmetoder fick provas på även om de inte användes i den slutgiltiga presentationen. För att på ett metodiskt sätt arbeta fram de berättelser som gjordes utgicks det ifrån the sense-­‐making-­‐loop vilket var mycket användbart för att skapa insikt och förståelse för datan. Eftersom det är många buggar i eXplorerna i kombination med bristen på felmeddelanden tog det lång tid att lösa enkla problem. På grund av problem med eXplorerna som länkades till från kurshemsidan så användes istället eXplorerna direkt från NComVA. Ett problem var att Sverige-­‐eXplorer (på kurshemsidan) inte klarade att ladda in all data som skulle laddas in. 18 Källförteckning 1SCB -­‐ http://www.scb.se/ 2 Statens folkhälsoinstitut -­‐http://www.fhi.se/ 3 SKL, Kolada -­‐ http://www.kolada.se/index.php 4 Svenskt näringsliv -­‐ http://www.svensktnaringsliv.se/ 5 Försäkringskassan – http://www.forsakringskassan.se/statistik/ 6 Socialstyrelsen -­‐ http://www.socialstyrelsen.se/ 7
SKL, kommungrupper http://www.skl.se/kommuner_och_landsting/om_kommuner/kommungruppsindelning 8SCB, kommun till län - http://www.scb.se/Pages/List____257281.aspx
9 Tilldelade eXplorers -­‐ http://servus.itn.liu.se/courses/TNM048/sweden/#story=0 http://servus.itn.liu.se/courses/TNM048/sweden/#story=0 Andra använda eXplorers-­‐ http://www.ncomva.se/apps/ex/swe/ -­‐ story=0 http://www.ncomva.se/apps/mdim/#story=0 19 Bilaga 1 Här finns alla data vi har hämtat och läst in i de olika eXplorerna. All data har inte använts i de berättelser som skrivits.
FHI -­‐ Statens folkhälsoinstitut Antal aborter per 1000 kvinnor, år och kommun. Medellivslängd efter region och kön
Försäkringskassan Ohälsotal efter kommun år och kön Sjuktal efter kommun år och kön SCB -­‐ statistiska centralbyrån
Andel behöriga till gymnasiet efter år, kön och kommun
Antal biståndsmottagare efter ålder, kön, år och kommun Antal högskoleutbildade efter kön och kommun Antal utrikesfödda efter kön och kommun
Bostadsrättspriser efter län Folkmängd efter kön, kommun, län, ålder och år
Fruktsamhet efter kön, år och kommun
Inflyttningar efter ålder, kön och kommun Köpeskilling småhus efter kommun Medelinkomst efter kön och kommun
Medelålder efter kön och kommun Medelålder vid första barnet efter kön och kommun Medianinkomst efter kön och kommun Utflyttningar efter ålder, kön och kommun
SKL -­‐ Sveriges kommuner och landsting
Arbetslöshet efter kommun
Socialstyrelsen Antal barn i boende-­‐ eller umgängesutredning efter kommun Antal vuxna med missbruksproblem med behovsprövade öppna insatser efter kommun
Antal ärenden i familjerådgivning efter kommun Utskrivna recept per 1000 invånare efter kön och län
Svenskt näringsliv
Antal privata arbetsplatser per kommun Företagsklimat efter ranking och kommun
20