Kraftfullt statistikverktyg för forskare

Transcript Kraftfullt statistikverktyg för forskare

TM
Kraftfullt
statistikverktyg
för forskare
Nu ingår hela programpaketet
utan extra kostnad!
j!
n
a
p
Kam
d
Använ
A
C
I
T
S
I
T
A
ndast
e
T
2
1
S
/
1
ed 3
r
k
5
94
m
till och
Vi kan STATISTICA!
StatSoft satsar aktivt på den akademiska sektorn. Vi strävar efter att
STATISTICA på bästa sätt ska hjälpa forskare knutna till universitet och
högskolor. Förutom ett brett statistikprogram får du tillgång till support,
utbildning och konsulthjälp hos oss.
Kontakta oss!
Tfn 018-21 00 45 e-post [email protected] www.statsoft.se
Våra användare finns bl a på:
Försvarshögskolan • Chalmers tekniska högskola • Gymnastik- och idrottshögskolan • Göteborgs
universitet • Högskolan i Borås • Högskolan i Gävle • Högskolan i Jönköping • Högskolan i Skövde •
Högskolan Väst • Karlstads universitet • Karolinska Institutet • Kungl. Tekniska högskolan (KTH) •
Linköpings universitet • Linnéuniversitetet • Luleå tekniska universitet • Lunds universitet • Malmö
högskola • Mittuniversitetet • Mälardalens högskola • Sophiahemmet Högskola • Stockholms
universitet • Sveriges lantbruksuniversitet • Södertörns högskola • Umeå universitet • Uppsala
universitet • Örebro universitet • Högskolan på Gotland • Helsingfors universitet • Köpenhamns
Universitet • University of Tartu •
STATISTICA – ett ovärderligt stöd för forskare
Sedan 1989 har STATISTICA hjälpt svenska forskare
och studenter i deras vetenskapliga arbete. Målet är
att förenkla och förkorta den tid du lägger ner på att
bearbeta och presentera det statistiska materialet.
Genom att kombinera en mängd kraftfulla analyser
med stor användarvänlighet har STATISTICA fått stor
utbredning och idag finns över 600 000 användare
spridda över hela världen.
ssig
Förstkla
grafik
STATISTICA är ett komplett statistikverktyg
som innehåller allt från beskrivande dataanalys
till avancerad statistisk modellering och
datapresentation. Det finns många goda skäl att välja
STATISTICA:
En av de största orsakerna till STATISTICAs popularitet är den
oöverträffade grafiken. Du får snabb tillgång till en mängd diagram och
grafer.
t
Kraftfull
Bredden och omfattningen av analytiska procedurer är unik. Nu
ingår dessutom Data Miner, Text Miner, Variance (VEPAC) och
Processoptimering när du tecknar STATISTICA Hyrlicens.
ttanvänt
Lä
Har du tidigare arbetat med Excel kommer du snabbt in i programmet.
STATISTICA är väl integrerat med Officepaketet, t ex kan Excelark
öppnas och analyseras direkt i STATISTICA.
och
Support
g
utbildnin
Hos StatSoft får du tillgång till både support,
utbildning och konsultation.
STATISTICA Hyrlicens
Nu kan du som är knuten till universitet
eller högskola teckna STATISTICA
Hyrlicens för endast 945 kr exkl. moms.
Du får då STATISTICA till och med 31
december 2011. Du kan sedan förlänga
abonnemanget med ett år i taget till
ordinarie pris 1 890 kr/år exkl moms.
Du får:
kampan
jpris 945 kr exkl mo
ms
›› Ett komplett STATISTICAprogram, inkl alla moduler
›› Automatiska uppgraderingar till den senaste versionen
›› Låg årskostnad
›› Fri teknisk support
›› Introduktionsmanual
Innehåll
Base, den grundläggande statistiken 5
Reliabilitetsanalys 10
Multidimensionell scaling 11
Advanced, mer avancerade
statistiska metoder 5
Power analysis 11
Advanced models 5
ANOVA 5
Linjär regression 6
Ickelinjära modeller 6
Log-linjär analys 7
Tidsserieanalys 7
Överlevnadsanalys 8
SEPATH 9
PLS och NIPALS 9
Multivariate/Exploratory 9
Faktor- och Principalkomponentanalys 9
Klusteranalys 9
Diskriminantanalys 9
Korrespondensanalys 9
Kanonisk korrelation 10
Beslutsträd 10
Distributions and simulation 11
Industristatistik 11
Kvalitetskontrolldiagram 11
Processoptimering 12
Försöksplanering 13
Variance (VEPAC) 13
Neurala nätverk 13
Data Miner 13
Text Miner 15
Grundat i USA 1984
Base, den grundläggande statistiken
Den grundläggande delen av STATISTICA heter Base
och innehåller de mest fundamentala och viktigaste
delarna för att kunna göra bra statistik. Här finner
du det som behövs för att ta fram deskriptiv och
grundläggande statistik. Du kan även få fram all
statistik och grafer som hör ihop med olika tabeller.
Base innehåller även det mesta inom datahantering
och grafer.
• Deskriptiv statistik
• T-test
• Ickeparametriska metoder
• Datahantering
• Regression
• Korrelationer
• Tabeller och statistik
• Grafer
• ANOVA
• Distribution fitting
Exempel
T-test Patienter med högt blodtryck väljs slumpvis ut till en
placebogrupp och en behandlingsgrupp. Placebogruppen
får ett inaktivt piller och behandlingsgruppen får ett nytt
läkemedel som väntas sänka blodtrycket. Efter en tid tas
blodtrycksmedelvärdena fram i de båda grupperna och ett
t-test används för att avgöra om det finns någon skillnad
mellan de två grupperna som inte beror på slumpen.
Advanced, mer avancerade statistiska metoder
En naturlig fortsättning på BASE är Advanced som
innehåller mer och fler avancerade statistiska metoder.
Denna modul har indelats i fyra delar som kallas för
Advanced models, Multivariate/Exploratory, Power
analysis och Distributions and simulations.
Advanced models
Advanced models är den mest använda delen i denna
modul eftersom den innehåller allt du behöver för att
jämföra grupper och hitta samband både i linjära och
ickelinjära data. Den innehåller även mycket annat
användbart och några exempel på innehåll och vad de
kan användas till är följande:
ANOVA
ANOVA används exempelvis då man vill jämföra
medelvärden mellan flera grupper eller flera upprepade
mätningar. Kovariansanalys, Repeated measure
Representerat i 24 länder i alla världsdelar
5
och Varianskomponenter är alla tre exempel på
specialvarianter av ANOVA.
Exempel
Repeated measure ANOVA Två olika dieters effekter vad
gäller viktreducering ska undersökas över tid och mellan
kön. Två grupper delas upp, den ena gruppen ska få
gå på diet A och den andra på diet B. Lika många män
som kvinnor fördelas mellan de två grupperna. Sedan
mäts allas vikt i början av studien och sedan en gång i
månaden i tre månader då studien avslutas. I denna studie
undersöks tre saker. Dels är man intresserad av att se om
tiden har betydelse inom en grupp, dvs. minskar vikten
för ett objekt under tiden som man går på dieten. Dels
är man intresserad av om dieterna sinsemellan ger olika
resultat samt om dieterna slår olika beroende på kön. Vid
ett sådant här komplicerat designupplägg är man tvungen
att använda Repeated measure ANOVA för att svara på
frågeställningarna.
Linjär regression
Regression hjälper oss att förstå relationen mellan
variabler och att förutsäga exempelvis en patients
status när det gäller en viss variabel som är av
intresse. Regressionsmodeller kan användas som stöd
vid olika kliniska beslut genom att de i viss mån
kan göra förutsägelser vid en viss given situation.
På så sätt kan de underlätta vissa beslut. Multipeloch polynomregression är två vanliga varianter av
regression
Exempel
Multipel regression Man har sett att ett nytt läkemedel
sänker blodtrycket olika mycket hos olika patienter. För
att ta reda på varför och vilka variabler som påverkar
blodtrycket används multipel regression. Med hjälp av
denna metod kan man se samband mellan olika variabler
(patientens vikt, ålder, längd, kolesterol, blodsocker m.m.)
och blodtrycket. Vilket kan hjälpa till att i framtiden förstå
om en patients blodtryck kommer att sjunka eller inte när
läkemedlet sätts in.
Ickelinjära modeller
Både ANOVA och regression fungerar bäst på
normalfördelat och linjärt data. När kraven inte
”STATISTICA gör komplicerad statistik enkel”
Marius Kublickas är överläkare vid Centrum för fostermedicin på Karolinska
Universitetssjukhuset i Huddinge. I sitt forskningsarbete behöver han ett statistikprogram
som stöd vid analys av forskningsresultat samt hjälp med powerberäkningar och
beräkningar av vilket antal patienter som krävs för en studie. Marius, som har använt
programmet i ett femtontal år, säger att valet föll på STATISTICA mycket tack vare
användargränssnittet. ”Mycket komplicerade statistiska metoder presenteras på ett så
enkelt sätt att man sällan behöver använda manualen”, menar Marius. ”Stöter man trots
detta på patrull så är StatSofts support både snabb och effektiv”, fortsätter Marius som
är mycket nöjd och rekommenderar STATISTICA till nya användare.
6
På den svenska marknaden sedan 1989
Log-linjär analys
uppfylls kan man använda olika ickelinjära varianter
av dessa metoder. Logistisk och Poisson regression är
två vanliga varianter.
Exempel
Logistisk regression I ett försök att ta reda på vilka
faktorer som påverkar varför man får respektive inte får
en viss sjukdom ska ett nyligen skett utbrott av denna
sjukdom undersökas. Individer i staden där utbrottet
skedde väljs slumpmässigt ut och intervjuas så att
olika bakgrundsfaktorer kan samlas in, såsom ålder,
socioekonomisk status och i vilken stadsdel individen bor.
Eftersom själva utfallsvariabeln bara kan anta två värden
(antingen fick man sjukdomen eller inte) används logistisk
regression för att besvara frågeställningen.
www.statsoft.se
En grundläggande metod för analys av kategoriska
data är via enkla 2x2 tabeller (även kallad
fyrfältstabell). Vid större tabeller blir de grundläggande
metoderna snabbt otillräckliga och log-linjär analys
är ett mer sofistikerat sätt att se på dessa korstabeller.
Den kan användas för att testa statistisk signifikans
för olika faktorer och deras interaktioner samt på ett
lättare sätt påvisa var skillnaderna finns i en större
tabell.
Tidsserieanalys
Önskan om att se in i framtiden är väl lika gammal
som människan (om inte äldre) och en gång i tiden
(och viss mån även idag) litade vi på kristallkulor
eller profeter. Vi har kommit en bit sedan dess och
nu studeras tidsserier för att kunna se in i framtiden.
Tidsserieanalys är en variant av regression där tiden
har en avgörande betydelse.
7
Överlevnadsanalys
Överlevnadsanalys (eller time-to-event/failure) är
väl lämpad inom den medicinska forskningen då
man är intresserad av att mäta tiden det tar till att
något händer samt då man vill ta hänsyn till att
alla observationer inte kommer att nå den händelse
som man är intresserad av att mäta. Några metoder
kan även användas då man är intresserad av vilka
variabler som bidrar till en längre/kortare överlevnad.
Det är speciellt två statistiska metoder som används
inom överlevnadsanalys, Kaplan-Meier och Cox
proportial hazard regression.
I den senaste versionen av STATISTICA kom en extra
modul för Cox Proportional Hazards. Traditionella
Cox-modeller behandlar data för sk. ”single events”.
Alltså, då ett objekt når endast en ”endpoint”. Nytt i
modulen är att den kan behandla ”multiple events”
eller ”reaccuring events”. Andra nyheter är att man
nu kan precisera exakt hur modellen ska se ut med
huvudeffekter och interaktionstermer (utan att behöva
skapa egna). Det är också möjligt att låta programmet
ta fram en ”bästa” modell genom Best subset,
Forward entry, Backward removal eller Stepwise
och så är det nu möjligt att få konfidensintervall på
överlevnadskurvorna.
Exempel
Cox proportional hazard regression Graviditetslängden
hos 3000 kvinnor i Sverige ska undersökas och man har
en hypotes om att det finns olika variabler (ålder, vikt,
ifall man röker eller inte m.m.) som styr ifall kvinnans
graviditetslängd blir normal, längre än normalt eller
kortare än normalt. Eftersom utfallsvariabeln är tiden från
graviditetens början till eventuell födelse samt att man är
intresserad av vilka variabler som styr denna längd måste
man använda Cox regression.
STATISTICA Hyrlicens – enkel, snabb och ekonomisk statistiklösning
Claes Olerud är professor i ortopedi vid Karolinska Institutet och överläkare vid
Stockholm Spine Center. Hans forskning behandlar degenerativa ryggbesvär och
diskbråck i halsryggen. Sedan flera år använder han och ett antal doktorander i hans
forskargrupp STATISTICA Hyrlicens. Orsakerna till att valet föll på STATISTICA var flera.
”STATISTICA ger enkel och snabb statistisk genomlysning av resultat av kliniska studier.
Dessutom tillhandahåller STATISTICA bra tabeller och diagram som kan användas direkt
i presentationer och publikationer”, menar Claes Olerud. Genom att välja STATISTICA
Hyrlicens fick man en kostnadseffektiv statistiklösning med fria uppgraderingar.
8
Är en av världens största leverantörer av statistisk mjukvara
SEPATH
Klusteranalys
SEPATH är en förkortning på Structural Equation
Modeling (SEM) and Path diagram. Denna metod är en
bekräftande teknik som ska användas för att avgöra
om en modell är giltig i jämförelse med tidigare
forskning. Den ska inte användas för att hitta en
lämplig modell då den inte är en förklarande teknik.
En generell frågeställning som forskare inom många
områden stöter på är hur man organiserar observerade
data i meningsfulla strukturer. Till exempel måste
biologer klassificera de olika djurarterna, för att en
meningsfull beskrivning av skillnaderna ska bli möjlig.
Klusteranalys är inte en typisk statistisk metod där
man testar hypoteser med hjälp av signifikanser,
istället är det en metod för att gruppera data och skapa
hypoteser.
PLS och NIPALS
Partial Least Square (PLS) och Nonlinear Iterative
Partial Least Squares (NIPALS) tillämpas allmänt inom
kemometri där man vill optimera eller undersöka
kemiska processer. Metoderna används också vid
hjärnforskning och speciellt vid bedömning av data
från hjärnavbildningar. PLS är en prediktiv teknik
som är särskilt användbar när variablerna är starkt
korrelerade eller när antalet variabler överstiger antalet
observationer.
Multivariate/Exploratory
Inom denna modul finns en rad olika modeller som
kan användas för att klassificera, verifiera eller
reducera dimensioner i data. Några exempel på
metoder och vad de kan användas till är följande:
Faktor- och Principalkomponentanalys
Principalkomponentanalys (PCA) och faktoranalys
är nära besläktade och metoderna har två större
användningsområden. Faktoranalys används för att
hitta ”dolda” variabler (faktorer) och PCA används för
att variabelreducera data genom att omvandla ett antal
korrelerade variabler till ett mindre antal okorrelerade
variabler som kallas för principalkomponenter.
Metoderna är väldigt användbara inom många olika
områden.
Diskriminantanalys
Diskriminantanalys har många likheter med multipel
regression (speciellt logistisk regression) men med
den skillnaden att utfallsvariabeln är kategorisk
(grupperande) och metoden används i första hand för
att klassificera observationer. Exempelvis kanske vi
vill veta om en kvinnas graviditetslängd kommer att
bli missfall, normal, för kort eller för lång. Eftersom
utfallsvariabeln är kategorisk med fyra grupper skulle
metoden kunna användas för att bygga en modell som
klassificerar en kvinnas graviditetslängd med hjälp av
olika karakteristikor (t.ex. vikt, längd).
Korrespondensanalys
Korrespondensanalys är en deskriptiv teknik för att
analysera enkla korstabeller (där variablerna består
av kategoriska data) eller mer avancerade tabeller
som innehåller ett visst mått av överensstämmelse
mellan rader och kolumner. Utgångspunkten för
enkel korrespondensanalys är en korstabulering
Exempel
Faktoranalys En stor enkätundersökning (med hundratals
frågor) har gjorts där deltagarna bland annat fått uppskatta
hur mycket tid (procentuellt sett) de lägger på olika
aktiviteter (jobba, diska, skjutsa barn, handla, sporta
m.m.) under månad. Ett sätt att analysera den spenderade
tiden är att med hjälp av faktoranalys försöka hitta dolda
variabler.Exempelvis kanske diska, städa och laga mat
skulle kunna förklaras av en faktor för hemarbete. På så
sätt skulle underliggande strukturer i data kunna hittas och
i samma veva reduceras antalet variabler som ska tolkas.
Erbjuder statistisk konsultation
9
av två kategoriska variabler. Resultatet är en
uppsättning koordinater för variablernas kategorier,
vilka på ett geometriskt sätt representerar hur dessa
kategorier förhåller sig till varandra. Kategorier som
korrespondensanalysen placerar nära varandra, har
positivt samband med varandra, dvs. förekommer
ofta samtidigt i materialet, medan det motsatta
gäller för kategorier som ligger långt från varandra.
Sammantaget gör detta att metoden är mycket bra på
att visualisera korstabeller.
Kanonisk korrelation
Kanonisk analys kan användas när forskare vill
analysera förhållandet mellan två olika delar av ett
datamaterial med variabler. Till exempel kanske man
vill förstå sambandet mellan kvinnors demografiska
egenskaper å ena sidan (t.ex. ålder, utbildning) och
deras användning av hälsofrämjande strategier
under graviditet (t.ex. alkoholkonsumtion, rökning)
å den andra. Denna metod kan också användas
när alla variabler i den ena delen räknas som olika
utfallsvariabler och variablerna i den andra delen av
datamaterialet är förklaringsvariabler.
Beslutsträd
Klassifikationsträd, eller beslutsträd används för att
förutsäga till vilken grupp/klass en observation eller
objekt tillhör med hjälp av information från en eller
flera variabler. Denna metod går att applicera på
mängder av olika problem inom vitt skilda områden
såsom medicin (diagnos), datalogi (datastrukturer),
botanik (klassificering) och psykologi (beslutsteori).
Metoden går att illustrera grafiskt vilket underlättar
den annars komplexa tolkningen av analysen väldigt
mycket.
Reliabilitetsanalys
Inom många forskningsområden innebär exakt
mätning en utmaning i sig. Ett vanligt område är
psykologi där det är svårt att exakt mäta variabler som
reflekterar personlighet eller attityder. I alla sociala
vetenskaper kommer otillförlitliga mätningar av
människors uppfattningar eller attityder att försvåra
både analyser och möjligheten att förutsäga beteenden.
I dessa fall kan reliabilitetsanalys användas för att
”Doktoranderna har efter utbildningen hos StatSoft gjort enorma framsteg
i sitt forskningsarbete”
Haile Mahteme är överläkare vid kirurgkliniken vid Akademiska sjukhuset i Uppsala.
Sjukhuset är först i Norden med en ny metod för behandling av patienter med avancerad
cancer som spridit sig till bukhinnan. Haile genomför operationer enligt denna metod
samt ansvarar och driver forskning kring cancer i bukhinnan.
Samtliga i forskargruppen kring Haile använder idag STATISTICA för sin forskning.
Fördelarna med detta är flera. Genom att man använder samma program kan man stötta
varandra. En annan fördel är att man upplever STATISTICA som mycket användarvänligt.
För att kunna utnyttja programmet maximalt gick man en grundutbildning i
STATISTICA. ”Doktoranderna har efter utbildningen gjort enorma framsteg i sitt
forskningsarbete eftersom de känner sig trygga med programmet”, säger Haile. ”Vi fick
under kursen kunskaper om både statistik och STATISTICA. Jag vill också framhålla
supporten från StatSoft som är unik”, avslutar Haile.
10
www.statsoft.se
konstruera pålitliga mätskalorna, förbättra befintliga
skalor eller utvärdera skalor som redan används.
Programmet kommer att beräkna mått som tillåter
användaren att bygga och utvärdera skalor.
Multidimensionell skalning
Multidimensionell skalning (MDS) kan anses
vara ett alternativ till faktoranalys. I allmänhet
är målet för analysen att upptäcka meningsfulla
underliggande dimensioner som tillåter forskaren
att förklara observerade likheter eller skillnader
mellan de undersökta objekten. I faktoranalys är
likheter mellan objekt (t.ex. variabler), uttryckt i
korrelationsmatrisen. Med MDS kan du, förutom att se
dessa i korrelationsmatriser, analysera andra former av
matriser för lik- och olikhet.
Power analysis
Power och urvalsberäkningar är en viktig del av
en studiedesign för utan dessa beräkningar kan
stickprovsstorleken bli för stor eller för liten, vilket
även påverkar powern. Om provstorleken är för låg,
kommer experimentet att sakna precision för att
ge tillförlitliga svar på de frågor man undersöker.
Om provstorleken är för stor, slösar man både tid
och resurser, ofta för en väldigt liten vinst. När
man beräknar urvalsstorlekar måste man kunna de
bakomliggande formlerna för den specifika metod som
ska användas. Beroende på vilket problem du står inför
så finns det i STATISTICA hjälpmedel för att kunna
beräkna power/urvalsstorlek.
Industristatistik
Den tredje delen av STATISTICA kallas för
industristatistik eftersom metoderna ursprungligen
utvecklades inom industrin. Användningsområdena
för dessa metoder sträcker sig dock långt utanför
industrin.
Kvalitetskontrolldiagram
Kontrolldiagrammen går att dela upp i två större
grupper. Den ena gruppen innehåller kontrolldiagram
som följer en process i taget (univariate) och den andra
innehåller diagram där processen tar hänsyn till andra
variablers inflytande (multivariate).
Distributions and simulation
Syftet med denna modul är att ge ett allmänt verktyg
för att utföra simuleringsstudier. Konkret kommer
modulen ge dig en möjlighet att utföra experiment
genom att simulera data till variabler från specifika
distributioner. Dessa metoder har blivit populära inom
olika områden, bland annat:
1.
2.
3.
4.
5.
6.
Riskmodeller
Försöksplanering (DOE)
Multivariat processövervakning
Tillförlitlighet
Power analys
Slutna system, stokastiska optimering
Grundat av forskare för forskare
11
Det finns väldigt många olika kontrolldiagram,
även kända som Shewhart diagram, inom statistisk
processtyrning men i huvudsak är de verktyg som
används för att avgöra om en tillverknings- eller
affärsprocess är inom statistisk kontroll. Grunderna
i ett vanligt kontrolldiagram är väldigt enkla men
ger en tydlig bild av hur processen ser ut och ifall
avvikande värden är inom eller utanför den statistiska
felmarginalen.
Processoptimering
Processoptimering är den disciplin som justerar en
process så att vissa parametrar optimeras utan att
bryta mot uppsatta kravspecifikationer. De vanligaste
målen är att minimera kostnaderna, maximera
genomströmningen och/eller effektiviteten. Inom
denna modul finns många olika metoder att använda
men tre av dem är relativt allmängiltiga:
”STATISTICA gör det lätt för forskaren att förstå sina resultat”
Elisabeth Berg är statistiker och arbetar på Karolinska Institutet, vid avdelningen
MedStat inom institutionen LIME (Lärande, Informatik, Management och Etik). MedStat
tillhandahåller professionella tjänster inom medicinsk statistik och hjälper medicinska
forskare och forskningsorganisationer. Elisabeth själv arbetar som statistiker med
handledning, rådgivning och utvärdering av kliniska prövningar. Sedan ett femtontal
år använder man STATISTICA för de flesta forskningsprojekt samt inom undervisning i
medicinsk statistik.
Tidigare använde man ett annat program men kände att man behövde något mer
kraftfullt. ”Jag arbetar mycket med ANOVA-modeller och när jag fick STATISTICA
demonstrerat för mig, vad det gäller just ANOVA-modulen, blev jag mycket imponerad.
Modulen är väldigt flexibel och lättarbetad. Det kändes naturligt att gå över till
STATISTICA.”
”Det bästa med STATISTICA är att det går snabbt och lätt att få fram resultat”, säger
Elisabeth. ”Datahanteringen är väldigt smidig. Det är också enkelt att göra ”kluriga”
transformationer och spara resultat i rapportfiler. STATISTICAs fina grafer gör det så
mycket lättare för forskaren att förstå sitt resultat”, menar Elisabeth. På frågan om vad
hon anser om STATISTICAs support skrattar Elisabeth. ”Jag har faktiskt aldrig behövt
anlita supporten. Det måste väl vara ett gott tecken!” avslutar Elisabeth med ett leende.
12
Vår mjukvara används vid universitet i 60 länder
• Capability ratio for true position är en metod för att
grafiskt se hur förhållandet mellan två variabler ser
ut (true position) jämfört med vad den borde vara
enligt uppsatta specifikationer.
• Weibull analysis and reliability/failure time analysis
är en industriell variant av överlevnadsanalys och
innehåller en hel del matnyttigt och intressant för
den som räknar mycket på överlevnadsstatistik.
• Sampling plans for means, proportions and Poisson
frequencies är en industriell minivariant av
modulen power/urvalsberäkningar. Denna modul är
mycket bra på grund av det pedagogiska upplägget.
Den är ren och väldigt enkel att hantera vilket gör
den attraktiv.
Försöksplanering
Design of experiments (DOE eller försöksplanering på
svenska) är något som alla borde vara intresserade av
och som alla på ett eller annat sätt gör inför en studie.
Här finns en rad olika varianter på försök. Man kan
antingen skapa en försöksplan (design) eller analysera
redan insamlat data inom en viss design. Många av
dessa känns igen från ANOVA.
och randomiserade effekter. Används speciellt ofta
inom Split-plot design som är en del av Design of
experiments (DOE) modulen.
Neurala nätverk
Under de senaste två decennierna har intresset för
neurala nätverk fullkomligt exploderat och tillämpas
inom så skilda områden som ekonomi, medicin, teknik,
geologi, och fysik. En av fördelarna med neurala
nätverk är att modellen kan lära genom exempel. Detta
betyder att modellerna i neurala nätverk själva kan
lära sig genom att åberopa algoritmer som automatiskt
lär sig strukturen av data. Även om användaren
behöver ha kunskap om hur man väljer och förbereder
data, hur man väljer lämpligt neurala nätverk, och
hur man tolkar resultaten, är nivån på användarens
kunskap för att framgångsrikt tillämpa neurala nätverk
mycket lägre än vad som krävs i de flesta traditionella
statistiska verktyg.
Data Miner
Variance (VEPAC)
Data mining är ett arbetssätt och innebär vanligen
ett arbete i tre steg som inte skiljer sig så mycket från
vanligt statistikarbete.
VEPAC är en förkortning på variance estimations and
precision och är ett specialdesignat verktyg för att
analysera ANOVA-modeller som innehåller både fixa
Erbjuder utbildning
Datainsamling
Bearbetning, rensning och
kontroll av data. Dataanalys
och modellvalidering
Presentation av resultat
och applicering
av analysmodell
13
I samband med introduktionen av datorer och
databaser växte volymen av insamlad data. I och med
att datamaterialen växte i storlek och komplexitet,
så utvecklades nya kompletterande metoder till
de som redan fanns. Exempel på dessa är neurala
nätverk, klusteranalys, beslutsträd och ”support vector
machines”. Många av dessa metoder går även utmärkt
att använda på mindre datamaterial. Generellt sett går
det att dela in statistikmetoderna inom data mining i
fyra grupper:
• Gruppering – har till uppgift att upptäcka logiska
grupper och strukturer i data utan att använda
kända strukturer.
• Klassificering – har till uppgift att generalisera
data i kända strukturer och tillämpa dessa på nya
”STATISTICAs pedagogiska styrka är oöverträffad”
Tomas Thierfelder, forskare vid Sveriges Lantbruksuniversitet, är en erfaren an
vändare av statistisk mjukvara. På hans institution konkurrerar STATISTICA med
andra kända program. Sedan ett femtontal år använder Tomas, inom både forskning
och undervisning, i första hand STATISTICA och har därför en gedigen kunskap om
programmet.
En av de stora fördelarna, anser Tomas, är STATISTICAs förmåga att visualisera data.
”Vi är många som anser att visualisering, på alla analysnivåer, är ett av de allra viktigaste
statistiska instrumenten. Där ligger STATISTICA klart före sina konkurrenter”, säger
Tomas. ”I pedagogiska sammanhang är visualiseringsförmågan speciellt viktig varför jag
föredrar STATISTICA i de klassrum och datorsalar där jag undervisar”, fortsätter han.
En annan stor fördel, anser Tomas, är den självgenererande analysprocessen.
”Programmet förmår gripa tag i användaren redan i den inledande visualiseringen,
för att därpå föra analysen allt längre, och innan man vet ordet av så har man lärt sig
något nytt. Här ligger programmets pedagogiska styrka och här skulle jag säga att det är
oöverträffat”, avslutar Tomas.
14
www.statsoft.se
En stor enkät där många frågor ställs finns redan och
är idag ett sådant hjälpinstrument men problemet med
många frågor är att man har märkt att just deprimerade
inte alltid vill/orkar svara på en alltför stor enkät.
Enkätmetoden har funnits en längre tid så historisk data
finns och utgör nu vårt datamaterial. Ett första steg är att
med hjälp av faktoranalys försöka minska antalet frågor
i enkäten genom att hitta de frågor som går att slå ihop.
Nästa steg blir att försöka bygga en modell som med hjälp
av den mindre enkäten kan prediktera ifall en patient har
depression eller inte. Ett klassiskt sätt att göra detta skulle
vara med hjälp av logistisk regression men inom data
mining finns en rad andra metoder som gör samma sak. Vi
kan lätt inom modulen för data mining bygga många olika
modeller samtidigt (Logistisk regression, C&RT, CHAID,
Neurala nätverk, Boosted trees m.fl. ) för denna prediktion
och sedan väljer vi den som är bäst för stunden.
observationer. Till exempel kan ett e-postprogram
försöka att klassificera ett meddelande från en
okänd avsändare som legitimt eller spam.
• Mönster – vanligen används någon slags
regression för att hitta variabler som kan beskriva
beteendemönster eller trender.
• Associationer – kan användas för att söka efter
relationer mellan variabler. Exempelvis kan en
stormarknad samla in uppgifter om köpvanor hos
kunder och använda dessa metoder för att se vilka
produkter som ofta köps tillsammans och sedan
använda denna information i marknadsföringssyfte.
Eftersom metoderna ovan även går att tillämpa
på mindre datamaterial skulle man kunna säga
att modulen Data Miner ger dig tillgång till fler
modellvalmöjligheter för statistiska problem.
Metoderna är lämpliga inom alla verksamhetsområden
där man har ett problem som skulle kunna lösas med
gruppering, klassificering, mönster eller associationer.
Exempel
Data mining Vi vill ha ett bra instrument som hjälper till
att klassificera ifall en patient är deprimerad eller inte. Ett
sådant instrument skulle underlätta valet av terapimetod.
Tillhandahåller support på svenska
Text Miner
Syftet med text mining är att processa större mängder
av ostrukturerad (text) information till meningsfull
numeriska data och därmed göra informationen i
texten tillgänglig för olika numeriska analysmetoder.
Information som fås fram kan exempelvis analyseras
ord för ord eller som kluster av ord. Man kan
analysera olika dokument och avgöra likheter dem
emellan. Andra användningsområden skulle kunna
vara att analysera öppna enkätsvar, garantier,
försäkringsfordringar, diagnoser eller intervjuer.
Det går även att undersöka konkurrenter genom att
analysera texten på deras webbplatser.
Exempel
Text mining Ett gammalt pappersjournalsystem ska
digitaliseras. Plötsligt finns all information tillgänglig
på ett helt annat sätt men det skulle fortfarande vara
jobbigt att gå igenom journal för journal för att hitta något
av intresse. Säg att vi är intresserade av alla patienter
som har en speciell sjukdom. Vi kan då låta Text Miner
leta igenom alla journaler och summera all text vid
denna diagnos. Sedan kan den informationen ytterligare
analyseras av någon numerisk metod för att exempelvis
hitta intressanta grupperingar.
15
Tyck till om STATISTICA!
Fraucke Ecke, docent i Landskapsekologi vid SLU
och Luleå tekniska universitet
STATISTICA har över 600 000 användare spridda över hela världen.
Vi frågade tre av dem:
”Jag använder STATISTICA framförallt inom ekologin
där jag kör multivariatstatistik och kontrollerar vilka
effekter det blir av landskapsförändringar.”
›› Hur använder du STATISTICA?
”Det bästa med STATISTICA är grafiken som är totalt
överlägsen alla andra statistikprogram. Det är också
ett väldigt användarvänligt program. Den senaste versionen är ännu
bättre än tidigare. Jag gillar framförallt den nya funktionen bundles.
Eftersom jag ofta arbetar med stora databaser och behöver upprepa olika
analyser med samma variabler så är det jättesmidigt.”
›› Vad är det bästa med STATISTICA?
Urban Alehagen, docent och överläkare vid Hjärtcentrum på Universitetssjukhuset i Linköping
”STATISTICA är ett av de viktigaste arbetsinstrumenten i min forskning kring biomarkörer. En av de frågeställningar som jag ofta försöker belysa är hur en biomarkör kan hjälpa till att identifiera en patientgrupp
med hög risk för komplikationer. För att åskådliggöra
risker utnyttjar jag både överlevnadsanalyser och Cox regressioner.”
Karin Sparring Björkstén, med dr överläkare och
studierektor, Psykiatri Södra Stockholm.
”Det bästa med programmet är den stabilitet som finns. Det näst viktigaste är att när man gjort en specifik analys får man svar på just den
genomförda analysen – inte en hel massa annan information som efter
ett tag enbart ställer till irritation. Den tredje viktigaste faktorn med
STATISTICA är de snygga och väl genomarbetade graferna. Det sista,
men inte minst viktiga, är de snabba genvägar som finns för att få basal
deskriptiv statistik ifrån en uppsättning data.”
”Jag forskar på epidemiologi vid självmord och hanterar då stora mängder data med såväl enkel som
avancerad statistik i flera steg. STATISTICA är pålitligt, överskådligt och lätt att använda. Det är lätt att
gå tillbaka och se vad man har gjort, och att man inte
tappat bort några data på vägen.”
”Oftast gör jag mina beräkningar i sommarstugan. Man behöver inte
ha en dataexpert eller statistiker som gör jobbet åt en. Jag har alltid fått
kompetent hjälp av StatSoft samma dag när jag haft frågor.”
Beställ STATISTICA Hyrlicens
Nu kan du som är knuten till universitet
eller högskola teckna STATISTICA
Hyrlicens för endast 945 kr exkl.
moms. Du får då STATISTICA till och
med 31 december 2011. Du kan sedan
förlänga abonnemanget med ett år i taget
till ordinarie pris 1 890 kr/år exkl moms.
Du får:
›› Ett komplett STATISTICAprogram, inkl alla moduler
›› Automatiska uppgraderingar till den senaste versionen
›› Låg årskostnad
›› Fri teknisk support
›› Introduktionsmanual
Enklast beställer du via vår hemsida
www.statsoft.se/academic/bestall
Du kan också nå oss via
E-post [email protected]
Telefon 018-21 00 45
Fax 018-21 00 48

Kraftfullt statistikverktyg för forskare

Transcript Kraftfullt statistikverktyg för forskare

Directory