數據分析 - 建中數學科

Download Report

Transcript 數據分析 - 建中數學科

數據分析
建中122、121班
4-1單變量數據分析
統計提供決策,做決策需要數據
數據分析分成
單變量數據分析(一維數據分析)
雙變量數據分析(二維數據分析)
多變量據分析(多維數據分析)
統計圖表
• 統計圖表與統計量等數據分析的採用,決
定於數據的型態。
• 數據的型態分成(依性質)
離散型數據:
性別、血型、宗教信仰、職業(名目數據)
滿意程度(次序數據)
連續型數據:
身高、體重、數學成績、容量
離散型統計圖表
• 離散型數據
長條圖、 圓餅圖
離散型統計圖表
• 離散型數據
長條圖、圓餅圖
離散型統計圖表
• 離散型數據
長條圖、圓餅圖
連續型統計圖表
• 連續型數據:
直方圖、次數分配折線、累積次數分配折線
• 直方圖與長條圖的區別:
直方圖通常處理連續型數據,長條圖通常處理離散型數據
直方圖的橫坐標通常由小至大由左而右依序排列
長條圖的次序的安排常依使用者定
直方圖畫出的長方形是緊連在一起,長條圖畫出的長方形
是分開的
連續型統計圖表
• 次數分配表與直方圖
連續型統計圖表
• 次數分配表與直方圖
連續型統計圖表
• 次數分配表與直方圖
右偏
連續型統計圖表
• 次數分配折線圖、相對次數分配折線圖
(組中點 , 次數)
(組中點 , 相對次數)
連續型統計圖表
• 累積次數分配折線
身高小於170公分的
總人數
連續型統計圖表
• 累積次數分配折線圖
(上界 , 累積次數)
連續型統計圖表
• 相對累積次數分配折線圖
(上界 , 相對累積次數%)
表達數據代表值的統計量
• 算術平均數(average)
表達數據代表值的統計量
• 中位數(Median)
一組數據x(1), x(2), …,x(n)由小到大排序後,
n為奇數: 中位數為正中間的數據
n為偶數:中位數為正中間兩個數據的平均
表達數據代表值的統計量
• 眾數(Mode)
眾數就是一組數據中出現次數最多的數據。
Excel計算算數平均數、中位數、眾數
舉例說明統計量的計算(課本P174例題3)
表達數據代表值的統計量
• 算術平均數與中位數的差異
算術平均數易受極端值影響
中位數不像算術平均數那樣
易受極端值影響,中位數較具穩健性
(例如:人民幣中間值)
表達數據代表值的統計量
• 幾何平均數
何謂成長率r%?
2010年國民所得成長4%
2009國民所得A
2010年國民所得B
BA
100% =4%  B=A(1+4%)
A
表達數據代表值的統計量
• 幾何平均數
大華公司去年銷售金額比前年成長20%,而今
年的銷售金額比去年衰退20%,求兩年的平均
成長率。
• 平均成長率(算術平均數)=
1
[ 20%+(20%) ] =0
2
• 合理嗎?
表達數據代表值的統計量
• 例題(課本P177例4)
精華公司自西元2005年到2008年,這4年的
營業額成長率分別為50%,15%,-5%,
8%,求此公司這4年營業額平均成長率是
多少?
與前一年相比
2005
1.5
2006
1.15
與 2004 年相比
1.5
1.5×1.15
相同成長率 x
a ( 1+x )
a ( 1+x )2
2007
0.95
1.5×1.15×
0.95
a ( 1+x )3
2008
1.08
1.5×1.15×
0.95×1.08
a ( 1+x )4
表達數據代表值的統計量
• 幾何平均數(GeoMean)
一組數據 x1, x2 , …, xn,它們的幾何平
均數(GM)為
GM= x1 x2  xn
平均成長率
n
若 n 年的成長率分別為 y1,y2,…,
yn,則這 n 年的平均成長率為
n
( 1+y1 ) ( 1+y2 )…( 1+yn ) -1。
表達數據代表值的統計量
臺灣地區西元2000年到2007年的國民生產毛
額 ( GNP ) ( 億元 ) 如下:
求臺灣地區這7年國民生產毛額平均
成長率是多少?
表達數據代表值的統計量
• 解法:
國民生產毛額平均成長率為
7
0.98846×1.0479×1.02967×1.05431×1.02693×1.04118×1.06045 -1
7
=
129685
-1  0.0353。
101716
因此,
國民生產毛額平均成長率為 3.53%。
表達數據代表值的統計量
由 2000 年國民生產毛額 101716 億元,與 2007
年國民生產毛額 129685 億元,就可算出這段期
間的國民生產毛額平均成長率等於
7
129685
-1  0.0353。
101716
反之,若提供基準年( 即最前一年 ) 的數據與
平均成長率,就能求此最後一年的國民生產毛
額是多少。
最後一年 ( 2007 年 ) 的國民生產毛額
129685 億元也可以寫成
129685  101716×( 1+0.0353 )7。
表達離散趨勢的統計量
• 全距
一組數據的全距=最大值最小值。
•
氣溫最大值
甲地區 32
乙地區 23
氣溫最小值
17
12
全距
3217
2312
表達離散趨勢的統計量
• 全距可以來表示數據離散程度,沒問題嗎 ?
• 某社團高一成員的上學期數學的成績為
70,78,75,77,80,95
全距=95-70=25可以用來表達數學成績的離
散程度嗎?
• 請問2010年指定考科數學甲的全距=?
這樣的全距有意義嗎?
表達離散趨勢的統計量
• 變異數(Variance) VAR
• 設有一組數據 x 1,x 2,…,xn,平均數為μ ,
則第 i 筆數據 xi 的離差定義為 xi -μ,因
n
x
i 1
i
 n ,所以一組數據的平均離差為
1 n
( xi   )  0

n i 1
0,即
。
因此平均離差無法提供數據分散的程度。如果
將離差改為離差平方,再算出離差平方的平均
1 n
( xi   )
數,n 
i 1
2
就可看出這組數據的分散程度。
表達離散趨勢的統計量
• 變異數(Variance) VAR
•
設有 n 筆數據 x1,x2,…,xn,則此組
2
數據的變異數 ( 記作σ ) 是所有數
據的離差平方之平均,即
1
1
1
2
(
x


)
(
x

n

)

x  。
σ =n
=n 
n
n
n
2
2
i 1
i
i 1
n
i
n
2
2
i 1
2
i
其中  ( x   ) 稱為此組數據 x1,x2,…,
xn 的離差平方和 ( 或稱變異 ),記作
Sxx。
2
i 1
i
表達離散趨勢的統計量
• 標準差(standard deviation)STDEV
設有 n 筆數據 x1,x2,…,xn,則此組數
據標準差 ( 記作σ ) 是變異數的平方,
2
即σ= σ = 1n  ( x   ) = 1n  x   。
n
n
2
2
i 1
i
標準差= 變異數
i 1
i
2
表達離散趨勢的統計量
• 最常用的離散趨勢統計量是標準差。
• 標準差愈小,表示數據間愈相近,也就是
數據愈集中在平均數的附近,反之,
• 標準差愈大,表示數據間差異愈高,也就
是資料愈分散。
表達離散趨勢的統計量
表達離散趨勢的統計量
• 例題(課本P181 例題6)
5 位學生數學成績如右:
79,67,61,70,73,求:
(1) 平均數μ 。
(2) 離差平方和 Sxx。
2
(3) 變異數σ 。
(4) 標準差 σ。
表達離散趨勢的統計量
• 解法:
1
(1) 平均數μ= ( 79+67+61+70+73)=70
5
(2) 離差平方和
5
Sxx=  ( xi   ) 2 =( 79-70 )2+( 67-70 )2+( 61-70 ) 2
i 1
+( 70-70 )2+( 73-70 )2=180。
(3) 變異數σ
1 5
( xi   ) 2 =36。
=5
i 1
2
(4) 標準差 σ=
1 5
( xi   ) 2

5 i 1
= σ2 = 36 =6。
表達離散趨勢的統計量
• 例題(課本P185 例題10)
• 訪問某地區1050位選民,問他們是否要投
給候選人甲,結果有420位選民要投給候選
人甲,630位選民不要投給候選人甲。
設第i位受訪者數據為xi,即若第i位投給候
選人甲,則xi=1,否則xi=0,
求候選人甲的得票率與標準差。
有 420 位選民投給候選人甲,所以數據中有 420 個 1,630
個 0,則得票率
420×1+630×0
420
p= 1050 =0.4=μ=
。
1050
1050 位受訪者數據平方和為
1050
 x =  x =420=1050×0.4=1050 ×μ。
i 1
2
1050
i
i 1
i
所以離差平方和為
Sxx=
1050
 ( xi   ) 2
i 1
1050
=  x -1050.μ2
i 1
2
i
=1050×μ-1050.μ2
=1050×μ( 1-μ)
=1050×0.4×0.6=252= n×p ( 1-p )。
變異數為
n×p ( 1-p )
Sxx
2
σ=
=
n
n
=0.4×0.6=0.24。
標準差為
σ= σ2 = p ( 1-p ) = 0.24 。
僅含0與1的數據
結論:
一組有 n 個 0 與 1 組成的數據,此數據
的標準差σ與平均數的關係為
σ=  ( 1-) 。
算術平均數與標準差的性質
• 性質一:
設一組數據為 x1 , x2 , …, xn,
若令
1 n
2
(
x

x
)

i
f(x)= n i 1
,則當 x=(算術平均
數)時,f(x)有最小值為2(變異數)。
算術平均數與標準差的性質
• 性質二
數據伸縮平移(線性變換)前後,算術平均數
與標準差的關係:
數據
數據 X x1
數據 Y y1
Y=aX+b
算術平
均數
x2 …. xn X
y2 … yn Y
yi=axi+b Y=aX+b
標準差
X
Y
Y=|a|X
數據的標準化
• 練習:
有一組數據 x1,x2,…,x10 的平均數為 15,
標準差為 0.3,現在將每筆數據減 15,
再除以 0.3,成為一組新數據:
xi-15
y1,y2,…,y10,即 yi= 0.3 ,i=1,2,…,
10。試求 y1,y2,…,y10 此筆數據的平均
數與標準差。
數據的標準化
數據
數據 X
數據 Y
Y 
X  X
X
x1
y1
算術平
均數
x2 …. xn X
y2 … yn Y
標準差
Y =0
Y =1
yi 
xi   X
X
X
Y
數據的標準化的應用
• 設某位學生第一次段考數學成績是
57分,國文成績是78分,
是否就能說此生的國文考的比數學好呢?
•
以標準化數據來衡量
根據資料:
數學平均分數是 43 分,標準差是 7 分,
國文平均分數是 73 分,標準差是 5 分,
57-43
數學標準化成績是
=2,
7
78-73
國文標準化成績是
=1。
5
此生數學標準化成績為 2,比國文標準化成績為 1 來
的高,表示與其他同學比較,此生數學成績比國文成
績好。
數據的標準化
• T分數
設一組數據為 x1 , x2 , …,xn,
令 yi

xi   X
X
,ti=50+10yi,
得到 y1 , y2 ,…,yn 與 t1 , t2 , … tn
yi 稱為 xi 的標準分數,
ti 稱為 xi 的 T 分數。