數據分析 - 建中數學科

Transcript 數據分析 - 建中數學科

數據分析
建中122、121班
4-1單變量數據分析
統計提供決策，做決策需要數據
數據分析分成
單變量數據分析(一維數據分析)
雙變量數據分析(二維數據分析)
多變量據分析(多維數據分析)
統計圖表
• 統計圖表與統計量等數據分析的採用，決
定於數據的型態。
• 數據的型態分成(依性質)
離散型數據：
性別、血型、宗教信仰、職業(名目數據)
滿意程度(次序數據)
連續型數據：
身高、體重、數學成績、容量
離散型統計圖表
• 離散型數據
長條圖、圓餅圖
離散型統計圖表
• 離散型數據
長條圖、圓餅圖
離散型統計圖表
• 離散型數據
長條圖、圓餅圖
連續型統計圖表
• 連續型數據:
直方圖、次數分配折線、累積次數分配折線
• 直方圖與長條圖的區別：
直方圖通常處理連續型數據，長條圖通常處理離散型數據
直方圖的橫坐標通常由小至大由左而右依序排列
長條圖的次序的安排常依使用者定
直方圖畫出的長方形是緊連在一起，長條圖畫出的長方形
是分開的
連續型統計圖表
• 次數分配表與直方圖
連續型統計圖表
• 次數分配表與直方圖
連續型統計圖表
• 次數分配表與直方圖
右偏
連續型統計圖表
• 次數分配折線圖、相對次數分配折線圖
(組中點 , 次數)
(組中點 , 相對次數)
連續型統計圖表
• 累積次數分配折線
身高小於170公分的
總人數
連續型統計圖表
• 累積次數分配折線圖
(上界 , 累積次數)
連續型統計圖表
• 相對累積次數分配折線圖
(上界 , 相對累積次數%)
表達數據代表值的統計量
• 算術平均數(average)
表達數據代表值的統計量
• 中位數(Median)
一組數據x(1), x(2), …,x(n)由小到大排序後，
n為奇數: 中位數為正中間的數據
n為偶數:中位數為正中間兩個數據的平均
表達數據代表值的統計量
• 眾數(Mode)
眾數就是一組數據中出現次數最多的數據。
Excel計算算數平均數、中位數、眾數
舉例說明統計量的計算(課本P174例題3)
表達數據代表值的統計量
• 算術平均數與中位數的差異
算術平均數易受極端值影響
中位數不像算術平均數那樣
易受極端值影響,中位數較具穩健性
(例如:人民幣中間值)
表達數據代表值的統計量
• 幾何平均數
何謂成長率r%?
2010年國民所得成長4%
2009國民所得A
2010年國民所得B
BA
100% =4%  B=A(1+4%)
A
表達數據代表值的統計量
• 幾何平均數
大華公司去年銷售金額比前年成長20%，而今
年的銷售金額比去年衰退20%，求兩年的平均
成長率。
• 平均成長率(算術平均數)=
1
[ 20%+(20%) ] =0
2
• 合理嗎？
表達數據代表值的統計量
• 例題(課本P177例4)
精華公司自西元2005年到2008年，這4年的
營業額成長率分別為50％，15％，－5％，
8％，求此公司這4年營業額平均成長率是
多少？
與前一年相比
2005
1.5
2006
1.15
與 2004 年相比
1.5
1.5×1.15
相同成長率 x
a ( 1＋x )
a ( 1＋x )2
2007
0.95
1.5×1.15×
0.95
a ( 1＋x )3
2008
1.08
1.5×1.15×
0.95×1.08
a ( 1＋x )4
表達數據代表值的統計量
• 幾何平均數(GeoMean)
一組數據 x1, x2 , …, xn，它們的幾何平
均數(GM)為
GM= x1 x2  xn
平均成長率
n
若 n 年的成長率分別為 y1，y2，…，
yn，則這 n 年的平均成長率為
n
( 1＋y1 ) ( 1＋y2 )…( 1＋yn ) －1。
表達數據代表值的統計量
臺灣地區西元2000年到2007年的國民生產毛
額 ( GNP ) ( 億元 ) 如下：
求臺灣地區這7年國民生產毛額平均
成長率是多少？
表達數據代表值的統計量
• 解法:
國民生產毛額平均成長率為
7
0.98846×1.0479×1.02967×1.05431×1.02693×1.04118×1.06045 －1
7
＝
129685
－1  0.0353。
101716
因此，
國民生產毛額平均成長率為 3.53％。
表達數據代表值的統計量
由 2000 年國民生產毛額 101716 億元，與 2007
年國民生產毛額 129685 億元，就可算出這段期
間的國民生產毛額平均成長率等於
7
129685
－1  0.0353。
101716
反之，若提供基準年( 即最前一年 ) 的數據與
平均成長率，就能求此最後一年的國民生產毛
額是多少。
最後一年 ( 2007 年 ) 的國民生產毛額
129685 億元也可以寫成
129685  101716×( 1＋0.0353 )7。
表達離散趨勢的統計量
• 全距
一組數據的全距=最大值最小值。
•
氣溫最大值
甲地區 32
乙地區 23
氣溫最小值
17
12
全距
3217
2312
表達離散趨勢的統計量
• 全距可以來表示數據離散程度,沒問題嗎 ?
• 某社團高一成員的上學期數學的成績為
70,78,75,77,80,95
全距=95-70=25可以用來表達數學成績的離
散程度嗎?
• 請問2010年指定考科數學甲的全距=？
這樣的全距有意義嗎？
表達離散趨勢的統計量
• 變異數(Variance) VAR
• 設有一組數據 x 1，x 2，…，xn，平均數為μ ，
則第 i 筆數據 xi 的離差定義為 xi －μ，因
n
x
i 1
i
 n ，所以一組數據的平均離差為
1 n
( xi   )  0

n i 1
0，即
。
因此平均離差無法提供數據分散的程度。如果
將離差改為離差平方，再算出離差平方的平均
1 n
( xi   )
數，n 
i 1
2
就可看出這組數據的分散程度。
表達離散趨勢的統計量
• 變異數(Variance) VAR
•
設有 n 筆數據 x1，x2，…，xn，則此組
2
數據的變異數 ( 記作σ ) 是所有數
據的離差平方之平均，即
1
1
1
2
(
x


)
(
x

n

)

x  。
σ ＝n
=n 
n
n
n
2
2
i 1
i
i 1
n
i
n
2
2
i 1
2
i
其中  ( x   ) 稱為此組數據 x1，x2，…，
xn 的離差平方和 ( 或稱變異 )，記作
Sxx。
2
i 1
i
表達離散趨勢的統計量
• 標準差(standard deviation)STDEV
設有 n 筆數據 x1，x2，…，xn，則此組數
據標準差 ( 記作σ ) 是變異數的平方，
2
即σ＝ σ ＝ 1n  ( x   ) = 1n  x   。
n
n
2
2
i 1
i
標準差= 變異數
i 1
i
2
表達離散趨勢的統計量
• 最常用的離散趨勢統計量是標準差。
• 標準差愈小，表示數據間愈相近，也就是
數據愈集中在平均數的附近，反之，
• 標準差愈大，表示數據間差異愈高，也就
是資料愈分散。
表達離散趨勢的統計量
表達離散趨勢的統計量
• 例題(課本P181 例題6)
5 位學生數學成績如右：
79，67，61，70，73，求：
(1) 平均數μ 。
(2) 離差平方和 Sxx。
2
(3) 變異數σ 。
(4) 標準差 σ。
表達離散趨勢的統計量
• 解法:
1
(1) 平均數μ= ( 79＋67＋61＋70＋73)＝70
5
(2) 離差平方和
5
Sxx＝  ( xi   ) 2 =( 79－70 )2＋( 67－70 )2＋( 61－70 ) 2
i 1
＋( 70－70 )2＋( 73－70 )2＝180。
(3) 變異數σ
1 5
( xi   ) 2 ＝36。
＝5
i 1
2
(4) 標準差 σ＝
1 5
( xi   ) 2

5 i 1
= σ2 ＝ 36 ＝6。
表達離散趨勢的統計量
• 例題(課本P185 例題10)
• 訪問某地區1050位選民，問他們是否要投
給候選人甲，結果有420位選民要投給候選
人甲，630位選民不要投給候選人甲。
設第i位受訪者數據為xi，即若第i位投給候
選人甲，則xi＝1，否則xi＝0，
求候選人甲的得票率與標準差。
有 420 位選民投給候選人甲，所以數據中有 420 個 1，630
個 0，則得票率
420×1＋630×0
420
p＝ 1050 ＝0.4＝μ＝
。
1050
1050 位受訪者數據平方和為
1050
 x ＝  x ＝420＝1050×0.4＝1050 ×μ。
i 1
2
1050
i
i 1
i
所以離差平方和為
Sxx＝
1050
 ( xi   ) 2
i 1
1050
＝  x －1050．μ2
i 1
2
i
＝1050×μ－1050．μ2
＝1050×μ( 1－μ)
＝1050×0.4×0.6=252= n×p ( 1－p )。
變異數為
n×p ( 1－p )
Sxx
2
σ＝
＝
n
n
＝0.4×0.6＝0.24。
標準差為
σ＝ σ2 ＝ p ( 1－p ) ＝ 0.24 。
僅含0與1的數據
結論：
一組有 n 個 0 與 1 組成的數據，此數據
的標準差σ與平均數的關係為
σ＝  ( 1－) 。
算術平均數與標準差的性質
• 性質一:
設一組數據為 x1 , x2 , …, xn，
若令
1 n
2
(
x

x
)

i
f(x)= n i 1
，則當 x=(算術平均
數)時，f(x)有最小值為2(變異數)。
算術平均數與標準差的性質
• 性質二
數據伸縮平移(線性變換)前後，算術平均數
與標準差的關係:
數據
數據 X x1
數據 Y y1
Y=aX+b
算術平
均數
x2 …. xn X
y2 … yn Y
yi=axi+b Y=aX+b
標準差
X
Y
Y=|a|X
數據的標準化
• 練習：
有一組數據 x1，x2，…，x10 的平均數為 15，
標準差為 0.3，現在將每筆數據減 15，
再除以 0.3，成為一組新數據：
xi－15
y1，y2，…，y10，即 yi＝ 0.3 ，i＝1，2，…，
10。試求 y1，y2，…，y10 此筆數據的平均
數與標準差。
數據的標準化
數據
數據 X
數據 Y
Y 
X  X
X
x1
y1
算術平
均數
x2 …. xn X
y2 … yn Y
標準差
Y =0
Y =1
yi 
xi   X
X
X
Y
數據的標準化的應用
• 設某位學生第一次段考數學成績是
57分，國文成績是78分，
是否就能說此生的國文考的比數學好呢？
•
以標準化數據來衡量
根據資料：
數學平均分數是 43 分，標準差是 7 分，
國文平均分數是 73 分，標準差是 5 分，
57－43
數學標準化成績是
＝2，
7
78－73
國文標準化成績是
＝1。
5
此生數學標準化成績為 2，比國文標準化成績為 1 來
的高，表示與其他同學比較，此生數學成績比國文成
績好。
數據的標準化
• T分數
設一組數據為 x1 , x2 , …,xn，
令 yi

xi   X
X
，ti=50+10yi，
得到 y1 , y2 ,…,yn 與 t1 , t2 , … tn
yi 稱為 xi 的標準分數，
ti 稱為 xi 的 T 分數。

數據分析 - 建中數學科

Transcript 數據分析 - 建中數學科

Directory