機率也是一種數學模式

Download Report

Transcript 機率也是一種數學模式

高一下數學選必修複習
北一女中
2014. 6. 18
1
Outline
•
•
•
•
數學歸納法
排列組合
機率
統計
2
數學歸納法
3
Outline
有限觀察與無窮歸納
歸納的程序與證明
形式主義與直覺主義
數學是一種邏輯形式,人的認知則是感官直覺!
這兩種並不互相衝突: 從形式悟出內涵可以昇
華成為直覺;一成不變的直覺也終將變成形式!
推薦一部好的女性電影: Emma Thompson 的
Sense and Sensibility
4
排列組合
5
有相同物的排列
• 最簡單的model 就是一件事,要嘛發生(+),要嘛不
發生(-). (可以將前者想成紅球,後者白球)。
• 比如電話交換機,每一秒鐘可能有電話撥進來(+),
也可能什麼事都不發生(-)。
• 連續觀察 n 次,該事情發生m次(有 m 通電話撥進
來)的情形有幾種? (m 個紅球,n-m 個白球的排列
數) C(n,m)。
• 這也就是二項式展開的公式,是最基本隨機過程
Binomial Processes 的基礎!
6
有相同物的排列
• 當有許多種的相同東西去排列,比如在高速公路上
監控車流量,只管 Audi 及 Benz 兩種車。
• 每一秒鐘可能有一部 Audi (A) 通過,也可能是一輛
Benz (B),也可能是以上皆非 (C)。
• 連續觀察 n 次,發生 (A) 車 a 次,(B) 車 b 次,(C)
車 c 次的情形是:
• 先把 (A) + (B) 是為一類,則 n 次觀察中, Audi 和
Benz 共出現 a+b 次的情形是 C(n,c). 但是在 Audi
和 Benz 共出現 a+b 次的情形下再細分,Audi 出現
a 次的情形有 C(a+b,a).
• 利用乘法原理,C(n,c)*C(a+b,a) = (n!)/(a!)(b!)(c!)
就是答案!
7
有相同物的排列
• 這種 reduction 的過程,就是一種數學歸納法原理!
• 這個問題,同時也是 compound Poisson
Processes 的最基礎!
• 可以用來解釋交通塞車現象,天空中星雲的分布,
甚至是麵包內餡或餅乾塗層的問題!
8
機率
9
機率是一種數學模式
• 數學模式簡單說是對自然現象或人為系統的一種量
化描述.
• 上學期妳們學過的山洞問題,靠線性函數來描述車
流量與行車速度的關係,結果顯示有可能開挖山洞
之後,平均行車速度卻是增加的! 這是數學模式對交
通建設與公共政策制定的一個重要的例子!
• 這學期妳們學過的飛行員排班為問題,靠排列組合
與線性規劃來求得空服人員的最佳排班組合,也是
數學模式對運輸服務與管理的一個實際例子。
• 這些都牽涉到量化一個觀測主體或系統的概念.
機率是一種數學模式
• 機率也是一種數學模式, 比如丟擲一個銅板3次, 描
述一檔股票3天交易日可能的漲跌組合(all possible
outcomes), 並評估資產變化的期望值.
• 事實上,丟銅板是最重要的一個機率模型! 從固定時
間丟銅板算正面出現總次數的二項次過程(Binomial
Processes),連續時間丟銅板的普松過程(Poisson
Processes),銅板出現正面的機率和上一次、也僅
和上一次結果有關的的馬可夫鏈(Markov Chain),
以及連續版本的馬可夫過程(比如 Brownian
Processes),都是丟銅板模型的變奏型態(Variant)。
• 這些都是衍生性金融商品選擇權定價的數學模式原
理!
丟一個銅板
• 丟擲一個銅板, 我看到了結果, 但你們都沒看到. 請問
這個銅板出現正面的機率是多少?
• 從我的角度來說, 這個丟銅板的實驗已經是確定性的
結果.
• 你們會認為銅板出現正面的機會是 ½, 這個數學機率
模式描述的是你的未知, 而不是銅板投擲結果的未定.
• 換句話說, “你” 才是這個丟一次銅板數學模式(銅板
出現正面的機會是 ½) 所要描述的觀測主體, 而不是
已經確定結果的銅板.
12
同一事情, 不同看法
• 丟擲一個銅板20次, 全數為正面, 請問第 21 次投擲這
枚銅板, 出現正面的機率有多高?
• 有人認為這是獨立事件, 因此機率還是 ½.
• 有人認為這枚銅板有詐, 因此機率是 1.
• 數學好的人, 學過大數法則, 知道長期而言, 公正的銅
板出現正面和出現反面的次數應該要很接近.
• 因為前面 20次都是出現正面, 接下來出現反面的機率
應該很高. 所以接下來又丟出正面的機率應該遠小於
於 ½.
• 勇氣遠見 與 鐵齒白目 其實僅僅一線之隔!
13
同一事情, 不同看法
• 明天會不會下雨, 時間到了老天爺自然就會做決定.
上帝從不擲骰子, 擲茭問卦的, 是那些希望預知的人.
• 自然界的現象本質上沒有所謂的隨機(random)或確
定性(deterministic)之分別.
• 事實上, 要用隨機的數學模式或是確定性的數學模式
去描述一個現象純然視觀測者自己的知識, 背景和目
的而定.
• 數字或許是客觀的, 但解讀永遠是主觀!
14
機率是處理訊息的學科
• 丟一個硬幣兩次,其樣本空間為
S={(+,+), (+,-), (-,+), (-,-)}
• 事件 A = {(+,+), (+,-)}: 隨便從 S 中拿一個樣本點,
妳不會被告知是哪一個樣本點被取到,但是將會被
告知 A 事件是否發生!
• 我拿到 (+,+) (妳不知道),但是告訴妳 A 事件發生
• 我拿到 (-,+) (妳不知道),但告訴妳 A 事件沒發生
• 我拿到 (-,-) (妳不知道),但告訴妳 A 事件沒發生
• 我拿到 (+,-) (妳不知道),但是告訴妳 A 事件發生
• 所以,集合 A 的訊息其實就是 第一次投出正面! 但
是A事件的訊息不夠充分告訴妳二次投擲的結果!
機率是處理訊息的學科
• 丟一個硬幣兩次,其樣本空間為
S={(+,+), (+,-), (-,+), (-,-)}
• 事件 B = {(+,-), (-,+)}: 隨便從 S 中拿一個樣本點,
妳不會被告知是哪一個樣本點被取到,但是將會被
告知 B 事件是否發生!
• 我拿到 (+,+) (妳不知道),但告訴妳 B 事件沒發生
• 我拿到 (-,+) (妳不知道),但告訴妳 B 事件發生
• 我拿到 (-,-) (妳不知道),但告訴妳 B 事件沒發生
• 我拿到 (+,-) (妳不知道),但是告訴妳 B 事件發生
• 所以,集合 B 的訊息其實就是 一正一反! 但訊息不
夠充分到告訴妳 + 先出現還是 – 先出現!
機率是處理訊息的學科
• 所以,我們會說
{(+,+)} 比 {(+,+), (+,-)} 包含更精確的訊息,而
{(+,+), (+,-)} 又比 {(+,+), (+,-), (-,+), (-,-)} 更精確。
• 事實上,{(+,+), (+,-), (-,+), (-,-)} 被稱為 contains
no information at all!
• 而我們稱 A={(+,+), (+,-)} 和 A’={(-,+), (-,-)} 所透露
的訊息一樣多。因為若知 A 事件發生,則 A’ 必定
不發生! 而 A 若不發生,A’ 必定發生。
獨立
• 那訊息 A = {(+,+), (+,-)} 和 訊息 B = {(+,-), (-,+)} 互
為獨立嗎?
• 如果已經知道A事件發生,也就是已知第一次投擲
的結果是 +,那麼 B 發生的機率 (也就是一正一反)
的機率,妳認為是多少?
• 妳當然可以列出條件機率的公式去計算,但是光由
概念上,妳馬上可以得知
p(B|A)=第二次丟到反面的機率!
• 因為是丟同一個銅板,所以兩次出現正面的機率都
是 p, 反面都是 q, 那訊息 A 和 訊息 B 是獨立嗎?
( p(B|A)=p(B)?)
獨立
• 先不急著算,假設這銅板不公正,q=0.99,則樣本
點中最可能出現的是 (-,-)。 而一正一反 p(B) 出現
的機率其實還是蠻低的 (0.01*0.99*2=0.198) !
• 但如果已知 A 發生,最不容易出現的正面第一次
就投出來了,請問這會不會讓妳覺得 B 要發生幾
乎是一件篤定的事 (p(B|A)=0.99)?
• 也就是,在銅板不公正時,訊息 A 和 B 不是獨立
的,而是相互影響的!
• 只有當 p=q=0.5, 這兩個訊息才是互相獨立!
機率
• 機率既然是一個比率, 那也是一種斜率的概念.
• 機率高, 代表所關心的事件蠻可能發生的, 某種程度
來說, 代表那個事件產生的``效率高’’ !
• 比如說, 明天台積電股價漲3元的機率是10%, 維持
平盤的機率是60%, 下跌2元的機率是30%. 那麼台
積電明天股價走勢的預測是 10%*3 + 60% * 0 +
30%*(-2) = - 0.3 元.
• 這個數字, 不就是 (10%, 60%, 30%) 和 (3, 0, -2)
的內積嗎?! 可見, 機率的確是一種斜率的概念!
7% 或 14% 到底是麼感覺?
• 當然, 只要機率不是百分之百, 事情就有可能
不會如預期般的發生. 那的確不是一種確定
性的狀況.
• 但是, 妳真的了解什麼叫不確定性嗎?
• 7% 或 14% 到底是麼代表什麼意義?
統一發票
• 統一發票每兩個月開獎1次. 每次開出4個頭獎.
• 最小獎是如果中頭獎末3碼, 得200元獎金.
7% 或 14% 到底是麼感覺?
• 60 張發票至少對中一張的機率有 21.4%,
我幾乎都對不中,顯然 21.4% 要實際上發生
還是很不容易!
• 如果生下一個畸形兒的機率是 7% - 14%,
這代表比 60 張統一發票要中獎的機率還要
低很多,那我要不要賭賭看?
統一發票(機率)所帶來的人生準則




人生任何攸關勝負的事, 絕對避不開風險.
沒有人喜歡輸的感覺. 但是, 我們不能因此只做
十拿九穩的事.
當負面機率有 7成 或 8成時, 就不要心存僥倖!
當機會有 7成 或 8成把握時, 就得勇敢去嘗試!
24
統一發票(機率)所帶來的人生準則


這社會上成功且令人尊敬的人太少! 所以詢問周
遭的人要如何才能成功, 通常沒有太多參考價值.
機率在這裡的意義是, 當大家做什麼, 妳也跟著
做什麼的話, 毫無意外的, 當大多數不成功的人
得到什麼時, 妳也幾乎拿不到什麼不一樣的東西.
25
統一發票
• 統一發票我對了將近 30年. 就中過一次 1000元. 中
一次的機率是 萬分之一.
• 但是, 最幸運的一次, 是以約80張發票, 對中 4張 200
元的發票. 這機率約
百萬分之一有多小??





一般認為地球歷史有45億年. 最古老的埃及中國
文明距今4千年, 這個比例就是將近百萬分之一.
如果把地球歷史45億年縮為1年, 那麼1 分鐘大約
等於地球歷史的 8752 年. 百萬分之一大約就是一
年的最後30秒!
夏朝就是在12月31日23時59分30秒之後才發生.
恐龍大約在12月13日出現, 12月24日中午還沒來
的及過聖誕夜就滅絕了.
當我們跨年倒數時, 相當於我們從魏晉南北朝開始
倒數, 每一兩秒就過一個朝代, 從隋, 唐, 五代十國,
28
宋, 元, 明, 清, 到現在.
29
統計
30
數據標準化





數據標準化是數據挖掘 (Data Mining)的最基本工作
。不同的評鑑指標通常有不同的量化標準和單位,要
進行對比前,通常要先經過數據標準化的處理。
什麼是 Data Mining?
比如: 銀行希望從大量交易的數據中,過濾出存在資
金問題的客戶;
廣告主面對五花八門的促銷宣傳選項,希望知道什麼
季節該主打什麼樣的廣告。
一個真實的案例是,美國 Target 百貨公司,透過對
消費紀錄的交叉比對,推斷出可能懷孕婦女的族群,
並對該族群重點式推薦並促銷孕婦產品大獲成功,包
括讓一個家長獲悉女兒隱瞞懷孕的消息!
Z 分數 與 T 分數




一個數據的 z 分數,就是將該筆數據減去整體數據
的平均值,再除以標準差。
z 分數的排序保持原本數據的順序。
全體數據的 z 分數平均值為 0,標準差為 1。
T 分數 = 10 Z + 50。全體數據的 T 分數平均值為
50,標準差為 10。換言之,T 分數差 10 分代表差
一個標準差,這是我們考試院以及許多政府機關招
聘人員的採計標準!
Z 分數 與 T 分數




比如,某項考試採計筆試(滿分 100)和口試 (滿分 5
分)兩項成績。
兩項成績直接相加顯然不合適,因為筆試總分比口
試高 20 倍,相加會造成口試不具效度,等於白考!
數據標準化在此有許多做法,比如把口試先加權,
再和筆試相加!
採用 T 分數可以將兩項成績都調成平均值 50 分,
標準差 10,使得兩項成績在相加前具有相同的統計
特徵!
有那些問題?




某次考試考數學與自然兩科,共 5 名考生,
錄取兩名。
數學原始成績: 0, 2, 4, 30, 90
自然原始成績: 75, 56, 73, 60, 50 (按數學成
績排列)
請問妳覺得,哪兩位同學該被錄取?
34
使用 T 分數





數學原始成績: 0, 2, 4, 30, 90
自然原始成績: 75, 56, 73, 60, 50 (按數
學成績排列)
數學 T 分數 : 42.6, 43.2, 43.8, 51.4, 69
自然 T 分數 : 62.6, 43, 60.5, 47.1, 36.9
兩科 T 總和: 105.2, 86.2, 104.3, 98.5, 105.9
35
使用 T 分數




不只如此,T 分數的最低分會破 0,最高分會破百!
舉例: 全班60人,1人考0分,59人考 100 分,則 0
分同學的 T 分數是 -26.82,100 分的 T 分數為 51.3
全班 60 人,0 分有 20 人,1 分 10 人,2 分 10 人
,3 分 10 人,4 分 9 人,98 分 1 人,則最高分的 T
分數為 126.3
若全班 60 人,0 分以及 100 分各 1 人,50 分 58 人
,最低分 T 分數 -4.67;T 分數最高為 104.76;其餘
58 人 T 分數為 50。
36
輻射與癌症




輻射就是原子核爆炸飛濺的碎片,儘管這些碎片的速
度接近光速,但是非常微小。微小到當他射進妳的體
內時,很可能僅僅破壞某個分子,或某段基因,但是
不會撕裂妳的心臟!
但是,當為數眾多的分子被巨量輻射破壞時,妳就會
因為輻射中毒或輻射傷害而很快(數小時內)死亡。
就算較輕的輻射傷害,也會誘發癌症!
我們知道機率有多高嗎?
輻射與癌症





人體接受輻射劑量單位為 侖目(rem)。牙齒照一次 X
光大約接受 0.01 rem 的輻射劑量。
照射 100 rem 的劑量,人體反應很輕微,很多人沒
什麼感覺。
罹患癌症所做的放射線治療,會讓妳毛髮脫落、食慾
不振,這大約有 200 rem.
300 rem的劑量就不是普通人可以承受的了。約半數
的人在這個劑量下活不了多久。
1000 rem 的劑量不管是誰都活不了 1 小時。
輻射與癌症


在 2001 年,出版在 The Proceedings of National
Academy of Sciences of the United States 的一
篇論文: Significance analysis of microarrays
applied to the ionizing radiation response (將近
被引用 10000 次),對於輻射的危險有一些定量的看
法,引起眾多討論。
下面的函數圖形來自線性迴歸分析,直線的斜率是
0.04 (百分點/ rem). 也就是每 100 rem 的輻射劑量(
預估)會增加 4% 的癌症死亡率! (當然有一些誤差)
輻射與癌症
這線性迴歸告訴我們什麼?



廣島和長崎原子彈爆炸,約 10 萬人生還,這群生
還者顯然受到顯著輻射照射,有人多有人少,但經
過統計推估這群生還者平均每人受到 20 rem 的劑
量!
按照線性回歸,這些人平均會多出 0.8% 的致癌機
率,我們預期會多出 100,000 * 0.8%=800 個因此
次核爆所增加的罹癌死亡病例!
這數據是不是太少了?
這線性迴歸告訴我們什麼?






的確!
這數據和統計推論引起廣大爭議!
爭議來自這些統計數據的誤差、採樣及分析!
爭議同樣來自線性迴歸! (真的是 “線性”嗎?)
斜率 0.04 的直線,每 100 rem 增加 4% 的癌症死
亡率,要 2500 rem 的劑量才會 “確定 (100%)” 因
輻射引發癌症而死亡!
但是,在這個劑量底下,所有人早就瞬間死光光,
哪有時間得癌症慢慢死?
這線性迴歸告訴我們什麼?




但是,這數據同樣不乏擁護者!
理由一: 這是我們科學工具能夠拿到的最好數據和分
析,有一定的可信度!
理由二: 癌症本來就不是罕見疾病! 就算沒有核爆,
全世界平均約 25% 的人本來就會死於癌症,這會使
得因核爆的額外癌症致死率偏低!
理由三: 這麼低的癌症額外致死率並不是代表輻射很
安全! 而是因為暴露在核爆的輻射塵下,儘管真的因
此罹癌,很多人最後還是死於其他因素,例如酗酒,
心臟病,糖尿病,車禍,甚至,莫名其妙的意外!!
但是,沒有爭議的是




人類的科技,真的沒有大家認為的那麼厲害! (否
則,那麼一大台的飛機,那會說不見就不見!)
流行性的熱門議題(比如能源危機、全球暖化、永
續發展、非核家園、服貿)幾乎各個有爭議! (在這
些議題上,妳可以有個人信仰或信念,但是就是
不能信仰科學! 因為科學的本質是質疑)
學習科學的角度, 動機, 和面向, 都必須夠切身, 夠
近代, 夠深入,夠批判! 否則, 有些人學不上手, 有
些人上手了以後完全不會用, 有人會用了但是變的
偏執.
我們必須同理心!
祝 期末考順利 !!
45