Transcript Game Theory

11. Game Theory (不是電玩理論 ... )
人生充滿著衝突與競爭。。。
有太多的決策,不是自己說了算! 前面所有的分析,決策者都只有一個人,其他因素
都是經驗累積而來的數據,或是統計後的或然率。當影響決策不是一個人時。。。
所謂game(賽局),指用一群人所熟知競賽規則,來規範大家的行動及結果,還
有每個人因自己決策而獲得的payoffs。每個參賽者,在規則下,透過方案選擇,爭取
以最有效率的方式達到設定的目標。例如高爾夫球,用最少的桿數完成18洞的比賽。
或像是撞球賽,誰先打完就贏。後者有鮮明的競爭性,達成目標的過程有衝突性,做
球卡死對方。。。高爾夫球不會這樣!!!
通常競賽達成目標後,都會有某種payoffs(如獎金),本章討論game theory時,假設所
有的payoffs,都可以轉成以金錢表示。
大家要注意,game theory不是在教大家怎麼玩(競爭)!! 而是關於玩的過程中,應如何
選擇策略方案的方法與原則。所以game theory其實是一種有競爭狀況下的decision
theory。
11.1 Definition of Payoff matrix (or table)
Payoff matrix (or table)
An m×n matrix is called a payoff matrix of a game if it satisfies,
1. There are only two players R and C. (such as 2 persons, 2
companies or 2 nations ...)
2. Player R has m choices, and player C has n choices.
3. If R chooses alternative Ri, and C chooses alternative Cj then aij
denotes the payoff of C to R.
C
R
R1
C1
C2
... Cj ...
Cn
a11
a12
...
a1n
... Ri ...
...
Rm
am1
am2
Payoff matrix
a11 a12 ... a1n
...
aij
...
...
amn
aij ...
am1 am2 ... amn
Example 11.1
R與C兩人猜拳,剪刀/石頭/布。勝負之payoffs協議如下: (正值代表R獲利,
負值時代表R損失。)
C
R
剪刀 石頭
布
剪刀
2
-1
-1
石頭
-1
2
-1
布
-1
-1
2
規則
1. 一樣,R賺2元。
2. 不同,R賠1元。
Payoff matrix
2
-1
-1
-1
2
-1
-1
-1
2
11.2 Zero sum game (零和遊戲)
Two persons zero sum game means that the sum of total payoffs of
players R and C is zero! On the other words, any one’s gain is the
other’s lost.
Column player
C
R
想辦法讓自己降低損失,他有n種
策略可供選擇。
C1
C2
... Cj ...
Cn
a12
...
a1n
aij
...
...
amn
Row player
R1
a11
想辦法讓自己
增加獲利,他
有m種策略可
供選擇。
... Ri ...
...
Rm
am1
am2
x=(x1, x2, ..., xm)是一個
probability vector , xi 代
表R採用Ri策略的機率。
所以 ∑i=1 to m(xi) = 1。
R的立場
y=(y1, y2, ..., yn)是一個
probability vector , yj 代
表C採用Cj策略的機率。
所以 ∑j=1 to n(yj) = 1。
Example 11.1 - 續
R與C兩人猜拳,剪刀/石頭/布。勝負之payoffs協議如下: (正值代表R獲利,
負值時代表R損失。)
C
R
剪刀 石頭
布
剪刀
2
-1
-1
石頭
-1
2
-1
布
-1
-1
2
轉輪盤是策略還是賭博?!
R的probability vector
如果是(0.5, 0.25, 0.25),
表示R有一半的機會出剪
刀,另一半是出石頭或布。
II
剪刀
石頭
III
I
剪刀
布
IV
Example 11.2
某社區原只有一家超商7-11,最近來了一家新超商全家。全家有三種廣
告策略方案,用來吸引顧客。7-11因此也擬訂了三種反制的廣告策略,
將顧客流失率降到最低。下表是根據過去兩家超商競爭經驗的分析後,
所歸納出來的最低payoff table。
7-11
反制1 反制2
全家
廣告1
2
3
反制3
7
廣告2
1
4
9
廣告3
6
5
8
Payoff指全家最少可以吸引到顧客幾
千人。。。
在競爭中,不要讓對方知道自己的策略,
是很重要的關鍵。在不知道對方採取的競
爭策略方案下,如何在零和遊戲中,選擇
對自己最有利的策略?
全家:
必須使用maxmin rule,目的是maximizing
the minimal payoff。所以選擇廣告3。
7-11:
必須採用minmax rule,目的是minimizing
the maximal loss。所以選擇反制2。
零和遊戲的定義對這個範例很適用嗎?
- 全家廣告後,其獲利真的就必然是7-11的損失嗎?
11.3 Saddle point (賽局的鞍點)
Let G=(R, C, A) denote a two persons zero sum game if there is a value
VG such that VG = MaxRMinC A(ri, cj) = MinCMaxR A(ri, cj) then VG is
said the pure value of G and its location in A is said a saddle point.
C
c1
c2
c3
c4
MinC A(ri, cj)
r1
6
1
0
2
0
r2
5
3
5
37
3
r3
1
-3
6
-4
-4
MaxR A(ri, cj)
6
3
6
37
R
Saddle point
MinC{MaxR A(ri, cj)}
C player的最佳策略: c2
MaxR{MinC A(ri, cj)}
R player的最佳策略: r2
VG
The pure value of G
有鞍點的賽局稱為「strictly determined game」
Example 11.3
將 payoff matrix A 完成,使其成為一 non-strictly determined game。
A
2
a12
a21
7
就是不能出現saddle point的意思! 分析如下:
A
MinC
2<a12<7
2<a21<7
C
2<a12<7 2<a12<7
a21<2 7  a21
R
2
a12
2
a212
2
MaxR
a21
7
a21
a21
7
2<a12<7
a
2<a21<7 21
7
所以2<a12<7 不能成立! 而且必須
2<a12<7
a21<2
7
當a12 >7時, a21>7!
2<a12<7
7  a21
2
a21 a712
當a12<2時, a21<2!
Theorem 11.1
A 2×2 payoff matrix A= [ ac bd] is a nonstrictly determined game if and only if
Max{b, c} < Min {a, d} or
Max{a, d} < Min{b, c}
11.4 Mixed strategy (混合策略)
For a given G=(R, C, A) a two persons zero sum game, any strategy
of x or y is said to be a pure strategy if its probability vector exists a
component with value 1 (i.e., the others are all zero), otherwise it is a
mixed strategy.
MinC
A(ri, cj)
MaxR A(ri, cj)
6
1
0
2
0
5
3
5
7
3
1
-3
6
-4
-4
6
3
6
7
MinC{MaxR A(ri, cj)}
C player的最佳策略: c2
所以probability vector是
[0, 1, 0, 0]
MaxR{MinC A(ri, cj)}
R player的最佳策略: r2
所以probability vector是
[0, 1, 0]
換句話說,有saddle points的game
其row或column player,所採取的
策略,必然就是pure strategy。
A strictly determined game has pure
strategy.
A non-strictly determined game has
mixed strategy.
所以問題不在strictly determined game,而是在non-strictly determined
game。因為混合策略時,才會有策略方案選擇的問題。到底哪個方案
比較好?通常以優勝比值(oddment)來決定。
Example 11.3
C
c1
c2
R odd
r1
0
7
6
r2
10
4
7
C odd
3 22|
|a12-a
|a1110
-a21|
R
C player 混合策略比值:
[3/13, 10/13]
R player 混合策略比值:
[6/13, 7/13]
C player選擇c2策略後,R player會失去當C
player選擇c1策略時,所能帶來的可能payoff
之誤差。(這是C player選擇後唯一可以確知的事)
Example 11.4: 2×3 Payoff matrix
R
r1
r2
C
c1
c2
c3
c1: 17/8
c2: -13/8
-6
-1
4
c3: -13/8
5
如果不知道R所採取的混合策略是啥,
7
-2
C player
9
5
3
-5
R player
[3/8, 5/8]
所以C的混合策略應
該是[0, 9/10, 1/10]最
[9/10, 1/10]
為有利。
9
1
C player
該怎麼進行策略選擇?
12
R player
[9/14, 5/14]
10
R player
[12/22, 10/22]
堅決不採混合策略
C player
C player
採取pure
c2
[9/22,strategy
13/22]
[1/14, 13/14]
看來R採取[12/22, 10/22]
如果R player的混合策略是[9/14, 5/14],那
Why?
的混合策略很不利。因為
C player選c1時,R payoff的期望值為
1
13
-6×(9/14)+7×(5/14) = -19/14
選c2時,-1×(9/14)+(-2)×(5/14) = -19/14
選c3時,4×(9/14)+(-5)×(5/14) = 11/14
9
13
C player選c1時,R payoff的期望值為
-6×(12/22)+7×(10/22) = -2/22
選c2時,-1×(12/22)+(-2)×(10/22) = -32/22
選c3時,4×(12/22)+(-5)×(10/22) = -2/22
C不論怎麼選都會贏。
對C player不利,所以C的混合策略
應該是[1/14, 13/14, 0]最為有利。
Example 11.5: 3×3 Payoff matrix
C
求R oddment =
c1
c2
c3
R
[r1 odd:r2 odd:r3
r1
6
0
6
r2
8
-2
0
r3
4
6
5
R odd
c1-c2
c2-c3
r1
6
-6
r2
10
-2
r3
-2
1
odd],
先降行…= [6:6:48] = [1:1:8]
|10×1-(-2)×(-2)| = 6 ← r1 odd
|6×1-(-2)×(-6)| = 6 ← r2 odd
|6×(-2)-(-6)×(10)| = 48 ← r3 odd
求C oddment = [c1 odd:c2 odd:c3 odd],
先降列…
= [38:14:8] = [19:7:4]
C
不管怎樣R一定贏
C odd
c1
c2
c3
r1-r2
-2
2
6
r2-r3
4
-8
-5
2
6
-
= |2×(-5)-6×(-8)|
= 38 ← c1 odd
|-2×(-5)-6×4| = 14 ← c2 odd
-5
-8
|-2×(-8)-2×4| = 8 ← c3 odd
c1
c2
c3 R odd
r1
6
0
6
1
r2
8
-2
0
1
r3
4
6
5
8
C odd
19
7
4
R
1. If C takes pure strategy c1 then the expected payoff
of R is (6×1+8×1+4×8)/10 = 23/5, and
the same expected payoff is come out in c2 and c3
cases.
2. If R takes pure strategy r1, r2 or r3 then C has the
same expected payoff (loss) 23/5 will be figured out.