Juegos en forma extensiva

Transcript Juegos en forma extensiva

Jesús Muñoz San Miguel
Matemáticas II:
Teoría de juegos no cooperativos
Segunda parte
JUEGOS EN FORMA EXTENSIVA
Hay dos representaciones principales de representar un juego y sus reglas
• La forma normal o forma estratégica se emplea para estudiar juegos simultáneos.
• La forma extensiva se emplea para estudiar juegos secuenciales.
Las dos representaciones son intercambiables, cada juego en forma extensiva se puede
escribir en forma estratégica y, del mismo modo, todos los juegos en forma estratégica
se puede representar en forma extensiva.
•
•
•
•
quién: ¿qué grupo de jugadores interactúa de manera estratégica?.
qué: ¿qué acciones alternativas u opciones tiene cada jugador disponibles?
cuándo: ¿en qué orden actúa cada jugador?
cuánto: ¿qué cantidad pueden ganar (o perder) ?
El juego del teatro (simultáneo)
Dos jugadores van a ver un musical de Broadway que tiene gran demanda por lo que
sólo queda una entrada y el que llegue primero será el que lo consiga (si llegan a la vez
hay una probabilidad del 50 por ciento para cada jugador). Tienen que decidir qué
forma de transporte tomar: b (autobús), c (taxi), o s (metro). Un taxi es más rápido que
el metro, que, a su vez, es más rápido que el autobús. Los pagos dependen de la
obtención de la entrada, así como del modo de transporte.
c
s
b
c
s
b
𝜋1 (T,c)+𝜋1 (N,c)
𝜋1 (T,c),𝜋2 (N,s)
𝜋1 (T,c), 𝜋2 (N,b)
𝜋1 (T,s)+𝜋1 (N,s)
𝜋1 (T,s),𝜋2 (N,b)
,
2
𝜋2 (T,c)+𝜋2 (N,c)
2
𝜋1 (N,s),𝜋2 (T,c)
𝜋1 (N,b),𝜋2 (T,c)
,
𝜋2 (T,s)+𝜋2 (N,s)
2
𝜋1 (N,b),𝜋2 (T,s)
2
𝜋1 (T,b)+𝜋1 (N,b)
,
𝜋2 (T,b)+𝜋2 (N,b)
2
2
Forma extensiva de un juego: Representación gráfica que adquiere forma de árbol.
• Comienza con el nodo raíz (nodo que representa el comienzo del juego)
• Del nodo raíz salen varias ramas (representan las posibles elecciones del primer
jugador que toma una decisión)
• Cada rama termina en un nodo de uno de estos dos tipos:
•nodo de decisión (situación en la que un jugador realiza una nueva elección que
da lugar a nuevas ramas)
•nodo terminal (corresponde al final del juego)
•Cada nodo terminal está etiquetado con los pagos de los jugadores
El juego del teatro (secuencial)
Representación de movimientos simultáneos
• Un jugador actúa igual si elige simultáneamente a sus oponentes que si elige
después pero desconoce la elección de éstos.
• Sustituimos los nodos en los que un jugador no puede distinguir la elección realizada
por un óvalo que los envuelve, que recibe el nombre de conjunto de información.
El juego del teatro (simultáneo)
Estrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento.
• Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en
cada conjunto de información.
• Si tenemos una y sólo una estrategia para cada jugador podemos determinar como
se desarrollará el juego exactamente
• Una estrategia mixta es una distribución de probabilidad sobre las estrategias puras
Forma extensiva del juego del teatro (secuencial)
Forma estratégica del juego del teatro (secuencial)
ccc
….
scb
….
c
𝜋1 𝑇, 𝑐 , 𝜋2 (𝑁, 𝑐)
….
𝜋1 𝑇, 𝑐 , 𝜋1 (𝑁, 𝑠)
….
s
𝜋1 𝑁, 𝑠 , 𝜋2 (𝑇, 𝑐)
….
𝜋1 𝑁, 𝑠 , 𝜋2 (𝑇, 𝑐)
….
b
𝜋1 𝑁, 𝑏 , 𝜋2 (𝑇, 𝑐)
….
𝜋1 𝑇, 𝑏 , 𝜋2 (𝑁, 𝑐)
….
Estrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento.
• Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en
cada conjunto de información.
• Si tenemos una y sólo una estrategia para cada jugador podemos determinar como
se desarrollará el juego exactamente
• Una estrategia mixta es una distribución de probabilidad sobre las estrategias puras
Forma extensiva del juego del teatro (simultáneo)
Forma estratégica del juego del teatro (simultáneo)
c
s
b
c
𝜋1 (T,c)+𝜋1 (N,c),
𝜋2 (T,c)+𝜋2 (N,c)
𝜋1 (T,c),𝜋2 (N,s)
𝜋1 (T,c), 𝜋2 (N,b)
s
𝜋1 (N,s),𝜋2 (T,c)
𝜋1 (T,s)+𝜋1 (N,s),
𝜋2 (T,s)+𝜋2 (N,s)
𝜋1 (T,s),𝜋2 (N,b)
b
𝜋1 (N,b),𝜋2 (T,c)
𝜋1 (N,b),𝜋2 (T,c)
𝜋1 (T,b)+𝜋1 (N,b),
𝜋2 (T,b)+𝜋2 (N,b)
Consistencia del árbol del juego
Los predecesores de un nodo A son todos los nodos desde los que se puede ir a A a través
de una secuencia de ramas.
Si imponemos las siguientes restricciones sobre los predecesores de los nodos podemos
garantizar la consistencia
• Un nodo no puede ser un predecesor de si mismo.
• El predecesor de un predecesor de un nodo es también su predecesor: si A es un
predecesor de un nodo B y B es un predecesor del nodo C entonces A es un
predecesor de C
• Los nodos pueden ordenarse: si A y B son ambos predecesores de C o bien A es un
predecesor de B o bien B es un predecesor de A
• Debe haber un antecesor común: si dos nodos A y B no son predecesores uno del otro
debe haber un tercer nodo C que preceda a ambos.
Juegos de información perfecta son juegos en forma extensiva con exactamente un
nodo en cada conjunto de información(no hay movimientos simultáneos).
En un juegos de información perfecta no existe ambigüedad y cada vez que un
jugador juega conoce exactamente la historia del juego
Juego de entrada 1
Coca-Cola tiene que decidir si entra (E=enter) o no entra (O=out) en un nuevo
mercado dominado por su rival Pepsi. La decisión de Coca-Cola se guía por la
rentabilidad potencial de este nuevo mercado, que depende de la reacción de Pepsi.
Si Pepsi contraataca y actúa duro (T=tough), Coca-Cola tiene pérdidas. Por el
contrario, si Pepsi no contraataca y se acomoda (a=accommodate) lo que tiene es
ganancias
Juego de entrada II (juego de información perfecta)
En este juego de entrada, después de observar la respuesta de Pepsi, Coca-Cola tiene
que decidir si reacciona contraatacando y actúa duro (T) o no lo hace y se acomoda (a)
Juego de entrada III (juego de información imperfecta)
En este juego de entrada, Coca-Cola tiene que decidir si reacciona contraatacando o no
sin conocer la reacción de Pepsi
Una predicción razonable sobre un juego tiene que incluir la racionalidad secuencial
• La racionalidad implica que un jugador escogerá la mejor respuesta a su
disposición en un nodo de decisión teniendo en cuenta su percepción sobre el
futuro del juego.
• La secuencialidad implica que en el futuro los jugadores razonarán de la misma
manera y en un nodo posterior escogerán la mejor respuesta teniendo en cuenta
su percepción sobre lo que resta del futuro del juego.
Juego de entrada I (continuación)
Comprobar, utilizando la forma estratégica del juego, que el juego de entrada I tiene
como equilibrios de Nash (E,A) y (O, T)
Tough
Acommodate
Enter
-2,-1
1,2
Out
0,5
0,5
El único equilibrio razonable es (E,A), en el que Coca-Cola entra en el mercado y Pepsi
no contraataca.
Juego de entrada II (continuación)
Cada estrategia de Coca-Cola tiene tres componentes:
• la primera le dice si entrar o no en el mercado,
• la segunda le dice que hacer si Pepsi actúa duro
• la tercera le dice que hacer si Pepsi se acomoda.
Coke \ Pepsi
T
A
ETT
-2, -1
0,-3
ETA
-2, -1
1, 2
EAT
-3,1
0,-3
EAA
-3, 1
1, 2
OTT
0, 5
0, 5
OTA
0, 5
0, 5
OAT
0, 5
0, 5
OAA
0, 5
0, 5
Hay esencialmente tres equilibrios de Nash en estrategias puras:
• Equilibrios de Nash en los que Pepsi actúa duro (T) y Coca-Cola juega cualquiera de las
cuatro estrategias en las que se mantiene fuera (O.T.T , O.T.A, O.A.T y O.A.A)
• (ETA,A) con el resultado de que Coca-Cola entra y se acomodan ambas empresas.
• (EAA,A) con el mismo resultado que en el segundo equilibrio.
La única estrategia secuencialmente racional para Coca-Cola es ETA
El único equilibrio de Nash secuencialmente racional es (ETA,A) .
El poder del compromiso.
• Aunque parece que es peor tener menos opciones, hay juegos en los que tener menos
opciones puede suponer tener más pagos.
• Si un jugador tiene más opciones se puede comportar de manera muy diferente en el
futuro. Este comportamiento afecta al juego actual y a los demás jugadores.
• Este cambio puede ser beneficioso o perjudicial para el jugador con mayores opciones.
Juego de entrada I’ (variante del juego de
entrada I).
En el juego de entrada I reducimos las
opciones de Pepsi después de la entrada de
Coca-Cola eliminando acomodar. Pepsi sólo
tiene la opción de competir y jugar duro
Juego de entrada II’ (variante del juego de
entrada II).
En el juego de entrada II reducimos las
opciones de Coca-Cola después de su entrada
en el
mercado y suponemos que Coca-Cola no se
puede acomodar. Coca-Cola sólo tiene la
opción de competir y jugar duro
INDUCCIÓN HACIA ATRÁS
• En un nodo de decisión final la única predicción razonable es la que tiene en cuenta que
el jugador tomará la acción que maximiza sus ganancias (la decisión del jugador que elige
termina el juego).
• En el penúltimo nodo de decisión el jugador conoce la consecuencia exacta de cada una
de sus elecciones porque sabe la decisión que se tomará en el nodo de decisión final (en
el penúltimo nodo de decisión puede calcular el pago exacto de cada una de sus
decisiones y elegir la mejor opción).
• En el nodo anterior el jugador conoce la consecuencia exacta de sus elecciones porque
sabe que elección se tomará en el penúltimo nodo de decisión y la elección que se hará
en el nodo final.
La inducción hacia atrás es la repetición de este proceso hasta llegar al nodo inicial
• Permite obtener una solución secuencialmente razonable siempre y cuando haya un
último nodo desde el que empezar• Teorema de Kuhn: todo juego de información perfecta con un número finito de nodos
tiene una solución por inducción hacia atrás y si todos los pagos de cada jugador son
distintos la solución es única
Inducción hacia atrás y eliminación de estrategias dominadas.
• Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la
estrategia con la mejor decisión en este nodo domina la estrategia alternativa y
cualquier otra estrategia que no tome esta decisión en ese nodo.
• Si dos estrategias son idénticas en todas partes excepto en un penúltimo nodo de
decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una
mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las
otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el
penúltimo nodo).
• Al continuar el proceso obtenemos la solución por inducción hacia atrás en la forma
extensiva y la solución por eliminación iterada de estrategias dominadas en la forma
estratégica.
Juego de entrada I Comprobar que el resultado por IEDS es (E,A) y que es el mismo que
obtuvimos por inducción hacia atrás en la forma extensiva.
Juego de entrada II
Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por
inducción hacia atrás en la forma extensiva.
Juego de entrada I Comprobar que el resultado por IEDS es (E,A) y que es el mismo
que obtuvimos por inducción hacia atrás en la forma extensiva.
Tough
Acommodate
Enter
-2,-1
1,2
Out
0,5
0,5
Juego de entrada II
Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por
inducción hacia atrás en la forma extensiva.
Coke \ Pepsi
T
A
ETT
-2, -1
0,-3
ETA
-2, -1
1, 2
EAT
-3,1
0,-3
EAA
-3, 1
1, 2
OTT
0, 5
0, 5
OTA
0, 5
0, 5
OAT
0, 5
0, 5
OAA
0, 5
0, 5
Exercise Consider entry game II again, but now suppose that Coke's decision on the FSU
market is reversible in the following sense: after it has entered and after Pepsi has
chosen T or A, Coke has any one of three options to choose from: T, A, and O (out).
Suppose that exiting at that point nets Coke a payoff of -1 and Pepsi a payoff of 3 if it
had been Tough and 4 had it accommodated.
Write down the extensive form of this game and solve the game by backward induction.
Explain any connection to the power of commitment.
Write down the strategic form of the game and solve the game by IEDS. Explain
connection between steps of iterated elimination and of backward induction.
EQUILIBRIO PERFECTO EN SUBJUEGOS
Juego de entrada III
Coca-Cola tiene que decidir si entra o no
entra en un nuevo mercado dominado
por su rival Pepsi. La decisión de CocaCola se guía por la rentabilidad potencial
de este nuevo mercado, que depende de
la reacción de Pepsi. Si Pepsi contraataca
y actúa duro, Coca-Cola tiene pérdidas.
Por el contrario, si Pepsi no contraataca y
se acomoda lo que tiene son ganancias.
Coca-Cola tiene que decidir si reacciona
contraatacando sin conocer la reacción de
Pepsi
Coke \ Pepsi
T
A
ET
-2,-1
0,-3
EA
-3,1
1,2
OT
0,5
0,5
OA
0,5
0,5
Coke \ Pepsi
T
A
T
-2,-1
0,-3
A
-3,1
1,2
Subjuegos y estrategias en un subjuego
Un subjuego es una parte de un juego en forma extensiva formada por una colección de
nodos que satisface:
• El subjuego comienza en un nodo de decisión simple.
• El subjuego contiene todos los sucesores del nodo inicial.
• Si el subjuego contiene parte de un conjunto de información lo contiene completo.
Una estrategia especifica que hacer en cualquier momento del juego, por tanto también lo
hace en el subjuego y es una estrategia para el subjuego.
• Si una estrategia se denota por si y un subjuego del juego original por g, la estrategia
para el subjuego se denota por si(g).
Equilibrio perfecto en subjuegos (EPS).
Un perfil de estrategia es un EPS si especifica un equilibrio de Nash en cada subjuego
• Un perfil de estrategias 𝑠𝑖 , 𝑠−𝑖 es un EPS de un juego en forma extensiva G
si 𝑠𝑖 (𝑔), 𝑠−𝑖 (𝑔) es un equilibrio de Nash de g para cada subjuego g de G.
• Todo EPS es un equilibrio de Nash (pero no al revés).
• En un juego con información perfecta los EPS son las soluciones por inducción hacia
atrás (si la solución por inducción hacia atrás es única hay un único EPS).
Juego de entrada III
En el juego post-entrada tenemos dos
equilibrios puros, (T, T) y (A,A) y un
equilibrio en estrategias mixtas (1/3, 1/2),
donde estas probabilidades son las
probabilidades de T.
Los únicos equilibrios perfectos en
subjuegos son (E.A,A), (O.T, T) y (O,1/3,
1/2),
Coke \ Pepsi
T
A
ET
-2,-1
0,-3
EA
-3,1
1,2
OT
0,5
0,5
OA
0,5
0,5
Coke \ Pepsi
T
A
T
-2,-1
0,-3
A
-3,1
1,2
El dilema del prisionero en dos etapas.
En una primera aproximación al dilema del prisionero iterado se considerara que tras la
primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a
interactuar y los pagos que obtienen son la suma de los pagos correspondientes
Calvin \
Klein
Confess
Confess
0,0
-2,7
Not
Confess
Not
Confess
7,-2
5,5
El único equilibrio se obtiene cuando los
dos prisioneros confiesan en cualquier
circunstancia
Exercise Let us modify the timing structure of the game of entry III. Suppose that Coke's entry
decision is made at the same time that Pepsi decides between tough and accommodate. Then, if
Coke chooses to enter, it has a further decision between tough and accommodate. Suppose that
the payoffs at every terminal node that follow enter are as before. If Coke stays out, then the
payoffs are (0, -1) if Pepsi plays T and (0, 0) if it plays A.
Write down the extensive form of this game.
How many subgames are there in this game?
Solve the game by backward induction. Be sure to detail every step.
Suppose the payoffs when Coke stays out are (0, 1) and (0, 0) instead when, respectively, Pepsi
plays T and A. Solve this game by backward induction.
Exercise Let us yet again modify the game of entry III. Suppose as before that Coke's entry
decision and Pepsi's T/A decisions are simultaneous. Suppose, furthermore, that when Coke
makes its subsequent choice between T and A it is unaware of Pepsi's choice.
Write down the extensive form.
How many subgames are there in this game? How many strategies does Coke have? (Use the
payoffs of previous exercise)
Explain why this timing structure is equivalent to Coke and Pepsi making a single simultaneous
decision. What are the strategies involved?
Find the Nash equilibria of the game.
JUEGOS REPETIDOS.
Definición Un juego repetido se define por un juego de etapa G en forma estratégica, que
se juega de forma repetida en tiempo discreto:
G = {Si, πi, i = 1,. . ., N}
con Si es el conjunto de estrategias del jugador i y πi (s1, s2, ..., Sn) su función de pagos.
Definición Si el número de repeticiones, T, es finito, el juego es un juego repetido
finitamente y si el juego no tiene un fin fijo es un juego infinitamente repetido.
• En juegos finitamente repetidos los pagos son la suma de los pagos en cada etapa.
• En juegos infinitamente repetidos los pagos se descuentan con un factor δ: 0 <δ <1,
𝜋𝑖0 + 𝛿𝜋𝑖1 + 𝛿 2 𝜋𝑖2 + ⋯ + 𝛿 𝑇 𝜋𝑖𝑇 + ⋯
Interpretación del factor δ
• Cada vez que se juega el juego de etapa, hay una probabilidad p de que la interacción
actual sea la última (la probabilidad de que estos jugadores jueguen el juego de etapa de
nuevo es δ = 1-p). Los beneficios se calculan como el pago esperado.
• El pago de la etapa t + 1 se valora como una fracción δ en la etapa t. La fracción δ
asociada es un factor de descuento y se valoran los beneficios como el valor actual.
Nota
• En cada etapa del juego todos los jugadores conocen la historia del proceso.
• Las estrategias se pueden expresar como acciones a realizar dependiendo de la historia
del juego hasta la etapa correspondiente
El dilema del prisionero modificado en T etapas.
En el dilema del prisionero modificado los prisioneros tienen también la opción de confesar
parcialmente con la matriz de pagos
Player 1 \ Player 2
c
p
n
c
p
n
0, 0
-1, 3
-2, 7
3, -1
3, 3
0, 6
7, -2
6, 0
5, 5
Este proceso se repite T veces y los pagos son la suma de los pagos de cada etapa
El juego de etapa tiene dos equilibrios
• (C,C) con pagos (0, 0).
• (P, P) con pagos (3, 3).
El dilema del prisionero modificado en dos etapas.
Player 1 \ Player 2
c
p
n
c
p
n
0, 0
-1, 3
-2, 7
3, -1
3, 3
0, 6
7, -2
6, 0
5, 5
• Estrategia I: En la primera etapa jugar N.
• Si en la primera etapa se ha jugado (N,N) jugar P.
• En caso contrario jugar C.
• Estrategia II: En la primera etapa jugar N (II.A)//P (II.B)
• Si en la primera etapa se ha jugado (N, P) jugar P.
• En caso contrario jugar C.
• Estrategia III: Jugar P en cualquier caso.
• Estrategia IV: Jugar C en cualquier caso
En el dilema del prisionero modificado en 2 etapas tenemos equilibrios perfectos es
subjuegos si:
— Ambos jugadores juegan con I.
— El primer juega con II.A y el segundo con II.B.
— Ambos jugadores juegan con III.
— Ambos jugadores juegan con IV.
El dilema del prisionero modificado en T etapas.
En el dilema del prisionero modificado los prisioneros tienen también la opción de confesar
parcialmente con la matriz de pagos
Player 1 \ Player 2
c
p
n
c
p
n
0, 0
-1, 3
-2, 7
3, -1
3, 3
0, 6
7, -2
6, 0
5, 5
Tenemos un EPS si ambos jugadores
juegan con la siguiente estrategia:
Jugar N en la primera etapa.
• Si en las etapas anteriores todos
los jugadores han jugado N jugar
N, salvo en la última etapa que
jugamos P.
• En caso contrario jugar C.
Equilibrios básicos
• Ambos jugadores juegan C en cualquier caso.
• Ambos jugadores juegan P en cualquier caso.
Otros equilibrios. El comportamiento de los jugadores en cada etapa depende del
comportamiento observado en etapas anteriores
En dos etapas tenemos un EPS si ambos jugadores juegan con la estrategia
• En la primera etapa jugar N.
• Si en la primera etapa se ha jugado (N,N) jugar P.
• En caso contrario jugar C.
En T etapas tenemos un EPS si ambos jugadores juegan con la estrategia:
• En la primera etapa jugar N.
• Si en las etapas anteriores todos los jugadores han jugado N jugar N, salvo en la
ultima etapa que jugamos P.
• En caso contrario jugar C.
El comportamiento en cada etapa depende del comportamiento observado en etapas
anteriores
Proposición En un juego repetido cuyo juego de etapa G = {Si, πi, i = 1,. . ., N} tiene
exactamente un equilibrio de Nash, (s1*, s2*, ..., Sn*), hay un único EPS.
En este equilibrio, el jugador i si juega si* en cada una de las etapas, independientemente
de lo que podría haber sido interpretado por él mismo o cualquiera de los otros, en
cualquier etapa anterior
El dilema del prisionero en T etapas.
• El juego de etapa tiene un único equilibrio $(C,C)$.
• Los jugadores pueden jugar en todo momento como si les quedara una única etapa.
• El juego completo tiene un único equilibrio: los dos jugadores confiesan siempre y en
cualquier contingencia
Nota Si hay más de un equilibrio de Nash, siempre existe la posibilidad de mantener un
buen comportamiento en las primeras etapas de interacción.
• Buen comportamiento en las interacciones tempranas puede ser recompensado
por el juego de mejores equilibrios de Nash en subjuegos futuros
• Cualquier desviación de esta conducta puede ser castigado por el juego de malos
equilibrios de Nash en subjuegos futuras.
Exercise Write down the extensive form of the once-repeated Battle of the Sexes
and sketch the extensive form of the T-times-repeated game. Show that in the Ttimes-repeated game, a subgame perfect equilibrium is to play (football, opera)
in every stage regardless of what got played in the previous stages. Show as well
that other subgame perfect equilibrium is to play (opera, football) in every stage
regardless of what got played in the previous stages.
Exercise Show that in every finitely repeated game, if there is more than one
stage-game Nash equilibrium one subgame perfect equilibrium is to alternate
between these equilibria
JUEGOS REPETIDOS INDEFINIDAMENTE
El dilema del prisionero iterado (infinitamente).
En el dilema del prisionero iterado se considerara que tras la primera interacción entre los
prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que
obtienen son la suma de los pagos descontados.
Calvin \
Klein
Confess
Confess
0,0
-2,7
Not
Confess
Not
Confess
7,-2
5,5
Factor de descuento asociado a un interés
𝛿=
Probabilidad p de que el juego termine
1
1+𝑖
𝛿 =1−𝑝
El dilema del prisionero iterado (infinitamente).
En el dilema del prisionero iterado se considerara que tras la primera interacción entre los
prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que
obtienen son la suma de los pagos descontados.
Calvin \
Klein
Confess
Confess
0,0
-2,7
Not
Confess
Not
Confess
7,-2
5,5
Estrategia del disparador severo:
• Jugar N en la primera etapa.
• Si en las etapas anteriores los jugadores han jugado siempre N entonces jugar N.
• En caso contrario jugar C de ahora en adelante.
Si ambos jugadores juegan con la estrategia del disparador severo tenemos un EPS
En las estrategias del tipo disparador hay un perfil de estrategias cooperativo tras el cual si
algunos de los jugadores se desvía, el jugador juega un perfil de estrategias de castigo
El dilema del prisionero iterado (infinitamente).
Calvin
Klein
Confess
Not Confess
\
Confess
Not Confess
0,0
-2,7
7,-2
5,5
Clasificamos los subjuegos de una etapa t en dos tipos
Tipo I: Los subjuegos que siguen a un juego (N,N) en todas las etapas.
Tipo II:: El resto de subjuegos (se ha confesado alguna vez).
• En los juegos tipo II la estrategia especifica jugar C siempre. Es un equilibrio de Nash y
ningún jugador incrementa sus pagos jugando N contra C.
• En los juegos tipo I los incentivos para desviarse y jugar C frente al otro jugando N
dependen del pago:
• Si juega C obtiene un pago de 7, pero sus pagos futuros desaparecen y el
incremento de su pago será de 7.
• Si juega N obtiene un pago de 5, pero sus pagos futuros serán también de 5 con lo
5
que el incremento de su pago 5 + 5𝛿+5𝛿 2 +5𝛿 3 + ⋯ = 1−𝛿
5
2
• No tiene incentivos para desviarse si 1−𝛿 > 7 (δ > 7)
El dilema del prisionero iterado (infinitamente).
Calvin
Klein
Confess
Not Confess
\
Confess
Not Confess
0,0
-2,7
7,-2
5,5
Estrategia del disparador con perdón:
• Jugar N en la primera etapa.
• Si en las etapas anteriores ambos jugadores han jugado siempre N entonces jugar N.
• Si algún jugador ha jugado C entonces jugar C en las T etapas siguientes y jugar N en la
etapa T + 1 con la estrategia en mente
Si ambos jugadores juegan con esta estrategia tenemos un EPS cuyos pagos son mayores
que en el disparador severo
Un ciclo de comportamiento (behavior cycle) es una sucesión de acciones que se repite.
• Jugar (N,N) T1 etapas
• Jugar (C,C) T2 etapas
• Jugar (N,C) T3 etapas
• Jugar (C,N) T4 etapas
Tras las T=T1+T2+T3+T4 etapas repetir el ciclo
Un ciclo de comportamiento es individualmente racional si cada jugador obtiene pagos
estrictamente positivos dentro del ciclo
Teorema popular (Folk theorem)
Comportamiento en equilibrio. Cualquier ciclo de comportamiento individualmente racional
es factible como EPS (siempre que el factor de descuento δ es cercano a 1).
Estrategia Equilibrio. Una estrategia que constituye un equilibrio es el disparador severo:
comenzar con el ciclo de la conducta deseada y continuar con él. Si cualquier jugador se
desvía entonces jugar (c, c) siempre después