Transcript power point

Introducción a la Sociomática
El Análisis de los Sistemas Adaptables Complejos en el
Entorno Socioeconómico.
Dr. Gonzalo Castañeda
Capítulo 10
Juegos Evolutivos
10.0.- Introducción





Evidencia empírica muestra que la cooperación es
mucho más frecuente de lo que sugiere el modelo
neoclásico → se requiere de un marco teórico que
explique este tipo de comportamientos
¿Cuáles son las ventajas evolutivas de los
comportamientos pro-sociales ante la presencia de
actores oportunistas?
La teoría de juegos evolutivos ayuda a explicar
preferencias pro-sociales vía mecanismos genéticos y
culturales
Desarrollada inicialmente en biología (Maynard-Smith
y Price) permite explorar fenómenos socioeconómicos
que se manifiestan paulatinamente (innovación
estrategias empresariales, instituciones, normas
sociales)
Incorpora procesos de aprendizaje para suplir las
limitaciones cognitivas de los individuos
 Aquí
se adopta versión amplia de EGT al
incluir lo que algunos autores llaman
juegos con aprendizaje (LGT)
 EGT en sentido estricto: análisis a nivel
poblacional, se habla de replicación de
estrategias a través de generaciones
 En EGT, a diferencia de CGR, beneficios
no son preferencias sino tasas de
adaptación
 En LGT los individuos de una misma
generación aprenden, por lo que se habla
de imitación o revisión de estrategias
10.1.- Premisas y conceptos de solución

La teoría de juegos clásicos aporta planteamientos
estratégico al enfoque neoclásico, pero mantiene su
adherencia a los principios de preferencias
exógenas, racionalidad y equilibrio.
 EGT considera que precedentes históricos son base
de las expectativas y preferencias y que éstas, a su
vez, dan lugar a acciones que se convierten en
precedentes futuros
 “La economía neoclásica describe la forma que
opera el mundo una vez que el polvo se ha
asentado, en tanto que los juegos evolutivos se
interesan en la manera en que ese polvo se logra
asentar”

(i) Interacción recurrente. Juegos se repiten, pero no
siempre participan los mismos actores →distintas
generaciones comparten ciertos atributos.
 (ii) Probabilidades diferenciadas de interacción.
Posibilidad de interactuar depende de su participación
en la población, de su proximidad geográfica y
afinidad social (dimensión espacial)
 (iii) Procesos de aprendizaje. (i) Aprendizaje noestratégico o social : los agentes no eligen ni forman
inferencias, simplemente las participaciones
poblacionales se modifican . (ii) Aprendizaje
estratégico o individual : individuos tienen capacidad
de elegir y forman inferencias en base a información
histórica
 (iv) Presencia continua de perturbaciones. El status
quo de un sistema evolutivo se ve constantemente
amenazado por variantes (mutaciones, innovaciones y
errores aleatorios)
*Conceptos de solución (o equilibrio)
Incluir racionalidad acotada → diversidad de modelos
en términos del concepto de solución y mecanismos
de aprendizaje
 Conceptos de solución: (i) estrategias dinámicamente
estables (EDE), (ii) estrategias evolutivamente
estables (EEVE), (iii) estados estocásticamente
estables (EESE)
 EDE = concepto de estabilidad asintótica de un
sistema de ecuaciones diferenciales. EDE coinciden
con algunos de los equilibrios Nash → refinación del
concepto de solución (pero sin racionalidad extrema)

* La dinámica de replicación y el origen de las
convenciones
 Sea un juego de coordinación 2 x 2, en el que dos
jugadores tomados al azar de una población
interactúan cada periodo.

En el planteamiento convencional existen dos
equilibrios Nash en estrategias puras y uno más en
estrategias mixtas
 El equilibrio de cooperación es pareto superior, pero
bajo TJC no es posible determinar si éste es
efectivamente alcanzado

Para determinar el equilibrio se postula un proceso de
aprendizaje: dinámica de replicación
 Si x es la proporción de individuos que utilizan la
estrategia de no-cooperación se tiene que:
d x
 x [Utilidad (desinterés )  Utilidad ( media )]
dt


en donde:
El beneficio medio se estima de manera adaptativa,
i.e. en función de la distribución de frecuencias
observadas
d x
 Por lo tanto:
 x (1  x) (61x - 11)
dt

El equilibrio Nash es polimórfico en x = 11/61 y
monomórfico en X = 0 , X = 1. En estos puntos no
existe tendencia a que se modifique la participación
relativa (d x/ dt = 0)


Sin embargo las únicas EDE son X = 0 y X = 1
(existe una base de atracción alrededor de dichos
equilibrios)
El equilibrio al que se llega depende del punto de
partida.
 La mayor presencia de un atributo reditúa mayores
beneficios a los individuos que siguen dicho atributo
(retroalimentación positiva).
* Estrategias Evolutivamente Estables:

En las EEVE el equilibrio se define como el
fenotipo (estrategia) de una población que no logra
ser perturbada a pesar de la presencia de una
población pequeña de mutantes con atributos
diferentes
 Los EESE son aquellos estados que ocurren con
mayor frecuencia en el largo plazo a pesar de que
el sistema se vea afectado permanentemente por
choques aleatorios pequeños
 En EDE es común encontrar que el equilibrio
depende del punto de partida, pero no así en EESE

Si T es una EEVE que resiste el embate de los mutantes se
tiene que cumplir:

Por lo que si se supone linealidad en la utilidad esperada:

Las EEVE se determinan a partir de las siguientes condiciones

En un dilema del prisionero, el desinterés es una EEVE

ya que:
* Equilibrios estocásticamente estables

Un sistema dinámico se ve constantemente
influenciado por perturbaciones aleatorias → hay que
incorporar errores estocásticos en las ecuaciones de
movimiento
 Por ejemplo, en un modelo de adaptación por mejor
respuesta se puede suponer que individuos eligen
idiosincrásicamente con cierta probabilidad
 Se dice que el estado de un sistema dinámico
perturbado es estocásticamente estable si su
probabilidad estacionaria es estrictamente positiva
(i.e. ante perturbaciones pequeñas tienen una
probabilidad de ser observado en el largo plazo)
 En
un juego 2 x 2 de coordinación de una solo
etapa se habla de dos equilibrios dependiendo
de las expectativas de los interlocutores; i.e.
conviene cooperar si eso es lo que se anticipa.
 Sin
embargo, en un proceso dinámico
perturbado el ‘desinterés’ es el único EESE
 Para
que el ‘desinterés’ sea la norma se
requiere poco mas del 30% de
desinteresados; mientras que para que la
cooperación sea la estrategia más segura se
requieren poco más del 70% de cooperadores
 Si en una primera instancia la mayoría de los
individuos cooperan, el ‘desinterés’ puede
comenzar a propagarse si se acumulan una
serie de comportamientos irracionales.
 Es más fácil llegar a una proporción del 30%
que del 70% para que los actores racionales
modifiquen su estrategia en el sentido del
umbral que se rebasa
10.2.- Mecanismos de aprendizaje






En los seres humano existe una diversidad de mecanismos de aprendizaje:
¿se imitan modelos populares? ¿se siguen estrategias ganadoras? ¿se
actúa de acuerdo a la mejor respuesta?
(i) Selección natural. Beneficio en función del éxito reproductivo (utilidades
en la empresa). En modelos de dinámica de replicación el crecimiento
relativo de una estrategia en la población es función lineal del beneficio de
dicha estrategia con respecto al promedio
(ii) Imitación. Emulación de comportamientos populares (local o
globalmente). Necesario definir preferencias; propensión a imitar decrece
con el nivel de beneficios personales
(iii) Reforzamiento. Personas tiene inclinación a reproducir acciones que en
el pasado dieron un beneficio y rechazarlas en el caso contrario → en
ocasiones basta con conocer beneficios personales
(iv) Mejor respuesta. Personas conscientes del impacto de la interacción,
pero beneficios estimados en función de distribuciones empíricas sobre el
comportamiento de los demás. En juegos ficticios se tiene sólo
conocimiento pasado; es posible acotar la memoria social de manera
heterogénea
El mecanismo utilizado depende del fenómeno a analizar, e.g. dinámica de
replicación para analizar supervivencia de empresas. Distintos mecanismos
pueden producir los mismos equilibrios, pero no siempre es el caso
* Juegos ficticios


Los jugadores van aprendiendo cual es la distribución de
probabilidades asociada a la elección de estrategias por parte
de sus interlocutores.
La memoria del i-ésimo jugador sobre las veces que el jugador
j ha elegido xj viene dada por:

Por lo que las participaciones relativas se definen:

Sea el siguiente juego:

Si el valor inicial de la memoria de A es (1, 2.5) y de B es (2.5,
1), la estrategia 2 es la mejor respuesta para A y la estrategia 1
para B por lo que las nuevas memorias serían: (2, 2.5) y (2.5,
2) y así sucesivamente
Para ciertos juegos se puede mostrar convergencia

* Aprendizaje por adaptación




Selección de estrategias depende de un vector de memoria
(h1,….hm)
A partir del criterio de mejor respuesta se puede construir una
matriz de probabilidades de transición: M = {mij}
Sea el juego de coordinación:
Con m = 2, la mejor respuesta a ll es l y a rr es r, mientras
que para rl o lr se elige r o l con probabilidad ½
 Los diez estados del sistema son: llll, lllr, llrl, llrr, lrlr, lrrl, lrrr,
rlrl, rlrr y rrrr; esta concatenación se forma con penúltima y
última decisión de cada jugador (el orden de los jugadores no
importa → se eliminan seis variante: lrll equivale a lllr)
 La
matriz de transición correspondiente
viene dada por:
 Como
m1,1 y m10,10 = 1 se dice que llll y rrrr
son estados absorbentes


M es la matriz de transición de un periodo, M2 = M M de dos
periodos ….Mk de k periodos.
El comportamiento de largo plazo viene dado por:
Se puede utilizar Mathematica para calcular Mk hasta que las
celdas sean muy pequeñas o no cambien de un periodo a
otro
 Más fácil calcular el eigenvector v de M tal que Mv = v
restringido a que v[1] = (1,1,…1)
 v representa el vector columna de probabilidades de que
cada estado llegue a llll: v =(P[llll] = 1, P[lllr],…P[rrrr] = 0)
 En el ejemplo: v = (1, 2/3, 5/6, 1/2, 1/3, 1/2, 1/6, 2/3, 1/3,0)’
que corresponde a la primera columna de M*, las columnas
2-9 son vectores de cero y la 10 se obtiene como residual ya
que la suma de probabilidades es igual a la unidad

* Estabilidad Estocástica




Se incorporan errores en el proceso de aprendizaje: la decisión
de acuerdo con mejor respuesta con probabilidad (1 – e) > 0
Ahora la matriz de transición viene dada por:
En donde a = (1 –e)2, b = e(1e), c =(1 – e)/2, d = e/2, e = e2.
Existen varios m1,j > 0, y no solo m1,1 → en el sistema
perturbado no hay estados absorbentes.






Si se aplica Mathematica para un e = 0.01 todos los
renglones de M* son idénticos al vector: (0.442,
0.018, 0.018, 0.001, 0.0002, 0.035, 0.018, 0.0002,
0.018, 0.442)
El sistema llega a llll o a rrrr el 88.4% de las veces y
se mantiene entre los otros ocho estados 11.6% de
las veces
La dos convenciones son estados estocásticamente
estables
La posibilidad de que haya errores permite que haya
desplazamientos súbitos en los que el sistema se
mueve de una convención a otra
llll → lllr → lrrr → rrrr la primera y segunda flecha
se deben a errores y la última a una elección de
mejor respuesta
En un juego de coordinación, con elementos
diagonales cero el EESE viene dado por la
convención pareto superior.
10.3.- Dinámica evolutiva con tres tipos de atributos

La dinámica con la que se modifica la composición de
la población (x, y, z), con x + y + z = 1, se puede
analizar a través del diagrama de fase conocido como
Simplex

La posición y estabilidad de los puntos fijos interiores
(Q) dependen de la matriz de beneficios del juego de
la etapa y de los mecanismos de aprendizaje






Un ejemplo de juego con tres atributos es el de los bienes
públicos con participación voluntaria
Además de los cooperadores (C) y oportunistas (D) existen los
solitarios (S) que optan por retirarse al considerar que el
intercambio no les es satisfactorio
El ingreso de S es relativamente bajo pero fijo ya que no
depende de la composición de la población (aversión al riesgo)
Algebraicamente los beneficios vienen dados por:
en donde G = nc + nd ≤ N (tamaño del equipo)
Se pueden generar oscilaciones: si abundan C a algunos les
conviene convertirse en D, pero una vez que estos dominan los
más sensato es abstenerse de participar; finalmente, cuando
domina S un pequeño grupo de C se integra para crear el bien
público (este caso es más factible cuando r > G, por lo tanto se
abate conflicto entre preferencias individuales y colectivas) →
G se incrementa de nueva cuenta
Dinámica evolutiva de un JBP con participación voluntaria
 Programa
desarrollado por VirtualLabs:
(Voluntary Public Good Games→ Well-mixed
populations); se utiliza dinámica de replicación
 Pantalla (a): N = 6, r = 1.8 < 2, C = 3%, D = 0%,
S = 97%, 10,000 agentes → se da una
oscilación y la trayectoria revierte a un
equilibrio en el que domina S.

Pantalla (b) r = 3 > 2 → cambia el valor de Q y las bases de
atracción, lo que hace posible que en equilibrio: 100% D

Pantalla (c) S =50%, D = 25%, C = 25% → coexistencia de los
tres atributos, pero inestabilidad hace que población se vuelva
homogénea

Otro ejercicio: r = 7 > 6 → desaparece dilema social, domina C
* Mecánicas de aprendizaje





Las mecánicas de aprendizaje seguidas pueden tener
implicaciones sobre los resultados generados
(1) Dinámica de replicación convencional:
propagación proporcional al desempeño relativo (de la
población total o de una muestra aleatoria)
(2) Imitación del mejor jugador: se imita
exclusivamente al mejor jugador de una muestra
aleatoria
(3) Dinámica de mejor respuesta: a partir del
conocimiento sobre la composición de la población se
toma la mejor respuesta
Mecánicas de aprendizaje no inciden en la posición
de Q pero si en su dinámica: (a) estable en
aprendizaje de mejor respuesta, (b) pero puede ser
inestable cuando se trata de imitación del mejor
exponente
Mecánica de aprendizaje y estabilidad



VirtualLabs: Voluntary Public Good Games→ Well-mixed
populations →(Imitate better players, best-reply dynamics)).
Pantalla (a) r = 3, N = 5, (C,D,S) uniformemente distribuidos y
aprendizaje por imitación → oscilaciones periódicas
Pantalla (b): C = 4%, D = 1% , S = 95% y mejor respuesta →
estado fijo interior estables
10.4.- Modelo de negociación descentralizada

Con un sistema markoviano se definen equilibrios
de largo plazo
 Con un ABM se puede precisar la inercia de un
determinado estado y que tan transitoria es una
situación de desequilibrio
 En el modelo emerge la norma de cómo se
distribuye un bien: equitativa, injusta, desequilibrio
con disputa sostenida
 Un escenario u otro, en una escala de tiempo
relevante, depende de factores fortuitos y
trayectorias dependientes; aunque teóricamente el
EESE puede ser alcanzado en un sistema
perturbado desde cualquier condición inicial
* El juego de la división del pastel




En c/periodo de tiempo hay negociaciones bilaterales de cómo
dividir el pastel: si la suma de las exigencias es menor o igual
al 100% se quedan con la cantidad reclamada, si es mayor al
100% el juego termina en conflicto
Axtell, Epstein y Young consideran tres niveles de exigencia: H,
L, M
Existen tres equilibrios Nash, pero evidencia con sujetos
humanos señala una preferencia por la combinación justa
En un juego evolutivo, la división equitativa es la única EEVE:
los mutantes que demanden más o menos del 50% no pueden
invadir





¿Qué pasa si existen equilibrios polimórficos?: ej.
la población se divide en partes iguales tal que los
avariciosos (H) reclaman 2/3 y los modestos (L)
1/3.
Ambos consiguen en promedio un beneficio de 1/3
del pastel: (H, H) → 0 , (H, L) → 2/3
La estabilidad del equilibrio es fuerte ya que: (i)
efectos retro-alimentadores hacen que la
composición de H y L no varíe, (ii) es resistente a
‘super-avaros’, ‘super-modestos’, ‘relativamente
justos’
Todos los equilibrios que reclaman x y 1-x son
ineficientes, en el ejemplo anterior 1/3 < ½ del
equilibrio justo
¿Con qué frecuencia se cae en una trampa
polimórfica?

La base de atracción de
(M,M) es mayor que la de
(H,L) → se alcanza para un
rango mayor de condiciones
iniciales (pantalla a)

La base de atracción de la
norma equitativa aumenta si
se incrementan las rebanadas
del pastel y si existen
encuentros correlacionados
e = 2/10 (aleatorio e=0,
perfecta e =1) (pantalla b)
* El juego del pastel en un contexto espacial
NelLogo (Model Library → Sample Models
→ Social Sciences → (unverified) →Divide the
Cake).
 En cada sitio de la reticula hay un pastel a
distribuir, cuando dos agentes se encuentran
reclaman su rebanada en función de
estrategias predeterminadas: justos
(rojo),modestos (café), avariciosos (azul)
 La posibilidad de ser clonados en c/periodo se
incrementa con el nivel de ganancias obtenido
 La movilidad en el espacio la determina el
observador
 En

Los justos se propagan cuando se parte de igual
número de representantes

La interacción local hace que se formen cluster de
justo-justos, justos-modestos, pero nunca de
avariciosos-justos (colores rojo y azul)

La población de agentes modestos tiene mayores
posibilidades de expandirse cuando su número inicial
es mucho mayor (i.e. condiciones iniciales importan)
* Mecánica de aprendizaje en el juego de negociación




descentralizada
En c/periodo tienen lugar N/2 encuentros aleatorios en
donde la decisión de mejor respuesta se basa en la
memoria de c/agente
Los estados se forman con la concatenación de los m
registros de memoria de toda la población
El agente elige su mejor respuesta con una
probabilidad de (1-e), los registros de H, L, M
determinan las frecuencias relativas para estimar el
comportamiento esperado del interlocutor
La incorporación de errores en el proceso de
aprendizaje hace posible que una convención pueda
ser desplazada si éstos se acumulan y se logran
modificar expectativas
* Representación diagramática del sistema

Un punto del Simplex corresponde a las frecuencias
registradas en la memoria (mL/m, mM/m, mH/m) de
un agente, y no a la forma en que se distribuye la
población en un cierto periodo
 Los puntos describen las expectativas de c/agente, y
las regiones de color a las bases de atracción: M se
elige en verde, L se elige en rojo y H se elige en azul
→ la norma equitativa es un EESE ya que el verde es
el área mayor

El sistema se puede quedar mucho tiempo en un
estado ‘transitorio’ en el que la disputa por el pastel no
propicia la conciliación
 La experiencia de unos los lleva a H y la de otros a L,
pero como están en las fronteras de las regiones azul
y rojas no hay coordinación → brincos continuos entre
regiones
 Incapacidad de conciliar los lleva a perder recursos,
en promedio obtienen ¼ cuando con la norma
equitativa obtienen ½
* Escalas de tiempo relevantes e inercias






No hay estados absorbentes, por lo que el sistema es
ergódico en tanto que las condiciones iniciales no
influyen en cual es el EESE
Para e pequeño , y (m,N) grandes la norma equitativa
es el EESE
Existe una inercia muy pronunciada, definida como el
tiempo de espera para alcanzar el estado estable.
Para e = 0.10, N = 10 y m = 13 el sistema requiere
mas de 105 periodos en promedio para transitar de un
estado fraccionado a una vecindad de la norma
igualitaria
Los tiempos de espera se incrementan con el tamaño
de la población y la longitud de la memoria
Ergodicidad descompuesta: en un entorno
descentralizado no es fácil ‘descubrir’ la norma
igualitaria → el EESE es ‘duro’ computacionalmente




* La aparición de clases sociales mediante un
modelo de etiquetas
Los intercambios descentralizados pueden generar
clases sociales y discriminación cuando los agentes
’nacen’ con etiquetas, a pesar de que no haya
mecanismos de coerción
Las etiquetas sirven para categorizar a la población,
aunque no estén asociadas a creencias,
comportamientos o competencias iniciales
Los agentes estiman mejor respuesta para cada ‘tono’
de agente dependiendo de la frecuencia en la que
c/estrategia es observada en ese subconjunto de la
población
Con el paso del tiempo una etiqueta se llega a asociar
a una determinada estrategia: tono oscuro se
identifica con H y tono claro con L, las expectativas se
auto-validan

Equilibrio intra-grupo: división del pastel entre
miembros de una misma categoría
 Equilibrio inter-grupo: división entre agentes de
categorías diferentes.
 Posibilidad de un equilibrio desafortunado: norma
discriminatoria entre agentes de distinta categoría
(tono claro con L, y tono oscuro con H), a la vez que
la ‘élite’ mantiene equidad y las ‘masas’ están
fraccionadas
10.5.- Las normas sociales como resultados de
juegos evolutivos





Existe una diversidad de normas sociales que no vienen de
un proceso de aprendizaje individual sino que son producto
de cambios generacionales
Este es el caso de normas que acotan la racionalidad; i.e.
normas civiles que se cumplen por el simple hecho de estar
insertadas en la psique del individuo.
Supón un meta-juego con un conjunto de actitudes que dan
lugar a la formación de diferentes vectores de normas civiles
La tasa reproductiva de estos vectores se define en una serie
de juegos anidados estáticos con individuos racionales
Por varios años la comunidad está compuesta con clases de
individuos, los que toman decisiones racionales dentro de sus
opciones factibles; posteriormente el proceso de aprendizaje
social hace que uno de estos vector de normas civiles se
propague en la sociedad y se convierta en un EEVE.
Sea un conjunto de estrategia S = (x1,….xm), las
clases de individuos se definen en función de la
disponibilidad de estrategias contenidas en un
subconjunto de S.
 En cada sub-juego los individuos toman decisiones
racionales de su vector de normas civiles X , Y c S
(dadas exógenamente)
 ¿Cuál de los X c S es una EEVE?
 El beneficio u(X, Y) del jugador renglón (tal que X
vs Y) se deriva del equilibrio Nash del juego
anidado restringido a las estrategias (X, Y)


Considérese un juego del dilema del prisionero
extendido: (c) cooperar, (d) defeccionar y (n) no
participar
 En el dilema del prisionero ampliado no existen
estrategias dominantes; en cambio hay un único
equilibrio Nash (n, n)

En el juego de selección de normas civiles el
equilibrio viene dado por el vector (n, c); la
cooperación forma parte de las estrategias posibles
→ la sociedad puede alcanzar el Pareto superior.
Meta-juego construido a partir de juegos anidados




El número de clases se define en función de las combinaciones
posibles de vectores de una, dos y tres estrategias
En el juego anidado de jugadores con clases (d, c) y (n, d, c) el
equilibrio Nash viene dado por el par d,n; cuyo beneficio
correspondiente es 0.
Es fácil verificar que las condiciones para un EEVE se cumple
para (n, c). Primero fijar columna (n,c), como se da la igualdad
con (c) fijar ahora columna (c) y checar que las normas (n,c)
tienen un beneficio equivalente.
Intuición: la opción ‘n’ les brinda la posibilidad de salirse
cuando se enfrentan con egoístas