la evolución de la cooperación
TRANSCRIPT
La evolución de la cooperaciónRobert Axelrod, 1984
Presentación para Microeconomía 2Maestría en Economía
Universidad ORT Uruguay2011
El Torneo
• Axelrod convoca a varios conocedores de teoría de juegos de diversas áreas del conocimiento
• Cada uno debe presentar una estrategia para participar en un torneo computarizado del dilema del prisionero iterativo.
• Cada estrategia se enfrentará contra todas las demás estrategias, contra si misma y contra una estrategia llamada “azar”
• Cada enfrentamiento consiste de 200 jugadas• Se presentan 14 participantes de 5 disciplinas diferentes• El objetivo es maximizar las ganancias totales, no los “mano
a mano” ganados
El Juego
Condiciones Generales:T > R > P > SR > (T+S)/2
Resultados
TIT FOR TAT
• Fue la estrategia ganadora de la primera ronda• Consiste en comenzar cooperando y a partir de la
segunda jugada, hacer lo mismo que hizo el oponente en la jugada anterior
• Observaciónes:– Es imposible ganar una partida individual con esta
estrategia.– El maximo puntaje que puede obtener en una ronda es
R*n (600 en el caso de este torneo), que es el resultado de la mutua cooperación en todas las jugadas
Análisis de los resultados
• El autor se pregunta: Hay alguna característica de las estrategias que tenga correlación con los resultados?
• Las reglas “decentes” quedaron en los primeros 8 lugares y las reglas “no decentes” obtuvieron las últimas colocaciones
• Definición: Decimos que una regla es decente si nunca es la primera en engañar
• Si el final del juego es conocido, podemos incluir dentro de las reglas decentes a las reglas que no son las primeras en engañar antes de las últimas jugadas
• La diferencia fue tan grande, que las reglas decentes puntuaron entre 472 y 504 mientras que la regla no decente que obtuvo mayor puntaje obtuvo 401
Análisis de los resultados
Observaciones:• Las reglas decentes prosperaron porque había
un número suficientemente grande de ellas• Dentro de las reglas decentes, las 2 que mejor
puntuaron fueron las más indulgentes• Ex-post, se pueden encontrar reglas que
mejoren el resultado de TIT FOR TAT (Downing - 542, TIT FOR 2 TATS - 532, PROSPECTIVA - 520)
Segunda Ronda
• Para poder obtener mejores conclusiones, Axelrod organizó un segundo torneo.
• Se presentaron 62 participantes.• Se dieron a conocer previamente los resultados del
primer torneo, así como las principales conclusiones.
• Se modificó el problema del horizonte conocido de la ronda anterior, ya que la duración del juego se determinaba probabilísticamente (p=0,00346 ; w=1-p)
Resultados
• Nuevamente ganó TIT FOR TAT• De las 15 primeras, 14 eran decentes• De las 15 últimas, 14 eran no decentes• La correlación entre decencia y puntaje fue
0,58• Otras dos características exitosas fueron la
“provocabilidad” y la indulgencia.
Robustez de TIT FOR TAT
• Se probó la estrategia en 6 torneos hipotéticos diferentes. Ganó 5 y quedó 2da en el restante
• Se utilizó también un enfoque evolutivo:– Se repite el torneo indefinidamente– En cada ronda, la proporción de participantes con
cada estrategia depende del puntaje que haya obtenido dicha estrategia
– TIT FOR TAT es nuevamente la “ganadora” ya que es la que más crece
Proposiciones Teóricas
• Proposición 1:Si la tasa de descuento es lo suficientemente grande, no existe una estrategia óptima que sea independiente de las aplicadas por los demás jugadores
Proposiciones Teóricas• Def:
Decimos que la estrategia A invade a la estrategia B si en un mundo donde todos juegan B y un solo individuo juega A, La estrategia A obtiene en promedio mejores resultados
• Def: Una estrategia es colectivamente estable si no puede ser invadida por ninguna estrategia.
• Proposición 2:TIT FOR TAT es colectivamente estable siiw ≥ max {(T-R)/(T-P) ; (T-R)/(R-I)}
Proposiciones Teóricas• Dem:
TIT FOR TAT juega de acuerdo a lo que el oponente haya jugado la jugada anterior (y asume en la primera jugada que el oponente cooperó en -1)
Cualquier estrategia que juegue contra TFT, después de jugar C, lo mejor que puede hacer es jugar C o D; y lo mejor que puede hacer luego de jugar D es jugar C o D.
De esta forma, quedan determinadas las 4 posibles estrategias óptimas contra TFT. Jugar repetidamente CC, CD, DC o DD
CD está dominada por CC y CC a su vez obtiene los mismos resultados que TFT por lo tanto no puede invadirla.
Si ni DD ni DC pueden invadir a TFT, entonces ninguna estrategia puede hacerlo.
Proposiciones Teóricas
• Dem:DD no invade a TFT sii V(DD|TFT) ≤ V(TFT|TFT)→ T+wP/(1-w) ≤ R/(1-w)→ w ≥ (T-R)/(T-P)
DC no invade a TFT sii V(DC|TFT) ≤ V(TFT|TFT)→(T+wI)/(1-w2) ≤ R/(1-w)→ w ≥ (T-R)/(R-I)
Proposiciones Teóricas
• Proposición 3:Si w es lo suficientemente grande, cualquier estrategia A que pueda ser la primera en cooperar puede ser colectivamente estable.
• Dem: Si A coopera en la primera jugada:
V(SD|A) ≥ T + wP/(1-w)
V(A|A) ≤ R/(1-w)
Si T + wP/(1-w) ≥ R/(1-w) → V(SD|A) ≥ V(A|A)
(T-R)/(T-P) ≥ w → V(SD|A) ≥ V(A|A)
Proposiciones Teóricas
• Proposición 4:Para que una estrategia decente sea colectivamente estable, es necesario que sea provocada por la primera defección del otro jugador.
• Dem:Si una estrategia decente no es provocada por una defección en la jugada n, puede ser invadida por una estrategia que coopere siempre y engañe en la jugada n
Proposiciones Teóricas
• Proposición 5:La estrategia SD es colectivamente estable siempre.
• Dem:V(X|SD) ≤ P/(1-w) para toda XV(SD|SD) = P/(1-w)→ V(X|SD) ≤ V(SD|SD) para toda X
Proposiciones Teóricas
• Def:Una estrategia es maximalmente discriminante si puede cooperar alguna vez aunque el otro no haya cooperado nunca hasta entonces, si una vez que coopera, nunca vuelve a cooperar con SD pero coopera siempre con si misma
• Proposición 6:Las estrategias capaces de invadir a SD en clusters de mínimo valor de p son maximalmente discriminantes
Proposiciones Teóricas
• Dem:Para que un cluster de A logre invadir a SD debe ocurrir que pV(A|A) + (1-p)V(A|SD) > V(SD|SD) → p > [V(SD|SD)-V(A|SD)]/[V(A|A)-V(A|SD)]p es mínimo cuando V(A|A) y V(A|SD) son máximos → p es mínimo si A es maximalmente discriminante
Proposiciones Teóricas
• Proposición 7:Si una estrategia decente es colectivamente estable, entonces no puede ser invadida por ningún cluster.
• Dem:Para que un cluster de A pueda invadir a una regla decente B, tiene que darse que pV(A|A) + (1-p)V(A|B) > V(B|B)Pero como B es decente, V(A|A) ≤ V(B|B) para todo A → Un cluster de A puede invadir a B sii V(A|B) > V(B|B)Pero eso equivale a que B no es colectivamente estable