la evolución de la cooperación

La evolución de la cooperaciónRobert Axelrod, 1984

Presentación para Microeconomía 2Maestría en Economía

Universidad ORT Uruguay2011

El Torneo

• Axelrod convoca a varios conocedores de teoría de juegos de diversas áreas del conocimiento

• Cada uno debe presentar una estrategia para participar en un torneo computarizado del dilema del prisionero iterativo.

• Cada estrategia se enfrentará contra todas las demás estrategias, contra si misma y contra una estrategia llamada “azar”

• Cada enfrentamiento consiste de 200 jugadas• Se presentan 14 participantes de 5 disciplinas diferentes• El objetivo es maximizar las ganancias totales, no los “mano

a mano” ganados

El Juego

Condiciones Generales:T > R > P > SR > (T+S)/2

Resultados

TIT FOR TAT

• Fue la estrategia ganadora de la primera ronda• Consiste en comenzar cooperando y a partir de la

segunda jugada, hacer lo mismo que hizo el oponente en la jugada anterior

• Observaciónes:– Es imposible ganar una partida individual con esta

estrategia.– El maximo puntaje que puede obtener en una ronda es

R*n (600 en el caso de este torneo), que es el resultado de la mutua cooperación en todas las jugadas

Análisis de los resultados

• El autor se pregunta: Hay alguna característica de las estrategias que tenga correlación con los resultados?

• Las reglas “decentes” quedaron en los primeros 8 lugares y las reglas “no decentes” obtuvieron las últimas colocaciones

• Definición: Decimos que una regla es decente si nunca es la primera en engañar

• Si el final del juego es conocido, podemos incluir dentro de las reglas decentes a las reglas que no son las primeras en engañar antes de las últimas jugadas

• La diferencia fue tan grande, que las reglas decentes puntuaron entre 472 y 504 mientras que la regla no decente que obtuvo mayor puntaje obtuvo 401

Análisis de los resultados

Observaciones:• Las reglas decentes prosperaron porque había

un número suficientemente grande de ellas• Dentro de las reglas decentes, las 2 que mejor

puntuaron fueron las más indulgentes• Ex-post, se pueden encontrar reglas que

mejoren el resultado de TIT FOR TAT (Downing - 542, TIT FOR 2 TATS - 532, PROSPECTIVA - 520)

Segunda Ronda

• Para poder obtener mejores conclusiones, Axelrod organizó un segundo torneo.

• Se presentaron 62 participantes.• Se dieron a conocer previamente los resultados del

primer torneo, así como las principales conclusiones.

• Se modificó el problema del horizonte conocido de la ronda anterior, ya que la duración del juego se determinaba probabilísticamente (p=0,00346 ; w=1-p)

Resultados

• Nuevamente ganó TIT FOR TAT• De las 15 primeras, 14 eran decentes• De las 15 últimas, 14 eran no decentes• La correlación entre decencia y puntaje fue

0,58• Otras dos características exitosas fueron la

“provocabilidad” y la indulgencia.

Robustez de TIT FOR TAT

• Se probó la estrategia en 6 torneos hipotéticos diferentes. Ganó 5 y quedó 2da en el restante

• Se utilizó también un enfoque evolutivo:– Se repite el torneo indefinidamente– En cada ronda, la proporción de participantes con

cada estrategia depende del puntaje que haya obtenido dicha estrategia

– TIT FOR TAT es nuevamente la “ganadora” ya que es la que más crece

Proposiciones Teóricas

• Proposición 1:Si la tasa de descuento es lo suficientemente grande, no existe una estrategia óptima que sea independiente de las aplicadas por los demás jugadores

Proposiciones Teóricas• Def:

Decimos que la estrategia A invade a la estrategia B si en un mundo donde todos juegan B y un solo individuo juega A, La estrategia A obtiene en promedio mejores resultados

• Def: Una estrategia es colectivamente estable si no puede ser invadida por ninguna estrategia.

• Proposición 2:TIT FOR TAT es colectivamente estable siiw ≥ max {(T-R)/(T-P) ; (T-R)/(R-I)}

Proposiciones Teóricas• Dem:

TIT FOR TAT juega de acuerdo a lo que el oponente haya jugado la jugada anterior (y asume en la primera jugada que el oponente cooperó en -1)

Cualquier estrategia que juegue contra TFT, después de jugar C, lo mejor que puede hacer es jugar C o D; y lo mejor que puede hacer luego de jugar D es jugar C o D.

De esta forma, quedan determinadas las 4 posibles estrategias óptimas contra TFT. Jugar repetidamente CC, CD, DC o DD

CD está dominada por CC y CC a su vez obtiene los mismos resultados que TFT por lo tanto no puede invadirla.

Si ni DD ni DC pueden invadir a TFT, entonces ninguna estrategia puede hacerlo.


• Dem:DD no invade a TFT sii V(DD|TFT) ≤ V(TFT|TFT)→ T+wP/(1-w) ≤ R/(1-w)→ w ≥ (T-R)/(T-P)

DC no invade a TFT sii V(DC|TFT) ≤ V(TFT|TFT)→(T+wI)/(1-w2) ≤ R/(1-w)→ w ≥ (T-R)/(R-I)


• Proposición 3:Si w es lo suficientemente grande, cualquier estrategia A que pueda ser la primera en cooperar puede ser colectivamente estable.

• Dem: Si A coopera en la primera jugada:

V(SD|A) ≥ T + wP/(1-w)

V(A|A) ≤ R/(1-w)

Si T + wP/(1-w) ≥ R/(1-w) → V(SD|A) ≥ V(A|A)

(T-R)/(T-P) ≥ w → V(SD|A) ≥ V(A|A)


• Proposición 4:Para que una estrategia decente sea colectivamente estable, es necesario que sea provocada por la primera defección del otro jugador.

• Dem:Si una estrategia decente no es provocada por una defección en la jugada n, puede ser invadida por una estrategia que coopere siempre y engañe en la jugada n


• Proposición 5:La estrategia SD es colectivamente estable siempre.

• Dem:V(X|SD) ≤ P/(1-w) para toda XV(SD|SD) = P/(1-w)→ V(X|SD) ≤ V(SD|SD) para toda X


• Def:Una estrategia es maximalmente discriminante si puede cooperar alguna vez aunque el otro no haya cooperado nunca hasta entonces, si una vez que coopera, nunca vuelve a cooperar con SD pero coopera siempre con si misma

• Proposición 6:Las estrategias capaces de invadir a SD en clusters de mínimo valor de p son maximalmente discriminantes


• Proposición 7:Si una estrategia decente es colectivamente estable, entonces no puede ser invadida por ningún cluster.

• Dem:Para que un cluster de A pueda invadir a una regla decente B, tiene que darse que pV(A|A) + (1-p)V(A|B) > V(B|B)Pero como B es decente, V(A|A) ≤ V(B|B) para todo A → Un cluster de A puede invadir a B sii V(A|B) > V(B|B)Pero eso equivale a que B no es colectivamente estable

la evolución de la cooperación

Education