convergence to approximate nash equilibria in congestion games

Diapositiva 1

Convergence to Approximate Nash Equilibria in Congestion Games

1Strumenti della Teoria dei Giochi per lInformaticaA.A. 2009/2010

Sebastiano PanichellaScenarioLemergente ricerca di algoritmi di game theory ha portato a una fondamentale riesaminazione dei classici concetti relativi agli equilibri di Nash, con grosse prospettive computazionali

Tratteremo i Congestion Game

Esempio di Congestion Game:siano e due giocatori;sia che vogliono andare da S (Sorgente) a D (Destinazione);le strade disponibili per andare da S a D sono due, A e B

SDABTabella dei payoff/ABA4 32 2B1 13 4

2I Congestion Game hanno attirato lattenzione dei ricercatori per varie ragioni:

Riguardano una gran parte di scenari con problemi di allocazione delle risorse, e di routing dove sempre presente un equilibrio di Nash puro: a differenza di altri giochi, hanno sempre un N.E. dove ogni giocatore sceglie ununica strategia

Per il meccanismo noto come Nash dynamics, dove a ogni passo qualche giocatore cambia la sua strategia verso unaltra ritenuta pi conveniente, garantita la convergenza a un pure Nash equilibria.

Motivazioni3Definizione di Congestion Game:

n giocatori ;

a ciascun giocatore i viene assegnato un insieme finito di strategie (ossia un insieme di risorse disponibili alli-esimo giocatore);

a ciascun giocatore i viene assegnata una funzione di costo che desidera minimizzare (il costo di ogni strategia dipende solo dal numero di giocatori che usano la risorsa in questione)

Congestion Game

Maggiore il numero dei giocatori che utilizzano una risorsa

Maggiore ilcosto4Formalmente il costo per pi

Uno stato una qualsiasi combinazione di strategie per gli n giocatori.

equilibrio di Nash puro: uno stato un equilibrio di Nash se

numero di giocatori che usano la risorsa efunzione di costo (non negativa)

Congestion Game

Per ogni giocatoreIl costo della strategia scelta da piIl giocatore pi non incentivato a cambiarePer ogni altra strategia55Nella Classe di Congestion Game che consideriamo:

i giocatori condividono un insieme di risorse (gioco simmetrico) chiamate archi

linsieme di strategie, , di un giocatore pi una collezione arbitraria di sottoinsiemi di E

la strategia del giocatore pi, un sottoinsieme di E

a ogni arco associata una funzione di costo (o ritardo) non decrescente

Classe di Congestion Game

6Se t giocatori utilizzano larco e ciascuno di essi pagher un costo de(t)

In uno stato s=(s1 ,, sn) il costo del giocatore pi numero di giocatori che usano larco e nello stato s Classe di Congestion Gamedstrada(1)=2dstrada(2)=4dstrada(3)=8

Esempio

In generale

dstrada(t)=

7Funzione potenziale: i giochi a congestione sono in possesso una precisa funzione potenziale definita come

propriet: il cambiamento in rispecchia esattamente la variazione dei costi del giocatore

Per ogni arcoFunzioni Potenziali

Sommiamo i costi sostenuti in base ai giocatori che lo utilizzanoVariazione del potenzialese il giocatore pi cambia la sua strategia da si a si

Variazione delcosto per pi =8Osservazione:

Funzioni PotenzialiSe a ogni passo permettiamo ai giocatori di modificare la propria strategia (pi conveniente)

fino a raggiungere un minimo localediminuirossiaun equilibrio di Nash puromaNiente ci assicura la rapida convergenza a un equilibrio di Nash9Approssimazione di equilibri di Nash ottimoAccuratezzaTempo10Definizioni-equilibrio di Nash: sia , uno stato un -equilibrio di Nash se

Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore pu fare solo -mosse, ossia movimenti che migliorano il costo di un fattore maggiore di . Pi formalmente se il giocatore pi si sposta da si a si allora Per ogni giocatorePer ogni strategia Il giocatore pi non ha pi di un -incentivo a cambiare strategia

11-N.E. e Dinamiche -NashSe pi di un giocatore ha una -mossa disponibile, solo il giocatore il cui relativo guadagno il pi grande effettuer la sua mossa. In altre parole, il giocatore pi effettua la sua mossa se, tale mossa massimizza il rapportoSe i giocatori non hanno pi -mosse da effettuareI giocatori hanno raggiunto un -equilibrio di Nash

Costo ottenuto nel caso in cui il giocatore effettua la mossa si Minore tale costo e maggiore il rapporto RCosto Precedente12DefinizioniBounded Jump: dato un grafo G(V,E) con funzione di peso sugli archi , diciamo che larco e soddisfa la condizione di -bounded jump se sia t 0 il numero di giocatori costante 1la sua funzione di costo soddisfa la condizione

costo dellarco e per (t +1) giocatoricosto dellarco e per t giocatoriquando un nuovo player sceglie di utilizzare un determinato arco, il costo che pagheranno tutti i giocatori che lo usano sar incrementato di un fattore di al pi 13ENUNCIATOIn un gioco a congestione simmetrico dove, ogni arco soddisfa la condizione -bounded jump , se nelle dinamiche -approssimate nello stato s la prossima mossa fatto dal giocatore pi ,allora

Lemma 3.2Per ogni giocatore pj diverso dal giocatore piIl costo del giocatore pj al pi volte il costo del giocatore pi1414Lemma 3.2DIMOSTRAZIONESupponiamo che il gioco si trovi in uno stato Supponiamo che un giocatore pi voglia effettuare una mossa da si a si con guadagno relativo

Supponiamo che un altro giocatore pjpi voglia effettuare la stessa mossa,ossia, si muove da sj a sj = si con guadagno relativo

Per come abbiamo definito il gioco, solo il giocatore con il massimo guadagno relativo effettua la sua mossa; quindi se nel gioco, solo il giocatore pi effettua la sua mossa, deve valere che RjRi

15Lemma 3.2Ossia

A questo punto, confrontiamo il costo che il giocatore pi paga per effettuare la sua mossa con quanto avrebbe pagato il giocatore pj per effettuare la sua mossa da sj (se vedessimo vincere luno o laltro giocatore): arco che il giocatore pi vuole usare, possiamo avere che

(1)Per la condizione di bounded jump abbiamo che .

1. pi sta gi usando larco e prima della mossapj paga al pi per usare larco e

pi paga per usare larco e

(perch pj stesso potrebbe essere il nuovo giocatore che utilizza larco e)16Lemma 3.22. pi non sta gi usando larco e prima della mossapj paga al pi lo stesso prezzo

pi paga per usare larco e

Sommando su tutti gli archi abbiamo che

(2)

Sostituendo la (2) nella disequazione (1) abbiamo che

171718Lemma 3.2Semplificando, abbiamo

Il fattore di approssimazione > 0Bounded conditionLimite superiore al costo di ciascun giocatoreTeorema 3.1ENUNCIATOIn qualsiasi gioco a congestione simmetrico, dove n il numero di giocatoritutti gli archi soddisfano l-bounded jump conditionC un limite superiore al costo di ciascun giocatorele dinamiche -approssimate convergono partendo da un qualsiasi stato iniziale in numero di passi pari a

19Teorema 3.1il costo che paga il giocatore di almeno volte il pi grande costo di ogni giocatore

DIMOSTRAZIONEDal Lemma 3.2 sappiamo che se pi il giocatore che si muove da si a si alloraSiccome

Il potenziale costo complessivo Il costo del giocatore pi la media del potenziale

20Teorema 3.1Da cui, dopo un movimento di pi stato s allo stato s

Variazione del potenzialeVariazione delcosto per pi =Trattandosi di un -mossa la variazione del costo per pi pi di -volte il costo dello stato precedente s

Dato cheIn generale

Nello stato iniziale =max = potenziale iniziale; dato che

Ad ogni passo

Numero totale di passi per la convergenza21PLS-completezza di giochi con Bounded Jump Proposition 3.3 Il problema della ricerca di un equilibrio di Nash in giochi a congestione simmetrici che soddisfano la condizione di bounded jump con = 2 PLS-completoMentre un -equilibrio di Nash viene raggiunto in un numero di passi polinomiale ( il Teorema 3.1) lo stesso non accade per un equilibrio di Nash puro

I risultati finora ottenutisugli equilibri di Nash esatti

non hanno effettihanno effetti significativisugli -equilibri di Nash

22LEsempio Anche se gode della Bounded Jump condition questo semplice problema di allocazione di risorse

dstrada(1)=2dstrada(2)=4dstrada(3)=8EsempioIn generale

dstrada(t)=

PLS-completo23Meccanismi di coordinamento Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa

1) Domanda: quando vengono utilizzati altri meccanismi di coordinamento cosa succede? Per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido (convergenza polinomiale a -equilibri di Nash)?

2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?

2424Varianti della -Nash dynamicsLargest gain dynamics: ad ogni passo, tra tutti i giocatori con un -mossa disponibili, quello che si muove quello il cui miglioramento dei costi (assoluto) il maggiore.Una variante della -Nash dynamics

Costo PrecedenteCosto del giocatore se effettua la mossa si Unaltra variante della -Nash dynamics

Heaviest first dynamics: ad ogni passo, tra tutti i giocatori con un -mossa disponibili, si consente la mossa al giocatore con il maggior costo corrente

25 1) Domanda: per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido?

Varianti della -Nash dynamicsDai teoremi

Teorema 3.4 Il Teorema 3.1 continua a essere valido anche nel Largest gain dynamics.

Teorema 3.5 Il Teorema 3.1 continua a essere valido anche per Heaviest first -Nash dynamics

Risposta: Si

262) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?

The unrestricted dynamics un meccanismo in cui i giocatori:

possono muoversi in un ordine arbitrario

sono soggetti ad una sola condizione necessaria: a ogni giocatore deve essere data la possibilit di fare la propria mossa entro un certo limite di tempo

Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa

Le dinamiche senza restrizioni27Pi formalmente la dinamica senza restrizioni una sequenza di q1 ,q2 , ,qn dove ogni qt indica un giocatore

al passo t al giocatore qt data la possibilit di muoversiLe dinamiche senza restrizioniSiFa la mossaqt ha un -mossa?

NoNon fa nullaVogliamo che per qualche costante T ogni giocatore pi compaia almeno una volta in ogni intervallo di sequenza con lunghezza T2828Esempio: La Round-Robin dynamicsLe dinamiche senza restrizioniA turno a ogni player pi viene data la possibilit di fare la sua mossa 29Le dinamiche senza restrizioni2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash? Risposta: Si

Dal Teorema 4.1 In ogni gioco a congestione simmetrico con n giocatori i cui archi soddisfano -bounded jump condition, qualsiasi -Nash-dynamics, in cui a ogni giocatore viene data la possibilit di fare la propria mossa all'interno di ogni intervallo di tempo di lunghezza t , converge da qualsiasi stato iniziale in un numero di passi pari a

un limite superiore al costo di ogni giocatore

30Le dinamiche senza restrizioniPer provare il teorema 4.1 utile enunciare (e dimostrare) il seguente Lemma:

Lemma 4.2 Sia ci (s) il costo sostenuto dal giocatore pi nello stato s , e sia ci (s) il costo di pi in uno stato futuro s in cui non si mosso. Allora

Concettualmente mette in relazioneil miglioramento della funzione potenzialela variazione del costo per pi, anche quando il giocatore non fa nessuna mossa per molti steps31Dimostrazione lemmaLe dinamiche senza restrizioniSappiamo che

la variazione del costo per piI contributi positivi a questa somma sono dati dagli archi e che altri giocatori hanno liberato

Sapendo che il primo giocatore pj che rinuncia a e aveva un costo di almeno allora la funzione potenziale migliora di almeno

32valore che ha assunto la funzione potenziale all'inizio dell'intervalloIl miglioramento totale di

Le dinamiche senza restrizioniDimostrazione Teorema 4.1Ai fini della prova sufficiente mostrare che durante ogni intervallo in cui a ogni giocatore data la possibilit di effettuare una mossa, la funzione potenziale diminuisce di almeno

Convergenza in al pi

-volte quanto ci guadagna pi33Siano gli stati durante questo intervallo (non necessariamente differenti)Le dinamiche senza restrizioni

Sia ph il giocatore con il maggior costo in s0

Sia t 0 la prima volta in cui,durante lintervallo, al giocatore ph data la possibilit di muoversi

Avremo due casi: Caso(i): al tempo t , ph ha un -mossa a disposizione Caso(ii): al tempo t , ph non ha un -mossa a disposizione34Le dinamiche senza restrizioniCaso(i) dal Lemma 4.2, abbiamo la garanzia che

il miglioramento della funzione potenzialela variazione del costo per ph, anche quando il giocatore non fa nessuna mossa per molti stepsDopo l -mossa di ph , sar migliorata di almeno

-Media del potenziale inizialeIl teorema soddisfatto

Convergenza in al pi35Le dinamiche senza restrizioniCaso(ii) Non avendo un -mossa a disposizione non vogliamo che ph possa fare un -mossa adottando semplicemente la strategia di un altro giocatore, pi Al momento t, dobbiamo avere

Costo di ph per simulare la mossa di pi

Utilit di ph per simulare la mossa di pi

36Le dinamiche senza restrizioni(1 caso) Consideriamo un giocatore pi, a cui data la possibilit di fare la sua mossa al tempo t > t ossia, dopo che a ph stata data la possibilit di muoversi(2 caso) Consideriamo lultimo giocatore, pi ,a cui data la possibilit di fare la sua mossa al tempo t < tAnalizzeremo due casi:37(1 caso) Sia pi , un giocatore che fa la sua mossa al tempo t > t ossia, dopo che a ph stata data la possibilit di muoversi, avremo che Le dinamiche senza restrizioni

==

La variazione della funzione = potenzialeIl teorema soddisfatto38Le dinamiche senza restrizioni(2 caso) Sia pi , lultimo giocatore che fa la sua mossa al tempo t < t,Nellistante t

Infatti da (3) la condizione deve essere soddisfatta da pi anche al tempo t (e anche subito dopo) Dato che fare la mossa pu solo ridurre il suo costo, soddisfa la condizione anche al tempo t39Allora la variazione di potenzialeLe dinamiche senza restrizioni

Derivadalla condizionemassimo miglioramento ottenuto da pi per la sua mossaDeriva dal LEMMA 4.2

4040

Le dinamiche senza restrizioniAllora la variazione di potenzialemassimo miglioramento ottenuto da pi per la sua mossa minima quando

soddisfattaDeriva dal LEMMA 4.2

41Le dinamiche senza restrizioniRisposta: Si 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?

3) Domanda: se generalizziamo il gioco permettendo a ciascun giocatore di dichiarare il proprio (che in un certo qual modo indica la tolleranza allinfelicit o, se vogliamo, la propensione a accontentarsi del giocatore). E possibile convergere polinomiale a -equilibri di Nash?

Parliamo di Giocatori eterogenei 4242Giocatori eterogenei Heterogeneouse players: una generalizzazione delle impostazione precedenti dove ciascun giocatore pi ha un proprio valore , che chiameremo i che specifica la sua tolleranza allinfelicit

Per ogni giocatorePer ogni strategia Il giocatore pi non ha pi di un i-incentivo a cambiare strategia -equilibrio di Nash: per , uno stato un - equilibrio di Nash se

43Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore pi pu fare solo i-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di i. pi formalmente se il giocatore pi si sposta da si a si allora Giocatori eterogenei

Cambiare strategia non conviene pi di i volte il costo della strategia attuale44Giocatori eterogeneiVedremo che

questa dinamica converge in passi

il numero di passi di tempo in cui un giocatore con tolleranza i "sar" infelice "(cio, avr un -move disponibile) essenzialmente

a prescindere dagli j-valori degli altri giocatori.45

Giocatori eterogenei

Teorema 5.2 Sia max < 1 il valore massimo di i , tra tutti i giocatori pi . Allora, , ci sono al massimo volte in cui

qualche giocatore pj con j sar in grado di muoversi prima che l -Nash dynamics converga

Dimostrazione Teorema 5.2Sia s =(s1,,sn), uno stato in cui un giocatore pj con j ha una j -move disponibile. Ai fini della prova sufficiente dimostrare che la riduzione della funzione potenziale almeno

46Giocatori eterogeneiSia ph il giocatore con il maggior costo in s

Analizzeremo due casi: Caso(i): ph = pi , ossia, pi ha il maggior costo Caso(ii): ph pi ossia, pi non ha il maggior costoSia pi il giocatore che si muove attualmente dallo stato s a . .

4747

Giocatori eterogeneiSe il ph= pi allora abbiamo gi finito, dal momento che ad ogni passo il potenziale si riduce di almeno

Caso(i) Il teorema soddisfattoConvergenza in al pi n. passi pari a 4848Giocatori eterogeneiSupponiamo che ph possa muoversi da s a s simulando la strategia si del giocatore pi . Siccome non vogliamo che ph possa muoversi da s, dato che non il suo turno

Caso(2): il guadagno relativo per ph non pi grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa. Analizziamo due casi: Caso(1): la mossa da s a s non deve essere una h-move per phCaso(ii): ph pi ossia, pi non ha il maggior costo 49Sappiamo che

Combinando le due disequazioni, abbiamo Giocatori eterogenei

Caso(1): la mossa da s a s non deve essere una h-move per ph

50(Dal teorema 3.1) Allora

Il teorema soddisfatto51 Allora

Giocatori eterogenei

Dato che Caso(2): il guadagno relativo per ph non pi grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa ,ossia,

Siccome

convergence to approximate nash equilibria in congestion games

Documents