convergence to approximate nash equilibria in congestion games
DESCRIPTION
Convergence to Approximate Nash Equilibria in Congestion Games. Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/2010 Sebastiano Panichella. Scenario. - PowerPoint PPT PresentationTRANSCRIPT
Diapositiva 1
Convergence to Approximate Nash Equilibria in Congestion Games
1Strumenti della Teoria dei Giochi per lInformaticaA.A. 2009/2010
Sebastiano PanichellaScenarioLemergente ricerca di algoritmi di game theory ha portato a una fondamentale riesaminazione dei classici concetti relativi agli equilibri di Nash, con grosse prospettive computazionali
Tratteremo i Congestion Game
Esempio di Congestion Game:siano e due giocatori;sia che vogliono andare da S (Sorgente) a D (Destinazione);le strade disponibili per andare da S a D sono due, A e B
SDABTabella dei payoff/ABA4 32 2B1 13 4
2I Congestion Game hanno attirato lattenzione dei ricercatori per varie ragioni:
Riguardano una gran parte di scenari con problemi di allocazione delle risorse, e di routing dove sempre presente un equilibrio di Nash puro: a differenza di altri giochi, hanno sempre un N.E. dove ogni giocatore sceglie ununica strategia
Per il meccanismo noto come Nash dynamics, dove a ogni passo qualche giocatore cambia la sua strategia verso unaltra ritenuta pi conveniente, garantita la convergenza a un pure Nash equilibria.
Motivazioni3Definizione di Congestion Game:
n giocatori ;
a ciascun giocatore i viene assegnato un insieme finito di strategie (ossia un insieme di risorse disponibili alli-esimo giocatore);
a ciascun giocatore i viene assegnata una funzione di costo che desidera minimizzare (il costo di ogni strategia dipende solo dal numero di giocatori che usano la risorsa in questione)
Congestion Game
Maggiore il numero dei giocatori che utilizzano una risorsa
Maggiore ilcosto4Formalmente il costo per pi
Uno stato una qualsiasi combinazione di strategie per gli n giocatori.
equilibrio di Nash puro: uno stato un equilibrio di Nash se
numero di giocatori che usano la risorsa efunzione di costo (non negativa)
Congestion Game
Per ogni giocatoreIl costo della strategia scelta da piIl giocatore pi non incentivato a cambiarePer ogni altra strategia55Nella Classe di Congestion Game che consideriamo:
i giocatori condividono un insieme di risorse (gioco simmetrico) chiamate archi
linsieme di strategie, , di un giocatore pi una collezione arbitraria di sottoinsiemi di E
la strategia del giocatore pi, un sottoinsieme di E
a ogni arco associata una funzione di costo (o ritardo) non decrescente
Classe di Congestion Game
6Se t giocatori utilizzano larco e ciascuno di essi pagher un costo de(t)
In uno stato s=(s1 ,, sn) il costo del giocatore pi numero di giocatori che usano larco e nello stato s Classe di Congestion Gamedstrada(1)=2dstrada(2)=4dstrada(3)=8
Esempio
In generale
dstrada(t)=
7Funzione potenziale: i giochi a congestione sono in possesso una precisa funzione potenziale definita come
propriet: il cambiamento in rispecchia esattamente la variazione dei costi del giocatore
Per ogni arcoFunzioni Potenziali
Sommiamo i costi sostenuti in base ai giocatori che lo utilizzanoVariazione del potenzialese il giocatore pi cambia la sua strategia da si a si
Variazione delcosto per pi =8Osservazione:
Funzioni PotenzialiSe a ogni passo permettiamo ai giocatori di modificare la propria strategia (pi conveniente)
fino a raggiungere un minimo localediminuirossiaun equilibrio di Nash puromaNiente ci assicura la rapida convergenza a un equilibrio di Nash9Approssimazione di equilibri di Nash ottimoAccuratezzaTempo10Definizioni-equilibrio di Nash: sia , uno stato un -equilibrio di Nash se
Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore pu fare solo -mosse, ossia movimenti che migliorano il costo di un fattore maggiore di . Pi formalmente se il giocatore pi si sposta da si a si allora Per ogni giocatorePer ogni strategia Il giocatore pi non ha pi di un -incentivo a cambiare strategia
11-N.E. e Dinamiche -NashSe pi di un giocatore ha una -mossa disponibile, solo il giocatore il cui relativo guadagno il pi grande effettuer la sua mossa. In altre parole, il giocatore pi effettua la sua mossa se, tale mossa massimizza il rapportoSe i giocatori non hanno pi -mosse da effettuareI giocatori hanno raggiunto un -equilibrio di Nash
Costo ottenuto nel caso in cui il giocatore effettua la mossa si Minore tale costo e maggiore il rapporto RCosto Precedente12DefinizioniBounded Jump: dato un grafo G(V,E) con funzione di peso sugli archi , diciamo che larco e soddisfa la condizione di -bounded jump se sia t 0 il numero di giocatori costante 1la sua funzione di costo soddisfa la condizione
costo dellarco e per (t +1) giocatoricosto dellarco e per t giocatoriquando un nuovo player sceglie di utilizzare un determinato arco, il costo che pagheranno tutti i giocatori che lo usano sar incrementato di un fattore di al pi 13ENUNCIATOIn un gioco a congestione simmetrico dove, ogni arco soddisfa la condizione -bounded jump , se nelle dinamiche -approssimate nello stato s la prossima mossa fatto dal giocatore pi ,allora
Lemma 3.2Per ogni giocatore pj diverso dal giocatore piIl costo del giocatore pj al pi volte il costo del giocatore pi1414Lemma 3.2DIMOSTRAZIONESupponiamo che il gioco si trovi in uno stato Supponiamo che un giocatore pi voglia effettuare una mossa da si a si con guadagno relativo
Supponiamo che un altro giocatore pjpi voglia effettuare la stessa mossa,ossia, si muove da sj a sj = si con guadagno relativo
Per come abbiamo definito il gioco, solo il giocatore con il massimo guadagno relativo effettua la sua mossa; quindi se nel gioco, solo il giocatore pi effettua la sua mossa, deve valere che RjRi
15Lemma 3.2Ossia
A questo punto, confrontiamo il costo che il giocatore pi paga per effettuare la sua mossa con quanto avrebbe pagato il giocatore pj per effettuare la sua mossa da sj (se vedessimo vincere luno o laltro giocatore): arco che il giocatore pi vuole usare, possiamo avere che
(1)Per la condizione di bounded jump abbiamo che .
1. pi sta gi usando larco e prima della mossapj paga al pi per usare larco e
pi paga per usare larco e
(perch pj stesso potrebbe essere il nuovo giocatore che utilizza larco e)16Lemma 3.22. pi non sta gi usando larco e prima della mossapj paga al pi lo stesso prezzo
pi paga per usare larco e
Sommando su tutti gli archi abbiamo che
(2)
Sostituendo la (2) nella disequazione (1) abbiamo che
171718Lemma 3.2Semplificando, abbiamo
Il fattore di approssimazione > 0Bounded conditionLimite superiore al costo di ciascun giocatoreTeorema 3.1ENUNCIATOIn qualsiasi gioco a congestione simmetrico, dove n il numero di giocatoritutti gli archi soddisfano l-bounded jump conditionC un limite superiore al costo di ciascun giocatorele dinamiche -approssimate convergono partendo da un qualsiasi stato iniziale in numero di passi pari a
19Teorema 3.1il costo che paga il giocatore di almeno volte il pi grande costo di ogni giocatore
DIMOSTRAZIONEDal Lemma 3.2 sappiamo che se pi il giocatore che si muove da si a si alloraSiccome
Il potenziale costo complessivo Il costo del giocatore pi la media del potenziale
20Teorema 3.1Da cui, dopo un movimento di pi stato s allo stato s
Variazione del potenzialeVariazione delcosto per pi =Trattandosi di un -mossa la variazione del costo per pi pi di -volte il costo dello stato precedente s
Dato cheIn generale
Nello stato iniziale =max = potenziale iniziale; dato che
Ad ogni passo
Numero totale di passi per la convergenza21PLS-completezza di giochi con Bounded Jump Proposition 3.3 Il problema della ricerca di un equilibrio di Nash in giochi a congestione simmetrici che soddisfano la condizione di bounded jump con = 2 PLS-completoMentre un -equilibrio di Nash viene raggiunto in un numero di passi polinomiale ( il Teorema 3.1) lo stesso non accade per un equilibrio di Nash puro
I risultati finora ottenutisugli equilibri di Nash esatti
non hanno effettihanno effetti significativisugli -equilibri di Nash
22LEsempio Anche se gode della Bounded Jump condition questo semplice problema di allocazione di risorse
dstrada(1)=2dstrada(2)=4dstrada(3)=8EsempioIn generale
dstrada(t)=
PLS-completo23Meccanismi di coordinamento Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa
1) Domanda: quando vengono utilizzati altri meccanismi di coordinamento cosa succede? Per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido (convergenza polinomiale a -equilibri di Nash)?
2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?
2424Varianti della -Nash dynamicsLargest gain dynamics: ad ogni passo, tra tutti i giocatori con un -mossa disponibili, quello che si muove quello il cui miglioramento dei costi (assoluto) il maggiore.Una variante della -Nash dynamics
Costo PrecedenteCosto del giocatore se effettua la mossa si Unaltra variante della -Nash dynamics
Heaviest first dynamics: ad ogni passo, tra tutti i giocatori con un -mossa disponibili, si consente la mossa al giocatore con il maggior costo corrente
25 1) Domanda: per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido?
Varianti della -Nash dynamicsDai teoremi
Teorema 3.4 Il Teorema 3.1 continua a essere valido anche nel Largest gain dynamics.
Teorema 3.5 Il Teorema 3.1 continua a essere valido anche per Heaviest first -Nash dynamics
Risposta: Si
262) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?
The unrestricted dynamics un meccanismo in cui i giocatori:
possono muoversi in un ordine arbitrario
sono soggetti ad una sola condizione necessaria: a ogni giocatore deve essere data la possibilit di fare la propria mossa entro un certo limite di tempo
Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa
Le dinamiche senza restrizioni27Pi formalmente la dinamica senza restrizioni una sequenza di q1 ,q2 , ,qn dove ogni qt indica un giocatore
al passo t al giocatore qt data la possibilit di muoversiLe dinamiche senza restrizioniSiFa la mossaqt ha un -mossa?
NoNon fa nullaVogliamo che per qualche costante T ogni giocatore pi compaia almeno una volta in ogni intervallo di sequenza con lunghezza T2828Esempio: La Round-Robin dynamicsLe dinamiche senza restrizioniA turno a ogni player pi viene data la possibilit di fare la sua mossa 29Le dinamiche senza restrizioni2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash? Risposta: Si
Dal Teorema 4.1 In ogni gioco a congestione simmetrico con n giocatori i cui archi soddisfano -bounded jump condition, qualsiasi -Nash-dynamics, in cui a ogni giocatore viene data la possibilit di fare la propria mossa all'interno di ogni intervallo di tempo di lunghezza t , converge da qualsiasi stato iniziale in un numero di passi pari a
un limite superiore al costo di ogni giocatore
30Le dinamiche senza restrizioniPer provare il teorema 4.1 utile enunciare (e dimostrare) il seguente Lemma:
Lemma 4.2 Sia ci (s) il costo sostenuto dal giocatore pi nello stato s , e sia ci (s) il costo di pi in uno stato futuro s in cui non si mosso. Allora
Concettualmente mette in relazioneil miglioramento della funzione potenzialela variazione del costo per pi, anche quando il giocatore non fa nessuna mossa per molti steps31Dimostrazione lemmaLe dinamiche senza restrizioniSappiamo che
la variazione del costo per piI contributi positivi a questa somma sono dati dagli archi e che altri giocatori hanno liberato
Sapendo che il primo giocatore pj che rinuncia a e aveva un costo di almeno allora la funzione potenziale migliora di almeno
32valore che ha assunto la funzione potenziale all'inizio dell'intervalloIl miglioramento totale di
Le dinamiche senza restrizioniDimostrazione Teorema 4.1Ai fini della prova sufficiente mostrare che durante ogni intervallo in cui a ogni giocatore data la possibilit di effettuare una mossa, la funzione potenziale diminuisce di almeno
Convergenza in al pi
-volte quanto ci guadagna pi33Siano gli stati durante questo intervallo (non necessariamente differenti)Le dinamiche senza restrizioni
Sia ph il giocatore con il maggior costo in s0
Sia t 0 la prima volta in cui,durante lintervallo, al giocatore ph data la possibilit di muoversi
Avremo due casi: Caso(i): al tempo t , ph ha un -mossa a disposizione Caso(ii): al tempo t , ph non ha un -mossa a disposizione34Le dinamiche senza restrizioniCaso(i) dal Lemma 4.2, abbiamo la garanzia che
il miglioramento della funzione potenzialela variazione del costo per ph, anche quando il giocatore non fa nessuna mossa per molti stepsDopo l -mossa di ph , sar migliorata di almeno
-Media del potenziale inizialeIl teorema soddisfatto
Convergenza in al pi35Le dinamiche senza restrizioniCaso(ii) Non avendo un -mossa a disposizione non vogliamo che ph possa fare un -mossa adottando semplicemente la strategia di un altro giocatore, pi Al momento t, dobbiamo avere
Costo di ph per simulare la mossa di pi
Utilit di ph per simulare la mossa di pi
36Le dinamiche senza restrizioni(1 caso) Consideriamo un giocatore pi, a cui data la possibilit di fare la sua mossa al tempo t > t ossia, dopo che a ph stata data la possibilit di muoversi(2 caso) Consideriamo lultimo giocatore, pi ,a cui data la possibilit di fare la sua mossa al tempo t < tAnalizzeremo due casi:37(1 caso) Sia pi , un giocatore che fa la sua mossa al tempo t > t ossia, dopo che a ph stata data la possibilit di muoversi, avremo che Le dinamiche senza restrizioni
==
La variazione della funzione = potenzialeIl teorema soddisfatto38Le dinamiche senza restrizioni(2 caso) Sia pi , lultimo giocatore che fa la sua mossa al tempo t < t,Nellistante t
Infatti da (3) la condizione deve essere soddisfatta da pi anche al tempo t (e anche subito dopo) Dato che fare la mossa pu solo ridurre il suo costo, soddisfa la condizione anche al tempo t39Allora la variazione di potenzialeLe dinamiche senza restrizioni
Derivadalla condizionemassimo miglioramento ottenuto da pi per la sua mossaDeriva dal LEMMA 4.2
4040
Le dinamiche senza restrizioniAllora la variazione di potenzialemassimo miglioramento ottenuto da pi per la sua mossa minima quando
soddisfattaDeriva dal LEMMA 4.2
41Le dinamiche senza restrizioniRisposta: Si 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash?
3) Domanda: se generalizziamo il gioco permettendo a ciascun giocatore di dichiarare il proprio (che in un certo qual modo indica la tolleranza allinfelicit o, se vogliamo, la propensione a accontentarsi del giocatore). E possibile convergere polinomiale a -equilibri di Nash?
Parliamo di Giocatori eterogenei 4242Giocatori eterogenei Heterogeneouse players: una generalizzazione delle impostazione precedenti dove ciascun giocatore pi ha un proprio valore , che chiameremo i che specifica la sua tolleranza allinfelicit
Per ogni giocatorePer ogni strategia Il giocatore pi non ha pi di un i-incentivo a cambiare strategia -equilibrio di Nash: per , uno stato un - equilibrio di Nash se
43Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore pi pu fare solo i-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di i. pi formalmente se il giocatore pi si sposta da si a si allora Giocatori eterogenei
Cambiare strategia non conviene pi di i volte il costo della strategia attuale44Giocatori eterogeneiVedremo che
questa dinamica converge in passi
il numero di passi di tempo in cui un giocatore con tolleranza i "sar" infelice "(cio, avr un -move disponibile) essenzialmente
a prescindere dagli j-valori degli altri giocatori.45
Giocatori eterogenei
Teorema 5.2 Sia max < 1 il valore massimo di i , tra tutti i giocatori pi . Allora, , ci sono al massimo volte in cui
qualche giocatore pj con j sar in grado di muoversi prima che l -Nash dynamics converga
Dimostrazione Teorema 5.2Sia s =(s1,,sn), uno stato in cui un giocatore pj con j ha una j -move disponibile. Ai fini della prova sufficiente dimostrare che la riduzione della funzione potenziale almeno
46Giocatori eterogeneiSia ph il giocatore con il maggior costo in s
Analizzeremo due casi: Caso(i): ph = pi , ossia, pi ha il maggior costo Caso(ii): ph pi ossia, pi non ha il maggior costoSia pi il giocatore che si muove attualmente dallo stato s a . .
4747
Giocatori eterogeneiSe il ph= pi allora abbiamo gi finito, dal momento che ad ogni passo il potenziale si riduce di almeno
Caso(i) Il teorema soddisfattoConvergenza in al pi n. passi pari a 4848Giocatori eterogeneiSupponiamo che ph possa muoversi da s a s simulando la strategia si del giocatore pi . Siccome non vogliamo che ph possa muoversi da s, dato che non il suo turno
Caso(2): il guadagno relativo per ph non pi grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa. Analizziamo due casi: Caso(1): la mossa da s a s non deve essere una h-move per phCaso(ii): ph pi ossia, pi non ha il maggior costo 49Sappiamo che
Combinando le due disequazioni, abbiamo Giocatori eterogenei
Caso(1): la mossa da s a s non deve essere una h-move per ph
50(Dal teorema 3.1) Allora
Il teorema soddisfatto51 Allora
Giocatori eterogenei
Dato che Caso(2): il guadagno relativo per ph non pi grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa ,ossia,
Siccome