teoria de jogos evolucionária › ~daniel › jai › jai07_aula3_2.pdf · com o ganho que eles...
TRANSCRIPT
Teoria de Jogos Evolucionária
Universidade Federal do Rio de JaneiroPrograma de Engenharia de Sistemas e Computação - COPPE
Departamento de Ciência da Computação do IM
Edmundo de Souza e Silva - Daniel Ratton Figueiredo
E. de Souza e Silva, D. Figueiredo - JAI 2007 1
Assume jogadores são racionais
Maximizam suas recompensas e sabem que os outros jogadores fazem o mesmo
Caso mais de um equilíbrio exista, como ele é atingido?
Nada é dito sobre como os jogadores atingem oequilíbrio de Nash é atingido
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 2
Tenta explicar o comportamento dos sistemas que, em geral,evoluem com o tempo
Jogo repetido infinitas vezes
Adaptação visa melhorar o desempenho do jogador
Jogadores possuem uma dinâmica de adaptação de estratégia
jogadores podem mudar de estratégia ao longo do jogo, de acordocom o ganho que eles recebem
Jogadores não necessariamente são racionais
Tenta estudar a convergência do processo adaptativo
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 3
Lembra do jogo do acesso a canal sem-fio de ontem?
Dois irmãos compartilham seu canal de acesso a Internet em casa.
Ambos decidem escutar música via internet, ao mesmo tempo
Ambos estão usando a versão do VivaVoz que permiteescolher a taxa de recebemento do áudio
Podem escolher 3 taxas diferentes de recepção:24Kbps, 64Kbps, 128Kbps
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 4
Quanto maior a taxa, melhor a qualidade do som
Mas... o canal compartilhado não tem capacidade suficiente parasuportar as 2 conexões a taxa mais elevada
Ambos estão usando a versão do VivaVoz que permiteescolher a taxa de recebemento do áudio
Podem escolher 3 taxas diferentes de recepção: 24Kbps, 64Kbps, 128Kbps
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 5
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 6
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 7
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 8
Diagrama de Transição
E. de Souza e Silva, D. Figueiredo - JAI 2007 9
Como representar o processo dinâmico?
Melhor resposta por ser difícil (como saber?)
Idéia
Mudar para estratégia que oferece algum ganho
mudança proporcional ao ganho
E. de Souza e Silva, D. Figueiredo - JAI 2007 10
2 0 0
1 0 1
0 2 0
1 1 0 0 1 1 0 0 2
2x(2,3-2,0)=
0.6
2x(2,1-2,0)=
0,1
(3,8-3,5)=0,3
(3,1-3,0)=0,1
(4,0-3,0)=1,0
(4,0-3,1)=0,9
(3,8-3,3)=0,5
(2,3-2,1)=
0,2
Processo dinâmico:
taxa de transição (indivíduous/tempo)proporcional: differença de ganho
Construir diagrama de transição
Diagrama de Transição
E. de Souza e Silva, D. Figueiredo - JAI 2007 11
2 0 0
1 0 1
0 2 0
1 1 0 0 1 1 0 0 2
2x(2,3-2,0)=
0.6
2x(2,1-2,0)=
0,1
(3,8-3,5)=0,3
(3,1-3,0)=0,1
(4,0-3,0)=1,0
(4,0-3,1)=0,9
(3,8-3,3)=0,5
(2,3-2,1)=
0,2
Processo dinâmico:
taxa de transição (indivíduous/tempo)proporcional: differença de ganho
Diagrama de Transição
E. de Souza e Silva, D. Figueiredo - JAI 2007 12
2 0 0
1 0 1
0 2 0
1 1 0 0 1 1 0 0 2
2x(2,3-2,0)=
0.6
2x(2,1-2,0)=
0,1
(3,8-3,5)=0,3
(3,1-3,0)=0,1
(4,0-3,0)=1,0
(4,0-3,1)=0,9
(3,8-3,3)=0,5
(2,3-2,1)=
0,2
Processo dinâmico:
taxa de transição (indivíduous/tempo)proporcional: differença de ganho
Diagrama de Transição
E. de Souza e Silva, D. Figueiredo - JAI 2007 13
2 0 0
1 0 1
0 2 0
1 1 0 0 1 1 0 0 2
2x(2,3-2,0)=
0.6
2x(2,1-2,0)=
0,1
(3,8-3,5)=0,3
(3,1-3,0)=0,1
(4,0-3,0)=1,0
(4,0-3,1)=0,9
(3,8-3,3)=0,5
(2,3-2,1)=
0,2
taxa de transição (indivíduous/tempo)proporcional: differença de ganho
Processo dinâmico:
Diagrama de Transição
Dinâmica do Replicador
E. de Souza e Silva, D. Figueiredo - JAI 2007 14
Assumir milhares de jogadores (infinito)
Estado: fração de jogadores que adotam cada uma dasestratégias no instante t: <σι, σ2, ... , σΜ>
Tempo contínuo (jogo está sendo jogado continuamente)
Qual é a recompensa de um jogador que adote a estratégia s ?
recompensa de um indivíduo que adota a estratégia i: ui(σ)
Supor: em ∆t indivíduo um indivíduo aprende sobre a recompensade outro indivíduo com probabilidade λ∆t
Dinâmica do Replicador
E. de Souza e Silva, D. Figueiredo - JAI 2007 15
Escolher um jogador para jogar aleatoriamente:
Aumento (ou diminuição) da populção proporcioanal a diferença derecompensa
Dinâmica do Replicador
E. de Souza e Silva, D. Figueiredo - JAI 2007 16
Dividindo por N(t)
DINÂMICA DO REPLICADOR
Dinâmica do Replicador
E. de Souza e Silva, D. Figueiredo - JAI 2007 17
Estratégias com recompensas menor ou maior que média
Indivíduos adotam estratégias que possuem recompensas maisaltas
Estratégia não possui variação se recompensa é igual a média
Equilíbrio: σ,ι = 0 para todo i
Estudos na área médica
Sistema dinâmico é determinístico (equações diferenciais)
diminuem ou aumentam fração da população
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 18
Jogo da águia-pombo-burguês
Qual é o equilíbrio?
Exemplo
E. de Souza e Silva, D. Figueiredo - JAI 2007 19
burguês
águia pombo
ponto inicial
σΑ
σp
σΒ
Estratégias Evolucionariamente Estáveis (ESS)
E. de Souza e Silva, D. Figueiredo - JAI 2007 20
Estratégia evolucionariamente estável:Informalmente, uma população adotando estratégias segundouma distribuição σ é ESS se ela não é vulnerável a invasões porindivíduos (perturbações) que conseqüentemente irão alterara distribuição da população pelas estratégia.
Se σ∗ é um equil evolucionário então é um equil de Nash
classe C
classe A classe B
classe C
classe A classe B
ponto inicial
ponto inicial
ponto inicial
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 21
Já vimos esse problema... Vamos simplificar...
q
0
A
B
p(1-q)
q(1-p)
q
p
Slotted Aloha
Colisão
Estação A fica transmitindo atéque B transmita
Estação B fica transmitindo atéque A transmita
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 22
Vazão: pode-se facilmente calcular (se você usar o Tangram-II!!!!)
q
0
A
B
p(1-q)
q(1-p)
q
p
0 0.2 0.4 0.6 0.8 1 0
0.2
0.4
0.6
0.8
1 0
0.2
0.4
0.6
0.8
1
p
q
vazão de A
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 23
Se p=q --> vazão máxima = 1/3 (para que valor???)
q
O que acontece???
sistema MUITO injusto...
Por que???
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 24
Se p=q --> vazão máxima = 1/3 (para que valor --> p=q-->0
q
sistema MUITO injusto...
A estação que ganha o canal permanece com ele...
VAMOS COLOCAR UM LIMITE NA VAZÃO DE CADA ESTAÇÃO
Como modelar a competição???
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 25
JOGO DE STACKELBERG
q
Um jogo de Stackelberg é um jogo extensivo de dois rivais e cominformação perfeita onde o líder escolhe uma estratégia do seuconjunto e o seguidor, informado sobre a escolha do líder, escolheem seguida a sua, do seu conjunto de opções.
Exemplo: limitar vazão a 0,2, líder: EA
EA escolhe p=0,1 -> EB escolhe valor que maximiza a sua vazão, dada
a restrição -> q=0,0666; EA escolhe ...Ambas alcançam a vazão máxima permitida
E se a vazão máxima for 0,5? --> neste caso é preferível ser o líder... mas mesmo assim não ocupa 100% da bandaPREÇO DA ANARQUIA!!!
Exemplo: Rede sem Fio
E. de Souza e Silva, D. Figueiredo - JAI 2007 26
Como EA sabe que EB irá maximizar a sua vazão depois dasua escolha...
q
Problema do líder EA: o líder sabe que o seguidor tentarámaximizar a sua escolha, e portanto ele deve de antemão escolhero valor do seu parâmetro da forma:
Problema do seguidir EA: o seguidor conhece a estratégia dolíder, isto é, o parâmetro p escolhido por ele.Então apenas tenta otimizar a sua vazão dado p:
Exemplo: Dilema do Retransmissor
E. de Souza e Silva, D. Figueiredo - JAI 2007 27
q
EA EBDB DA
Transmitir gasta energia...
Problemas de Congestionamento
E. de Souza e Silva, D. Figueiredo - JAI 2007 28
Usuário ajusta taxa de transmissão -> otimizar desempoenho
MÉTRICA: POWER (vazão/delay)
Problemas de Congestionamento
E. de Souza e Silva, D. Figueiredo - JAI 2007 29
Suponha estratégias: taxas 0,1 e 0,499
usuário 2
usuário 10,1
0,1
0,499
0,08; 0,08
0,2; 0,04
0,04; 0,2
10-4;10-4
0,499
restrição:
Como modelar???
Problemas de Congestionamento
E. de Souza e Silva, D. Figueiredo - JAI 2007 30
Jogador 1 escolhe estratégia, então jog 2, ...
usuário 2
usuário 10,1
0,1
0,499
0,08; 0,08
0,2; 0,04
0,04; 0,2
10-4;10-4
0,499
restrição:
Convergência:recompença total: 1/9*2 = 0,22 --- mas cooperação --- recompença 0,25 (taxas = 0,25)
Problemas do VivaVoz
E. de Souza e Silva, D. Figueiredo - JAI 2007 31
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 32
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 32
σ
NS or activemeasurements
NS or activemeasurements
NS or activemeasurements
NS or activemeasurements
layer 1
layer 2
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 33
Network StatecodecFEC
MOS
Network StatecodecFEC
MOS Network StatecodecFEC
MOS
Network StatecodecFEC
MOS
σ
NS or activemeasurements
NS or activemeasurements
NS or activemeasurements
NS or activemeasurements
layer 1
layer 2
Teoria dos Jogos Evolucionária
E. de Souza e Silva, D. Figueiredo - JAI 2007 34
0
50
100
150
200
250
300
350
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Kbp
s
Minutes
Aggregate traffic
Saturation Throughput