k-armed bandit livio torrero,olivier morandi, pierluigi rolando,riccardo giacomelli
TRANSCRIPT
K-armed Bandit
Livio Torrero,Olivier Morandi, Pierluigi Rolando,Riccardo Giacomelli
K-armed Bandit
K slot machines stocastiche (Gaussian)Mean reward Standard deviation
2000 actions per apprendere quale sia la slot machine migliore
Come fare?
K-armed Bandit
Strategie Greedy
Scelgo strategia migliore stimata con probabilità
Scelgo una strategia tra le altre con probabilità uniforme con probabilità
1
Test-1
Mean rewards statici (Gaussian)Varianza=1Stima del reward:
11 1 1
t Nt t
Q rQ Q
N N
Test-1
Test-1
Test-2b (varianza=0)
Test-2a (varianza=10)
Test-3
Stima del reward
1 1*t t t tQ Q LR r Q
Test-3a (LR=0.9,variance=0)
Test-3b (LR=0.9,variance=10)
Test-4
Stima del reward
All’azione numero 300: I valori dei rewards cambiano
1 1*t t t tQ Q LR r Q
Test-4a, (step=0.05)
Test-4a (LR=0.1)
Test-4a (LR=0.5)
Test-4a (LR=0.9)
Test-4b (step=0.1)
Test-4b (LR=0.1)
Test-4c (immediate)
Test-4b (LR=0.1)
Test-4b (LR=0.9)