deephack.game lmm team

7

Click here to load reader

Upload: deephacklab

Post on 18-Aug-2015

456 views

Category:

Science


2 download

TRANSCRIPT

Page 1: DeepHack.Game LMM team

1

Участие команды LMM в хакатоне deephack.me

, , Лариса Маркеева Мстислав Масленников Андрей Молчанов и Михаил Усвяцов

( )внутри нейросеть

19 - 25 2015июля

Page 2: DeepHack.Game LMM team

2

Мотивация

● Свёрточные уровни обрабатывают изображение● Только 1 уровень отвечает за логику игры

– недостаточно на многих играх

Page 3: DeepHack.Game LMM team

3

Наш подход

● Идея: добавить дополнительные уровни– Linear и Tanh

– * - добавляется сглаживающий уровень Rectifier

Уровень Параметры New

1 Reshape вход 4x84x84

нейроны маска отступ units

2 Convolution*

512

8 4 32

3 Convolution* 4 2 64

4 Convolution* 3 1 64

5 Reshape 3136

6 Linear 3136 → 512

7 Tanh 512 +

8 Linear* 512 → 256 +

10 Linear 256 → 6

Page 4: DeepHack.Game LMM team

4

Результаты полуфинала

● алгоритм LMM обучался только 12 часов

Gopher Seaquest Tutankham Итого

1 Red pandas 1,00 0,62 1,00 2,62

2 5 vision 0,79 1,00 0,54 2,33

3 Rock Band 0,41 0,69 0,22 1,32

4Life Propagation

0,49 0,24 0,44 1,17

5 SkyNet 0,14 0,40 0,38 0,93

6 Deep Punx 0,26 0,59 0,02 0,86

7 FastLearning 0,27 0,26 0,04 0,56

8 LMM 0,19 0,06 0,30 0,55

9 Конец Агента 0,18 0,07 0,17 0,42

10DROP TABLE USERS

0,12 0,08 0,02 0,22

Page 5: DeepHack.Game LMM team

5

Качество обучения

● Насколько хорошо система обучилась?– Проблема: нет абсолютных метрик

● Наш подход– мы используем относительную метрику

– считаем 10 запусков

– вычисляем среднее по ним● пусть Score

max — max результат

Scorerel=1

10∑i=1

10 Scorei

Scoremax

Page 6: DeepHack.Game LMM team

6

Процесс обучения в финале

● Scorerel

после 6 часов обучения

– процесс обучения немонотонный

– для разных игр разные виды траекторий

– на Space Invaders лучший результат на раннем этапе

Page 7: DeepHack.Game LMM team

7

Результаты в финале

● команда дошла до 1/8 финала– проиграла на тай-брейке (700-700)

● результат по Kung-fu лучше чем у Deepmind

Space

InvadersHero Kung-fu

Время обучения

Итог

1Deepmind (Google)

1976 19950 23270 ~7 дней

2 LMM 700 3015 35700 ~1 день1/8

финала