deephack.game lmm team
TRANSCRIPT
1
Участие команды LMM в хакатоне deephack.me
, , Лариса Маркеева Мстислав Масленников Андрей Молчанов и Михаил Усвяцов
( )внутри нейросеть
19 - 25 2015июля
2
Мотивация
● Свёрточные уровни обрабатывают изображение● Только 1 уровень отвечает за логику игры
– недостаточно на многих играх
3
Наш подход
● Идея: добавить дополнительные уровни– Linear и Tanh
– * - добавляется сглаживающий уровень Rectifier
Уровень Параметры New
1 Reshape вход 4x84x84
нейроны маска отступ units
2 Convolution*
512
8 4 32
3 Convolution* 4 2 64
4 Convolution* 3 1 64
5 Reshape 3136
6 Linear 3136 → 512
7 Tanh 512 +
8 Linear* 512 → 256 +
10 Linear 256 → 6
4
Результаты полуфинала
● алгоритм LMM обучался только 12 часов
Gopher Seaquest Tutankham Итого
1 Red pandas 1,00 0,62 1,00 2,62
2 5 vision 0,79 1,00 0,54 2,33
3 Rock Band 0,41 0,69 0,22 1,32
4Life Propagation
0,49 0,24 0,44 1,17
5 SkyNet 0,14 0,40 0,38 0,93
6 Deep Punx 0,26 0,59 0,02 0,86
7 FastLearning 0,27 0,26 0,04 0,56
8 LMM 0,19 0,06 0,30 0,55
9 Конец Агента 0,18 0,07 0,17 0,42
10DROP TABLE USERS
0,12 0,08 0,02 0,22
5
Качество обучения
● Насколько хорошо система обучилась?– Проблема: нет абсолютных метрик
● Наш подход– мы используем относительную метрику
– считаем 10 запусков
– вычисляем среднее по ним● пусть Score
max — max результат
Scorerel=1
10∑i=1
10 Scorei
Scoremax
6
Процесс обучения в финале
● Scorerel
после 6 часов обучения
– процесс обучения немонотонный
– для разных игр разные виды траекторий
– на Space Invaders лучший результат на раннем этапе
7
Результаты в финале
● команда дошла до 1/8 финала– проиграла на тай-брейке (700-700)
● результат по Kung-fu лучше чем у Deepmind
Space
InvadersHero Kung-fu
Время обучения
Итог
1Deepmind (Google)
1976 19950 23270 ~7 дней
2 LMM 700 3015 35700 ~1 день1/8
финала