ОСОБЕННОСТИ СОРЕВНОВАНИЙ kaggle
TRANSCRIPT
СОРЕВНОВАНИЯ ПО АНАЛИЗУ ДАННЫХ
Зачем это нужно?
Деньги, слава?
Ответ:
Для участников: опыт, новые знания, новые контакты.
Для организаторов: решение задачи, пиар, поиск сотрудников.
САЙТЫ С СОРЕВНОВАНИЯМИ
Kaggle:
https://www.kaggle.com
Другие сайты:
https://crowdanalytix.com
http://www.drivendata.org
https://datascience.net/fr/home
КАКИЕ ЯЗЫКИ ИСПОЛЬЗОВАТЬ?
Python, R, Julia, Matlab?
Любой, какой удобен.
Некоторые библиотеки поддерживают несколько языков.
Многие библиотеки запускаются из командой строки.
КАКОЙ КОМПЬЮТЕР НЕОБХОДИМ?
Обычного современного компьютера/ноутбука будет достаточно для решения большинства соревнований.
Для решения соревнований с изображениями – обязательно придется иметь GPU.
Аренда сервера:
0.5$ в час
ОБЪЁМ ДАННЫХ
Чем больше объектов в выборке:
• Тем мощнее необходим компьютер
• Тем сложнее тестировать и валидировать свои результаты
• Тем более стабильнее результаты
ОБЩИЕ СОВЕТЫ
• Внимательно изучите постановку и метрику задачи
• Сохраняйте код, пишите описания к каждой посылке
• Правильно оценивайте свой результат
• Постоянно читайте форум
• Изучайте скрипты других участников
ГЛАВНЫЙ ВОПРОС ПРИ РЕШЕНИИ ЗАДАЧИ
Вопрос:
Необходимо как можно лучше решить поставленную задачу?
Ответ:
Необходимо как можно лучше решить поставленную задачу за определенное время.
СПОСОБЫ УЛУЧШЕНИЯ РЕШЕНИЯ
Текущее решение
Добавление, изменение признаков
Использование новых алгоритмов
Оптимизация текущих
параметров
Изобретение новых подходов к
решению задачи