[분석] 프리미어리그 축구팀 승자예측

57
Soccer Winner Prediction English Premier League 김그리나 국민대학교 인천대학교 이화여자대학교 경영정보학과 10 컴퓨터공학과 09 영상디자인과 13

Upload: boaz-bigdata

Post on 07-Jan-2017

1.247 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Soccer Winner Prediction E n g l i s h P r e m i e r L e a g u e

송 준 호 허 성 오 김그리나

국 민 대 학 교 인 천 대 학 교 이화여자대학교

경영정보학과 10 컴퓨터공학과 09 영상디자인과 13

c o n t e n t s

01 주제 선정 및 배경

02 데이터베이스 구축 및 수집

03 데이터 전처리 과정

04 모델링 및 승자 예측

05 어플리케이션 구현

01 주제 선정 및 배경

01 주제 선정 및 배경

EPL 명문 구단 맨체스터 유나이티드의 팬

700,000,000 전 세계 축구팬

1,600,000,000

01 주제 선정 및 배경

약 16억 명 약 7억 명

01 주제 선정 및 배경

What’s Next?

점쟁이 문어 펠레의 저주

01 주제 선정 및 배경

01 주제 선정 및 배경

55% Netherlands vs Mexico

72% Brazil vs chile

60% Costa Rica vs Greece

69% Colombia vs Uruguay

20 Teams 380 GAMES

2 0 1 4 / 2 0 1 5 S e a s o n

01 주제 선정 및 배경

01 주제 선정 및 배경

02 데이터베이스 구축 및 수집

02 데이터베이스 구축 및 수집

02 데이터베이스 구축 및 수집

해당 경기의 Index

해당 경기의 Index 홈/어웨이 Index

해당 경기의 Index 홈/어웨이 Index

선수명

02 데이터베이스 구축 및 수집

프리미어리그 공식 사이트

02 데이터베이스 구축 및 수집

PESSTATSDATABASE 선수 능력치 정보 제공

02 데이터베이스 구축 및 수집

후스코어드닷컴 축구 통계 사이트

02 데이터베이스 구축 및 수집

03 데이터 전처리 과정

03 데이터 전처리 과정

4단계 : 주관적 고려 -피로도, 컨디션리듬, 선수별 index카드, 포메이션 고려

03 데이터 전처리 과정

Team stat per Game Player stat per game Fw/mf/df

Player ability in line-up Fw/mf/df

combine

“game_team_stat” table

03 데이터 전처리 과정

페널티 킥, 블락, 클리어런스, 오프사이드, 핸드볼, 옐로우 카드, 레드 카드

데이터 분포가 완전히 쏠려 있거나 일반적으로 의미가 없다고 생각되는 변수들을 제거

득점, 실점, 어시스트 같이

거의 승패 자체를 나타내는 변수들을 제거

03 데이터 전처리 과정

“game_team_stat” table

Penalty kicks Hand balls Red cards Clearances

03 데이터 전처리 과정

Blocks

03 데이터 전처리 과정

Yellow cards Offsides

“game_player_stat” table

03 데이터 전처리 과정

각 player 들의 경기당 스탯을 포지션별 평균으로 묶어서 추출

수비수_패스, 수비수_패스성공률, 공격수_패스, 공격수_슈팅, 미드필더_패스, 미드필더_패스성공률

DC DR DL DMR DML

수비수(DF)

MC MR ML DMC AMC

미드필더(MF)

FW FWR FWL AMR AML

공격수(FW)

“game_player_stat” table

03 데이터 전처리 과정

03 데이터 전처리 과정

03 데이터 전처리 과정

“player_stat” table

game_player_stat + player_stat

03 데이터 전처리 과정

GAME Team-1

Team-2 player-1

player-2

player-3

player-4 . . .

player-11

Game_player_stat player_stat

Game_player_stat player_stat

Game_player_stat player_stat

Game_player_stat player_stat

Game_player_stat player_stat

game_player_stat + player_stat

03 데이터 전처리 과정

.

.

.

.

.

.

03 데이터 전처리 과정

DF 수비수

MF 미드필더

FW 공격수

테크닉 어택/디펜스 헤더 정확도

드리블 정확도

숏패스 정확도

숏패스 스피드 롱패스 정확도

롱패스 스피드

슛 정확도

데드볼 방향전환

볼 컨트롤

스피드 반응속도 폭발력

드리블 스피드

최고 속도

피지컬 바디 밸런스 스태미너

킥 파워

점프력

저항력 공격 지능 수비 지능

끈기

팀워크

03 데이터 전처리 과정

03 데이터 전처리 과정

04 모델링 및 승자예측

Multinomial Logistic Regression

Random forest

독립 변수들의 선형 결합을 이용하여 사건의 발생 가능성을 예측

여러 개의 결정 트리들을 임의적으로 학습하는 방식의 앙상블 방법

04 모델링 및 승자예측

04 모델링 및 승자예측

Multinomial Logistic Regression

변수 FW_RESISTANCE DF_SPEED MID_TECHNIQUE DF_PASSES FW_SHOTS Game_team_crosses Game_team_throwins Game_team_dribbles Game_team_tackles Game_team_saves Game_team_aerials Game_team_ratings

Multinomial Logistic Regression

04 모델링 및 승자예측

04 모델링 및 승자예측

04 모델링 및 승자예측

각 경기의 각 팀에 대한 승률 해당 경기에 대한 승률

04 모델링 및 승자예측

04 모델링 및 승자예측

90.3 %

04 모델링 및 승자예측

Team 1

Prediction with Logistic regression

평균 game_team_stat

Team 2

평균 game_player_stat

해당 경기 출전 선수/ 출전이 예상되는 선수

평균 game_team_stat

평균 game_player_stat

해당 경기 출전 선수/ 출전이 예상되는 선수

vs

04 모델링 및 승자예측

50경기 예측

Logistic regression

46 %

04 모델링 및 승자예측

Random forest

04 모델링 및 승자예측

04 모델링 및 승자예측

99.3 %

04 모델링 및 승자예측

Team 1

Prediction with RANDOM FOREST

평균 game_team_stat

Team 2

평균 game_player_stat

해당 경기 출전 선수/ 출전이 예상되는 선수

평균 game_team_stat

평균 game_player_stat

해당 경기 출전 선수/ 출전이 예상되는 선수

vs

04 모델링 및 승자예측

50경기 예측

RANDOM FOREST

52 %

04 모델링 및 승자예측

Logistic regression Random forest

무승부

04 모델링 및 승자예측

한계점

04 모델링 및 승자예측

축구 경기의 불확실성 한정된 데이터

04 모델링 및 승자예측

05 어플리케이션 구현

Implementing Application

05 어플리케이션 구현

45 % 11 % 43 %

05 어플리케이션 구현

QUESTION & ANSWER

THANK YOU