[분석] 프리미어리그 축구팀 승자예측
TRANSCRIPT
Soccer Winner Prediction E n g l i s h P r e m i e r L e a g u e
송 준 호 허 성 오 김그리나
국 민 대 학 교 인 천 대 학 교 이화여자대학교
경영정보학과 10 컴퓨터공학과 09 영상디자인과 13
01 주제 선정 및 배경
55% Netherlands vs Mexico
72% Brazil vs chile
60% Costa Rica vs Greece
69% Colombia vs Uruguay
4단계 : 주관적 고려 -피로도, 컨디션리듬, 선수별 index카드, 포메이션 고려
03 데이터 전처리 과정
Team stat per Game Player stat per game Fw/mf/df
Player ability in line-up Fw/mf/df
combine
페널티 킥, 블락, 클리어런스, 오프사이드, 핸드볼, 옐로우 카드, 레드 카드
데이터 분포가 완전히 쏠려 있거나 일반적으로 의미가 없다고 생각되는 변수들을 제거
득점, 실점, 어시스트 같이
거의 승패 자체를 나타내는 변수들을 제거
03 데이터 전처리 과정
“game_team_stat” table
각 player 들의 경기당 스탯을 포지션별 평균으로 묶어서 추출
수비수_패스, 수비수_패스성공률, 공격수_패스, 공격수_슈팅, 미드필더_패스, 미드필더_패스성공률
DC DR DL DMR DML
수비수(DF)
MC MR ML DMC AMC
미드필더(MF)
FW FWR FWL AMR AML
공격수(FW)
“game_player_stat” table
03 데이터 전처리 과정
GAME Team-1
Team-2 player-1
player-2
player-3
player-4 . . .
player-11
Game_player_stat player_stat
Game_player_stat player_stat
Game_player_stat player_stat
Game_player_stat player_stat
Game_player_stat player_stat
game_player_stat + player_stat
03 데이터 전처리 과정
.
.
.
.
.
.
03 데이터 전처리 과정
DF 수비수
MF 미드필더
FW 공격수
테크닉 어택/디펜스 헤더 정확도
드리블 정확도
숏패스 정확도
숏패스 스피드 롱패스 정확도
롱패스 스피드
슛 정확도
데드볼 방향전환
볼 컨트롤
스피드 반응속도 폭발력
드리블 스피드
최고 속도
피지컬 바디 밸런스 스태미너
킥 파워
점프력
저항력 공격 지능 수비 지능
폼
끈기
팀워크
Multinomial Logistic Regression
Random forest
독립 변수들의 선형 결합을 이용하여 사건의 발생 가능성을 예측
여러 개의 결정 트리들을 임의적으로 학습하는 방식의 앙상블 방법
04 모델링 및 승자예측
변수 FW_RESISTANCE DF_SPEED MID_TECHNIQUE DF_PASSES FW_SHOTS Game_team_crosses Game_team_throwins Game_team_dribbles Game_team_tackles Game_team_saves Game_team_aerials Game_team_ratings
Multinomial Logistic Regression
04 모델링 및 승자예측
Team 1
Prediction with Logistic regression
평균 game_team_stat
Team 2
평균 game_player_stat
해당 경기 출전 선수/ 출전이 예상되는 선수
평균 game_team_stat
평균 game_player_stat
해당 경기 출전 선수/ 출전이 예상되는 선수
vs
04 모델링 및 승자예측
Team 1
Prediction with RANDOM FOREST
평균 game_team_stat
Team 2
평균 game_player_stat
해당 경기 출전 선수/ 출전이 예상되는 선수
평균 game_team_stat
평균 game_player_stat
해당 경기 출전 선수/ 출전이 예상되는 선수
vs
04 모델링 및 승자예측