k-means法によるクラスタリングと 選手起用法へ...

18
プロ野球投手年間成績のデータマイニング K-means法によるクラスタリングと 選手起用法への応用〜 高知大学理学部数理情報科学科 B033G078M 将人

Upload: dangque

Post on 04-Aug-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

プロ野球投手年間成績のデータマイニング〜K-means法によるクラスタリングと

選手起用法への応用〜

高知大学理学部数理情報科学科

B033G078M 森 将人

はじめに

情報技術の発展により、各分野で大量データの取得が可能になった

大量データを有効活用してパターンを発見するデータマイニングの手法が発達

スポーツ分野でも選手の実績や特徴のデータが収集•利用されるようになっている

プロ野球ではデータから経験に基づいて選手起用法を判断

選手の記録をデータマイニングの手法で分析することにより、起用法の新たな発見が期待できる

記録

監督

Kei経験選手起用への応用

選手

データマイニング

パターン

本研究の目的

プロ野球選手(2005年度セリーグ登録投手)の年間記録をデータマイニングの手法による分析

K-means法によるクラスタリング

チーム内の役割、能力によるクラスタのラベル付け

役割と能力の相関性の分析

選手起用法への応用

クラスタリング

多次元データの集合をある尺度に基づいて類似度の高い部分集合(クラスタ)に分ける

類似度 → データ間の距離の近さ

距離尺度の例ユークリッド距離、マンハッタン距離など

x

y

クラスタ

K-means法 (MacQueen,Anderberg,Forgy)

アルゴリズム:

①K個のクラスタに各々コア点Ci(i=1,2,…k)を与える

②それぞれのデータをCiに最も近いクラスタに割り当てる

③新たなクラスタの重心でコアCi’を算出

④以前のコア点Ciと現在のコア点Ci’が変われば②に戻る。そうでなければ終了。

ランダムに初期値を決め、クラスタを作る

クラスタの個数Kを既知とし、収束するまで反復的にデータの分割とクラスタ重心の決定を行う

C1

C2

C’1C’2

新しいクラスタの重心に変化が無ければ終了

そのクラスタの重心を求め、再クラスタ

K-means法の問題と対策

1.解が初期値に影響されるため、最適解が保証されない

→多数回の繰り返しと誤差関数による最良の解の選択

2.Kが未知の場合、最適なKの判断が難しい。

→広い範囲のKで試行を行い、クラスタ内標準偏差と要素数1のクラスタ出現、解の不安定性から判断

2

∑ ∑∈

−= k

i Xx ii

xxErr xi

x:データポイント

:i番目のクラスタの重心

誤差関数:

使用したデータ

2005年度のプロ野球公式データセリーグの投手144人が持つ30属性

-1

0

1

2

3

4

5登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

例:広島の黒田投手

右•チームでの起用のされ方と

その結果に関する属性

左•

個人の能力に関する属性

エース

敗戦死球 敗戦

暴投

ボーク

失点

自責点防御率

四球

被本塁打

被安打

犠飛

犠打

実験条件と決定された最適クラスタ数

属性 データ数

(人)K

(クラスタ数)

最適な

K

case1 全属性(30) 137* 3~12 11

case2 個人の能力に関連する属性

(13)

137* 2~13 13

*登板数が少なくデータとして不十分な選手は削除

5000回の繰り返しから誤差関数最小の解を選択比較から最良のKを選択

全属性での最適なクラスタ結果(K=11)

クラスタ0 先発(普通)

クラスタ1 先発(エース)

クラスタ2 先発

(準エース)

クラスタ3 先発•中継投手

クラスタ4 中継(抑え)

クラスタ5 中継(エース)

クラスタ6 中継

(準エース)

クラスタ7 中継投手

(暴投多い)

クラスタ8 中継投手

(被打率高い)

クラスタ9 中継投手

(四球多い)

クラスタ10 中継投手

(犠飛多い)

-5

0

5

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

?

-2

2

6登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

〜先発タイプの投手〜

エース

準エース

先発(普通)先発•

中継ぎ

当初

完投

完封

無四球

勝利

クラスタ0,1,2,3

〜中継タイプの投手〜

-3

-2

-1

0

1

2

3

4

登板完投

完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

中継エース

先発•中継

準中継エース

抑え

11 9

1試合(9イニンング)

5 7

セーブ

HP

引き分け

完了

クラスタ3,4,5,6

〜その他に特徴を持つ投手〜

-5

0

5

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

暴投多い

犠飛多い

被打率高い

投球回少なく四球多い

クラスタ7,8,9,10

クラスタ結果と各チームの構成との比較

先発タイプ中継タイプ

(人)

( )は順位

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9 10 11

阪神(1)

中日(2)

横浜(3)

ヤクルト(4)

巨人(5)

広島(6)

投手

エ|ス

準エ|ス

先発/中継

抑え

中継エ|ス

準中継エ|ス

暴投多い

被打率高い

四球多い

犠飛多い

個人能力に関する最適なクラスタ結果(K=13)

-6

-1

4

9被安打

被本塁打

犠打

犠飛

四球

死球

奪三振打ち取り

暴投

ボーク

失点

自責点

防御率

クラスタ1 欠点が少ない

四球がとくに少ない

クラスタ8 打ち取り多く

失点少ない

クラスタ10 奪三振多く

失点少ない

クラスタ12 すべて、ほぼ平均

クラスタ11 打ち取り多く、

他は欠点がある

クラスタ5 死球が多い

クラスタ9 四球が多い

クラスタ3 暴投が多い

クラスタ2 犠飛多い

クラスタ6 ボーク多い

クラスタ0 奪三振少なく

失点多い

クラスタ4 被打率が高い

クラスタ7 全て多い

暴投

四球

犠飛

犠打

被本塁打

被安打

ボーク

失点

死球

自責点

防御率

?

全属性のcidと個人能力のcidとの関係

個人

全属性

1.四球

少なく

失点

少ない

8.打取り

多く

失点

少ない

10.奪三振

多く

失点

少ない

12.ほぼ

平均

11.打取り

多い

5.死球

多い

9.四球

多い

3.暴投

多い

2.犠飛多い

6.ボーク多い

0.奪三振少なく

失点

多い

4.被打率

高い

7.全て

多い

0.先発 15 0 0 10 1 0 0 0 0 2 1 0 0

1.先発(エース) 5 0 0 0 0 0 0 0 0 0 0 0 0

2.先発(準エース) 10 0 0 2 0 0 0 0 0 0 0 0 0

3.先発•中継 6 0 0 1 3 2 3 0 0 0 0 0 0

4.中継(抑え) 0 0 7 0 0 0 0 0 0 0 0 0 0

5.中継(エース) 9 0 9 2 1 0 0 0 0 1 0 0 0

6.中継(準エース) 0 3 1 0 0 0 0 0 0 0 0 0 0

7.中継

(暴投多い)0 0 0 0 0 0 0 1 0 0 0 0 0

8.中継

(被打率高い)0 0 0 8 1 0 0 0 1 1 3 10 1

9.中継

(四球多い)0 0 0 0 0 0 1 0 0 0 2 2 0

10.中継

(犠飛多い)1 0 0 4 1 1 0 0 4 0 1 0 0

考察全属性でのクラスタリングの場合、先発,中継,抑えなどのチーム内での起用法に強く反映されたラベル付けが出来た

チーム内での各グループの頻度分布から、各チームの選手起用法の違いが発見できた

個人の能力によるクラスタリングは、欠点に特徴を持つ方が多かった

全属性でのクラスタと個人能力に重点を置いたクラスタとの相関性から選手起用法への応用性が確認できた

先発投手候補の発見

エース候補の発見

抑え投手候補の発見例:藤川球児

→2005年度のクラスタ結果では「中継投手」で個人能力が良かった。すると2006年では故障した久保田投手に代わって抑えを任され結果を残した

・参考文献

・データマイニング 共立出版 2001年(福田 剛志、森本 康彦、徳山 豪 著)

・画像の処理と認識 昭晃堂 1992年(安居院 猛、長尾 智晴 著)

・ベースボール・レコードブック 2006(ベースボール・マガジン社)

〜おまけ〜

ノイズの7人→佐久本昌広,石川賢,染田賢作,杉本友,田中充,三沢興一,ミセリ

エースの5人→安藤裕也、三浦大輔,上原浩治,小山田保裕,黒田博樹

抑えの7人→久保田智之,岩瀬仁紀,クルーン,石井弘寿,木佐貫洋,林昌典,ベイル

先発候補になる中継投手→川岸強,鈴木義広,平井正史,加藤武治,川村丈夫

木塚敦志,河端龍,久保裕也,横山竜士

抑え候補になる中継投手→ウィリアムス,江草仁貴,橋本健太郎,藤川球児

岡本真也,五十嵐亮太,佐藤賢,シコースキー,永川勝浩

起用を見送るべき投手

→小笠原孝,佐々木主浩,那須野巧,金剛弘樹,吉川輝昭,坂本弥太郎,後藤光貴,中村隼人,酒井順也,伊達昌司,天野浩一,高橋健,林昌樹,広池浩司