データマイニングとは

29
経営情報学科4回生 木田

Upload: sho-kida

Post on 31-May-2015

457 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: データマイニングとは

経営情報学科4回生 木田 翔

Page 2: データマイニングとは

データマイニング

Page 3: データマイニングとは

英語: Data mining

統計学、パターン認識、人工知能等のデータ解析

の技法を大量のデータに網羅的に適用することで

知識を取り出す技術

DMと略して呼ばれる事もある

Page 4: データマイニングとは

通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)なデータを

得ることが可能

英語ではknowledge-discovery in databases

(データベースからの知識発見)からKDDと呼ばれる

Page 5: データマイニングとは

定義

Page 6: データマイニングとは

「明示されておらず今まで知られていなかったが、

役立つ可能性があり、かつ、自明でない情報を

データから抽出すること」

「データの巨大集合やデータベースから有用な情報を抽出する技術体系」

Page 7: データマイニングとは

通常はデータの解析に関する用語として用いられる

が、人工知能という用語などと同様、包括的な用語

であり、様々な文脈において多様な意味で用いられる

Page 8: データマイニングとは

歴史

Page 9: データマイニングとは

データマイニングの発展には、大量のデータ蓄積が可能となったことが直接的に関係

デジタル形式でのデータの収集は、コンピュータを

用いてデータ解析をすることを念頭に置いて1960年

代には既に行われつつあった

リレーショナルデータベースとその操作用の

言語SQLが1980年代に出現し、オンデマンド

で動的なデータ解析が可能に

Page 10: データマイニングとは

1990年代に至り、データ量は爆発的に増大

データウェアハウスがデータの蓄積に

用いられ始める

データベースにおける大量データを処理するため

の手法としてデータマイニングの概念が出現

統計解析の手法や人工知能分野での

検索技術等が応用されるように

Page 11: データマイニングとは

リレーショナルデータベース

Page 12: データマイニングとは

関係データベース

英語: relational database

関係モデル(リレーショナルデータモデル)

にもとづいて設計、開発されるデータベース

Page 13: データマイニングとは

Oracle Database、Micrsoft SQL Server、

MySQLなどのデータベース管理システム

(DBMS) がサポート

関係データベースに含まれないデータベース

はNoSQLなど

Page 14: データマイニングとは

関係モデル

Page 15: データマイニングとは

IBMのエドガー・F・コッドによって考案された

現在もっとも広く用いられているデータモデル

複数の関係(リレーション)を基本的なデータ型とする

Page 16: データマイニングとは

データベースの利用者は、クエリ(問い掛け)を

データベースに与え、複数の関係を連結させて

データを検索したり、変更することができる

データは表に似た構造で管理され、複数の

データ群が関係(リレーション)と呼ばれる構造

で相互連結可能

Page 17: データマイニングとは

関係は組(タプル、表における行に相当する)、

属性(アトリビュート、表における列に相当する)、

定義域(ドメイン)、候補キー(主キー)、外部キー

などによって構成

SQLなどに代表されるデータベース言語

(問い合わせ言語)を用いて、関係に対して制限

・射影・結合・和・差・交わりなどの関係代数演算

(集合演算を含む)ないし関係論理演算を行う

ことで結果を取り出す

Page 18: データマイニングとは

例えばある食品を扱う会社における顧客管理データ

ベースでは、顧客リストと物品販売リストは別々の

データ群であるが、顧客管理番号や顧客名などで

連結して情報を抽出することが可能

Page 19: データマイニングとは

SQL

Page 20: データマイニングとは

リレーショナルデータベース管理システム

(RDBMS) において、データの操作や定義

を行うためのデータベース言語(問い合わせ言語)

リレーショナルデータベースの関係モデル

(リレーショナルモデル)における演算体系である

関係代数と関係論理(関係計算)に基づく

Page 21: データマイニングとは

SQLは何かの略語ではない

SQLに対しては、関係代数と関係論理に忠実に

準拠していないとして批判する意見がある

Page 22: データマイニングとは

解析手法

Page 23: データマイニングとは

頻出パターン抽出

クラス分類

回帰分析

クラスタリング

Page 24: データマイニングとは

頻出パターン抽出

データ集合の中から高頻度で発生する特徴的な

パターンを見つける

相関ルール抽出

データベースに蓄積された大量のデータから、頻繁に

同時に生起する事象同士を相関の強い事象の関係、

すなわち相関ルールとして抽出する技術

POSやEコマースの取引ログに含まれる購買履歴を利用したバスケット解析など

Page 25: データマイニングとは

その他の頻出パターン時系列やグラフを対象

としたものもある

Page 26: データマイニングとは

クラス分類

クラス分類は与えられたデータに対応する

カテゴリを予測

代表的な手法

単純ベイズ分類器, 決定木, サポートベクターマシン

例:薬品の化合物のデータから,その化合物に薬効

がある・ないといったカテゴリを予測

Page 27: データマイニングとは

回帰分析

与えられたデータに対応する実数値を予測する

代表的な手法

線形回帰、ロジスティック回帰、サポートベクトル回帰

例:曜日、降水確率、今日の売上げなどのデータを

元に、明日の売上げという実数値データを予測

Page 28: データマイニングとは

クラスタリング(クラスタ解析)

データの集合をクラスタと呼ぶグループに分ける。

クラスタとは、同じクラスタのデータならば互いに

似ていて、違うクラスタならば似ていないような

データの集まり

教師なしデータ分類手法、つまり与えられたデータ

を外的基準なしに自動的に分類する手法

また、そのアルゴリズム

例:Webの閲覧パターンのデータから、類似したものをまとめる

ことで、閲覧の傾向が同じ利用者のグループを発見する

Page 29: データマイニングとは

参照 データマイニング

http://research.nii.ac.jp/~uno/datamine.htm

データマイニング

http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%82%A4%

E3%83%8B%E3%83%B3%E3%82%B0

データマイニングの宝箱

http://www.datamining.sakura.ne.jp/11haikei.html

関係データベースhttp://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9

SQL

http://ja.wikipedi.org/wiki/SQL

データ・クラスタリング http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0

決定木

http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8

サポートベクターマシン

http://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3%

82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3