データマイニングとは
TRANSCRIPT
経営情報学科4回生 木田 翔
データマイニング
英語: Data mining
統計学、パターン認識、人工知能等のデータ解析
の技法を大量のデータに網羅的に適用することで
知識を取り出す技術
DMと略して呼ばれる事もある
通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)なデータを
得ることが可能
英語ではknowledge-discovery in databases
(データベースからの知識発見)からKDDと呼ばれる
定義
「明示されておらず今まで知られていなかったが、
役立つ可能性があり、かつ、自明でない情報を
データから抽出すること」
「データの巨大集合やデータベースから有用な情報を抽出する技術体系」
通常はデータの解析に関する用語として用いられる
が、人工知能という用語などと同様、包括的な用語
であり、様々な文脈において多様な意味で用いられる
歴史
データマイニングの発展には、大量のデータ蓄積が可能となったことが直接的に関係
デジタル形式でのデータの収集は、コンピュータを
用いてデータ解析をすることを念頭に置いて1960年
代には既に行われつつあった
リレーショナルデータベースとその操作用の
言語SQLが1980年代に出現し、オンデマンド
で動的なデータ解析が可能に
1990年代に至り、データ量は爆発的に増大
データウェアハウスがデータの蓄積に
用いられ始める
データベースにおける大量データを処理するため
の手法としてデータマイニングの概念が出現
統計解析の手法や人工知能分野での
検索技術等が応用されるように
リレーショナルデータベース
関係データベース
英語: relational database
関係モデル(リレーショナルデータモデル)
にもとづいて設計、開発されるデータベース
Oracle Database、Micrsoft SQL Server、
MySQLなどのデータベース管理システム
(DBMS) がサポート
関係データベースに含まれないデータベース
はNoSQLなど
関係モデル
IBMのエドガー・F・コッドによって考案された
現在もっとも広く用いられているデータモデル
複数の関係(リレーション)を基本的なデータ型とする
データベースの利用者は、クエリ(問い掛け)を
データベースに与え、複数の関係を連結させて
データを検索したり、変更することができる
データは表に似た構造で管理され、複数の
データ群が関係(リレーション)と呼ばれる構造
で相互連結可能
関係は組(タプル、表における行に相当する)、
属性(アトリビュート、表における列に相当する)、
定義域(ドメイン)、候補キー(主キー)、外部キー
などによって構成
SQLなどに代表されるデータベース言語
(問い合わせ言語)を用いて、関係に対して制限
・射影・結合・和・差・交わりなどの関係代数演算
(集合演算を含む)ないし関係論理演算を行う
ことで結果を取り出す
例
例えばある食品を扱う会社における顧客管理データ
ベースでは、顧客リストと物品販売リストは別々の
データ群であるが、顧客管理番号や顧客名などで
連結して情報を抽出することが可能
SQL
リレーショナルデータベース管理システム
(RDBMS) において、データの操作や定義
を行うためのデータベース言語(問い合わせ言語)
リレーショナルデータベースの関係モデル
(リレーショナルモデル)における演算体系である
関係代数と関係論理(関係計算)に基づく
SQLは何かの略語ではない
SQLに対しては、関係代数と関係論理に忠実に
準拠していないとして批判する意見がある
解析手法
頻出パターン抽出
クラス分類
回帰分析
クラスタリング
頻出パターン抽出
データ集合の中から高頻度で発生する特徴的な
パターンを見つける
相関ルール抽出
データベースに蓄積された大量のデータから、頻繁に
同時に生起する事象同士を相関の強い事象の関係、
すなわち相関ルールとして抽出する技術
POSやEコマースの取引ログに含まれる購買履歴を利用したバスケット解析など
その他の頻出パターン時系列やグラフを対象
としたものもある
クラス分類
クラス分類は与えられたデータに対応する
カテゴリを予測
代表的な手法
単純ベイズ分類器, 決定木, サポートベクターマシン
例:薬品の化合物のデータから,その化合物に薬効
がある・ないといったカテゴリを予測
回帰分析
与えられたデータに対応する実数値を予測する
代表的な手法
線形回帰、ロジスティック回帰、サポートベクトル回帰
例:曜日、降水確率、今日の売上げなどのデータを
元に、明日の売上げという実数値データを予測
クラスタリング(クラスタ解析)
データの集合をクラスタと呼ぶグループに分ける。
クラスタとは、同じクラスタのデータならば互いに
似ていて、違うクラスタならば似ていないような
データの集まり
教師なしデータ分類手法、つまり与えられたデータ
を外的基準なしに自動的に分類する手法
また、そのアルゴリズム
例:Webの閲覧パターンのデータから、類似したものをまとめる
ことで、閲覧の傾向が同じ利用者のグループを発見する
参照 データマイニング
http://research.nii.ac.jp/~uno/datamine.htm
データマイニング
http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%82%A4%
E3%83%8B%E3%83%B3%E3%82%B0
データマイニングの宝箱
http://www.datamining.sakura.ne.jp/11haikei.html
関係データベースhttp://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9
SQL
http://ja.wikipedi.org/wiki/SQL
データ・クラスタリング http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0
決定木
http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8
サポートベクターマシン
http://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3%
82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3