理学系研究科　情報科学専攻データベース特論 ii...

理学系研究科　情報科学専攻データベース特論 II

１０：１５－１２：１５

新領域創成科学研究科　複雑理工学専攻複雑計算論

１０：１５－１１：５５

オリエンテーション

森下　真一

データマイニング

•　理論

•　アルゴリズム

•　実装

•　応用

市場のニーズ

ルールの収集発見･（データマイニング）

技術的シーズ

データ読取装置の普及•バーコード•クレジットカード•ＯＣＲ

記憶装置の低価格化

プロセッサーの高速化並列計算機の商用化関係ＤＢの普及

多次元的問合せ OLAP

大規模生データの存在数ギガ～テラの生データ•ＰＯＳデータ•顧客データ•受注データ　等

検索可能状態　（大福帳システム　　　 Data Warehouse ）

•検索集計チャート化･･•経験的ルールの検証

知識発見技術の高速化

•商品間関連　•危険度分析•顧客分類

• データベース問合せ最適化• 組合せ論的アルゴリズム• 並列処理

•ゲノム情報　•検索エンジン•発見科学

Association Rules

Interesting Rules を枚挙したい

観察 B ⇒ C が interesting Ｐｒ (BC) は閾値以上Ｐｒ (B) とＰｒ (C) も閾値以上

当座取引有無定期口座有無血液型職業コードカードローン延滞有無

結合ルールＸ ⇒ Ｙ定期口座有無＝Ｎｏ ⇒ カードローン延滞有無＝Ｙｅｓ

サポートＰｒ (X かつ Y) 例５％

確信度Ｐｒ (Y|X) 例３２％

閾値を設け、上回るルールを “ interesting” と考える

• オーストラリア健康保険委員会年間数千万ドルの節約に成功

• 開業医が不必要な処方箋を出すケースを見つけ出す規則の発見

IBM data warehousing and data mining technologies are enabling the Health Insurance Commission (HIC) to save the Australian healthcare systems tens of millions of dollars a year.

The HIC is a Federal Government agency which processes claims for Medicare, Medibank Private and the Pharmaceutical Benefits and Child Care Programs. Every year, it deals with 300 million transactions and pays out eight billion dollars worth of funds.

Healthcare systems around the world are attempting to find ways to reduce the millions of taxpayers' dollars which are wasted by fraud and the inappropriate use of medical tests and services.

The HIC, together with IBM has implemented a world-leading data mining solution, which analyzes data and detects unnecessary prescriptions or referrals by medical practitioners then intervene to reduce the incidence.

http://www.software.ibm.com/data/intelli-mine/applbrief.html

HIC Provides A Healthier Future With IBM成功例

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

条件集合｛ A,B,C ｝をＡＢＣと簡略に記述

まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙

条件数が少ない集合から徐々にサポートを計算

まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙

条件数が少ない集合から徐々にサポートを計算

枝狩り：Ｐｒ (AB) < 閾値 ⇒ Ｐｒ (ABC) < 閾値

ルール B ⇒ C は確信度

Ｐｒ（Ｃ | Ｂ）＝Ｐｒ (BC) ／Ｐｒ(B)

が閾値以上のとき生成

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

A Ｐｒ（Ａ）≧閾値ＡＢＰｒ（ＡＢ）＜閾値

サポート計算の効率化

AB AC AD AE BC BD BE CD CE DE

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

大きい条件集合の候補を枚挙

各レコードが満たす条件集合を見つけ、サポートを増加

ACDE




A B

B D C D

D E

ABD ABE

ADE BCE BDE



Hash tableACDE




A B

B D C D

D E

ABD ABE

ADE BCE BDE



Hash tableABDE

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

条件集合の枝狩りの効率化

データベースの走査回数を減らせないか？

例サポートの閾値が５％のとき

条件集合の枝狩りの効率化

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

サイズ１の条件集合の計算を開始A A AA

当確当選落選出馬

読込済

サイズ２を開始

サイズ１の条件集合の計算を開始

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

A A AA当確当選落選出馬

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

読込済サイズ２を開始

サイズ３を開始


φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD

読込済

サイズ２を開始

サイズ３を開始

サイズ１のサポート計算

終了


サイズ１の条件集合の

サポート計算を開始

第１回読込済

サイズ２の計算終了

サイズ３も開始


終了

読込済

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD


サイズ１の条件集合の

サポート計算を開始

第１回読込済

サイズ２の計算終了

サイズ３の計算終了


終了

読込済

A priori に比べ２０％から４倍の性能向上との報告されている

φ

A B C D

AB AC BC AD BD CD

ABC ABD ACD BCD

ABCD


預金残高

Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大

預金残高∈Ｒ ⇒ クレジットカード＝ Yes

少しでも精度を上げたい

預金残高

Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大

確信度８０％以上でＰｒ（預金残高∈Ｒ）最大


少しでも精度を上げたい

預金残高 X → （Ｐｒ ( 預金残高≦Ｘ ) ，Ｐｒ ( ｛預金残高≦Ｘ，クレジットカード＝ Yes ｝ )


入力：Ｐｒ ( 預金残高∈Ｒ ) の閾値

出力：確信度を最大化する区間Ｒ

確信度

閾値

O(M log M)M: number of records

預金残高 X → （Ｐｒ ( 預金残高≦Ｘ ) ，Ｐｒ ( ｛預金残高≦Ｘ，クレジットカード＝ Yes ｝ )


入力：Ｐｒ ( 預金残高∈Ｒ ) の閾値

出力：確信度を最大化する区間Ｒ

確信度

Ｒの候補

Clockwise Search

Counter Clockwise Search

Clockwise, Counter Clockwiseはともに、点を高々１回だけ走査する

（年齢 ,預金残高）∈Ｓ ⇒ カードローン延滞＝ Yes

年齢

預金残高

領域族

矩形領域Ｘ単調領域直交凸領域

p( ( 年齢 ,預金残高 )∈ Ｓ ) を「領域Ｓのサポート」

最大確信度領域閾値以上のサポートをもち、確信度を最大にする領域Ｓ最大サポート領域閾値以上の確信度を導き、サポートを最大にする領域Ｓ

年齢

預金残高

データ数 M, ピクセル数 n

領域族：矩形領域最大サポート・最大確信度領域を O(n1

.5) で計算可能

領域族： X 単調領域または直交凸領域最大サポート・最大確信度領域を X 単調は O(n M) 、直交凸は O(n 1.5 M) で計算可能。

n と log M の多項式時間で計算することは P = NP でない限り不可能。

（年齢 ,預金残高）∈ Ｓ ⇒ カードローン延滞＝ Yes

グリッド領域へ

近似アルゴリズム

確信度

Ｓ（年齢 ,預金残高）∈ Ｓ

⇒ カードローン延滞＝ Yes

p( { 年齢 ,預金残高）∈Ｓ , カードローン延滞＝ Yes} )

p( （年齢 ,預金残高）∈Ｓ )

確信度

Ｓ（年齢 ,預金残高）∈ Ｓ

⇒ カードローン延滞＝ Yes

p( （年齢 ,預金残高）∈Ｓ )

p( { 年齢 ,預金残高）∈Ｓ , カードローン延滞＝ Yes} )

サポート値の閾値

近似解

Hand Probing による解の探索

１回の hand probing のコストＸ単調領域Ｏ ( ｎ )直交凸領域Ｏ ( ｎ 1.5)

hand probing の回数はＯ (log Ｍ )

サポート値の閾値

確信度

１

２

３

凸閉包上の探索

ｙ =θｘ＋ a

切片ａの最大化

• 各ピクセルに実数で表現される濃度• 濃度の和を最大化する領域を計算

ルールの評価－領域族別、メッシュ粒度別

矩形領域

#(pixels) Training Test Test – Tra.

8× 8 47.77% 46.92% -0.85%

16× 16 48.22% 47.66% -0.56%

32× 32 48.30% 47.52% -0.78%

64× 64 48.42% 47.03% -1.39%

Ｘ単調領域#(pixels) Training Test Test – Tra.

8× 8 52.70% 51.38% -1.31%

16× 16 53.72% 51.76% -1.95%

32× 32 55.24% 51.69% -3.55%

64× 64 57.47% 51.00% -6.46%

直交凸領域

#(pixels) Training Test Test – Tra.

8× 8 52.70% 51.56% -1.14%

16× 16 53.49% 52.24% -1.25%

32× 32 53.96% 51.79% -2.17%

64× 64 54.43% 51.75% -2.67%

データを平面中に一様に生成

ガードローン延滞となる確率を対角線からの距離に関して一様分布

10-fold Cross Validation

Classification

決定木入力データ例健康な人と心臓疾患の患者のデータ

血圧心拍数中性脂肪肥満度ＧＰＴＧＯＴ心臓疾患

決定木

訓練データで木を生成評価基準：未知データでの予測精度

動機：領域分割は予測精度向上に効くか？

入力データ例健康な人と心臓疾患の患者のデータ

Yes No

血圧＜ 125

血圧

ＧＰＴ

領域分割

Yes

Yes

No

No

決定木データ分割の評価方法

正のデータ負のデータ

決定木データ分割の評価方法

Ｑｕｉｎｌａｎのエントロピー最小化

ｐｑ

Ent1=- (p log p + q log q)

Ent2

n

n1Ent1

n

n2Ent2+

n1 n2

n

正のデータ負のデータ

Ｓ

Ｓ中のデータ数

Ｓ中の正のデータ数

エントロピー関数は凸関数

エントロピー最小の領域は凸包の境界上に存在

Hand Probing で探索

単純な二分探索は困難（凸包上の全ての点のエントロピーが一致する例）

X

YＺ

Ｅｎｔ（三角形ＸＹＺ内の任意の点）≧ ｍｉｎ（Ｅｎｔ（Ｘ），Ｅｎｔ（Ｙ），ＥＮＴ（Ｚ））

もしＥｎｔ（Ｚ）≧ 現時点の最小エントロピーならば枝狩りＢｒａｎｃｈａｎｄＢｏｕｎｄＳｅａｒｃｈ

実用上はほぼ、Ｏ（ｌｏｇＭ）のＨａｎｄＰｒｏｂｉｎｇ

決定木性能評価ＵＣ Irvine, ＲｅｐｏｓｉｔｏｒｙｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇｄａｔａｂａｓｅｓhttp://www.ics.uci.edu/~mlearn/MLRepository.html


エラー率データベース数ﾚｺｰﾄﾞ属性数数ｸﾗｽＸ単調直交凸矩形二分割balance scale 625 4 3 15.52 15.52 19.34 20.95breast-cancer-wisc 699 9 2 5.01 4.15 4.58 5.72german credit 1000 24 2 27.30 23.80 26.90 25.60liver disorder 345 6 2 34.81 33.36 31.08 34.87pima diabetes 768 8 2 24.47 25.12 23.69 26.82segmentation 2310 19 7 4.81 4.37 4.89 4.50vehicle 846 18 4 30.02 28.47 27.65 26.23waveform 5000 20 3 21.74 20.98 22.36 22.74waveform+noise 5000 40 3 22.54 21.32 22.94 24.36

回帰木 (Regression Tree)

ＢＰＳＧＤＭＹＥＮＴＢ３ＭＴＢ３０Ｙ SP500 GOLD

1.443530 0.407460 0.004980 7.02 9.31 210.88 326.001.446120 0.408050 0.004950 7.04 9.28 205.96 339.45 : : : : : : :

Ｙｅｓ

Ｎｏ

ＹｅｓＮｏ

誤差二乗平均を最小化する領域

μ １ μ ２

Ｄ１

Ｄ２

領域中外

μ ２

Ｄ１

Ｄ２

領域中外

Σ（ｔ [ Ａ ] － μ １）２ｔ∈Ｄ１

Σ（ｔ [ Ａ ] － μ ２）２ｔ∈Ｄ２

＋| Ｄ１∪Ｄ２ |

誤差二乗平均の最小化

クラス間分散の最大化

μ

| Ｄ１∪Ｄ２ |

| Ｄ１ | （ μ － μ １）２＋｜Ｄ２ | （ μ － μ ２）２

Ａ

μ １

Ｓ

Ｓ中のデータ数

Ｓ中データの目標属性の値の和

クラス間分散関数は凸関数

クラス間分散最大の領域は凸包の境界上に存在

Hand Probing で探索

単純な二分探索は困難

ＢｒａｎｃｈａｎｄＢｏｕｎｄＳｅａｒｃｈで実用上はＯ（ｌｏｇＭ）

回帰木性能評価

http://www.cs.utoronto.ca/~delve/data/datasets.html


誤差二乗平均（予測前と後の比）データベース数ﾚｺｰﾄﾞ属性数Ｘ単調直交凸矩形二分割add10 9792 10 0.141 0.123 0.156 0.185abalone 4177 8 0.521 0.515 0.534 0.539kin-8fh 8192 8 0.447 0.433 0.459 0.479kin-8fm 8192 8 0.225 0.197 0.257 0.249kin-8nh 8192 8 0.649 0.618 0.619 0.655kin-8nm 8192 8 0.494 0.449 0.478 0.541pumadyn-kin-8fh 8192 8 0.412 0.402 0.409 0.410pumadyn-kin-8fh 8192 8 0.0604 0.0595 0.0653 0.0632pumadyn-kin-8fh 8192 8 0.347 0.337 0.353 0.355pumadyn-kin-8fh 8192 8 0.0530 0.0496 0.0550 0.0535

OLETFインシュリン非依存型糖尿病モデルラット

F344正常のモデルラット

何世代か交配後のラット

Marker(1) = OLETF ホモ接合Marker(2) = F344 ホモ接合Marker(3) = OLETF / F344 ヘテロ接合

Intercross

　　

個体

102

｜103

個

遺伝子型 (3×102 列 )マーカー接合状態

表現型血糖値 , 疾患 ,

　　

個体

102

｜104

個

遺伝子型 (102 ～ 107 列 )遺伝子発現量 , SNP, ...

表現型血糖値 , 疾患 , 遺伝子発現量 ,薬の効果 ,副作用 , ...

Clustering

Brain in embryo Five brain tissues of adult mouse

Expression Patterns of Genes in Various Tissues

brain heart lung kidn e y testis 10.5d .13.5d .17.5d .1 d. 5 d. 7 d. 14 d. 21 d. 91 d. olfact hippo cortexcorpuscereb.MB00001 17.3 32.8 5.0 22.7 22.2 5.6 8.9 11.2 9.5 12.7 12.3 8.4 12.0 6.7 38.5 33.2 9.4 5.7 13.2MB00002 46.5 15.2 5.0 19.0 14.3 5.4 7.2 7.0 10.7 12.5 10.3 10.0 15.4 8.9 42.5 20.2 11.5 4.7 21.1MB00004 11.5 55.2 4.5 26.5 2.3 5.9 8.8 8.5 10.3 10.9 9.1 8.1 15.0 12.6 58.5 14.8 9.6 4.8 12.3MB00005 15.1 36.0 17.8 22.9 8.2 9.7 11.5 7.3 12.4 13.0 10.9 6.7 10.5 5.0 32.3 18.3 5.6 16.1 27.6MB00006 61.9 21.6 7.9 4.6 4.0 2.9 13.4 10.3 11.7 10.1 13.1 10.3 10.0 8.4 45.9 29.1 4.3 9.4 11.3MB00007 27.0 27.3 15.3 14.8 15.6 4.9 7.7 3.0 10.6 13.6 10.8 13.7 12.9 9.4 20.7 19.0 15.0 27.9 17.3MB00009 0.0 0.0 100.0 0.0 0.0 0.0 4.8 7.4 7.5 7.3 17.4 10.1 24.1 14.2 0.0 100.0 0.0 0.0 0.0MB00010 82.9 17.1 0.0 0.0 0.0 0.0 5.1 8.2 16.5 18.8 16.8 5.1 6.8 3.9 41.4 15.5 15.2 0.0 27.9

Identifier

tissues in organs chronological expression patterns in all tisuues in brain tissues in brainembryo post-natal

Clustering genes via expression patterns is promising.

• A set of genes are expected to share common rolesin cellular processes.

• Genes in the same group would be observed in the same tissue at the same time.

• Their expression patterns would be similar.

• Clustering genes by expression patterns would providesubstantial insight on real groups of genes.

Graphical Representation of Expression Patterns

Before Clustering

AfterClustering

Cluster of genes coding ribosomal proteins

Clusters of genes coding myelin

diameter max{ || x – y || | x and y are points in C }

Tightness of a cluster C of points

intra-class variance (1 / |C| ) xin C || x – c(C) ||2

|C| number of points in Cc(C) centroid (mean) of C, xin C x

k-clustering of a set S of points

a partition of S into k disjoint nonempty subsets (clusters) C1, …, Ck

Minimizing the maximum value of diameters or intra-class variances of all clusters

Optimization criteria

Diameter Problem

• Approximation factor of 2 is achieved by furthest point heuristic in O(n k)-time. (n = number of points)

• NP-hard if k is treated as a variable

• O(n log k)-time version

• Approximation within a factor of the optimal diameter is NP-hard for < 2.

Diameter1 =　 Diameter2

Intra-class variance1 　 >> 　 Intra-class variance2

Intra-class Variance Problem

• O(n (d+2)k+1 )-time algorithm (d = number of dimensions)

• O(n(1/)d )-time -approximate 2-clustering algorithm

Our Approach

• Perform hierarchical clustering by -approximate 2-clustering.

• Stop dividing a cluster if its intra-class variance is no more than a given threshold.

• It is hard to guess an appropriate value for k, beforehand.

• It is not easy to avoid generating a false-positive cluster of large intra-class variance that may contain genes of different functions.

Problems of k-clustering

Cluster of genes coding ribosomal proteins

intra-class variance =209

Clusters of genes coding myelin

intra-class variance = 128

講義の予定

結合ルールマイニング

• Apriori• Dynamic Itemset Counting• 最適区間• 最適領域• Correlation

情報科学的手法２次記憶管理主記憶管理　ハッシング最悪計算量NP完全　 NP 困難動的計画法凸包探索

分類問題 / 決定木 / 回帰木

• C4.5• CART• 最適部分集合• NP-hardness / Parallel Search• Optimized Ranges / Regions• Boosting / Bagging / Weighted Majority

情報科学的方法NP 困難分岐限定法並列化

検索エンジン

•　キーワード検索•　リンク情報の利用　 Google / Clever•　検索エンジンの動向

Clustering / Nearest Neighborhood

• k-means / k-clustering

情報科学的手法近似アルゴリズムグラフアルゴリズム

理学系研究科 情報科学専攻 データベース特論 ii...

Documents

理学系研究科　情報科学専攻データベース特論 ii...