連環データ分析の使い方
TRANSCRIPT
Copy right (C) 2014 All right reserved Data Cake Baker
「使える!わかる! 連環データ分析」
2014年2月10日
Data Cake Baker
クロス表を可視化する
~ものごとを、クロス表で捉え ~クロス表を、可視化し ~事象の全体とその特徴をつかむ 連環データ分析:Dual ComBine Analysis
Data.CakeBaker Hearing the facts from data. 意- Imaging the future for story.
It’s a data intelligence.
1
Copy right (C) 2014 All right reserved Data Cake Baker
2
ものごとは、属性で説明され、クロス表で表現できる
クロス表は、連環データ分析で要約して俯瞰する
連環データ分析へのデータの準備
連環データ分析でマップ化する
まとめ
ものごとは、すべて説明され得る事象である。 クロス表を可視化する
ものごとは、すべて説明され得る事象である。
・ものごとや事物はすべて、なにかで説明できる事象であり、その集まりがデータとなる。
・データ分析の目的は、事象の性質の関係やその特徴を、意味を持つ情報に変換すること。
・事象の性質の関係や特徴を説明し、正確に伝える手段は、関係付けられた記号しかない。
その記号は、喩える言葉か数値、飾る言葉か数値しかない。
購買 事象
時刻
曜日
何時
店
街
どこで
性・年齢
住所
誰が
趣味
飲料
食料
何を
雑貨
カードで
急いで
どのように
袋無しで
・例えば、「買い物」という事象は、個々の購買行動のやり方やあり方の性質である。 ・ものごとや事物は、“特性要因図”で説明できる。 ・事象の個々の特徴を“特性”と呼び、その性質としての飾る言葉や喩える言葉を、要因として魚の骨のように表現する。
Copy right (C) 2014 All right reserved Data Cake Baker
3
クロス表を可視化する
ものごと・事象は特性要因図で整理でき、クロス表となる
・事象の例として、ある日のコンビニにおけるレジでの「購入行動」を考えてみよう。
・この事象、つまり出来事が起こるたびにトランザクション・データとして記録する。狙いは、購入行動を分析し、顧客がよりコンビニな生活を支援できるように、品ぞろえや陳列を工夫するためである。
・ポイント付カードでの購入行動が、朝からの最初のお買い上げは「鈴木三郎さん」で、“7時、目黒店、20代の男性、カードで、おにぎりとお茶”をお買い上げ、というリストが“購入行動ログ・データ”として、POSレジスターによって記録されているとする。
購買 事象
何時 どこで
誰が 何を どのように
・「買い物行動」という“事象のID”を、表の左の列(表側)に並べ、その行動を説明する“属性”を表の最上の行(表頭)にならべている。 ・表のなかの値は、各事象と属性の“繋がりの強さ”を示している。
Copy right (C) 2014 All right reserved Data Cake Baker
#1.鈴木三郎
#2.長谷川清
#3.高橋一郎
#4.小林和夫
#5.中村幸雄
ーーー
#n.佐々木勇
AM7
:00 AM8
:00
PM11:00
目黒駅店
恵比寿店
おにぎり
弁当 お茶 コーヒー
#1.鈴木三郎 1 1 1 1
#2.長谷川清 1 1 1
#3.高橋一郎 1 1
#4.小林和夫 1
#5.中村幸雄 1 1 1
ーーー
#n.佐々木勇 1 1 1 1
繋がりの強さ:連環度
表頭:アトリビュート
表側:サブジェクト
コンビニの購入行動は、何時どこで、誰が何を買ったか、で整理でき、なぜ買ったかにまで迫る糸口となる。
4
クロス表を可視化する
ものごと・事象は特性要因図で整理でき、クロス表となる
・企業の活動を事象と考えて採りあげてみよう。ここでは、事業の活動の種類とその成果の集まりがデータとなるが、アルコール飲料メーカとその事業領域との関わり方を分析する。
・企業をサブジェクトとし、これを説明する性質として、各企業の事業領域、つまり製造しているアルコール飲料の種類とし、それらを結びつける強さを出荷高と考える。
・企業にとってC.I.は大切であるが、それはビジネス領域の特徴で大きく決まる。例えばワインと言えばメルシャン、宝と言えば焼酎というように、ビジネスカテゴリーと企業イメージには密接な関係がある。
事業活動 事象
ビール 発泡酒
ワイン 焼酎 どのように
・「企業名」という“事象のID”を、表の左の列(表側)に並べ、その行動を説明する“属性”を表の最上の行(表頭)にならべている。 ・表の中の値は、各事象と属性の“繋がりの強さ”を示す出荷量である。単位は、ビールや発泡酒は万ケース、ワインその他はキロリットルである。
Copy right (C) 2014 All right reserved Data Cake Baker
5
#1.アサヒ
#2.キリン
#3.サッポロ
#4.サントリー
#5.メルシャン
ーーー
#n. 宝
ビール 発泡酒 ワイン ウイスキー
焼酎
#1.アサヒ 15,000 5,000 15 19 89
#2.キリン 9,000 8,000 0 5 0
#3.サッポロ 4,000 2,0001 17 0 0
#4.サントリー 1,000 3,000 48 63 84
#5.メルシャン 0 0 43 0 41
ーーー
#n. 宝 0 0 0 0 129
繋がりの強さ:連環度
表頭:アトリビュート
表側:サブジェクト
企業のイメージを構成する大きな要因は、その事業領域との関係を示すクロス表で現わされる。
クロス表を可視化する
ものごと・事象は特性要因図で整理でき、クロス表となる
・事象が、「化粧品のブランドのイメージ」であれば、「ブランド」と「ブランドイメージを示す言葉」と「それらを繋ぐ強さ」のデータが必要になるかもしれない。
・ブランドとして、“資生堂”、“カネボウ”、“ロレアル”…“ボディショップ”等があるとする。イメージを示す言葉として、“おしゃれ”、“品質”、“エコロジー”…“リーズナブル”等があるとする。
・これらの各ブランドとイメージに関連した言葉との関係の強さを示す度合いを示すデータを作成する。(Web上に表現されている文章や、キャッチコピー、アンケート結果のデータ等)が利用できる。
ブランド 事象
おしゃれ リーズナブル
エコロジー 品質 どのように
・商品やサービスのイメージは、その基本的な機能や、品質などの性能の他、使い方や使用時の魅力度などの心の要素が大きい。そうしたイメージは、言葉でしか表現し、伝え、分析することができない。
Copy right (C) 2014 All right reserved Data Cake Baker
#1.資生堂
#2.カネボウ
#3.ロレアル
#4.ソフィーナ
#5.ボディショップ
ーーー
#n.コーセー
おしゃれ
品質 エコロジー
リーズナブル
上品 きれい
やさしい
明るい
肌に良い
#1.資生堂 7 9 3 1 4 3 2 3 4
#2.カネボウ 4 3 3 4 2 3 2 4 3
#3.ロレアル 8 4 3 1 7 8 3 7 3
#4.ソフィーナ 3 4 3 7 4 3 4 3 4
#5.ボディショップ 7 6 9 3 4 5 5 3 4
ーーー
#n.コーセー 3 4 3 4 3 4 3 3 4
繋がりの強さ:連環度
表頭:アトリビュート
表側:サブジェクト
ブランドイメージは、言葉と言葉の繋がりのネットワークの中に埋め込まれている。
6
クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
ここまでのまとめ
1.ものごとはすべて、なにかで説明できる事象であり、その事象の集まりがデータとなる。
・データ分析の目的は、事象の性質の関係やその特徴を、意味を持つ情報に変換すること。
・事象の性質の関係や特徴を説明し、正確に伝える手段は、関係を持った記号しかない。その記号は、喩える言葉か数値、飾る言葉か数値しかない。
2. ものごとは、ほとんど全て、“特性要因図”で説明できる。
・購買行動などのモノゴトの特性は、“何時”、“誰が”、“どこで”、“何を”、“どの位”等の行動属性として特性要因図で整理できる。
・企業のアイデンテティの特性は、構成する要因としての事業領域のカテゴリーと関係付けて特性要因図として整理できる。
・製品やサービス等のブランドイメージ特性は、ブランドと親和性が高いキーワードを要因として特性要因図でまとめられる。
3.事象は、個々の特性を示すサブジェクトと、その性質を示すアトリビュート、それらを結ぶ強さを示す数値(連環度と呼ぶことにする)、この3種類の記号と数値で、クロス表に表現できる。
・「購買行動」等の特性は、個々のモノゴトのやり方やあり方等の要因と、それらを結ぶ強さはその記録ログから該当・非該当等の[0,1]データとして整理でき、クロス表にまとめられる。
・企業のCI.特性は、要因としての事業領域のカテゴリーと、それらを結ぶ関係の強さを、事業領域での成果として、売上等の連続した計量値データとして、クロス表で表現できる。
・商品やサービスのイメージは、機能や品質等の性能の他、使い方や魅力度などの心の要素が、言葉と言葉の繋がりのクロス表として表現され、相関する言葉のネットワーク中に埋め込まれている。
ものごとは、すべて説明され得る事象である。
ものごとは、属性で説明され、クロス表で表現できる
7
クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
ものごとは、属性で説明され、クロス表で表現できる
クロス表は、連環データ分析で要約して俯瞰する
連環データ分析へのデータの準備
連環データ分析でマップ化する
クロス表は、連環データ分析で要約して俯瞰する
8
クロス表を可視化する
この図から、次のような仮説が読み取れるであろう:
-“ロレアル”は“おしゃれ”、“資生堂”は“品質”、“ボディショップ”は“エコロジー”と近い。
-逆に言えば、“おしゃれ”なのは“ロレアル”、“品質”は“資生堂”、“エコロジー”なのは“ボディショップ”、である。
・分析の対象となる事象の特徴は、サブジェクトとアトリビュートと連環度の造るクロス表データとして把握される。
・モノゴトを理解するには、まず全体を分類し、その分類を理解し、その関係を理解することである。
・クロス表を理解するには、サブジェクトのアイテムの似た者同士を集め、またアトリビュートのアイテムの似た者同士を集め、かつ、サブジェクトとアトリビュートのアイテムの相互に似たもの同志を集めて、それを可視化できれば良い。
アイテムA2
アイテムs4
アイテムs5
アイテムs3
アイテムs2
アイテムs1
AアイテムAa
アイテムA1
連環度
ボデイショップ
品質
エコロジー
合理的
ロレアル
資生堂
おしゃれ
アトリビュート A.
サブジェクト
9 Copy right (C) 2014 All right reserved Data Cake Baker
クロス表は、連環データ分析で要約して俯瞰する クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker 2011(C)Data.CakeBaker
10
b
1
.
エコロジ
b
2
.
品質
b3.
b
m.
おしゃれ
#1
ロレアル
#2
資生堂
#n
ボディショップ
エコロジ
品質
#2.資生堂
#1.ロレアル
エコロジ
品質
#3.カネボウ
#1ロレアル
ブランドイメージは、n個のサブジェクトと、m個のアトリビュートの各アイテム間の連環度データとして採取できる。
2次元の(n-1)枚の地図に、m個のアトリビュートが、マッピングすれば、すべてのデータを可視化できる。
元データ:H
(共起度データ)
しかし、これでは全貌が判らない!!
化粧品のブランドイメージは、機械的に情報圧縮し、1枚のマップで近似的に表現できる。
・原理は、もとのクロス表データ(H)を特異値分解し圧縮する:H=XVYt
ここで、XとYは、マトリックスデータ(H)を特異値分解して得られる左右の特異値マトリックスで、Vは特異値を対角に持つ特異値マトリックスである。
カネボウ
資生堂
ボデイショップ
品質
エコロジ おしゃれ
合理的
ロレアル
イメージ調査から言葉のつながりの強度データを得る。
世界初、同時布置機能
複数のクロス表でも、1枚の統合された情報MAPで表現できるようになった。・・・世界初!
おしゃれ
エコロジ
おしゃれ
品質
#n. ボディショップ
#1ロレアル
10
クロス表は、連環データ分析で要約して俯瞰する クロス表を可視化する
連環データ分析の狙いは、各サブジェクトのアイテムと各アトリビュートのアイテムとの相対的な、いわば一般化された相関関係を分析し、その特徴的な組合せを、抽出する方法である。
・事象のアイテムの集合をサブジェクトと呼び、それを説明するアイテムの集合をアトリビュートと呼ぶと、“サブジェクトは、アトリビュートと連環度で結ばれるクロス表”となる。
・連環度は、サブジェクトとアトリビュートの各アイテムを結ぶ強さで、“0”以上の正の値とし、結びつきが強いほど大きな値とする。
・分析の対象となる事象の集合の特徴は、サブジェクトとアトリビュートと連環度の造るクロス表データの中にある。
アトリビュート A.
サブジェクト
アイテムA2
アイテムs4
アイテムs5
アイテムs3
アイテムs2
アイテムs1
AアイテムAa
アイテムA1
連環度
アトリビュート M.
アイテムM2
アイテムMm
アイテムM1
連環度
アトリビュート .
・・・
11 Copy right (C) 2014 All right reserved Data Cake Baker
クロス表は、連環データ分析で要約して俯瞰する クロス表を可視化する
ここまでのまとめ
1.モノゴトを理解するには、まず事象を特性要因図で整理し、“特性”と“要因”とそれらを結ぶ強さとしての連環度データの3点セットを、クロス表で整理し、分類し、その分類の関係を理解することで、初めて事象の全貌を理解することができる。
2.クロス表を理解するには、情報圧縮技術を使って、サブジェクトとアトリビュートの各アイテムを2~3次元の空間に同時布置し、似た者同士が近くなるように機械学習し、それを可視化して、類型化と分類ができれば良い。
3. サブジェクトとアトリビュートのアイテム間の関係の3点セットを同時に類型化して俯瞰することで、意味を読み取り易くなり、客観的な事象データを、意味のある情報や特徴、役に立つ知識の仮説抽出が容易になる。
4.連環データ分析は、世界で初めて、クロス表で表現されたサブジェクトとアトリビュートのアイテムを同時布置する方法を開発することで、サブジェクトとアトリビュートの相対的関係---いわば“一般化された相関分析”が可能になしました。
クロス表は、連環データ分析で要約して俯瞰する
12 Copy right (C) 2014 All right reserved Data Cake Baker
クロス表は、連環データ分析で要約して俯瞰する クロス表を可視化する
ものごとは、属性で説明され、クロス表で表現できる
クロス表は、連環データ分析で要約して俯瞰する
連環データ分析へのデータの準備とマップ化
まとめ
13 Copy right (C) 2014 All right reserved Data Cake Baker
連環データ分析へのデータの準備とマッ化 クロス表を可視化する
連環データ分析へのデータの準備とマップ化
14
手順1. 「分析データ用フォルダー」を用意し、“data” シート作って保存する
1)図のようにエクセルを作成。①セルA1を“Item”とし、②セルB1に“日付”と入れ、③表側(サブジェクト)にアイテム名(駅名)を入れる。④表頭(アトリビュート)にアイテム名(名所名)を入れ、⑤表中に連環度を入れる。
2) 連環度は、表側(サブジェクトアイテム)と表頭(アトリビュートアイテム)が近いほど大きくなる“0”以上の値を入れる。また、列や行の合計値が“0”になるアイテムレコードは削除をする。
3)⑥“日付”欄は、忘備録的な使い方で、“yyyy_mm_dd”(任意の数字で可)を入れる。
4)⑦分析データ用シート名を“data”とする約束がある。
5)このシートを持つ分析データ用フォルダーに⑧フォルダー名を付けて、保存する。ここでは“山手線と名所”として、保存している。
・ここでは、東京の山手線の駅と名所の関係を可視化する。
・サブジェクトを駅目とし、アトリビュートを観光名所とした。
・それらを結ぶ連環度を実際の距離を計算し、一番近い値を“1”とし、遠くなるに従い“0”となるように、変換した。
・例えば、各名所に行くには、どの駅からタクシーに乗るのが良いか、赤い色の強い駅を選ぶのが正解である。 ①
②
⑦
③
⑥
⑤ ④
⑧
14 Copy right (C) 2014 All right reserved Data Cake Baker
サブジェクトとアトリビュートのアイテムのラベル名が、マップ上にそのまま表現される
クロス表を可視化する
・あとは、連環データ分析ソフトを立ち上げ、分析作業フォルダーを呼び込めば、解析が始まり、サブジェクトとアトリビュートの構成アイテムがマップされる。
手順2. 「分析プロセス用フォルダー」を用意し、dcbシートを作って保存する.
1).分析するデータ構成を指示するシートと、分析結果を保存するシートとを保存する分析プロセス用フォルダーを用意する。
①セルA1に、”file”と入れる。
②セルB2に、手順1.で用意した、分析用データシート“data”を含むデータファイル名を入れる。(ここでは“山手線と名所”)
③セルA2に、サブジェクト名を入れる。
④セルB1に、アトリビュート名を入れる。
2)⑤分析プロセスで使うデータ構成を示すシートを“dcb”とし、⑥このシートを分析プロセス用フォルダーに保存する。ここでは、“東京名所案内”とした。
1.分析データ用フォルダー名>シート名
“山手線と名所”>“data”
2.分析プロセス用フォルダー名>シート名
“東京名所案内”>“dcb”
0.分析作業フォルダー名
“東京名所マップ”
①
②
③
④
⑤
⑧
15 Copy right (C) 2014 All right reserved Data Cake Baker
連環データ分析へのデータの準備とマップ化
手順3.「分析作業ホルダー」を用意し、「分析データ用フォルダー」と、「分析プロセス用フォルダー」を保存する。
1)分析データ用フォルダーと、分析プロセス用フォルダーを、作業用の同じフォルダーに、分析作業フォルダー名を付けて保存する。(ここでは、“東京名所マップ”とした)
クロス表を可視化する
Copy right (C) 2014 All right reserved Data
Cake Baker 16
16
・連環データ分析ソフトを立ち上げ、このフォルダーを読み込めば、解析が始まり、サブジェクトとアトリビュートの構成要素がマップされる。
手順4.連環データ分析をダウンロード
1)連環データ分析をダウンロードする。
データ・ケーキベーカ㈱のwebサイトhttp://www.dcb.co.jpから、登録画面に進み、ベイシックをダウンロードする。/
2)①デスクトップ上に、連環データ分析のアイコンが置かれる。このアイコンをクリックすると、連環データ分析が立ち上がる。
3)登録されたメールアドレスをIDとして確認し、立ち上がる。
4)②[dcb解析]ボタンをクリックすると、③ファイルを読み込むウインドウが立ち上がる。④[初期化]ボタンと⑤[dcb読込]ボタンを押下する。
連環データ分析のアイコン。
②
①
③ ④ ⑤
連環データ分析へのデータの準備とマップ化 クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
手順5.連環データ分析の対象ファイルを指定する
1)[dcb読込]ボタンをおすと、⑥“dcb
ファイル選択”ウインドウが開かれる。
2)そこで、⑦分析作業ホルダーを選び、⑧分析プロセス用ファイル名を選び、⑨[開く(O)]を押下する。
3)すると、⑩分析するクロス表のシート指定のウインドウが開かれる。
⑤
⑧
⑥
⑦
⑨
⑩
17
連環データ分析へのデータの準備とマップ化
ここは、分析用のデータ構成を指定する場所である。
連環データ分析では、一枚だけのクロス表を処理するベイシック版と、一つのサブジェクトを共有して横方向に複数多連に並べたクロス表が扱えるスタンダード版と、アトリビュートを共有して下方向にも多段に並んだ複数のクロス表を扱えるアドバンスド版がある。この作業ウインドウは、そうしたデータ構成を指定する場所である。入力するファイルが赤枠で示される
クロス表を可視化する
18
Copy right (C) 2014 All right reserved Data
Cake Baker
18
・連環データ分析ソフトを立ち上げ、分析プロセス用シートを呼び込めば、分析データファイルも自動的に読み込まれ、解析が始まり、サブジェクトとアトリビュートの構成要素がマップされる。
・強く結ばれたサブジェクトのアイテム同志、アトリビュートのアイテム同志、サブジェクトとアトリビュートのアイテム同志が、お互いに近くに布置されるように多次元座標が計算される。
手順5.連環データ分析でマップ化
8)⑪[dcb sheet 選択]ウインドウで、分析プロセス用シートを選択し、[OK]ボタンを押下する。
9)⑫最初のクロス表のファイル名が現れ、サブジェクト名とアトリビュート名が現れる。
10)分析する⑬[次元数]を決め、 (通常2~5次元位) ⑭繰返し計算回数の上限を決める。
11)⑮[dcb解析]ボタンを押下する。
⑪
⑫
⑬
⑮ ⑭
連環データ分析へのデータの準備とマップ化 クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
・連環データ分析ソフトを立ち上げ、このフォルダーを呼び込めば、解析が始まり、サブジェクトとアトリビュートの構成要素であるアイテムのラベルがマップ化されます。
手順6.マップ化の保存と各種表示操作
12)⑯結果が表示され、[確認Dialog]ウインドウが開かれますので、保存します。
13)[dcbAnalysisDialog]ウインドウを閉じ、[ItemGp]ボタンを押し、いろいろな表示をトライすることができます。
・いろいろなアイテムを選択したり、組み合わせて表示することで、アイテム間の関係や特徴が見えてきます。
・多くの場合、関係の関係が理解できると、データが意味を持った情報となります。
・複数のメンバーが、意味を共有し、役に立つ情報は、知識となります。
19
連環データ分析へのデータの準備とマップ化 クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
ここまでの まとめ
1.手順1. エクセルを使い、分析対象のクロス表を、“data シートとファイル”を用意する。
2.手順2. 結果保存用に“dcb シートとファイル”を用意する.
3.手順3.「連環データ分析」をダウンロードする。
4.手順4.連環データ分析の対象ファイル指定する。
5.手順5.連環データ分析でマップ化。
6.手順6.マップ化の保存と各種表示操作。
以上、使い慣れたエクセルを使ってデータを用意すれば、ごく自然な流れに乗って、データ分析の仕事を進めることが可能となる。
連環データ分析へのデータの準備とマップ化
20
連環データ分析へのデータの準備とマップ化 クロス表を可視化する
Copy right (C) 2014 All right reserved Data Cake Baker
まとめ
1. データ分析の目的は、事象の性質の関係やその特徴を、意味を持つ情報に変換すること、そして役に立つ知識として共有することである。
2.事象の特徴を“特性”と呼び、その性質としての飾る言葉や数値、喩える言葉等を要因として魚の骨の形に整理して表現できる。特性を示すサブジェクトとその性質を示すアトリビュートとそれらを結ぶ強さは、エクセル等のクロス表に整理できる。
3.サービスや製品等の特性や要因などとの繋がりの関係を持った事象がクロス表データ化できれば、機械学習で情報圧縮し、全貌が可視化できるマップを作ることで、データ分析が容易に可能になる。
4. 連環データマップのキーとなる利用分野として次のような例が挙げられる:
1)購入行動などのトランザクションログデータから、購入者の行動属性との相互関係や、逆に購入品目等と購入者との相互関係が判り、これらの中の、ある要因を他の要因から推定が可能となるので、いわばアイテムベースやカスタマーベースの“共調フィルタリングレコメンデーション”等に利用できる。
2)サブジェクトとそれを説明するアトリビュート要因との関係が、単位の異なった計量値で繋がっている場合でも、それらの各アイテムごとの相互関係が判り、事象の特徴が理解でき、いわば“一般化された相関分析”が可能となる。
3)製品やサービスの、機能や品質などの性能の他、魅力度やイメージ等は、言葉と言葉の繋がりのネットワークの中に埋め込まれている。ブランドイメージの構成要因が、言葉のまとまりとして理解でき、イメージの改善やいわば“イメージ・デザイン”への利用が可能になる。
5.ビッグデータは、量が多いが情報量は少ない。また構造化されたデータではなく、量的データや質的データが混ざっている。事象を特性要因図で整理し、クロス表に落とし込み、機械的に情報圧縮し、俯瞰できるマップで可視化すれば、全体の構成や特異事象、また有用な知識が抽出できる。
上記のいずれの例も、質的データや量的データを統合して扱える、いわば“一般化相関分析”とでも言えるデータ分析法と言えよう。
以上
ものごとは、すべて説明され得る事象である。 まとめ
21
クロス表を可視化する