大量の欠陥情報から、 共通的な要因を探る分析手法の紹介€¦ ·...
TRANSCRIPT
© Hitachi Solutions, Ltd. 2016. All rights reserved.
株式会社日立ソリューションズ 品質保証統括本部 QAセンタ 技術支援グループ
2016/9/16
角口 勝隆
大量の欠陥情報から、 共通的な要因を探る分析手法の紹介
[SQiP2016]
E-mail: yoshitaka.kadoguchi.uj@hitachi-solutions.com
かどぐち よしたか
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
• 株式会社 日立ソリューションズ
会社紹介/自己紹介
1
※本人ではありません
マスコットキャラクター
「ソリュートくん」
ソリュっと解決!
先進技術で さまざまな課題を、
• 自身のプロフィール• 長年培った品質保証技術でお客様の抱える課題を解決するソリューション業務に従事中。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
最近の取り組み
2
• 新たなセキュリティ要件への対応や、スマートデバイスを含めた高負荷アクセス状態での動作試験など、「安全」「安心」「快適」なサービス実現に向けた品質保証技術を提供。
高度専門技術×品質保証技術
• これまで分析が困難であったデータを扱うことで、より多角的 かつ
プロセス上の本質的な問題を素早く把握 • 課題解決方法の提案 および 改善効果測定までトータルサポート。
• 潜在する不具合を予測し、テスト観点を強化することも可能。
ビッグデータ分析×品質保証技術
• 機械学習の活用により、分析所要時間を25%まで短縮。
• 修正影響範囲確認や、ログ解析作業などをレコメンドで支援。
人工知能(機械学習)×品質保証技術
「それムリ!」と言わず、 まずは日立ソリューションズへ相談ください。
事例紹介
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1. 従来の分析方法における課題
2. より効率的な分析方法の検討
3.2 問題の可視化
3
Contents
4. 共起ネットワーク図による分析の効果
3.3 問題要素の傾向分析
3. 共起ネットワーク図を用いた分析事例の紹介
3.1 データ収集~整備
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1.1 従来のソフトウェア不具合分析方法について
4
「欠陥分類法」により、
不具合の発生傾向や改善が必要な箇所を把握
分類情報:「重要度」「現象分類」「原因分類」 「作り込み工程」「摘出すべき工程」 「未発見理由」など
不具合情報に、
分類情報を付与
分類情報を
機能ごとに集計
品質状況の
傾向分析と把握
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1.2 欠陥分類法を実施する上での課題
5
記載された文章情報(テキスト)から 「現象」「原因」等のキーワードを抽出し、 分類・整理をしなければ、分析を行うことができない。
課題1
人手で大量データを分類・整理するには、 結果を得られるまで時間を要する。 課題2
複数人で分類を行うと、属人的な分類判断により 分類結果が異なり、分析精度が悪くなることもある。
課題3
最適な分類種別を定めることが困難。
課題4
分類前のデータ
・分析が早い・具体的事象が把握できない
・具体的事象を把握できる・分析が煩雑・属人的な分類差異が生じやすい
抽象的な分類種別 具体的な分類種別
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1. 従来の分析方法における課題
2. より効率的な分析方法の検討
3.2 問題の可視化
6
Contents
4. 共起ネットワーク図による分析の効果
3.3 問題要素の傾向分析
3. 共起ネットワーク図を用いた分析事例の紹介
3.1 データ収集~整備
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
2.1 より効率的な分析方法の検討
7
テキストマイニングツールとして著名なオープンソースの「KH Coder」を活用
KH Coder開発者:立命館大学産業社会学部 樋口耕一准教授 http://khc.sourceforge.net/
記載された文章情報(テキスト)から 「現象」「原因」等のキーワードを抽出し、 分類・整理をしなければ、分析を行うことができない。
課題1
人手で大量データを分類・整理するには、 結果を得られるまで時間を要する。 課題2
複数人で分類を行うと、属人的な分類判断により 分類結果が異なり、分析精度が悪くなることもある。 課題3
テキスト情報を自動的に分類・可視化する「テキストマイニング」の活用を検討
分類作業の 自動化・ 効率化を 実現する 方法を検討
課題4 最適な分類種別を定めることが困難。
© Hitachi Solutions, Ltd. 2016. All rights reserved. 8
2.2 テキストマイニングによる分析作業の概要
●●が表示されない▲▲がおかしい●●してほしい
■■エラーが発生した◆◆ができない
テキストマイニングツール
【関連語リスト】 ●●:55件▲▲:30件■■:80件◆◆:12件
テキスト中のキーワードを解析・集計 キーワードの出現頻度や関連性を可視化
【共起ネットワーク図】
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
当事例では、 分類されていない情報(非構造化データ)の
見える化(モデル化)のために、 全体俯瞰や、物事の関連性可視化に適した
共起ネットワーク図を用いる。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1. 従来の分析方法における課題
2. より効率的な分析方法の検討
3.2 問題の可視化
9
Contents
4. 共起ネットワーク図による分析の効果
3.3 問題要素の傾向分析
3. 共起ネットワーク図を用いた分析事例の紹介
3.1 データ収集~整備
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
分析プロセスの概要
10
データの 収集~整備
4つのポイント
①入力対象
②辞書整備
③ノイズ除去
④抽象化
データの モデル化(可視化)
•共起ネットワーク図の作成
傾向 分析
• 図を基に、ウィークポイントとなるキーワードや改善を図るための観点を抽出する。
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
3.1章
3.2章
3.3章
障害情報 約1200件
3.2章と3.3章では、 弊社の障害管理システム情報を 用いたデータ分析実施事例を 紹介する。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.1 データの収集~整備
11
データの 収集~整備
4つのポイント
①入力対象
②辞書整備
③ノイズ除去
④抽象化
データの モデル化(可視化)
•共起ネットワーク図の作成
傾向 分析
• 図を基に、ウィークポイントとなるキーワードや改善を図るための観点を抽出する。
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
3.1章
3.2章
3.3章
障害情報 約1200件
3.2章と3.3章では、 弊社の障害管理システム情報を 用いたデータ分析実施事例を 紹介する。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.1-1 データ収集~整備における要点(1)
12
【最適な入力対象を用意する】 – 入力対象とするテキスト情報は、内容が十分に記載されていること。
– 「現象欄」や「原因欄」のように意味のある内容で分離しておくこと。
<Point>
• 記載内容の意味や目的が混在したものを入力対象とした場合、得られる結果も混在したものとなってしまう。
• 「現象欄」を解析した場合 ⇒ テストケースやレビュー観点を得るヒントになる
• 「原因欄」を解析した場合 ⇒ 失敗事例集のネタになる情報を得やすい
良い例 悪い例
現象欄 原因欄
■■の場合に●●をすると、XXが発生。
XXを行った際に ●●が漏れており、修正影響確認が不足
不具合内容
■現象:●●でXXXエラーが発生。■原因:プログラム不良。■対策:修正した。
発生手順や詳細な事象、作り込み経緯や 見逃し理由なども含めて詳細に記載
1つの欄に複数情報が混在。 記載内容も単調で、情報不足。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.1-2 データ収集~整備における要点(2)
13
【辞書を整備する】 – よく使われる単語をツールに登録しておくこと。
• 意味のある語として、内容を捉えやすくなる。
日本 連盟
技術 科学
シンポジウム
シンポジウム
日本科学技術連盟
単語登録なし 単語登録あり
※専門用語や、職場特有の用語などを登録しておくと良い。付録3に、ツール操作方法の簡易説明あり。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.1-3 データ収集~整備における要点(3)
14
【ノイズを除去する】 – 「ノイズ(不要な語)」を除去すること。
• 出現頻度は高いが、問題の要因として意味のない語は分析対象から除外。
• 出現頻度が低い語はある一定の基準で除外し、主要な語のみ残す。
プログラム
不良
●● △△△△
●●
プログラム不良を分析するのだから、 「プログラム」「不良」が多く出るのは当たり前!
ノイズを除去することで、本質的な部分を分析することが可能
ノイズ除去前 ノイズ除去後
データの「クレンジング」により本質を掴むのが、テキストマイニングの要点
情報が多すぎて、根幹が見えない。
情報を剪定して対象を絞ることで、物事の根幹が見える。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.1-4 データ収集~整備における要点(4)
15
【抽象化して文脈を捉える】 – 問題内容を抽象化して捉えるために、テキスト情報の文脈を下記3つに仕分けして整理すること
名詞 (対象)
サ変名詞(動詞の係り受け)
動詞 (結果)
プログラム の 編集 を 誤る
プログラム の 修正 を 誤る
A機能 の リリース を 誤る
対象 顕在契機 (トリガー)
結果
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.2 データのモデル化(可視化)
16
データの 収集~整備
4つのポイント
①入力対象
②辞書整備
③ノイズ除去
④抽象化
データの モデル化(可視化)
•共起ネットワーク図の作成
傾向 分析
• 図を基に、ウィークポイントとなるキーワードや改善を図るための観点を抽出する。
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
3.1章
3.2章
3.3章
障害情報 約1200件
3.2章と3.3章では、 弊社の障害管理システム情報を 用いたデータ分析実施事例を 紹介する。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.2-1 共起ネットワーク図の作成概要
17
データ収集 データ整形 データのモデル化
(可視化)
蓄積された 不具合情報
CSV ファイル
入力時、 分析対象とする
列を選択
「共起ネットワーク」機能で、 [対象とする品詞]や
[語の数]などの 出力パラメタを指定
共起ネットワーク図
辞書整備 および ノイズ除去を行い「前処理」を実行
※詳細は、ツールのリファレンスマニュアルなどを参照
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.2-2 共起ネットワーク図とは?
18
•「共起ネットワーク図」の「共起」とは、任意の文書や文において、ある文字列と他のある文字列が同時に出現する(=共に起こる)こと。
•「共起ネットワーク図」とは、文字列間の共起性をリンクとして表したもの。
共起ネットワーク図の作成概念
名詞 (対象)
サ変名詞(動詞の係り受け)
動詞 (結果)
プログラム の 編集 を 誤る
プログラム の 修正 を 誤る
A機能 の
リリース を 誤る
語と語のつながりを ネットワーク図化
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
【分析目的】 金額不正などの 処理結果不正障害の内容を分析し、重要障害の 再発防止・未然防止を図る。
【対象データ】 障害管理システムに 蓄積された1182件のデータ
・共起ネットワーク図の円の大きさは、語の出現頻度が多いことを示す。
・円と円を結ぶ線の太さは、関連性の強さを示す。
・結びつきの強い部分ごとに、色分け表示している。
問題発生状況を 抽象化した状態で
可視化することが可能
3.2-3 共起ネットワーク図による問題の可視化事例
19
障害管理情報の「原因欄」を入力対象として、 KH Coderで作成した共起ネットワーク図
分析事例
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3 傾向分析
20
データの 収集~整備
4つのポイント
①入力対象
②辞書整備
③ノイズ除去
④抽象化
データの モデル化(可視化)
•共起ネットワーク図の作成
傾向 分析
• 図を基に、ウィークポイントとなるキーワードや改善を図るための観点を抽出する。
不具合情報 (データ)
見える化 (モデル化)
知識として 活用
3.1章
3.2章
3.3章
障害情報 約1200件
3.2章と3.3章では、 弊社の障害管理システム情報を 用いたデータ分析実施事例を 紹介する。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-1 共起ネットワーク図による、問題分析方法の検討
21
そのためには、何らかの「指標」が必要。
•Linton.C.Freemanが提唱する「中心性(Centrality)」という指標が存在する
ネットワーク図を用いた分析指標として、
•ネットワークを構成する各要素が、ネットワーク内でどの程度中心的な位置にあるかを示す指標
「中心性」とは、
作成した共起ネットワーク図から、 どのようにして影響の大きい要因を特定するのか?
次に、具体的な中心性指標の考え方について紹介する ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
社会的影響度が大きいのは誰?
友達8人で最多
友達3人
3.3-2 社会ネットワークでの分析例
22
友達は3人であるが、必ずこの人物を 介して情報が伝わっていることから、 媒介的な役割としての影響が大きい。
•組織の中で、媒介的なつながりが多い人は、社会的影響度が大きい。
•社会的影響度が大きい人に情報を与えれば、情報を効率よく拡散可能。
社会ネットワークでの分析例
友達を、問題発生要因に置き換えたら…
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-3 問題分析への応用
23
要因Aの 共通点
両方に 共通
複数要因間で共通している部分は、 問題発生に関する影響が
大きいと考える。
•複数要因の間をパイプ的に連結させているような箇所は、
全体的に関連性の強い問題発生要因である。
•関連性の強い要因を除去すれば、全体的な問題発生頻度を抑止可能。
問題分析での応用案
共通部分(中心的な位置づけ)の探索には「中心性指標」が有効。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
※注:グラフ理論では「要素」は「ノード・点」、「リンク」は「エッジ・枝」と呼ばれているが、当発表資料では表現をわかりやすいものへ置き換えている。
中心性指標 指標例 問題分析への応用
媒介中心性(betweenness centrality)
各要素を最短経路で結んだ場合に、経路が要素を通過する回数の多さを示す。
※ネットワーク機器の「ブリッジ」みたいなもの。他と他をつなぐパイプ的な役割。
全体影響が
大きい問題要素と捉える。
次数中心性(degree centrality)
他の要素へのリンクの多さを示す。
※ネットワーク機器の「ハブ」みたいなもの。特定エリアでの中継ポイント。
共通性の
ある問題要素と捉える。
固有ベクトル中心性(eigenvector centrality) 他と関連の多い要素が、多く連結しているかを示す。 ※ネットワーク機器の「ルータ」みたいなもの。その先に、多くの機器が接続されている。
問題要素を芋づる式に把握する際の
起点になると捉
える。
3.3-4 代表的な中心性指標について
24
通過数の多い経路
リンク数最多
他と関連の多い要素の 連結部分
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-5 中心性指標を用いた問題要素の探索手順
25
共起ネットワーク図から中心性の強い問題要素を探索するには
※注:上記はあくまでも一例。分析対象により、扱う中心性の順番や繰り返し回数は異なる。実際には、さまざまな中心性を切り替えながら、最適なものを見付けるのが良い。
「固有ベクトル中心性」を用いて、問題要素を
芋づる式に把握する際の起点を探す
捉えた起点を基に、他の中心性から共通的な問題要素や、
影響の大きい 問題要素を探す
捉えた共通的な キーワードに着目して、
詳細な事実関係を確認する
他の中心性があれば、
同様の手順で繰り返し
探索を行う
右上のイラストは、「イラストポップ」様の無料画像を利用させて頂いております。( http://illpop.com/season_a1002.htm)
clipart by illpop.com
改善すべき ウィークポイント(キーワード・品質向上観点)を抽出
①起点
②掘り下げ③事実確認
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-6 中心性指標を用いた、問題要素の分析事例(1)
26 次に、「修正」を行った時の関係性を掘り下げる
何らかの「修正」を起点として、不具合が発生していると捉える
「修正」が最も強く示された
KH Coderの共起ネットワーク図に 「固有ベクトル中心性」を指定。
分析事例
①起点「固有ベクトル中心性」を用いて、 問題要素を芋づる式に把握する際の起点を探す
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-7 中心性指標を用いた、問題要素の分析事例(2)
27
「修正」の関連語を基に共起ネットワーク図を作成し、
「次数中心性(共通的な問題要素)」を指定した結果
●「ソース」「デグレード」で次数中心性が強く表示されている。⇒その周辺の関連語から、ソースのマージや対策に起因して、
障害が発生している可能性が推察される。⇒ソース管理に起因して、デグレード(機能退行)が発生している可能性が推察される。
分析事例
②掘り下げ捉えた起点を基に、他の中心性から共通的な 問題要素や、影響の大きい問題要素を探す
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-8 中心性指標を用いた、問題要素の分析事例(3)
28
•「ソース」の管理方法に起因して、障害が発生している傾向が見受けられた。
•ソースのマージ漏れ、マージ対象の誤りが見受けられた。
詳細を確認し、捉えた特徴と傾向
※KH Coderの「KWICコンコーダンス」機能を利用
分析事例 捉えた共通的なキーワードに着目して、 詳細な事実関係を確認する ③事実確認
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-9 分析結果と見解
29
•上記見解を基に問題の要因を掘り下げて根本原因究明すれば、有効な再発防止/未然防止策を図ることが可能。
•プロジェクトメンバーが入れ替わった際、ソース管理ルールや躾(作業上の基本動作)が引き継がれていないケースがあった。
ソース管理や、ソースのマージ作業で障害が発生していた。
•ドキュメント体系が複雑 もしくは記載不十分な可能性はないか。
•デグレード防止確認(機能退行テスト)の実施方法に問題があるのではないか。
機能修正/変更時の、影響範囲調査が不足して
いた。
※同様の手順で他の中心性から把握した分析結果
共起ネットワーク図を用いた分析結果と見解 分析事例
© Hitachi Solutions, Ltd. 2016. All rights reserved.
3.3-10 分析結果の検証
30
ソース管理や、ソースのマージ作業で障害が発生していた。
機能修正/変更時の、影響範囲調査が不足して
いた。
共起ネットワーク図による 分析結果
共起ネットワーク図による分析は、 実用に耐え得る
変更時の影響範囲 確認不足:45%
ソース管理ミス:45%
仕様誤理解:5%
ドキュメント修正漏れ:5%
目視による分類整理結果 ※約10%サンプリング(120件)
90%の分析結果が一致
分析事例
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
1. 従来の分析方法における課題
2. より効率的な分析方法の検討
3.2 問題の可視化
31
Contents
4. 共起ネットワーク図による分析の効果
3.3 問題要素の傾向分析
3. 共起ネットワーク図を用いた分析事例の紹介
3.1 データ収集~整備
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
4.1 導入により、期待できる効果(メリット)
32
•不定形な問題情報(テキスト情報)を 共起ネットワーク図で可視化することにより、現状の問題発生傾向を素早く把握することが可能。
(1)問題発生傾向の概要を素早く把握
•中心性指標により、共起ネットワーク図から改善が必要な箇所(キーワード および 品質向上の観点)を素早く把握することが可能。
(2)改善が必要な箇所を素早く把握
•人手による分類や集計作業は不要、大量データ分析で特に効果を発揮。件数が増大しても、ツールの処理時間はさほど変わらない。◆分析事例:1,200件の分析所要時間比較
(3)大量データを分析可能
分類整理(人手)…約45時間
ネットワーク図 …約15時間※分類整理(人手)の所要時間は、
サンプリング(10%)で4.5時間を基に算出。※ネットワーク図の分析所要時間の大半は、
初回の辞書整備と出力パラメータ調整。
© Hitachi Solutions, Ltd. 2016. All rights reserved.
4.2 導入により、期待できない効果(デメリット)
33
•分析結果は相関関係であり、定量的な良し悪しは判断できない。定量分析結果と併せた評価が必要。
(1)定量的な判断ができない
•目安で、データが100件以上の場合に有効。
(2)対象データが少ないと効果を得られない
•抽象化された特徴しか把握できない。⇒特徴のない部分が情報落ちするので、不慣れだと情報を見逃してしまう可能性がある。
•抽象化された情報となるため、具体的に物事を捉えるには、現場経験や、問題背景の理解が必要となる。
(3)分析結果は分析者のスキルに依存
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
4.3 まとめ
34
共起ネットワーク図による分析を活用すれば、
・分類結果に依存せず、問題の発生傾向や共通的な要因を分析し、問題の発生しやすい部分(ウィークポイント)を掴むことができる。
・問題の改善を図る際、効率的に対策効果を上げることができる。
多くの現場の悩みを、 ソリュっと解決
できれば幸いです。
© Hitachi Solutions, Ltd. 2016. All rights reserved.
株式会社日立ソリューションズ 品質保証統括本部 QAセンタ 技術支援グループ
大量の欠陥情報から、 共通的な要因を探る分析手法の紹介
2016/9/16
角口 勝隆
END
E-mail: yoshitaka.kadoguchi.uj@hitachi-solutions.com
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録1:参考文献など
36
[1] 奈良隆正,安田勝通、ソフトウェア品質保証入門、日科技連出版社、2008
[2] 那須川哲也、テキストマイニングを使う技術/作る技術、東京電機大学出版局、2006
[3] 大野弘祐,鈴木康雄、テキストマイニングを活用した SWプロジェクトの品質管理事例、
ソフトウェア品質シンポジウム2011、B4-3セッション、2011
http://www.juse.jp/sqip/symposium/2011/day2/files/B4-3P.pdf
[4] 樋口耕一、社会調査のための計量テキスト分析、ナカニシヤ出版、2014
[5] Linton.C.Freeman、A Set of Measures of Centrality Based on Betweenness、
American Sociological Association、1977
[6] 神戸雅一,山本修一郎、企業内SNSへの社会ネットワーク分析手法の適用、
人工知能学会、第三回知識流通ネットワーク研究会、2008
http://www4.atpages.jp/sigksn/conf03/SIG-KSN-003-05.pdf
[7] 厚生労働省、ヒヤリ・ハット事例情報データベース、2001
http://www.mhlw.go.jp/topics/bukyoku/isei/i-anzen/jiko/
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録2:効果を上げるために必要な要素
37
• テキストマイニングによる問題情報の可視化は、現状の問題発生傾向や、改善が必要そうな箇所を素早く把握する用途には有効。
• ただし、上記3つの要素がすべて揃っていなければ、効果を上げることができない。
データ
分析
スキルツール
・入力するテキスト情報に、分析に必要な情報が記載されていること・「現象」や「原因」のように意味のある内容でまとまっていること・分析対象データが、ある程度存在すること(目安:100件以上)
共起ネットワーク図などを 生成できるツールが必要 (KH Coderなど)
・テキストマイニングに関する知識が必要・ネットワーク中心性の理解が必要・得られる結果は、あくまで現状分析であり、改善施策の立案と推進については別途知識や経験が必要となる
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録3:テキストマイニングツールの簡易レクチャ(KH Coder編①)
38
●KH Coderの導入・スタンドアロンで動作可能。(サーバは不要、クライアントPCがあればOK)・以下のURLからインストーラを入手/実行すると、必要な前提ソフトやデータベース(My SQL)の環境を自動で構築する。
http://khc.sourceforge.net/dl.html
●辞書の整備と、ノイズ除去について①強制的に認識させたい単語は、メニューの「前処理」-「分析に使用する語の取
捨選択」で、「強制抽出する語の指定」欄に、認識させたい単語を登録する。なお、ファイルからテキスト情報を読み込むことも可能。
②認識させたくない単語を排除するには、「前処理」-「分析に使用する語の取捨選択」で、「使用しない語の指定」を利用する。
③上記を実施した後、メニューから「前処理」を実施する。
※ 「使用しない語の指定」 を確実に機能させるには、「強制抽出する語の指定」欄にも同じ単語を登録すると良い。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録4:テキストマイニングツールの簡易レクチャ(KH Coder編②)
39
●抽象化して文脈を捉える・共起ネットワーク図を作成する際に、対象とする品詞は「名詞」「サ変名詞」
「動詞」「タグ」を主に指定する。なお、「タグ」には「強制抽出する語の指定」欄で登録した単語が振り分けられる。
対象とする 品詞を指定
対象とする語の、 出現数の範囲を指定
KH Coderでの「共起ネットワーク」作成前のオプション画面
利用される語の数と描画数は、80~120程度がちょうど良い。
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録5:テキストマイニングツールの簡易レクチャ(KH Coder編③)
40
●捉えたキーワードを基に、内容を掘り下げる・特定のキーワードを基に共起ネットワーク図を作成する場合は、
「抽出語」-「関連語検索」機能を利用すると良い。
KH Coderでの「関連語検索」画面
「フィルタ」で、 対象とする品詞を
指定する。
基(分析の起点)となるキーワードを指定する。
「共起ネット」で、 抽出した関連語を基にネットワーク図を作成する。その後、描画数等を調整する。
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録6:テキストマイニングツールの活用例(1)
41
テキストマイニングツールでの分析例(アウトプット例)
カテゴライズ分析 クラスター分析 ネットワーク分析抽出語リスト 対応分析 多次元尺度構成法 共起ネットワーク
語の出現頻度を、品詞別に一覧表示したもの
似たような語を、関連する項目と組み合わせて配置した図
似たような語同士をバブルプロットした図
語と語の繋がりをネットワーク図化したもの
品詞ごとの特徴や傾向を確認することが可能
項目ごとに、語の出現 傾向を確認することが可能
類似する語の座標位置から相関関係を確認することが可能
感覚的に、どのような現象が頻出しているのかを確認することが可能
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録7:テキストマイニングツールの活用例(2)
42
●欠陥分類法と組み合わせた活用例データを分類集計した結果、100件超の件数となった。 この内容を素早く把握するために、対象データを絞った上で、 [原因(記載内容)]をツールで解析する。
分類種別や機能ごとの特徴を捉えて比較することで、 改善のヒントを得ることも可能。
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録8:今後への活用や応用(1)
43
分類種別に依存せず、
問題の発生傾向を素早く把握できる
改善が必要な箇所を素早く把握できる
[IT開発現場での活用例]
正確に情報が分類されていないようなトラブルプロジェクトでも即座に問題箇所を分析し、的確な施策を提案できる
ソフトウェア開発以外の分野(SE作業)でも、分析が可能
新たな指標や分類種別を検討する際の材料となる
etc…
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録9:今後への活用や応用(2)
44
●ソフトウェア開発プロジェクトに限らず、あらゆる現場での問題分析に応用可能。
一例として、医療事故情報「ヒヤリ・ハット事例データベース」でのネットワーク分析結果と、公開されている統計レポートの問題傾向は一致していた。
過失など、
人的災害の予防
医療現場 工場や工事の現場
厚生労働省、ヒヤリ・ハット事例情報データベース
http://www.mhlw.go.jp/topics/bukyoku/isei/i-anzen/jiko/
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録10:マスコットキャラクター「ソリュートくん」の紹介
45
http://www.hitachi-solutions.co.jp/column/kaiketsu/
気になる続きは、 こちらにて!
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
付録11:シンボルスポーツ 「チームAURORA」の紹介
46
チームの発足は2004年11月。イタリア語で「夜明け」を意味する「AURORA(アウローラ)」と名付けられました。
この名前には、チームAURORAと障がい者のスポーツ全体が発展していってほしいという願いが込められています。
マスコットキャラクターは、キタキツネの「アウローラ」。
日立ソリューションズのシンボルスポーツとして、 「車いす陸上競技部」「スキー部」の2
つの部からなる、障がい者スポーツチーム「AURORA」を全社一体で応援し、障がいを
もつ才能ある選手たちに競技に専念できる環境を提供しています。
選手や監督はパラリンピックなど世界で活躍し、2006年トリノ大会と2010年バンクー
バー大会で、2大会連続金メダルを獲得し、2014年ソチ大会合わせて金メダル3 個、銀
メダル2 個、銅メダル2 個の快挙を成し遂げています。
今後もワールドカップや国際大会への参加、そしてパラリンピックという世界の大舞台で
の活躍を目指します。
©STAND/ 竹見脩吾 ©STAND/阿部謙一郎
ソフトウェア品質シンポジウム2016
© Hitachi Solutions, Ltd. 2016. All rights reserved.
謝辞
47
• 本発表にあたりお世話になった方々、有用な知識やツールを公開いただいている方々ならびに、弊社関係者へこの場をお借りして深謝申し上げます。
• 共起ネットワークによる分析がさまざまな現場で活用され、より研究が広まることを祈念します。
ソフトウェア品質シンポジウム2016