14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析

27
情報工学分野と他の研究分野間の関連度分析 チーム名:HANTY 大木基至・組橋祐亮

Upload: ntt-communications

Post on 24-Jul-2015

892 views

Category:

Engineering


2 download

TRANSCRIPT

情報工学分野と他の研究分野間の関連度分析

チーム名:HANTY

大木基至・組橋祐亮

00. アドベンチャー杯にかける意気込み

大木基至の意気込み

大規模な科学技術文献データの分析を通じたデータ分

析スキルの向上をめざす。

組橋祐亮の意気込み

大学生活で培ったデータ分析スキルで、科学技術文献

データという経験のないデータにチャレンジしたい。

2人の意気込み

共に、大学時代にデータマイニングの研究に従事。

培ったスキルのさらなる向上と挑戦したい気持ちで本コ

ンテストに臨みます!

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 1/15

01. 背景と目的

• 研究分野連携・融合の重要性が高まる。

– 様々な分野が連携し、新分野の形成を目指す動き[1]

– それぞれの分野の強みを持ち寄り新製品・サービスを創出するする動き[2]

– いくつかの分野を跨いだ総合的な教育方法の効果検討[3]

一分野の研究だけでなく、各分野が連携して研究することが重要である。

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

• 情報工学分野の進展

– クラウド・ビッグデータ解析といった技術を活用したアプリケーションが普及し始めており、情報工学分野への期待が高まっている。

– 特に情報工学分野は、多くの他の分野と連携したサービスを実用化している。

・遠隔医療の発展[4]

・教育現場でのタブレット端末の普及[5]

情報工学分野の重要性が高まり、さらに分野連携が進んでいる。

目的:情報工学分野と他の研究分野との関連度を定量的に測る。

2/15

02. データ定義

• 本研究では、タイプB:ローデータの「科学技術文献データ(書誌情報)」の”b_ti1”の和文標題、”m_pd1”の発行年、”s_cc1gs”の分類コードを使用した。

• 総論文数(2003年~2011年) – 3,408,451(JMED)+ 6,537,160(JST)= 9,945,611

– 8,737,540(重複除く)

– 410,116(情報工学(j)のみ、重複除く)

• 和文標題に含まれる単語数(2003年~2011年) – 総単語数(名詞のみ):131,011,872

– ユニークな単語数(名詞):859,373

• 分類コード24種類 – 科学技術一般領域(a),

– システム・制御工学(i)

– 情報工学(j)

– 経営工学(k)

– 電気工学(n)

… など

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

SAS使用画面

10回以上出現した

単語は約15%程度

存在するが、

大半が一桁の出現回

数に留まっている。 全論文中、

単語出現回数別の割合

1回のみ

約40%

2回のみ

約23%

3回のみ

約8%

10回以上

約15%

3/15

03. 分析のプロセス

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

①情報工学分野と他の研究分野との関連度分析 今後、他の研究分野と連携・融合して研究を進めていくために、「情報工学分野が他の研究分野に

どの程度参入しやすい」のか、また、「情報工学分野がすでに他の研究分野をどの程度包含してい

るのか」を定量的に評価する必要がある。そこで、二つの関連度を定義する。これらの関連度に基

づき、以下の二つの可視化方法で関連性を明らかにする。

「箱髭図によるプロット」 「多次元尺度構成法に基づく可視化」

②論文の和文標題に対するテキストマイニング

情報工学分野における

頻出単語の年次推移 ストップワードの削除

対応分析による

頻出単語の可視化

情報工学分野の和文標題に着目し、出現頻度の高い単語に対し、その年次推移を表す。次に、情報

工学分野との関連度(①より算出)が高くなっている要因を調査するため、対応分析を行う。

4/15

04. 研究分野間の関連度分析

5/15

・以下の式で定義される関連度により、研究分野間の関連性を明らかにする。

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

研究分野Xが研究分野Yに

どの程度参入しやすいかを表す。

研究分野Xが研究分野Yを

どの程度包含しているかを表す。

研究分野(X)の論文

研究分野Xの論文数|X|

研究分野(Y)の論文

研究分野Yの論文数|Y|

研究分野Xと研究分野Y

の両方に含まれる

論文数|X∩Y|

Conf値は自身の研究分野のうち、相手の研究分野と共通している割合が高いほど高くなる。Cover値は相手の研究分野のうち、自分の研究分野と共通している割合が高いほど高くなる。

また、Conf値とCover値は互いに関連しており、Conf(X→Y)とCover(Y→X)は同値となる。

04. 研究分野間の関連度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

情報工学分野の年度別関連度の分析:箱髭図によるプロット

・約870万件の論文に対し、定義した関連度を用いて情報工学分野と他の研究

分野との関連度を算出し、その結果を箱髭図を用いてプロットした。

▶ 電気工学(n)、システム・制御工学(i)、医学(g)、物理学(b)、科学技術一般領域(a)の分野とのConf値が高い

▶ システム・制御工学(i)、科学技術一般領域(a)、経営工学(k)、その他の工業(z)、電気工学(n)の分野とのCover値が高い

微小な右肩上がり

微小な右肩上がり

6/15

04. 研究分野間の関連度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

情報工学分野の年度別関連度の分析:多次元尺度構成法による可視化

• 各研究分野間の関連性を可視化するために、各研究分野間の関連度の値を類似度とみなし、多次元尺度構成法[6]を適用し、2次元散布図としてプロットした。

• K-Means (繰り返し回数10回)により3つのクラスに分類した。

2004年のConf値 に基づく分析結果

2011年のConf値 に基づく分析結果

情報工学(j)、システム・制御工学(i)、電気工学(n)、科学技術一般領域(a)、経営工学(k)が2003年~2011年にかけて同じクラスに属した。2011年では、情報工学分野からこれらの研究分野への新規参入が容易であると考えられる。

7/15

04. 研究分野間の関連度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

情報工学(j)と同じクラスの分野のうち、システム・制御工学(i)と経営工学(k)と科学技術一般領域(a)が2003年~2011年にかけて近くに位置付けられた。全体的に、情報工学(j)が離れた位置にあるため、他の研究分野から見て、情報工学(j)へ参入する研究分野が少ないことが考えられる。

2004年のCover値 に基づく分析結果

2011年のCover値 に基づく分析結果

情報工学分野の年度別関連度の分析:多次元尺度構成法による可視化

箱髭図と多次元尺度構成法の考察 ・ 情報工学(j)については、年度が経つにつれて微小な右肩上がりの関連度の向上がみられたが、大 きな変化ではなかったため、研究の分野間連携が進んでいるという結論を導くには不十分である。 ・科学技術一般領域(a)、システム・制御工学(i)、経営工学(k)、電気工学(n)の研究分野と情報工学 との関連度が高いため、これらの研究分野に着目してテキストマイニングを行う。

8/15

05. 和文標題に対するテキストマイニング

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

• 情報工学分野の論文の和文標題について、以下の流れでテキストマイニングを行う。

ストップワードの削除 ストップワードとは、和文標題に一般的に使われる単語・特徴のない単語を指す。これらはテ

キストマイニングをするにあたって不要なため、削除を行う。

情報工学分野における和文標題の頻出単語の年次推移

和文標題の単語の年度ごとの頻度を算出する。次に、情報工学分野の頻出単語を比較し、その

特徴を把握する。

対応分析による頻出単語の可視化

関連度分析により、情報工学(j)と科学技術一般領域(a)、システム・制御工学(i)、経営工学(k)

、電気工学(n)の関連度が高かった要因を探るため、各研究分野の頻出単語トップ20を用いて、

対応分析により単語間の関連性を可視化する。

9/15

05. 和文標題に対するテキストマイニング

ストップワードの削除 • 全論文の和文標題において、解析に不要な単語を削除する。

• 全単語中、出現頻度10回以上の単語を散布図(x軸:平均値μ、y軸:標準偏差σ)としてプロットし、平均値μが0.05以上の単語20個をストップワードとみなし削除した。以下に、平均値(mean)と標準偏差(sd) を定義した。

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

"性"、"技術"、"システム"、"2"、"法"、"的"、"研究"、"開発"、"3"、"化"、"評価"、"—"、"ため"、"1"、"影響",、"0"、

“sub”、“<“

“>”、 “<“

削除した20個の

ストップワード

:単語 i が分類

コードCjの論文

に出現する回数

(和文標題の例)

固体電解質CO<sub>2</sub>

ガスセンサ

(和文標題の例)高密度を実現する

新メモリの集積技術

10/15

05. 和文標題に対するテキストマイニング

• 年度ごとに順位が変化した単語を抜き出し、時系列グラフで可視化した。

• 「シミュレーション」・「最適」・「推定」などの出現頻度が伸びている要因は、近年、コンピュータの性能が向上し、研究者が計算シミュレーションなどを容易に行えるようになったためと考えられる。

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

1

6

11

16

21

26

31

36

41

46

2003 2004 2005 2006 2007 2008 2009 2010 2011

検出

認識

推定

最適

シミュレーション

分析

設計

環境

方式

電子

応用

情報工学分野における和文標題の頻出単語の年次推移

青線が上昇傾向の単語 赤線が下降傾向の単語

11/15

05. 和文標題に対するテキストマイニング

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

対応分析による頻出単語の可視化 • 情報工学(j)と関連度の高いと考えられた科学技術一般領域(a)、システム ・制御

工学(i)、経営工学(k)、電気工学(n)の和文標題に現れる単語トップ20を用いて、分割表を作成し、対応分析を行った。この分析により、情報工学に特徴的に使われる単語の明確化と他分野との相対的な位置関係を可視化する。

• 対応分析とは、分割表の結果をもとに、各対象(サンプル)を散布図として可視化する分析手法である[6]。

• 年度別の変化を見るために、2004年と2011年の散布図を示す。

管理

最適

経営工学

分析

戦略 問題

情報

情報工学

対応分析(2004年) 第一寄与率:31.06 第二寄与率:25.46

システム・制御工学

科学技術一般領域

電気工学 応用

設計

モデル

利用

検討

データ

支援

(例)情報工学とシステム・制御工学の論文

設計開発支援のためのコミュニケーション情報活用モデル

12/15

05. 和文標題のテキストマイニング

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

対応分析(2011年) 第一寄与率:34.06 第二寄与率:27.53

経営工学

情報工学

システム・制御工学

科学技術一般領域

電気工学

分析

最適

情報

モデル

支援

利用 データ

型 設計

検討

特性

構造 器

(例)情報工学とシステム・制御工学の論文

情報セキュリティに関連する振舞い考察のモデル化

対応分析の考察

・基本的な構造に年次による変化は見られないが、2004年と比べ、情報工学と科学技術一般領

域との関連性が深くなっていることが分かる。これは情報工学が一般的な学問になってきた

ものと考えられる。

・「分析」の位置が大きく移動しており、情報工学でも使用されるようになったと考えられる。

・情報工学(j)とシステム・制御工学(i)が高い関連度をもつ要因としては、「情報」「支援」

「データ」のような和文標題に共通する単語であると考えられる。

13/15

06. まとめ

研究成果 • 研究分野間の関連性を定量的に測るため、研究分野間の2つの関連度を定義した。

これらに基づき、情報工学分野と他の研究分野間の関連性を箱髭図と多次元尺度構成法により可視化し、情報工学分野と関連度の高い研究分野は科学技術一般領域、システム・制御工学、経営工学、電気工学であることが分かった。

• これらの研究分野について、和文標題に使われる単語の関連性を対応分析により可視化し、共通して頻出する単語を明確化した。

今後の課題 • 本研究の手法を他の研究分野に適用し、考察する。

• 各研究分野間の関連度が高くなり、研究分野間の連携・融合がより活発になる方法を考案する。

• 日本の科学技術の特徴や科学技術の環境変化などを報告している科学技術白書と和文標題との比較により、世の中と研究世界の差を明らかにする。

• 頻度が年度により変化している単語が多く見られ、これらの解析を深めることにより、これから流行する分野やそのキーワードとなる単語の予測を行う。

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 14/15

07. 参考文献

1. 自然科学研究機構(NINS) - 共同利用・共同研究等 - 研究連携http://www.nins.jp/research/cooperation.php

2. 総務省|東海総合通信局|異分野連携新事業分野開拓(新連携)制度

http://www.soumu.go.jp/soutsu/tokai/siensaku/ibunya_renkei/index2.html

3. 岡田将人・村中貴幸・北川浩和ら:機械・電気・情報分野を融合したPBL教育の実践とその効果

4. 遠隔医療が本格始動 岩手医大、被災地の健康後押し

http://www.iwate-np.co.jp/cgi-bin/topnews.cgi?20140131_2

5. 教育事例 - Apple

http://www.apple.com/jp/education/real-stories/

6. Stéphane Tufféry:Data Mining and Statistics for Decision Making

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 15/15

本研究を審査して頂きます関係各部の方々に深く御礼申し上げます。ご清聴ありがとうございました。

チーム名:HANTY

大木基至・組橋祐亮

参考:論文題目の頻出語分析

各年毎の単語(uni-gram)出現頻度トップ10

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

順位

1 画像 3973 情報 3370 画像 4003 画像 4004 画像 4165

2 情報 3538 画像 3242 情報 3764 情報 3725 情報 3830

3 モデル 2265 型 2076 モデル 2240 型 2334 型 2435

4 型 2192 モデル 2034 型 2215 解析 2230 モデル 2317

5 利用 2001 解析 1975 利用 2007 モデル 2228 解析 2266

6 解析 1977 利用 1939 ネットワーク 1942 利用 2071 利用 2074

7 ネットワーク 1901 ネットワーク 1850 解析 1917 手法 1911 ネットワーク 2022

8 設計 1642 手法 1604 手法 1776 検討 1842 手法 1989

9 アルゴリズム 1592 データ 1556 データ 1613 ネットワーク 1772 検討 1930

10 データ 1568 支援 1543 支援 1603 データ 1672 データ 1701

順位

1 画像 4259 画像 4369 画像 4460 画像 3998

2 情報 3440 情報 3375 情報 3352 情報 2727

3 モデル 2507 型 2588 型 2742 型 2368

4 型 2471 モデル 2587 モデル 2552 解析 2179

5 解析 2319 解析 2468 解析 2469 モデル 2148

6 手法 2155 手法 2227 検討 2220 検討 2121

7 利用 1948 検討 2031 手法 2204 手法 1871

8 検討 1918 利用 2027 利用 2107 ネットワーク 1855

9 ネットワーク 1903 ネットワーク 1905 ネットワーク 1989 利用 1773

10 支援 1782 データ 1802 データ 1803 データ 1698

2007

2008 2009 2010 2011

2003 2004 2005 2006 結果

・年ごとに大きく順

位が入れ替わるこ

とはなかった

・画像が2004年を

除いて1位

17/15

参考:論文題目の頻出語分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮

順位

1 三-次元 372 電子-カルテ 465 電子-カルテ 534 電子-カルテ 485 電子-カルテ 429

2 電子-カルテ 314 三-次元 338 三-次元 361 三-次元 403 画像-処理 405

3 音声-認識 306 音声-認識 315 画像-処理 356 画像-処理 358 三-次元 364

4 画像-処理 303 画像-処理 299 計算-機 297 計算-機 330 計算-機 312

5 計算-機 297 計算-機 276 蛋白-質 282 ロバ - スト 274 ロバ - スト 260

6 ー - 考察 273 蛋白-質 261 音声-認識 274 6-4 271 ー - 考察 240

7 ロバ - スト 271 ー - 検討 220 ロバ - スト 270 音声-認識 252 音声-認識 226

8 無線 -LAN 247 無線 -LAN 206 ー - 検討 207 蛋白-質 251 手法 -提案 205

9 ー - 検討 241 ロバ - スト 196 6-4 203 ー - 考察 240 相互 - 作用 202

10 蛋白-質 192 相互-作用 193 ー - 考察 196 相互 - 作用 210 ー - 検討 201

順位

1 三-次元 391 画像-処理 416 画像-処理 390 画像-処理 325

2 画像-処理 388 三-次元 376 動力-学 387 クラ-ウド 308

3 電子-カルテ 354 計算-機 318 三-次元 344 ロバ - スト 306

4 計算-機 353 電子-カルテ 316 ロバ - スト 308 三-次元 305

5 ロバ - スト 283 動力-学 283 音声-認識 304 動力-学 284

6 動力-学 278 ロバ - スト 268 相互 - 作用 302 計算-機 272

7 6-4 277 ー - 検討 250 計算-機 276 手法 -提案 227

8 音声-認識 268 音声-認識 250 クラ-ウド 275 フレーム-ワーク 226

9 ー - 考察 249 蛋白-質 245 電子-カルテ 264 音声-認識 225

10 手法 -提案 230 手法 -提案 240 手法 -提案 256 相互 - 作用 216

2003 2004 2005 2006 2007

2008 2009 2010 2011

各年毎のバイグラムの出現頻度トップ10

結果

・年ごとに大きく順

位が入れ替わるこ

とはなかった

・「6-4」は64bitマシンなど、マシンスペックの向上を表している

18/15

参考:j & a の単語頻度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 19/15

参考:j & i の単語頻度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 20/15

参考:j & k の単語頻度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 21/15

参考: j & n の単語頻度分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 22/15

参考:j & a のバイグラム分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 23/15

参考:j & i のバイグラム分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 24/15

参考:j & k のバイグラム分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 25/15

参考:j & n のバイグラム分析

2014.01.31 データサイエンス・アドベンチャー杯 Powered by SAS 大木基至・組橋祐亮 26/15