scirex...

115
「『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ」: 2[巨人の上の肩に立つ -論文データベースの使い方 101-] 2015/4/18 16:00-18:00 政策研究大学院大学 科学技術イノベーション政策研究センター 原泰史 2015/4/18 1

Upload: yasushi-hara

Post on 18-Jul-2015

587 views

Category:

Education


5 download

TRANSCRIPT

「『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ」:

第2回[巨人の上の肩に立つ-論文データベースの使い方 101-]

2015/4/18 16:00-18:00

政策研究大学院大学科学技術イノベーション政策研究センター

原泰史

2015/4/18 1

タイトルが変わった理由

1. 2015/4 月より IIR から GRIPS SciREXセンターに異動したから

2. SciREX事業教育拠点間連携プロジェクトの一環になったから、ちゃんとした名前つけなさいと言われたので• 来月は一橋大学イノベーション研究センターで開催します

2015/4/18 2

WP シリーズの目的

• 目的• 特許や論文のデータを使うことで解析できる範囲を知るために、まず分析手法を学ぶ

• 手法• パソコンを用いたハンズオンセミナー方式 (手を動かして覚える!)

• 時間:• 土曜日の夕方に90分-120分程度• 一ヶ月に一回程度 (第一期; 5-6回) を予定

• 場所: • 国立 (一橋大学イノベーション研究センター) または• 六本木 (政策研究大学院大学科学技術イノベーション政策研究センター)

• 参加希望の方は, [email protected]または@harayasushi (twitter) までご連絡ください.

2015/4/18 3

WPシリーズのスケジュール

• [2015/1月] 第0回: 「数字が教えてくれないこと」@一橋イノベーション研究センター

• [2015/3/28] 第1回: 「数字が教えてくれること」@一橋イノベーション研究センター• 特許や論文データはなぜイノベーション指標として活用されているのだろう

• [2015/4/18]第2回: 「巨人の上に立つ」@GRIPS SciREXセンター• 論文データベース (Web of Knowledge, Scopus, Scival etc…) を用いた分析

• [2015/5/16] 第3回: 「select() すると幸せになれる理由」@一橋イノベーション研究センター• IIP データベース/patRデータベースを用いた日本特許分析

• [2015/6/27] 第4回: 「科学とイノベーションの関係」• 組織学会@一橋大学のため第四週におこないます• サイエンスリンケージデータベースを用いた特許/論文の連結分析

• [2015/7/18]第5回: 「行間を読むっていろいろと大切」• 書誌テキスト分析 (KHcoder) を使って分析できること

• [2015/8/8] 第6回 : 「まとめ」• 科学とイノベーションのあれこれは書誌情報からどこまでわかるのだろう

2015/4/18 4

今日のメニュー

1. 前回のおさらい

2. 論文データベースとは?

3. Web of Knowledge の使い方

4. Scopus の使い方

5. データを処理してみよう (Vantage Point 編)

2015/4/18 5

1. 前回のおさらい

2015/4/18 6

データベースを使った分析に必要な知識

• Excel で vlookup くらい使ったことがある

• (現在の)コンピュータは、「命令をしないと動かない」ことを知っている

• コンピュータに対して命令を書くときは(多くの場合) 2byte 文字ではなくて 1byte 文字で入力する必要があることを知っている• Select ではなく, select と打つ必要があることを知っている

• マニュアルの通りコンピュータは動かないことを知っている

• 「コレは簡単ですよー」と, 技術者やITオタクがいう「簡単」と, 自らが認識するところの「簡単」には相違があることを知っている

• あきらめないこころがある

2015/4/18 7

Web インターフェースではなく SQL データベースを使うことのメリット

• Web 版にくらべてレスポンスがはやい• (すべてはやいとはいっていない)

•自分のニーズに則したデータを取得できる

•他のデータベースとの接続が行い易くなる• 特許データベースと論文データベースの接続

• 特許/論文データベースと財務データベースの接続 etc…

2015/4/18 8

PATSTAT

• EPO の特許データベース

• Web インターフェースも存在

• Raw Data 版は有償

• Web 版 PATSTAT は2ヶ月間無料

2015/4/18 9

4’. 韓国に属する組織または個人が2014年に出願した特許のうち, 他国の組織または企業とどのくらいコラボレーションをしているのか調べてみる

• クエリ• SELECT COUNT(*) AS numberOfCommonApplications,

p1.doc_std_name as name1, p1.person_ctry_code as cc1,p2.doc_std_name as name2, p2.person_ctry_code as cc2FROM tls206_person p1JOIN tls207_pers_appln pa1 ON p1.person_id = pa1.person_idJOIN tls207_pers_appln pa2 ON pa1.appln_id = pa2.appln_idJOIN tls206_person p2 ON pa2.person_id = p2.person_idjoin tls201_appln p3 on pa1.appln_id = p3.appln_idWHERE p1.person_ctry_code = ‘KR'AND p3.appln_filing_date >= '2014-01-01'

AND p3.appln_filing_date <= '2014-12-31‘AND pa1.appln_id > 0AND pa2.appln_id > 0AND p1.person_ctry_code <> p2.person_ctry_codeGROUP by p1.doc_std_name, p1.person_ctry_code, p2.doc_std_name, p2.person_ctry_codeORDER BY numberOfCommonApplications DESC, p1.doc_std_name ASC,p2.doc_std_name ASC

2015/4/18 10

4’-1 出力結果

2015/4/18 11・Download を押して, CSV 形式でダウンロード, Excel で読み込み処理する

4’-2. コラボレーション先国ランキング

2015/4/18 12

行ラベル numberOfCommonApplicationsUS 336

128JP 101CN 89DE 54IN 45PK 40RU 33FR 22GB 19VN 15NL 15CA 13CH 12SG 8PH 7IT 7GR 5SE 3TW 3TR 3

4’-3. コラボレーション元企業ランキング

2015/4/18 13

行ラベルデータの個数 / numberOfCommonApplications

SAMSUNG ELECTRONICS CO LTD 100IBM 56LG ELECTRONICS INC 17CHO YOUNG SHIN 17KIM JIN-WOONG 13JU YOUNG LEE 11SK CHEMICALS CO LTD 11SAMSUNG SDI CO LTD 9LEE JEEWOO 8LEE KEON JAE 8HEO YOUN HYOUNG 8LEE DONG HYUNG 8KIM TAE-YOUNG 8SUNDERMANN BERND 8AHN HEUI-BOK 7KIM SOENG-HUN 7KIM JAE HAK 7

4’-4. コラボレーション先企業ランキング

2015/4/18 14

行ラベル データの個数 / numberOfCommonApplications31

THOMAS GOMER 14CHEN JIANLE 11PAPASAKELLARIOU ARIS 11LEE GUN 10ZHANG JIANZHONG 10THANG TRUONG CONG 9MASAKI TAKAKI 9LUO YUAN YUAN 9NAT UNIVERSITY OF SCIENCES & TECHNOLOGY 8KUGIMIYA TOSHIHIRO 8SUH JONG YEUL 8AHMED ATIF 8YUE XIN 8GOTO HIROSHI 8KIM HONGWOOK 8HAFIZ REHAN 8KOBE STEEL LTD 8MIKI AYA 8WATANABE MASATO 8MORITA SHINYA 8ALI ARSHAD 8MURTAZA MUHAMMAD 8LEE TAMMY 8

4’-5 コラボレーション元企業xコラボレーション先国マトリックス

企業名 US JP CN DE IN PK RU FR GB VN NL CA CH SG

SAMSUNG ELECTRONICS CO LTD 30 20 2 12 16 12 6 1

IBM 30 2 3 14 3 2 2

LG ELECTRONICS INC 4 12 1

CHO YOUNG SHIN 10 2 1 1 2 1

KIM JIN-WOONG 12 1

JU YOUNG LEE 11

SK CHEMICALS CO LTD 11

SAMSUNG SDI CO LTD 9

LEE JEEWOO 8

LEE KEON JAE 7 1

HEO YOUN HYOUNG 4 1 3

LEE DONG HYUNG 8

KIM TAE-YOUNG 8

SUNDERMANN BERND 8

2015/4/18 15

参考文献

• PATSTAT ONLINE (beta)• http://www.epo.org/searching/subscription/patstat-online.html

• SQL Self-Study Course• http://documents.epo.org/projects/babylon/eponet.nsf/0/55df36d61f27cdb

2c1257b1600323d91/$FILE/patstat_introduction_sql_en.pdf

• Data Elements of PATSTAT Raw Data• http://documents.epo.org/projects/babylon/eponet.nsf/0/95da6bccf12e54a

1c1257aa1002e2d1d/$FILE/patstat_data%20elements_v1.1.pdf

2015/4/18 16

2. 論文データベースとは?

2015/4/18 17

特許や論文とはなにか?

4/18/2015 18

特許: “特許は、有用な発明をなした発明者またはその

承継人に対し、その発明の公開の代償として、一定期間、その発明を独占的に使用しうる権利(特許権)を国が付与するものである。特許権は、無体物(物ではない、形のないもの)である発明に排他的支配権を設定することから、知的財産権のひとつとされる。(Wikipedia) ”

論文: “論文(ろんぶん、英: paper)とは、学問の研究

成果などのあるテーマについて論理的な手法で書き記した文章。 (Wikipedia)”

論文データベース

•何がわかるのか• だれが、いつ、どこで、どんな論文を書いたのかがわかる

• だれが、いつ、どこで、どんな論文を引用したかがわかる

• メリット• 先行研究を知ることができる

• 自分のリサーチテーマと被る研究がどのくらいあるのか

• 新規性がどのくらいあるのか

• みんなが読んでいる論文がわかる!

• インパクトファクターの高い雑誌がわかる!(アカデミアでの就職に有利な!)

• どんな研究が世の中で行われているかがわかる!

2015/4/18 19

論文データベースに掲載されている情報

アブストラクト

タイトル

著者名

ジャーナル名とページ数

発行年

論文キーワード

著者の所属と住所

パブリッシャー論文の分類

論文のタイプと使用言語

論文の引用数と被引用数

2015/4/18 20

前方引用と後方引用:

時点 : t

"An Approach to the Study of

Entrepreneurship," THE TASKS OF

ECONOMIC HISTORY (Supplemental

Issue of THE JOURNAL OF

ECONoMIc HISTORY), VI (1946), 1-15

Oscar Lange, "A Note on

Innovations," Review of Economic

Statistics, XXV (1943), 19-25

F. W. Taussig, Inventors and

Money-Makers (New York: The

Macmillan Company, 1915).

Fritz Redlich, The Molding of American

Banking—Men and Ideas (New York: HafnerPublishing Company, 1947).

Robert A. Gordon, Business

Leadership in the Large Corporation

(Washington, D.C.: The Brookings

Institution, 1945).

F. J. Marquis and S. J. Chapman on the

managerial stratum ,of the Lancashire cotton

industry in the Journal of the Royal Statistical

Society, LXXV, Pt. III (1912). 293-306.

前方引用後方引用

・後方引用からわかること--どのような先行研究が活用されたのか--いつ公開された先行研究を活用したのか--論文を執筆するにあたり、「科学的源泉」はいったいなんだったのか

・後方引用からわからないこと--引用されていないけど、重要だった「科学的源泉」--引用されていないけど、参照された先行研究(in context.)

・前方引用からわかること--論文自体の重要性-- 「巨人の肩の上に立つ (Standing on the shoulders of the giants) 」--知識の伝播過程--論文自体が「古くなっていない」か

・前方引用からわからないこと--ほんとうにその論文は重要な論文なのか (引用されること自体が, 論文の重要性を示しているのか)--後発の論文にとって重要な科学的源泉が, 直接的には引用されていない場合も

2015/4/18 21

Schumpeter 1947 の後方引用数推移(Web of knowledge)

2015/4/18 22

論文のデータベースを使うと何がわかる?

•著者の数が多い論文は被引用数が多くなる?

• どういうジャンルの論文を, 特定の大学や企業が投稿している?

• ある産業内では, どういった企業が論文を多く投稿している?

• スターサイエンティストはだれ?

•引用する論文が多いほど, 被引用数が増える?

•博士ホルダーが書いた論文は, 普通の研究者に比べてパフォーマンスが高くなる?

•様々なジャンルに投稿している研究者のパフォーマンスは高くなる?

2015/4/18 23

ただし

• 世の中に「完備な」データベースはありません

• 「大人は嘘つきではありません、ただ間違いをするだけなのです…」• 組織名が違う• 自分の名前が違う• 所属国が違う• 論文のカテゴリが違うことが多々出てきます。

• 自らのリサーチクエスチョンに合わせて精緻な分析を行うためには、(1) 問いに対応する最適なデータベースを選び, (2) データのクリーニング作業を行う必要があります

2015/4/18 24

ケース1: 論文データベースによってカバーしている情報が違うことを確かめてみる• “The renaissance in optical spectroscopy of phthalocyanines and

other tetraazaporphyrins” という論文を• 1. J-Global: http://jglobal.jst.go.jp/

• 2. CiNII : http://ci.nii.ac.jp/

• 3. Web of Knowledge http://apps.webofknowledge.com/

• 4. Scopus http://www.scopus.com/

• 5. Google Scholar https://scholar.google.co.jp/

• 6. Microsoft Academic Search http://academic.research.microsoft.com/

の6種類の論文データベースで探し, どのような情報が掲載されているのか確認する.

2015/4/18 25

1. J-global の場合: 検出, しかしほとんど情報なし

2015/4/18 26

2. CiNiiの場合: 検出できない

2015/4/18 27

3. Web of Knowledge@一橋の場合: いろいろ見つかる

2015/4/18 28

3-2. Web of Knowledge@GRIPSの場合:一橋とまったく同じ情報が見つかる

2015/4/18 29

4. Scopus の場合:Web of Knowledge と同じ結果になるけど, 被引用数が違う….

Web of Knowledge の場合: 被引用数 67Scopus の場合: 被引用数 69

2015/4/18 30

5. Google Scholar の場合検出できる. 被引用数はWoK/Scopus と異なる

2015/4/18 31

6. Microsoft Academic Search の場合検出できる. 被引用数が著しく少ない.

2015/4/18 32

Microsoft Academic Search –(Forward)Citation Graph

2015/4/18 33

わかること

• 有料のデータベースと無料のデータベースがある• Web of Knowledge や Scopus にアクセスするのって, 実はお金がかかる

• 当該論文を検出できるデータベースとできないデータベースがある• 被引用数はデータベースによって異なる• 掲載されている情報もデータベースによって異なる

• 一番いいのは、実際の論文を読むこと/ダウンロードすること• しかしながら, そんな時間はないので論文データベースを使わざるを得ない⇒網羅性が高いのはWeb of Knowledge または Scopus, 日本語の論文なら CiNII

2015/4/18 34

3. Web of Knowledge の使い方

2015/4/18 35

(英文)論文データベース名前 Web of Knowledge Scopus

作っている会社 トムソン・ロイター エルゼビア

カバー範囲 ・社会科学文献の書誌および引用情報(1898年-2015年)・自然科学文献の書誌および引用情報(1900年-2015年)

・5000以上の出版社の21,000誌以上の学術ジャーナル・20000タイトル以上の査読ジャーナル・370タイトルのブックシリーズ・550万件以上の会議録

メリット ・過去データが豊富・社会科学のカバー率が高い・他のデータベースとリンクさせることが比較的容易

・分野分類が (Web of Knowledge) に比べて明確・自然科学のカバー率はWeb of Knowledge に比べ高い

・企業名および著者名の名寄せの精度が高いこともないみたい・・・

デメリット ・1945年以前のデータはカバー範囲が限られている・カテゴリ分類が不明確

・現在カバー範囲が(Web of Knowledge に比べ)狭い[引用情報は1996年以降のみカバー](2016年に向け拡大される予定)

価格 すごく高い! すごく高い!

気をつけること ・一橋大学では利用可能・大学によってカバーしているデータ範囲が違う

一橋大学では利用不能 (部局によっては契約している場合あり)

2015/4/18 36

まず注意すること: データのカバー範囲

• Web of Knowledge やScopus は大学によってカバーしているデータの範囲が異なります

• ある大学では検索できた結果が, 異なる大学では検索出来ないことがあります

2015/4/18 37

Web of knowledge のデータカバー範囲を確認する方法 (1)

1. Web of Knowledge にアクセスし, “Web of Knowledge Core Collection” を選択する

2015/4/18 38

Web of knowledge のデータカバー範囲を確認する方法 (2)

2. 画面下にある “詳細設定” をクリックする

2015/4/18 39

Web of knowledge のデータカバー範囲を確認する方法 (3)• GRIPSの場合

• Science Citation Index Expanded (1993-現在)

• Conference Proceedings Citation Index – Science (1990-現在)

•一橋大学の場合• Science Citation Index Expanded

(1900-現在)

• Social Sciences Citation Index (1900-現在)

• Arts & Humanities Citation Index (1975-現在)

2015/4/18 40

Web of knowledge のデータカバー範囲を確認する方法 (3-2)• UTS (@Sydney, Australia の場合) • National Taiwan University の場合

2015/4/18 41

Web of Knowledge のデータカバー範囲を確認する方法 (4): Schumpeter の論文“The Creative Response in Economic History” を探す

• GRIPS の場合: みつからない •一橋大学の場合: みつかる

2015/4/18 42

3-1. Web of Knowledge

•一橋の学内からはどこからでも利用可能

•一橋大学図書館のMy Library からリモートログインで利用可能

• GRIPS でも利用可能

•東大でも利用可能(おそらく)

2015/4/18 43

http://ip-science.thomsonreuters.jp/products/web-of-science/yokuwakaru/

ケース2: Web of Knowledge のインターフェース ; シュンペーターの論文を探してみよう

1. www.webofknowledge.com を開き, 「著者名検索」を選択. 「姓」 と 「イニシャル」を入力する.

2015/4/18 44

Web of Knowledge のインターフェース例: シュンペーターの論文を探してみよう

2. 「研究領域」から, (とりあえず)すべての研究領域を選択し, 「著者所属を選択」をクリック

2015/4/18 45

Web of Knowledge のインターフェース例: シュンペーターの論文を探してみよう

3. 「著者所属名短縮形」から, (とりあえず)すべての所属を選択. また, 「著者所属情報を含まないレコードを含める」チェックボックスをクリックし, 「選択した文献で検索」をクリックする.

2015/4/18 46

Web of Knowledge のインターフェース例: シュンペーターの論文を探してみよう

4. “著者名検索結果: 49レコード”が表示されるので, “並び替え” より “被引用数 –多い順” を選択し並べ替える.

2015/4/18 47

Web of Knowledge のインターフェース例: シュンペーターの論文を探してみよう

5. 一番引用数の多い “The Creative Response in Economic History” をクリックする.

わかること・著者名・ジャーナル名・発行年月日・被引用数・引用文献・インパクトファクター・ドキュメントタイプ・言語・発行者・研究分野・Web of Knowledge Category・最終引用

2015/4/18 48

Tips: たくさんのデータをWeb of Knowledge から合法的に取り出す方法•方法0: ロボット検索

• ダメ、ゼッタイ!

•方法1: Web インターフェースを使う• データの抽出方法はいくつかある

•方法2: Endnote Web を使う• ヒント: Endnote ライブラリ

•方法3: API を使う• ただし有償

2015/4/18 49

ケース3: Web of Knowledge を使って一橋大学から2013年に公刊された論文を取り出してみる

• 1. 検索 -> Web of Science Core Collection -> 詳細検索を選ぶ

2015/4/18 50

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索条件を入力する• PY: 年

• OG: 組織名

• [検索] をクリックする

2015/4/18 51

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索が実施され, データが抽出される. 検索履歴より “80” をクリックする

2015/4/18 52

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索結果が表示される

2015/4/18 53

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•画面の一番下までスクロールし, “他のファイルフォーマットで保存” を選択する

2015/4/18 54

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• [レコード件数]から保存するレコード数

• [レコードコンテンツ]から”詳細表示と引用文献”

• [ファイルフォーマット]から”タブ区切り(Win (またはMac))” を選択し保存をクリックする

2015/4/18 55

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•取り出したテキストファイルをExcel に取り込む• H Shimizu 先生が見つかったりする

2015/4/18 56

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• Alternative: エクセルを使うのがめんどくさい人向け• [レコード件数]から保存するレコード数

• [レコードコンテンツ]から”詳細表示と引用文献”

• [ファイルフォーマット]から”テキスト” を選択し保存をクリックする

2015/4/18 57

ケース3: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• Raw Data っぽいファイルが出力される• 自分でコードを書いて処理するか, Vantage Point (後述)を使う

• ヒント: 終端処理はEF なので, そいつと先頭行を潰せばいくらでもデータ連結が可能

2015/4/18 58

「研究分野」と「Web of Knowledge Category」

• 研究分野• 研究分野は、すべてのWeb of

Science 製品データベースで共有される主題分野を構成します。その結果、同じ主題に属する複数のデータベースのドキュメントを識別、検索、分析することができます。

• Current Contents ConnectおよびWeb of Science Core Collectionに含まれる各ジャーナルおよび書籍は、Web of Science の分野の少なくとも 1 つに割り当てられます。Web of Science の各分野は 1 つの研究分野にマップされます。

• Web of Knowledge Category• “Web of Science Core Collection に含まれるすべてのジャーナルおよび書籍は、以下の主題分野の少なくとも1 つに割り当てられます。Web of Science Core Collection のすべてのレコードは、[Web of Science の分野] フィールドに出版物の主題分野を含みます。”※. ひとつの論文に対して複数のWeb of Knowledge Category が割り当てられていることがある

2015/4/18 59

データの出力結果: コンパクチン後方引用文献の場合• 「研究分野」 • 「Web of Knowledge Category」

2015/4/18 60

Web of Knowledge で注意するポイント

• カテゴリ分けが1:1 の関係にはなっていない• 精緻に行うためには, ジャーナル名などで名寄せする必要性

•部局名などの名寄せが行われていない• NISTEP 表記ゆれ辞書などを活用する

• Scopus を利用する(?)

• Web 経由では, 1回500件しかダウンロードできない• Excel でひたすらくっつけていくか, Raw Data 方式でダウンロードしひたすら連結, 処理をしたのち手元のSQL などに放り込む

• ロボット検索すると怒られます

2015/4/18 61

NISTEP: “大学・公的機関名英語表記ゆれテーブル(Web of Science版)(Ver.2014.1)”• “1996-2012 年の期間にWeb of Scienceに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果”

• http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能

• カバー範囲 1996-2012

• Creative Commons BY-SA

2015/4/18 62

“大学・公的機関名英語表記ゆれテーブル(Web of Science版)(Ver.2014.1)”• F 列が表記バリエーションになっているので, C列の機関ID で

Matching させる

• Web of Knowledge で取り出したデータと, 例えばExcel なら vlookupなどして連結させる

2015/4/18 63

4. Scopus を使ってみよう

2015/4/18 64

4. Scopus

• エルゼビアが提供する論文データベース

• “Scopus has twice as many titles and over 30% more publishers listed than any other A&I database”

• Journals や Book, Conference Papers や Patents もカバー

• Scivalを用いることで, 研究機関ごとのパフォーマンスを知ることも可能

• なお、一橋では現時点 (2015年) では契約していないので使えません

• GRIPSでは利用可能

2015/4/18 65

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう1. www.scopus.comを開き, 「著者検索」に Last Name と First Name を入力する.

2015/4/18 66

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう2. 著者名の候補が表示されるので, 該当する著者をクリックする

2015/4/18 67

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう3. 論文の一覧が表示される

2015/4/18 68

Scopus XML Data

• Scopus の Raw Data を利用可能

• 2015年6月以降GRIPS 内で稼働予定• 利用対象者: GIST/SciREXセンターの教員/研究員/客員研究員/学生

• NoSQL またはRDBMS 形式でのデータ提供を予定

2015/4/18 69

Scopus XML Data: 主な項目

• Abstract

• Author

• Author-group

• Bibliography

• Ce:doi

• ce:initials

• Chemical

• Chemical-Name

• Chemical-Group

• Citation-info

• Citation-Language

• Citation-type

• Citation-Title

• Country

• Editor

• Organization

• PageCount

2015/4/18 70

Author Metadata

2015/4/18 71

Cited by Counts

2015/4/18 72

All Science Journal Classification Codes

2015/4/18 73

サンプルデータ: XMLファイル

2015/4/18 74

サンプルデータ: XML ファイル (cited)

2015/4/18 75

サンプルデータ: XSDファイル

2015/4/18 76

Scopus を使う上で注意するポイント

• Web of Knowledge に比べたらカテゴリや組織や研究者個人の名寄せがキッチリしているかと思ったけど, 別にそんなことはないみたい

• データのカバー範囲が広い事, データベース構造がWeb of Knowledge に比べ比較的単純なのがメリットなくらい

2015/4/18 77

https://twitter.com/noricoco/status/585677912705261569

大学・公的機関名英語表記ゆれテーブル(Scopus版)(ver.2013.1)• “1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果”

• http://www.nistep.go.jp/research/scisip/randd-on-universityからダウンロード可能

2015/4/18 78

大学・公的機関名英語表記ゆれテーブル(Scopus版)(ver.2013.1)• JSTだけでも様々な表記が

2015/4/18 79

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1)• “科学論文の計量的分析に用いられるデータベース、Scopusの論文

ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対応テーブルです。1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、国内の大学・公的機関の機関名称の名寄せを行った結果”

• http://www.nistep.go.jp/research/scisip/randd-on-universityからダウンロード可能

•論文IDごとに機関ID が割り振られているので, より正確に組織名で名寄せができる

• データ量が巨大なので、MySQL/PostgreSQL か Access を使いましょう• Excel でなんとかやれないこともないけど大変

2015/4/18 80

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1)• Access に取り込んだ結果: レコード数2718337件

2015/4/18 81

では, Web of Knowledge? Scopus? Or Google Scholar?

• (Kulkarni, Aziz, Shams and Busse2009)• Google Scholar, Web of Knowledge と

Scopus の Citation 推移を比較• “Cohort study of 328 articles published

in JAMA, Lancet, or the New England Journal of Medicine between October 1, 1999, and March 31, 2000. Total citation counts for each article up to June 2008 were retrieved from Web of Science, Scopus, and Google Scholar.”

• Findings• “Compared with Web of Science, Scopus

retrieved more citations from non–English-language sources (median, 10.2% vs 4.1%) and reviews (30.8% vs 18.2%), and fewer citations from articles (57.2% vs 70.5%), editorials (2.1% vs 5.9%), and letters (0.8% vs 2.6%) (allP < .001).”

2015/4/18 82

JAMA. 2009;302(10):1092-1096. doi:10.1001/jama.2009.1307

2015年現時点での論文データベース利用法

• Web of KnowledgeとScopus, どちらにもデメリットとメリットがある• Web of Knowledge: データベース全体の構造が複雑, かつノイズデータも多いけど長い期間をカバーしている

• Scopus: Web of knowledge に比べればデータベース全体の構造は比較的単純. Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省けそうだけど, やはりノイズデータが含まれている. 今後に期待.

• (高いから比べられないし, だいたいの大学ではひとつしか使えないし)論文データベースはWeb of Knowledge, Scopus のいずれかを使う

• 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける(けれど大変)

• 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れているかチェックしていく (別の組織が入っていないか, 別の国が入っていないか, ダブルカウントしていないか etc…)

2015/4/18 83

http://www.elsevier.com/jp/press-releases/2014/201403274/18/2015 84

5. データを処理してみよう

2015/4/18 85

例. 引用分析

•後方引用をたどることで, 発明に至る知識の流れを明らかにする

• JST プロジェクトの Feasibility Study• Shuji Nakamura Patent に至るまでのMain Path

• 特許と、特許に引用された論文について調査

• ソース: Web of Knowledge / Thomson Innovation

2015/4/18 86

Network 全体 (属性付き)

赤色はMain Path に選択された Node を示す.

2015/4/18 87

1930s 1960s 1970s 1990s 2000s

1910-2007 (1次引用すべて導入; 上位12社明記)

1980s2015/4/18 88

論文データベースを使った分析の課題

• データ処理の開始までに手間が掛かる• データクリーニング: ネットワーク図作成ソフトに合致するようにデータの処理を行う手間 (平準化, 欠落データの処理など)

• 名寄せ (企業名, 個人名, 表記ゆれ etc…) を手作業で修正するのは、きわめて時間のかかる作業

•わかりやすいネットワーク図をつくるには、パラメータの調整が必要(NetDraw etc…)

•大量データを利用する場合、(フリーソフトウェアの場合)うまく動作しない場合がある

2015/4/18 89

Vantage Point

• データ解析ソフトウェア• Search Technology, Inc.

•多変量データに対して、ネットワーク解析、テキストマイニング、名寄せなどを素早く実施できる• Importing – Raw データをフィルタを用いることで簡単に取り込むことが可能• Cleaning –データのグルーピング、平準化、企業名や個人名の名寄せを、予め定義されたデータセットを用いて行うことが可能

• Analyzing –グラフ化、ネットワーク図化などが可能• Reporting –画像形式, Excel 形式などで出力することが可能• Automating –スクリプトを用意することで、これらの処理の自動化が可能

• Thomson Data Analyzer (OEM 版) も存在

2015/4/18 90

Requirements

• コンピューティングリソース• 32bit版, 64bit版が提供

• データ量が多いほど、多くの物理メモリが必要とされる (min 4GB)• “VantagePoint files can be quite large and it is much easier to work with them if they can

be loaded into RAM. ”

• (大量パラメータに基づく)ネットワーク図などを生成するには、CPU パワーも必要 (high clock speed, multi-core is needed)• “With processors, clock speed is the most important attribute to VantagePoint. While

VantagePoint can use multiple cores for some operations, much of the math in VantagePoint is inherently linear so multi-threading has only a small impact on VantagePoint performance. Multi-core processors are still helpful if you intend to run other operations while running VantagePoint.”

2015/4/18 91

メイン画面

2015/4/18 92

入力フィルタ

•主なデータベースに対応• Web of

Knowledge/Thomson Innovation/Scopus など

• 個別項目のうち、インポートする項目を抽出可能

• データベースサーバ(Microsoft SQL/MySQL etc…) に直接接続することが可能

• XML形式にも対応2015/4/18 93

対応データベース

• フィルタがすでに存在するデータベース• Bizint• Cambridge Scientific Abstracts• Delphion• Dialog• EBSCOhost• Ei Engineering Village• Factiva• Generic RIS Report• ISI Web of Knowledge• Lexis Nexis

• Micropatent• Pat base• Pubmed• Questel-Orbit• Scopus• Silver Platter• STN• Thomson Innovation• US National Science Foundation

Awards• USPTO• etc…

http://www.thevantagepoint.com/resources/library-of-resources/566-import-filters.html?date=0&dpfilter=0&which_type=%24which_type2015/4/18 94

名寄せ

・アルゴリズムを用いて,

表記ゆれしているテーブルを一元化する

2015/4/18 95

名寄せの例: コンパクチンの基本論文をどういった企業が引用しているか(1)•名寄せ前 •一目観てわかること

• メルクの部局が分かれている

• 第一三共と三共が別計されている

• 大学の部局が分かれている

• 大文字表記と小文字表記で別個に集計されている

•適切に名寄せしなければ、特定の大学や企業の貢献を過小評価や過大評価する可能性がある

2015/4/18 96

名寄せの例: コンパクチンの基本論文をどういった企業が引用しているか(2)•名寄せアルゴリズムを用いてコホートを作成する

2015/4/18 97

名寄せの例: コンパクチンの基本論文をどういった企業が引用しているか(3)•名寄せ後

• メルクの順位があがる

2015/4/18 98

キーワード抽出

•縦軸と横軸に異なる指標を指定して、年代ごとのmain keyword を抽出

2015/4/18 99

タイムライン

2015/4/18 100

グラフ

2015/4/18 101

ネットワーク図(1)

• Cross-correlation• Author x Category など, 複数項目での関係性を抽出

• Auto-correlation• Author 同士の共著関係を抽出

• Factor• 主なキーワードを抽出し, その関係性を導出

2015/4/18 102

ネットワーク図(2)

• Aduna

Cluster Map

2015/4/18 103

世界分布

2015/4/18 104

その他の機能

• Data Fusion• 既存のデータベース同士を接続し、新しいデータベースを作成する

• 例. 特許のデータベースと、論文のデータベースを、著者名をピボットに接続する -> 特許と論文の発表数/出願数を同時に分析することが可能

• Record Fusion• 既存のデータベースに、別のレコードを付記する

• 情報のアップデートなどがあった場合に有用

2015/4/18 105

Vantage Point のメリット/デメリット

• メリット• ネットワーク分析を簡単に行うことができる• 大量データにも対応 (64bit)• 様々なデータフォーマットにも対応• 名寄せアルゴリズム搭載• 外部出力(excel, 画像)も容易

• デメリット• 相応のコンピューティングリソースが要求される• ネットワーク指標 (Centrality, Betweenness etc…) のRaw Dataは出力されない

• R, NetDrawなどを併用する必要あり

• 日本語には一部対応• カスタムデータの場合、データ方式を個別指定する必要がある

2015/4/18 106

利用例. 長岡JST/RISTEX PJ知識フロー分析: 共同研究の分析

•産学連携や企業間連携などによって行われた、科学的知識の伝播フローが可視化できるか否か調査する

•方法1. ヒヤリング調査, 基本論文および基本特許のサーベイより医薬品の開発プロセスにおいて重要な役割を果たしたキープレイヤーを同定

2. キープレイヤーの公刊した特許/論文データを時系列順に収集

3. 一定の期間ごとに区切り, 共著者情報および組織情報から共同研究のプレイヤーを精緻化 (ネットワークグラフ化)

3/19/2015 107

アクテムラ

• キープレイヤー• 大杉義征

• アクテムラの研究開発における基礎研究から探索研究までを一貫して担当

• 初期の研究 (カルフォルニア大デービス校および東京大学) では共同論文により確認可能

• 探索研究 (大阪大学岸本研究室およびMRC) では共同特許および共同論文により確認可能

年 コラボレーション先

研究開発内容 共同研究方法

基礎研究

a. 1978-1981 カルフォルニア大学デービス校

ガーシュイン教授

B 細胞研究 留学による共同研究の実施(2年間)

b. 1984-1985 東京大学 B細胞分化因子の研究

研究の実験装置の提供.契約時, 共同研

究の目標などは明記されず

探索研究

c. 1986- 大阪大学岸本研究室

IL-6 阻害剤の探索

中外製薬研究員の大学派遣.定期ミーティングの実施.契約時, 特許の

帰属先などを明記

d. 1990 MRC ヒト化抗体の作製

中外製薬研究員の研究所派遣, ロイヤリティ契約

アクテムラ研究開発過程における他大学, 研究機関とのコラボレーション

3/19/2015 108

アクテムラの研究開発プロジェクトにおける産学連携研究と共著論文年 コラボレーション先 研究開発内容 共著論文数

(出所: Web of Knowledge)共同発明(米国特許)

基礎研究

1978-1981 カルフォルニア大学デービス校ガーシュイン教授

B 細胞研究 3 無し

1984-1985 東京大学 B細胞分化因子の研究

1 無し

探索研究

1986- 大阪大学岸本研究室

IL-6 阻害剤の探索

2(1986-1990)12(1991-1995)9(1996-2000)

6 (※ -大阪大学岸本忠三氏との共同出願)

1990 MRC ヒト化抗体の作製

2 3

3/19/2015 109

ネットワーク分析

1980-1985年に大杉が執筆した学術論文の書誌情報より, 組織情報を抽出(データ: Web of Knowledge, ネットワークグラフ化: Vantage Point)

1986-1990年に大杉が執筆した学術論文の書誌情報より, 組織情報を抽出(データ: Web of Knowledge, ネットワークグラフ化: Vantage Point)

a. カルフォルニア大学デービス校ガーシュイン教授との共同研究

b. 東京大学片桐教授とのB細胞分化因子の研究

c. 大阪大学岸本研究室および東ソー株式会社との三社共同研究

3/19/2015 110

ネットワーク分析

c. 大阪大学岸本研究室および東ソー株式会社との三社共同研究

d. MRC との共同研究によるヒト化抗体の作製

1991-1995年に大杉が執筆した学術論文の書誌情報より, 組織情報を抽出(データ: Web of Knowledge, ネットワークグラフ化: Vantage Point)

3/19/2015 111

今日のまとめ

•論文データベースは大学にいる間に活用しよう

•論文データベースは完璧ではないことを知ろう

•論文データベースを使って分析するには、データの整理や名寄せが必要不可欠である• NISTEP製テーブルをたくさん使いましょう

•論文データベースからデータを取得して多変量解析するには、やっぱりデータベース処理の知識が必要になってくる• いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも

2015/4/18 112

次回

•日本の特許データベースのお話

•場所は一橋大学イノベーション研究センターの会議室

2015/4/18 113

Acknowledgement

•文部科学省 SciREX プログラム

• 「政策のための科学」基盤的研究・人材育成拠点事業(領域開拓拠点)イノベーションマネジメント・政策プログラム(Innovation Management and Policy Program:IMPP)

•独立行政法人科学技術振興機構社会技術研究開発センターによる「科学技術イノベーション政策のための科学研究開発プログラム」: • 「イノベーションの科学的源泉とその経済効果」

• 「科学技術イノベーション政策の経済成長分析評価プロジェクト」

1142015/4/18