linked...

7
要 約 科研費や運営費交付金が減少しているなか,研究機関は,研究推進や資金運営の観点から研究 助成金の獲得に力を入れている。近年,情報推薦システムの分野では様々なドメインを対象とし Linked Data を用いた推薦システムの研究が進められている。しかしながら,これまで Linked Data を用いた研究助成金推薦システムは知られていない。本論文では,Linked Data を活用した研 究助成金推薦システムについて説明する。 1.はじめに 科研費や運営費交付金が減少しているなか,研究機関は,研究推進や資金運営の観点から研究 助成金の獲得に力を入れている。多くの研究機関では民間企業・財団から集約した公募情報を手 動で分類して研究者に情報提供している。しかしながら,研究助成金と研究者とのマッチングの 組み合わせ数は膨大なため,手作業で適切な研究助成金を推薦することは困難である。筆者らは, 当該課題を解決するため,Web に蓄積されている学術データを用いて相関ルール分析と TF-IDF よる研究助成金推薦システムを開発した 1ところで,近年の情報推薦システムの分野では,様々なドメインを対象として Linked Data を用 いた推薦システムの研究が進められている。Linked Data とは,Tim Berners-Lee によって提唱され た構造化し,相互にリンクさせたデータである 2Khrouf らはイベント情報を Linked Data 化し, データ構造の類似度手法とテキストマッチングの類似度方法を組み合わせることによってイベン ト推薦システムの開発を行っている 3Mirizzi らは,Linked Open Data 化された DBpedia を用いた 映画推薦システムの開発を行っている 4。推薦システムにおいて Linked Data を用いる利点は,マ ッチングデータをメタデータである RDFResource Description Framework)として明示的に定義 することにより,各データ間の相互参照が容易になる点が挙げられる。 Journal of the Faculty of Management and Information Systems, Prefectural University of Hiroshima 2016 No.9 pp.89 95 論   文 Linked Data を活用した研究助成金推薦システム 渡 辺 孝 信 1・鎌 田   真 2・市 村   匠 13A Recommendation System of Grants-in-Aid Using Linked Data Takanobu Watanabe 1Shin Kamada 2and Takumi Ichimura 131.県立広島大学地域連携センター 2.広島市立大学大学院情報科学研究科 3.県立広島大学経営情報学部経営情報学科

Upload: others

Post on 10-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

89

要 約

科研費や運営費交付金が減少しているなか,研究機関は,研究推進や資金運営の観点から研究

助成金の獲得に力を入れている。近年,情報推薦システムの分野では様々なドメインを対象とし

てLinked Dataを用いた推薦システムの研究が進められている。しかしながら,これまでLinked

Dataを用いた研究助成金推薦システムは知られていない。本論文では,Linked Dataを活用した研

究助成金推薦システムについて説明する。

1.はじめに

科研費や運営費交付金が減少しているなか,研究機関は,研究推進や資金運営の観点から研究

助成金の獲得に力を入れている。多くの研究機関では民間企業・財団から集約した公募情報を手

動で分類して研究者に情報提供している。しかしながら,研究助成金と研究者とのマッチングの

組み合わせ数は膨大なため,手作業で適切な研究助成金を推薦することは困難である。筆者らは,

当該課題を解決するため,Webに蓄積されている学術データを用いて相関ルール分析とTF-IDFに

よる研究助成金推薦システムを開発した[1]。

ところで,近年の情報推薦システムの分野では,様々なドメインを対象としてLinked Dataを用

いた推薦システムの研究が進められている。Linked Dataとは,Tim Berners-Leeによって提唱され

た構造化し,相互にリンクさせたデータである[2]。Khroufらはイベント情報をLinked Data化し,

データ構造の類似度手法とテキストマッチングの類似度方法を組み合わせることによってイベン

ト推薦システムの開発を行っている[3]。Mirizziらは,Linked Open Data化されたDBpediaを用いた

映画推薦システムの開発を行っている[4]。推薦システムにおいてLinked Dataを用いる利点は,マ

ッチングデータをメタデータであるRDF(Resource Description Framework)として明示的に定義

することにより,各データ間の相互参照が容易になる点が挙げられる。

Journal of the Faculty of Management and Information Systems,Prefectural University of Hiroshima2016 No.9 pp.89-95

論   文

Linked Dataを活用した研究助成金推薦システム

渡 辺 孝 信 1)・鎌 田   真 2)・市 村   匠 1)3)

A Recommendation System of Grants-in-Aid Using Linked Data

Takanobu Watanabe1),Shin Kamada2),and Takumi Ichimura1)3)

1.県立広島大学地域連携センター2.広島市立大学大学院情報科学研究科3.県立広島大学経営情報学部経営情報学科

しかしながら,従来の研究ではLinked Dataを用いた研究助成金推薦システムは知られていない。

そこで,本論文ではLinked Dataを活用した研究助成金推薦システムについて説明する。具体的に

は,[1]の文献で既に開発された研究助成金推薦システムをLinked Dataの活用という観点から整

理して報告する。

2.研究助成金Linked Dataの概要とマッチング処理について

2.1 Linked Open Dataの利用

研究機関が内部で保有している研究助成金データセットではマッチング情報として不足してい

る場合がある。マッチング情報を補完するため,複数のドメインで提供されている学術情報の

Linked Open Dataを利用する。Web上にある学術情報のLinked Open Dataとして,CiNii Articles[5]

とKAKEN[6]を利用する。CiNii Articlesは,論文,図書雑誌などの学術情報を収録したデータベ

ースである。KAKENは,科研費の採択課題や研究成果を収録したデータベースである。

2.2 研究助成金Linked Dataの概要

学術情報Linked Open Dataから研究助成金Linked Dataを構成するため,研究助成金RDFを定義

した。研究助成金RDFをFig.1に示す。

研究助成金RDFは,研究者,研究助成金,CiNii Articles及びKAKENデータから構成される。研

県立広島大学経営情報学部論集 第 9号90

Fig.1 研究助成金RDF

究者データは,研究機関で助成金を推薦する対象の研究者データである。Table.1に研究者データ

のプロパティを示す。

研究助成金データは,現在の公募情報と過去の公募情報から構成される。これらの公募情報は,

研究助成金を募集しているWebサイトのHTMLやPDFを取得し,テキスト情報に変換した上で正

規表現により必要な情報を抽出する。Table.2に研究助成金データのプロパティを示す。

研究者データは,CiNii Articlesデータとリンクさせる。このことにより,研究者の論文情報を取

得し,マッチング情報として活用することができる。CiNii ArticlesデータはCiNii Articlesで定義さ

れているRDFからマッチング情報に必要なプロパティを抽出した。Table.3にCiNii Articlesデータ

のプロパティを示す。

KAKENデータは,KAKENで定義されている採択情報に関するXMLから必要な情報を抽出した。

Linked Dataを活用した研究助成金推薦システム 91

Table.1 研究者データのプロパティ

Table.2 研究助成金データのプロパティ

Table.3 CiNii Articlesデータのプロパティ

Table.4にKAKENデータのプロパティを示す。

2.3 データ間のリンク方法

データ間のリンク方法の一例として,CiNii Articlesと研究者間のリンク方法を説明する。研究者

とCiNii Articlesのデータをリンクするため,CiNii Articlesが提供しているOpen Search APIを使用

する。Open Searchのクエリー“http://ci.nii.ac.jp/opensearch/search?(パラメータ=値)&(パラメー

タ=値)&...”という形式でリクエストする。リクエストのパラメータで所属と研究者名を指定す

る。レスポンス様式はRSS1.0,Atom1.0, JSON(JavaScript Object Notation)-LD(Linked Data)形

式で提供されている[7]。レスポンスを解析することにより,研究者の必要な論文情報を取得する

ことができる。

2.4 Linked Dataを用いたマッチング処理

文献[1]の研究助成金推薦システムで提案したマッチング方法に基づいて,どのようにLinked

Dataに対してマッチング処理を行うのかを説明する。マッチングスコアは,現在の公募情報と過

去の公募情報の評価値の加重平均値として算出する。

現在の公募情報とは,研究助成金のWebサイトに蓄積されているデータである。現在の公募情

報の評価では,このデータと大学に所属する研究者のデータ(科研申請書類等)とのマッチング

が行われる。具体的には,KAKENのキーワードをキーとしたマッチングが行われ,TF-IDFによる

マッチングスコアが算出される。

過去の公募情報は,公募団体の過去の助成事業のタイトルや概要,助成を受けた研究者のデー

タ(CiNiiから抽出した論文やKAKENに登録されている概要)である。過去の公募情報の評価で

は,これらのデータと大学研究者のデータ(CiNiiから抽出した論文やKAKENに登録されている

概要)とのマッチングが行われる。具体的には,両者の相関が相関ルールにより抽出され,マッ

チングスコアが算出される。

現在の公募情報と過去の公募情報を用いた計算方法の詳細は,文献[1]で記述されている。

式1は,マッチングスコアの式を示したものである。

マッチングスコア=α(現在の公募情報評価値)+β(過去の公募情報評価値)

α+β=1                  1

(1)現在の公募情報評価

現在の公募情報評価では,研究助成金の公募情報(rdf:descriptionプロパティ値)と研究者の

科研費申請概要(rdf:paragraphListプロパティ値)とのマッチングを評価する。具体的な評価手

県立広島大学経営情報学部論集 第 9号92

Table.4 KAKENデータのプロパティ

順を以下に示す。

1)研究者データから, 研究者が過去に採択された科研費申請概要(rdf:paragraphListプロパティ

値)を取得する。

2)科研費申請概要(rdf:paragraphListプロパティ値)から科研費キーワードを抽出する。

科研費キーワードは,科研費キーワード表で細目毎に科研費キーワードが割り当てられてい

る[5]。

3)研究助成金の公募情報(rdf:descriptionプロパティ値)を文書dとし,科研費申請概要

(rdf:paragraphListプロパティ値)より抽出した科研費キーワードを単語 tとして tfidf(t,d)を

算出する。式2に,tfidf(t, d)の数式を示す。

4)公募情報評価値は,tfidf(t, d)を0から1の範囲で正規化したものとする。

(2)過去の公募情報評価

過去の公募情報評価は,過去の公募情報(rdf:pastdescriptionプロパティ)と研究者の論文抄録

(rdf:paragraphListプロパティ)とのマッチングを評価したものである。式3に,相関ルール分析

の数式を示す。

支持度 supp(X→Y)は,全体のトランザクションの中で前件部と後件部のアイテム集合が同時

に出現する割合を示している。確信度conf(X→Y)は,前件部を含むトランザクションの中で後

件部も同時に出現するトランザクションの割合を示している。リフト値 lift(X→Y)は,XとY

の独立性を示している。具体的な処理手順を以下に示す。

Linked Dataを活用した研究助成金推薦システム 93

2

3

1)研究者データより,CiNii Articlesに保存されている研究者の論文抄録(rdf:paragraphListプ

ロパティ値)を取得する。

2)過去の公募情報(rdf:pastdescriptionプロパティ)を取得する。

3)研究者の論文抄録(rdf:paragraphListプロパティ値)を一文毎に分割して,トランザクショ

ンとする。形態素解析 MeCab[9]を用いて,名詞を抽出して前件部のアイテム集合を生成す

る。名詞を抽出する際,数,接尾詞,接頭詞及び代名詞は除外する。

4)過去の公募情報(rdf:pastdescriptionプロパティ)についても,一文毎に分割して3)と同様

の方法により後件部のアイテム集合を生成する。

5)3)で生成された研究者のトランザクション群と4)で生成された過去の公募情報のトランザ

クション群を結合し,式3により相関ルールを抽出する。

6)5)で抽出された相関ルールの中から,研究者に該当するトランザクション群のみから出現

する相関ルールを除外する。つまり,研究者のトランザクションと過去の助成金情報のトラ

ンザクションに同時に出現するルールのみを抽出するようにする。

7)過去の公募情報評価値は,抽出した相関ルールのリフト値の合計を0から1の範囲で正規化

したものとする。

3.評価実験について

6つの研究助成金に対して県立広島大学 240名の教員とのマッチング評価を行った。式 1のα,

βをそれぞれ 0.5とし,マッチングスコアが 0.2以上のものに対して相関ルールを抽出した。

Table.5にマッチング結果を示す。Table.6に助成金マッチング結果の一例として,公益財団法人飯

島藤十郎記念食品化学新興財団のマッチング結果を示す。

県立広島大学経営情報学部論集 第 9号94

Table.5 マッチング結果

Table.6 公益財団法人飯島藤十郎記念食品化学新興財団のマッチング結果

マッチング結果からは,概ね正しくマッチングされていることが確認できた。公益財団法人中

冨健康科学振興財団研究助成のマッチング結果には当該補助金に今年度申請した研究者が含まれ

ていた。また,抽出されたルールやキーワードは,外部資金担当者にとって助成金を推薦する際

に有益な情報となることが分かった。

4.まとめ

本論文では,Web上にあるKAKEN, CiNii Articles及び研究助成金公募情報から取得したマッチ

ング情報をLinked Data化し,Linked Dataに対するマッチング処理について説明した。このことに

より,マッチング対象のデータを特定し,対象とするマッチングデータに対するマッチング処理

が把握しやすくなった。

マッチング結果からは,外部データとしてKAKEN, CiNii Articles及び研究助成金公募情報を用

いることにより,研究者と研究助成金とのマッチング精度が向上できることが確認できた。

学内の運用においては,県立広島大学の学生がアルバイトでマッチング情報の入力作業を行っ

ている。今後の作業として,式1のα,βはそれぞれ0.5に設定しているが,マッチング精度を向上

させるため,蓄積した運用データから適切な値を検討する予定である。

参考文献

[1]Shin Kamada, Takumi Ichimura, and Takanobu Watanabe,“A Recommnedation System of Grants to

Acquire External Funds”, Proc.of IEEE 8th International Workshop on Computational Intelligence and

Applications (IWCIA 2016), pp.125-130, 2016.

[2]Linked Data https://www.w3.org/DesignIssues/LinkedData.html(閲覧日:2016年9月12日)

[3]H. Khrouf and R. Troncy,“Hybrid event recommendation using linked data and user diversity”,

RecSys2013, pp.185-192, 2013.

[4]R. Mirizzi, T.D. Noia, A. Ragone, V.C. Ostuni and E.D. Sciascio,“Movie Recommendation with

DBpedia”,IIR2012, pp.101-112, 2012.

[5]CiNii Articles http://ci.nii.ac.jp/d/?l=ja(閲覧日:2016年9月12日)

[6]KAKEN https://kaken.nii.ac.jp/(閲覧日:2016年9月12日)

[7]CiNii 全般-メタデータAPI https://support.nii.ac.jp/ja/cinii/api/api_outline(閲覧日:2016年9月

12日)

[8]科研費キーワード https://www-kaken.jsps.go.jp/kaken1/keywordList.do(閲覧日:2016年9月12

日)

[9]MeCab https://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/MeCab.html(閲覧日:

2016年9月12日)

Linked Dataを活用した研究助成金推薦システム 95