【文献調査】 - doshisha...2016/04/28  · medline 中の用語とdbpedia...

31
Construction College Aalborg DEP Afgangsprojekt Elevernes motivation i undervisningen på Grundforløb 1. Kim Schmidt Pedersen Efterår 2015

Upload: others

Post on 24-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 【文献調査】 - Doshisha...2016/04/28  · MEDLINE 中の用語とDBpedia のタイトルにおける存在確率でR2=0.96,P

医療情報システム研究室 ドライバ班

【文献調査】Building Linked Open Data towards integration of

biomedical scientific literature with DBpedia

和田 寛 廣安 知之 日和 悟

2016年 04月 28日

1 タイトル

生物医学科学文献と DBpediaの統合に向けた Linked Open Data構築

2 著者

Yasunori Yamamoto

Atsuko Yamaguchi

Akinori Yonezawa

3 出典

Journal of Biomedical Semantics, Vol.4, pp.8,2013

4 アブストラクト

4.1 背景

多様な機関から提供されるデータベースへの効率的かつ統合的な利用方法が求められている.Linked Dataの設

計パターンを利用することで,Web上の多様なデータを効果的にリンクし,コンピュータによって効率的に利用

することができる.以前,我々は Alieというデータベースを開発し,生命科学の分野で使用される略語と正式名

(LF)のペアをそこに格納した.LFとは略語の意味を定義し,Alieは研究者が不慣れな略語の意味をルックアッ

プするWebベースの検索サービスを提供している.しかし,このサービスにおいて二つの問題が発生した.まず,

それぞれの意味定義は明確には表示されず,簡単に略語を学ぶためのユーザを助けることができない.さらに,完

全な辞書を容易するためにはあまりにも多くの意味があります.一方,DBpediaは多くの意味定義を対応させる

ことが期待でき,RDFによってWikipediaのコンテンツが利用可能である.したがって,DBpediaに Alieの意

味定義をリンクすることで Alieの問題の解決に繋がる.これらより,Alieと DBpediaは頻繁に更新されるため,

合理的な期間内に文字列のペアを多く一致させる方法が必要です.

4.2 結果

我々は単純な近似文字列マッチング方法を用いてリテラルへのキーの関連付けを行ったことにより,DBpediaの

タイトルへの意味定義をリンクした lODを構築した.さらに,我々は生命科学の用語を標準化するために UMLS

リソースを使用した.その結果,ドメイン固有のリソースでキーとの組み合わせは 44027あり,これは DBpedia

のタイトルへのリンクが記述されています.我々は,手動でランダムに 1200の意味定義をサンプリングすること

により,文字列マッチングの精度を評価し,我々のアプローチは 0.98の F値を達成した.また,我々の実験は以

下を明らかにした.

• MEDLINE(医学学術文献データベース)中の意味定義と同じ精度を得た.

• MEDLINE中の用語と DBpediaのタイトルにおける存在確率で R2=0.96,P¡0.01を得た.

4.3 結論

得られた結果はAlieのユーザが正しい意味定義を見るけることに役立つ.この方法は計算上容易で高いパフォー

マンスを得ることが可能である.また,MEDLINE中で多く使用される用語は頻繁にDBpediaのタイトルによっ

て表示されることで,我々は継続的かつ合理的に DBpediaの最新の出版物や追加を反映するように LODデータ

セットを更新することが可能である.科学文献と DBpediaの間の意味定義は相互利益のための資源探索を可能に

1

Page 2: 【文献調査】 - Doshisha...2016/04/28  · MEDLINE 中の用語とDBpedia のタイトルにおける存在確率でR2=0.96,P

する.

5 キーワード

Linekd Open Data, biomedical scientific literature, DBpedia, LF, semantic, RDF

6 参考文献

6.1 データベースに関して

1. NAR database summary paper alphabetic list. 2012. http://www. oxfordjournals.org/nar/database/a/.

2. Galperin MY, Fern?ndez-Su?rez XM: The 2012 nucleic acids research database issue and the online

molecular biology database collection. Nucl. Acids Res. 2012, 40(D1):D1?D8.

3. Nelson B: Interdisciplinary studies: seeking the right toolkit. Nature 2011, 476:115?117.

6.2 Linekd Dataに関して

4. Linked data - connect distributed data across the Web. http://linkeddata.org/.

6.3 RDFに関して

5. Resource description framework (RDF). http://www.w3.org/RDF/.

6.4 Allieデータベースに関して

6. Yamamoto Y, Yamaguchi A, Bono H, Takagi T: Allie: a database and a search service of abbreviations

and long forms. Database 2011:bar013.

6.5 ALICEツールに関して

7. Ao H, Takagi T: ALICE: An Algorithm to Extract Abbreviations from MEDLINE. J Am Med Inform

Assoc 2005, 12:576?586.

6.6 Wikipediaに関して

8. Wikipedia. http://www.wikipedia.org/.

6.7 インターネットに関して

9. Wikipedia (entry page). http://en.wikipedia.org/wiki/Wikipedia.

6.8 DBpediaに関して

10. DBpedia. http://dbpedia.org/.

6.9 LOD cloudに関して

11. The linking open data cloud diagram. http://richard.cyganiak.de/2007/10/lod/.

6.10 LODプロジェクトに関して

12. Bizer C, Heath T, Idehen K, Berners-Lee T: Linked data on the web (LDOW2008). In Proceedings of

the 17th international conference on World Wide Web (WWW ’08). Beijing, China: ACM; 2008:1265?1266.

6.11 RDFリンクに関して

13. LinkingOpenData. http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData.

6.12 Google Refineに関して

14. google-refine. https://github.com/OpenRefine.

15. ClusteringInDepth. http://code.google.com/p/google-refine/wiki/ClusteringInDepth.

6.13 UMLS(Unified Medical Language System)に関して

16. Unified medical language system (UMLS). http://www.nlm.nih.gov/research/umls/.

6.14 ダイス係数に関して

17. Richard CA, George EF, Peter W: Automatic spelling correction using a trigram similarity measure. Inf

Process Manag 1983, 19(4):255?261.

2

Page 3: 【文献調査】 - Doshisha...2016/04/28  · MEDLINE 中の用語とDBpedia のタイトルにおける存在確率でR2=0.96,P

6.15 ジャロ・ウィンクラー距離に関して

18. Winkler WE: String comparator metrics and enhanced decision rules in the fellegi-sunter model of record

linkage. In Proceedings of the section on survey research methods. 1990:354?359.

6.16 レーベンシュタイン距離

19. Vladimir IL: Binary codes capable of correcting deletions, insertions, and reversals. Sov Phys Dokl 1966,

10(8):707?710.

6.17 統合開発環境 Silkに関して

20. Volz J, Bizer C, Gaedke M, Kobilarov G: Silk ? a link discovery framework for the web of data.

In Proceedings of the linked data on the web workshop (LDOW2009). Madrid, Spain: CEUR Workshop

Proceedings; 2009.

6.18 SPARQL endpointに関して

21. Allie SPARQL endpoint. http://data.allie.dbcls.jp/sparql.

3