【文献調査】 - doshisha...2016/04/28 · medline 中の用語とdbpedia...
TRANSCRIPT
医療情報システム研究室 ドライバ班
【文献調査】Building Linked Open Data towards integration of
biomedical scientific literature with DBpedia
和田 寛 廣安 知之 日和 悟
2016年 04月 28日
1 タイトル
生物医学科学文献と DBpediaの統合に向けた Linked Open Data構築
2 著者
Yasunori Yamamoto
Atsuko Yamaguchi
Akinori Yonezawa
3 出典
Journal of Biomedical Semantics, Vol.4, pp.8,2013
4 アブストラクト
4.1 背景
多様な機関から提供されるデータベースへの効率的かつ統合的な利用方法が求められている.Linked Dataの設
計パターンを利用することで,Web上の多様なデータを効果的にリンクし,コンピュータによって効率的に利用
することができる.以前,我々は Alieというデータベースを開発し,生命科学の分野で使用される略語と正式名
(LF)のペアをそこに格納した.LFとは略語の意味を定義し,Alieは研究者が不慣れな略語の意味をルックアッ
プするWebベースの検索サービスを提供している.しかし,このサービスにおいて二つの問題が発生した.まず,
それぞれの意味定義は明確には表示されず,簡単に略語を学ぶためのユーザを助けることができない.さらに,完
全な辞書を容易するためにはあまりにも多くの意味があります.一方,DBpediaは多くの意味定義を対応させる
ことが期待でき,RDFによってWikipediaのコンテンツが利用可能である.したがって,DBpediaに Alieの意
味定義をリンクすることで Alieの問題の解決に繋がる.これらより,Alieと DBpediaは頻繁に更新されるため,
合理的な期間内に文字列のペアを多く一致させる方法が必要です.
4.2 結果
我々は単純な近似文字列マッチング方法を用いてリテラルへのキーの関連付けを行ったことにより,DBpediaの
タイトルへの意味定義をリンクした lODを構築した.さらに,我々は生命科学の用語を標準化するために UMLS
リソースを使用した.その結果,ドメイン固有のリソースでキーとの組み合わせは 44027あり,これは DBpedia
のタイトルへのリンクが記述されています.我々は,手動でランダムに 1200の意味定義をサンプリングすること
により,文字列マッチングの精度を評価し,我々のアプローチは 0.98の F値を達成した.また,我々の実験は以
下を明らかにした.
• MEDLINE(医学学術文献データベース)中の意味定義と同じ精度を得た.
• MEDLINE中の用語と DBpediaのタイトルにおける存在確率で R2=0.96,P¡0.01を得た.
4.3 結論
得られた結果はAlieのユーザが正しい意味定義を見るけることに役立つ.この方法は計算上容易で高いパフォー
マンスを得ることが可能である.また,MEDLINE中で多く使用される用語は頻繁にDBpediaのタイトルによっ
て表示されることで,我々は継続的かつ合理的に DBpediaの最新の出版物や追加を反映するように LODデータ
セットを更新することが可能である.科学文献と DBpediaの間の意味定義は相互利益のための資源探索を可能に
1
する.
5 キーワード
Linekd Open Data, biomedical scientific literature, DBpedia, LF, semantic, RDF
6 参考文献
6.1 データベースに関して
1. NAR database summary paper alphabetic list. 2012. http://www. oxfordjournals.org/nar/database/a/.
2. Galperin MY, Fern?ndez-Su?rez XM: The 2012 nucleic acids research database issue and the online
molecular biology database collection. Nucl. Acids Res. 2012, 40(D1):D1?D8.
3. Nelson B: Interdisciplinary studies: seeking the right toolkit. Nature 2011, 476:115?117.
6.2 Linekd Dataに関して
4. Linked data - connect distributed data across the Web. http://linkeddata.org/.
6.3 RDFに関して
5. Resource description framework (RDF). http://www.w3.org/RDF/.
6.4 Allieデータベースに関して
6. Yamamoto Y, Yamaguchi A, Bono H, Takagi T: Allie: a database and a search service of abbreviations
and long forms. Database 2011:bar013.
6.5 ALICEツールに関して
7. Ao H, Takagi T: ALICE: An Algorithm to Extract Abbreviations from MEDLINE. J Am Med Inform
Assoc 2005, 12:576?586.
6.6 Wikipediaに関して
8. Wikipedia. http://www.wikipedia.org/.
6.7 インターネットに関して
9. Wikipedia (entry page). http://en.wikipedia.org/wiki/Wikipedia.
6.8 DBpediaに関して
10. DBpedia. http://dbpedia.org/.
6.9 LOD cloudに関して
11. The linking open data cloud diagram. http://richard.cyganiak.de/2007/10/lod/.
6.10 LODプロジェクトに関して
12. Bizer C, Heath T, Idehen K, Berners-Lee T: Linked data on the web (LDOW2008). In Proceedings of
the 17th international conference on World Wide Web (WWW ’08). Beijing, China: ACM; 2008:1265?1266.
6.11 RDFリンクに関して
13. LinkingOpenData. http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData.
6.12 Google Refineに関して
14. google-refine. https://github.com/OpenRefine.
15. ClusteringInDepth. http://code.google.com/p/google-refine/wiki/ClusteringInDepth.
6.13 UMLS(Unified Medical Language System)に関して
16. Unified medical language system (UMLS). http://www.nlm.nih.gov/research/umls/.
6.14 ダイス係数に関して
17. Richard CA, George EF, Peter W: Automatic spelling correction using a trigram similarity measure. Inf
Process Manag 1983, 19(4):255?261.
2
6.15 ジャロ・ウィンクラー距離に関して
18. Winkler WE: String comparator metrics and enhanced decision rules in the fellegi-sunter model of record
linkage. In Proceedings of the section on survey research methods. 1990:354?359.
6.16 レーベンシュタイン距離
19. Vladimir IL: Binary codes capable of correcting deletions, insertions, and reversals. Sov Phys Dokl 1966,
10(8):707?710.
6.17 統合開発環境 Silkに関して
20. Volz J, Bizer C, Gaedke M, Kobilarov G: Silk ? a link discovery framework for the web of data.
In Proceedings of the linked data on the web workshop (LDOW2009). Madrid, Spain: CEUR Workshop
Proceedings; 2009.
6.18 SPARQL endpointに関して
21. Allie SPARQL endpoint. http://data.allie.dbcls.jp/sparql.
3