rdf化したmeshとライフサイエンス辞書を利用した生命科学概念に基づく日本語レビュー記事の絞り込み検索...
TRANSCRIPT
RDF化したMeSHとライフサイエンス辞書を利用した生命科学概念に基づく日本語レビュー記事の絞り込み検索
山本 泰智 (@yayamamo)ライフサイエンス統合データベースセンター
第33回セマンティックウェブとオントロジー研究会 2014/08/20
0"
100,000"
200,000"
300,000"
400,000"
500,000"
600,000"
700,000"
800,000"
900,000"
1,000,000"1945"
1947"
1949"
1951"
1953"
1955"
1957"
1959"
1961"
1963"
1965"
1967"
1969"
1971"
1973"
1975"
1977"
1979"
1981"
1983"
1985"
1987"
1989"
1991"
1993"
1995"
1997"
1999"
2001"
2003"
2005"
2007"
2009"
2011"
2013"
Count&
文献が指数関数的に増えている
24,107,567*
* 2014/8/17現在
昨年だけで約百万件、一時間に約114件追加されたことになる。
24,112,309
第33回セマンティックウェブとオントロジー研究会 2014/08/20
0"
1"
2"
3"
4"
5"
6"
0"
100,000"
200,000"
300,000"
400,000"
500,000"
600,000"
700,000"
800,000"
900,000"
1,000,000"
1945"
1947"
1949"
1951"
1953"
1955"
1957"
1959"
1961"
1963"
1965"
1967"
1969"
1971"
1973"
1975"
1977"
1979"
1981"
1983"
1985"
1987"
1989"
1991"
1993"
1995"
1997"
1999"
2001"
2003"
2005"
2007"
2009"
2011"
2013"
研究対象が広がり細分化している
文献当たりの平均MeSHターム(Major)数(右目盛り)
MeSHターム(Major)の概念構造内での平均深さ (右目盛り)
MeSHターム(Major)Subheadの平均個数 (右目盛り)
第33回セマンティックウェブとオントロジー研究会 2014/08/20
最新の研究成果を効率良く把握したい
多くの雑誌はRSSやSNSで掲載文献に関する最新情報を提供
第33回セマンティックウェブとオントロジー研究会 2014/08/20
母国語で最新の研究成果を知りたい
第33回セマンティックウェブとオントロジー研究会 2014/08/20
「新着論文レビュー」の特徴
トップジャーナルに掲載された日本人を著者とする生命科学分野の論文について,
論文の著者自身の執筆による日本語のレビューを,
だれでも自由に閲覧・利用できるよう,いち早く公開します.
http://first.lifesciencedb.jp/ より
第33回セマンティックウェブとオントロジー研究会 2014/08/20
新着論文レビューは700近い記事を提供
着実な増加が見込まれる
効率良く記事を探したい
広い生命科学分野の様々な概念と記事を紐付けたい
第33回セマンティックウェブとオントロジー研究会 2014/08/20
関連データ資源: MeSH
Medical Subject Headings (MeSH)
米国National Library of Medicineによるシソーラス
PubMed/MEDLINE検索向け
毎年更新、言語は英語
概念数は 27,149
第33回セマンティックウェブとオントロジー研究会 2014/08/20
関連データ資源: LSD
Life Science Dictionary (LSD)
ライフサイエンス辞書プロジェクトによる言語資源
日英対訳やシソーラス、MeSHとの関係などを収録
適宜 (隔年程度?) 更新
日本語125,061語、英語111,518 語
第33回セマンティックウェブとオントロジー研究会 2014/08/20
RDFを用いた構造化
これまで: MeSH、LSD共にRDF化されている
そこで: MeSHとLSDを結ぶリンクを生成する
更に: LSDと新着論文レビューの記事を紐付けるために各記事をRDFにより構造化する
その結果: MeSHの概念階層を利用した、日本語によるディレクトリ型の検索システムを構築する
第33回セマンティックウェブとオントロジー研究会 2014/08/20
方法
記事の取得
記事構造の抽出
文の認識と形態素解析、チャンキング
チャンク/形態素単位でのLSDターム認識
RDF化
Webアプリ化
Web::Scraper
Kuromoji
Text::Scan
RDF::Trine
VirtuosoTogoStanza
第33回セマンティックウェブとオントロジー研究会 2014/08/20
LSDタームの認識手順M\PUZ_[]914523'POT\�"�L��>JC78��FGA@:�=7HEB6A@�
C78#|"� "��#|" "F#|"� "GA@:#|"� "�=7#|"�� "HE#|" "B#|"�� "6A#|"�� "@#|"�� �
M\PUZ_[]#|" "9#|"� "14523#|" "'#|" "POT\#|" "�"#|" "�#|" "L#|"� "��#|" ">J#|"� "
M\PUZ_[]"Notch1POT\�"�"��"��#�
Notch"+"POT\�"�"
NotchPOT\#+"�"�"
NotchPOT\�"#+"�"
���
��
��
0&&+&()/#M\PUZ_[]�0&(''-,/#VSR$14523%�0&)&&)'/#POT\�"��0&'.(+'/#�"��0&'*.../#���0&',.(*/#���
��
���
���
����
�� ������RY]N]O�
��� }�;KIE��L !DLSDEQ_XLWSR<?J�
���^Luca"Scorrano"(CC"��#2.1"��)�
第33回セマンティックウェブとオントロジー研究会 2014/08/20
利用した既存の語彙
DCMI Metadata Terms (dcterms)
The Bibliographic Ontology (bibo)
The Document Components Ontology (doco)
Annotation Ontology (ao)
Annotation Ontology FOAF (aof)
Provenance Ontology (pav)
第33回セマンティックウェブとオントロジー研究会 2014/08/20
http://navi.first.lifesciencedb.jp/archives/7771
http://www.ncbi.nlm.nih.gov/pubmed/24091702
������������������ ��� ��� �������������
rdfs:labeldcterms:title bibo:authorListdoco:Titlerdfs:seeAlsobibo:Document
rdf:type
http://navi.first.lifesciencedb.jp/archives/7771#1
http://navi.first.lifesciencedb.jp/archives/7771#2Ca2
http://navi.first.lifesciencedb.jp/archives/7771#3Notch1
dcterms:hasPart dcterms:isPartOf
aof:annotatesDocument
ao:Annotatoin
rdf:type
lsd:J026214
ao:hasTopic
lsd:J027250
ao:hasTopic
lsd:J012999
ao:hasTopic
doco:Section
rdf:type
aof:annotatesDocument
aof:annotatesDocument
aof:annotatesDocumentURI (含ブランク)
����
凡例
生成RDFグラフの一部
第33回セマンティックウェブとオントロジー研究会 2014/08/20
結果
合計トリプル数: 4,967,353
総記事数: 692
延べ認識語数: 527,718
異なり認識語数: 14,824細胞、遺伝子、発現、...
http://navi.first.lifesciencedb.jp/stanza/top
ftp://ftp.dbcls.jp/afara
第33回セマンティックウェブとオントロジー研究会 2014/08/20
今後の計画
インターフェースの改善
検索の効率化
Dereferenceable URIで得られるデータの修正
広く利用して頂けるよう各所で紹介
アルバイト募集中です。@yayamamo / [email protected]
までお願いします。