教育研究論文索引とciniiの重複率(情報知識学会 第19...
TRANSCRIPT
教育研究論文索引とCiNiiの重複率
江草由佳(国立教育政策研究所)
高久雅生(物質・材料研究機構)
背景
• 様々な論文データベース– 作成方針が様々
• シームレスにつなげて利用したいニーズの高まり
• 解決策:例えば、リンクリゾルバ– なかなかうまくできない現実
– 表記の揺れがあり、そのままの書誌データではうまくつなげられない
– 統一的なIDがない(IDがあればつなげるのは簡単)• すべてにIDが付与されているわけではない。
– 過去に作成した膨大なデータをどうするか?• (新しい論文はIDがついている(DOIなど)、付けられるとしてよいとしても)
目的
• モチベーション:
– 異なる作成方針のデータベースをシームレスにつなげたい
• 基礎的な調査として
– 2つの異なる作成方針のデータベースの重複率の調査
– 調査手法の確立
対象データベース(1)‐‐ 教育研究論文索引(EPI) ‐‐
• 国立教育政策研究所教育研究情報センター教育図書館(以降は教育図書館と呼ぶ)が作成
• 教育分野の研究論文や記事のみを収録
• 収録対象誌
– 教育図書館が受け入れた大学紀要すべて
– 教育関係雑誌(学協会、商業誌)約300誌
• 181,294件(2011年3月時点)
対象データベース(2)‐‐ CiNii(サイニィ) ‐‐
• 国立情報学研究所(NII)が作成
• 複数のデータベース作成機関より提供されたデータベースを統合したデータベース– 引用文献索引データベース(NII)
自然科学分野の論文の引用文献– NACSIS‐ELS(NII)
大学紀要や学協会誌など– 雑誌記事索引(国立国会図書館)
学協会誌、商業誌なども含む– J‐STAGE(科学技術振興機構)など
学協会誌
• 14,727,980件(2011/05/22 現在)
調査結果
• EPI(教育研究論文索引)
• CiNii (サイニィ)
重複率(EPIのうち、CiNiiにもあるレコード)は:
59% ~ 64%
EPI
CiNii
※EPI とCiNii に重複しているレコードは,EPIの164,643 件中,少なくとも97,166 件(59%)は ある。サンプル調査の結果では、64%であった。
調査方法と調査時期
• 調査方法
– 全数調査:全てのレコードを対象
– サンプル調査:サンプル1000件のレコードを対象
• 調査時期
– 第1期・・・2009年2月20日~2010年3月19日– 第2期・・・2010年3月30日~2011年2月4日
調査方法(全数調査)
EPI
TSV論文書誌
論文書誌
論文書誌
TSV
論文書誌EPI01
論文書誌EPI02
論文書誌EPI03
候補論文書誌CiNii01
候補論文書誌CiNii02
候補論文書誌CiNii03
正解
不正解
不正解
同じ論文をさす論文書誌かどうか人手判定
候補検出プログラム
全データを抽出
CiNii
一致率が著しく低下したら中止する
類似度順
相澤のiLinkageによるレコード同定の手法
本当にCiNiiにないかは不明
・・・
・・・
候補論文出力例
• EPI書誌ID: EA00000770• EPIの書誌データ: 松本昭彦 中古・中世文学に見る
「七歳」の意味 小学校満六歳入学制の淵源として三重大学教育学部研究紀要 教育科学 三重大学教育学部 59 311 320 2008
• CiNiiの書誌データ: 著者: 松本 昭彦 Matsumoto Akihiko;論題: 中古 中世文学に見る 七歳 の意味小学校満六歳入学制の淵源として; 掲載誌: 三重大学教育学部紀要 自然 人文 社会 教育科学;巻号: 59;ページ: 1‐10;発行年: 2008
• CiNiiのURL: http://ci.nii.ac.jp/naid/120001164708• 類似度: 0.150938
調査方法(サンプル調査)
EPI
TSV
論文書誌
論文書誌
論文書誌
TSV
論文書誌EPI01
論文書誌EPI02
論文書誌EPI03
候補論文書誌CiNii01
候補論文書誌CiNii02
候補論文書誌CiNii03
正解
不正解
不正解
同じ論文をさす論文書誌かどうか人手判定
候補検出プログラム
ランダムに1000件抽出
CiNii
CiNiiにあり
CiNiiになし
CiNiiにあるかどうか人手調査
相澤のiLinkageによるレコード同定の手法
EPIレコード数(予稿集:表2)
手順 第1期 第2期
データ取得 154,624 164,643候補検出 154,624 163,265
人手判定候補 154,624 68,956
人手判定 99,500 17,000
‐1,378
‐94,309
第1期ですでに判定済みのもの(当該候補CiNii 論文データが不一致と判明しているもの,もしくはすでに,EPI 論文データと一致CiNii 論文データが判明しているの)
候補がなかったもの
削除レコード1件を除き1期分をすべて含む
第1期,第2期調査のまとめ(p.128 表6)
全164,643件中(少なくとも)98,222件CiNiiと重複したレコードがあるつまり 98,222 ÷ 164,643 = 59.7%
サンプル調査結果(p.128 表7)
639 =
= =138 355
=361
つまり、レコード1000件中639件CiNiiにもあるレコードである。63.9%が重複する
639
361
重複論文
重複なし
108, 17%
528, 83%
本文の有無本文あり 本文なし
8, 7% 6, 6%
95, 87%
有料 定額公開 オープンアクセス
本文の有無
※CiNiiのAPIのうち、2011年5月23日に追加された項目:「CiNii本文有無と提供条件」を使用して調査した
まとめ
• 全数調査(類似度の高いものから全て):– 第1期は99,500レコードの人手判定– 第2期は17,000レコードの人手判定– EPI:164643件中少なくとも98,222件(59.7%)はCiNiiにもある
重複したレコード
• サンプル調査(1000件のランダム抽出):– EPI:1000件のうち、639件(63.9%)はCiNiiにもある重複した
レコード– うち、本文があるものは108件であり、1000件のうち10.8%
は本文があった。
• この結果は教育図書館の実サービスに反映– EPIからCiNiiへのリンクが実現
謝辞
• 調査に使用した教育研究論文索引レコードに対するCiNii 論文候補検出は,相澤彰子教授
(国立情報学研究所)が開発したレコード同定システムとその同定結果をご提供いただいたものです.深く感謝いたします.
ここからは予備スライド
調査時期(予稿集:表1)
手順 第1期 第2期
データ取得 ’09年2月20日 ’10年3月30日
候補検出 ’09年3月15日 ’10年4月22日
人手判定’09年12月7日
~’10年3月19日
’10年11月25日~
’11年2月4日
第1期判定分の結果(予稿集:表4)
第2期分の判定結果(予稿集:表5)
EPIレコード例
• 書誌ID: EA00000770
• 論題名: 中古・中世文学に見る「七歳」の意味―小学校満六歳入学制の淵源として
• 掲載誌名: 三重大学教育学部研究紀要
• 巻号: 59
• 著者: 松本昭彦
• 発行日付: 2008.3
• ISSN: 0389925X
• 掲載ページ: 311-320
候補検出論文の項目
• EPIの論文書誌レコードデータ
• 対応するCiNiiの候補論文書誌レコードデータ,URL
• EPI論文とCiNii候補論文の類似度
類似度の分布(予稿集:表3)
サンプル調査結果(図3)
‐1
‐0.8
‐0.6
‐0.4
‐0.2
0
0.2
0.4
0.6
0.8
1
0 100 200 300 400 500 600 700 800 900 1000
1:CiNiiにある 0:CiNiiにない
類似度(‐1は未検出)
CiNiiに未収録の具体例 (表8)
判定の判断が難しかったレコード
• 書誌レコードを作成する際の入力ミスと推定されるもの
• EPI とCiNii のレコードの記述規則による違いによるもの
• 特集号全体と特集号の一論文など収録粒度の違いに起因するもの
レコードの人手判定
• 論文書誌情報が単に同一のものであるか否かを見るだけではない
• 粒度や,いくつかの情報源を参照しながら判定を行う
• 書誌レコードの粒度が異なる場合は異なるレコードと判定– 例:
• 特集号全体を1つのレコードとしたものと,
• 特集号の中の1 論文が1 つのレコードとなっているもの→ 異なるレコードとして判定する