流通する学術情報コンテンツ: 概論
DESCRIPTION
http://www.nii.ac.jp/hrd/ja/portal/h25/curritxt.html Video: http://www.ustream.tv/recorded/36273915TRANSCRIPT
流通する学術情報コンテンツ―概論―
高久雅生筑波大学図書館情報メディア系
Email: [email protected]: @tmasao
1
平成25年度学術情報ウェブサービス担当者研修
2013年7月24日(水)
自己紹介• 高久雅生(たかくまさお)と申します。• 筑波大学図書館情報メディア系• 職歴:
– 2004~2008: 国立情報学研究所(ポスドク研究員)– 2008~2013: 物質・材料研究機構(エンジニア)– 2013~: 筑波大学図書館情報メディア研究系(准教授)
• 専門・関心:– 情報検索、情報探索行動– 電子図書館– 学術コミュニケーション
• 教員として@知識情報・図書館学類– (図書館情報学教育)– ディジタルドキュメント、文書処理技術– 統計
2
自己紹介:これまで作ったサービス
3
http://fuwat.to/ciniihttp://samurai.nims.go.jp/
http://masao.jpn.org/etc/junii-validator/
お品書き
• 学術情報コンテンツ、学術データとは?
• コンテンツの種別
• コンテンツの形式(フォーマット)
• コンテンツの交換、標準化
• コンテンツの処理
4
データとは?コンテンツとは?
• データ
• コンテンツ
• メタデータ
• ソフトウェア
• ハードウェア
5
データの内容種類
• 雑誌記事
• 学術論文
• 専門書, E-Books
• 辞書・辞典
• ウェブページ
• 実験データ
6
データの形式(フォーマット)
• データの種類と形式
– 構造化データ
– Webデータ
– ページ画像
– 書式スタイル
– パッケージデータ
– 画像データ
– 動画データ
• データ形式の例
– XML, HTML, SGML
– PDF, Flash
– CSS, XSLT
– EPUB, XMDF, .book, AMZ
– JPEG, PNG, GIF, TIFF
– MPEG, MOV
– RSS, Plaintext, YAML, JSON, CSV, …
7
データ形式の切り口 (1)
• テキスト (text) vsバイナリー (binary)
– ビットデータ
– 文字コードによる解釈
– 外字
• フォーマットの指定・識別・判別
• シンプルコンテンツ vs複合メディア
– 埋め込みコンテンツ
– ハイパーリンク
• メタデータ
– 埋め込みメタデータ
– 外部メタデータ記述
• 表示レイアウト
– ページ概念
• 文書内の書式要素
– 見栄え / スタイル
– フォント
• ファイル vsストリーム
– データの保存・蓄積と配信
8
データ形式の切り口 (2)
• オープンフォーマット
– 移植可能性 / ソフトウェア独立性
– Free / proprietary
• 標準化
– デファクト標準とデジュール標準 (“de facto”
vs “de jure”)
• 文書フォーマットのバージョン
• フォーマット変換
– テキスト→ HTML
– LaTeX → PDF
• 圧縮
– 可逆 vs非可逆
• セキュリティ
– パスワード
– 電子署名
• 長期保存
• デジタルフォレンジック
9
データ交換の切り口
• 誰と交換するのか?– 特定の誰か
– 不特定多数
• 交換の頻度は?
• 作成や更新とデータ交換の関係は?
• データの取得、取り込み、保存は自動化、通信する必要があるか?→「通信プロトコル」
– ウェブ:HTTP
– 機関リポジトリ:OAI-PMH
– 検索データベース:Z39.50, OpenSearch, SRU
10
事例:ウィキペディア
11
12
13
14
15
‘’’Wikiepedia’’’(ウィキオペディア)はオンラインhyっ科辞典として拝領する。
ウィキペディアの構造と処理モデル
16
ブラウザ
閲覧
利用者
サーバ
http://commons.wikimedia.org/wiki/File:Wikimedia_Servers-0051_16.jpg
‘’’国立情報学研究所’’’(こくりつじょうほうがけんきゅうじょ)は情報学の先端研究所…
<h1>国立情報学研究所<h1><p><strong>国立情報学研究所</strong>(こくりつじょうほうがけんきゅうじょ)は情報学の先端研究所…
‘’’国立情報学研究所’’’(こくりつじょうほうがけんきゅうじょ)は情報学の先端研究所…
MediaWikiソフトウェア
①
②③
④
⑤
まとめ
• 学術情報コンテンツ、学術データとは?
• コンテンツの種別
• コンテンツの形式(フォーマット)
• コンテンツの交換、標準化
• コンテンツの処理
• 最後に…
– 一方で、プラットフォーム化とサービス化が加速
– 「コンテンツ」「ソフトウェア」「ハードウェア」という整理だけでは把握しきれないサービス
17
18
19
ウェブ
インターネットネットワーク / 通信
コンテンツ
ユーザ / 利用者
サービス!