lod and jwo for tokyowebmining35th

61
Linked Open Dataと日本語 Wikipediaオントロジー 玉川 奨 2014.4.26

Upload: stamagawa

Post on 28-May-2015

4.136 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: LOD and JWO for TokyoWebmining35th

Linked Open Dataと日本語Wikipediaオントロジー

玉川 奨

2014.4.26

Page 2: LOD and JWO for TokyoWebmining35th

玉川 奨

twitter : s_tamagawa

2

2011年3月 慶應義塾大学理工学研究科 前期博士(修士)課程 卒業 2011年4月 慶應義塾大学理工学研究科 助教 就任 2012年4月 学術振興会 特別研究員(DC2) 2014年3月 慶應義塾大学理工学研究科 後期博士課程 修了 2014年4月 株式会社サイバーエージェント 入社

研究テーマ : 日本語Wikipediaからの 大規模オントロジー学習 研究室 : 慶應大学理工学部 山口高平研究室(知識工学系) Keyword : オントロジー, セマンティックWeb, Linked Open Data, 質問応答, 自然言語処理

Page 3: LOD and JWO for TokyoWebmining35th

目次

1. オントロジーと日本語Wikipediaオントロジー

1.1. オントロジーとは

1.2. 日本語Wikipediaオントロジー概要

1.3. 日本語Wikipediaオントロジーの評価と利用

2. Linked Open Data

2.1. Linked Open Dataとは

2.2. 海外のLOD事例

2.3. 日本のLODの取り組み

2.4. 政府のOpen Data化に向けた取り組み

3. Linked Open Vocabularies

3.1. LOVと標準語彙

3

Page 4: LOD and JWO for TokyoWebmining35th

オントロジーと 日本語Wikipediaオントロジー

Page 5: LOD and JWO for TokyoWebmining35th

オントロジー オントロジーの三要素

クラス

インスタンス

プロパティ

オントロジーの利用 セマンティックWeb,データ検索,データ統合

武士

戦国大名

人物

歴史の人物

征夷大将軍

日本史の人物 中国史の人物

源頼朝

征夷大将軍

徳川家康

戦国大名

織田信長

徳川家康

織田信長 主君

豊臣秀吉 主君

主君

クラス間の階層関係

クラス-インスタンス関係

インスタンスとプロパティネットワーク

セマンティックWebの技術階層 (W3Cにより標準化)

5

Page 6: LOD and JWO for TokyoWebmining35th

オントロジーの分類 上位オントロジー(Upper Ontology・Top-level Ontology)

上位概念のオントロジー

領域オントロジー(Domain Ontology) 実際の業務等の目的のための専門的なオントロジー

汎用オントロジー(General Ontology) 汎用的な利用のために広く様々な概念を含むオントロジー

手動構築

6

上位オントロジー DOLCE

YAMATO

汎用オントロジー WordNet

日本語語彙大系

領域オントロジー ○○オントロジー

オントロジー

Page 7: LOD and JWO for TokyoWebmining35th

Linked Open Data (LOD) Web上で公開され,相互に連結するRDFデータ

オントロジーの抽象的な概念構造の利用における高いハードル

具体物であるインスタンスの記述をしたRDFのデータベースを公開・共有し合うべきという風潮が高まっている

2007年5月

2008年5月

2011年9月

英語版Wikipediaから 構築されたDBpediaは 様々な他のLOD ハブとなっている

メディア

地理

出版物 政府

生命科学 クロス ドメイン

その他

データセット数 : 326 トリプル数 : 500億以上

<rdf:Description rdf:about=“http://ja.dbpedia.org/resource/福澤諭吉">

<dbpprop:notableworks xml:lang="ja">『学問のすゝめ』</prop-ja:majorWorks>

</rdf:Description>

福澤諭吉 学問のすゝめ dbpprop:notableworks

7

DBpedia

Page 8: LOD and JWO for TokyoWebmining35th

オントロジーの自動構築とWikipedia オントロジーの手動構築における問題点

コスト(人・時間)がかかる

概念と概念間の関係を見つけ,定義することが困難

保守や更新が難しい

最新語彙や専門用語をカバーするための保守や更新が困難

情報資源としての“Wikipedia” 英語版:約436万記事,日本語版:約88万記事

半構造化情報資源

語彙網羅性が高い

最新語彙や専門用語を多く含む

Wikipediaからのオントロジー構築 オントロジーとのギャップが小さい

汎用性が高い可能性

オントロジーの更新が容易な可能性

Ontology

wikipedia

Folksonomy tag

Free text

well-structured

semi-structured

ill-structured

no-structured Wikipediaは情報資源として注目されている

自動構築

8

Page 9: LOD and JWO for TokyoWebmining35th

関連研究 - Wikipediaからのオントロジー構築

S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak and Z. Ives http://dbpedia.org/

Infobox(半構造化情報)に着目し, 大規模なデータベースを作成 -英語版:約364万facts -海外ではLinked Open Dataのハブとして広く利用されている

Ruby まつもとゆきひろ

RDFトリプル

プロパティ

設計者

J. Hoffart, F. M. Suchanek, K. Berberich and G. Weikum http://www.mpi-inf.mpg.de/yago-naga/yago/

WordNetにWikipediaの

概念を付加する事で

大規模オントロジーを構築

-クラス:約37万

-facts:約1.2億

WordNet

Wikipedia

(既存の階層を利用)

•YAGO2 : A Spatially and Temporally Enhanced Knowledge Base from Wikipedia

•DBpedia : A Nucleus for a Web of Open Data

国内:上位下位関係(階層関係)に焦点をあてている

日本語LODのハブとしては不十分

9

Page 10: LOD and JWO for TokyoWebmining35th

目的 – 大規模で汎用的なオントロジー の自動構築と利用

大規模で汎用的なオントロジーの構築 日本語版Wikipediaを情報資源としたオントロジーの半自動構築

質の高いオントロジーの構築 クラススキーマ階層

オントロジーの利用 領域オントロジー構築支援→初期領域オントロジーとして再利用

日本語Linked Open Dataのハブ

日本語Wikipediaオントロジープロジェクト : http://www.wikipediaontology.org

作家

芥川龍之介

rdf:type

代表作 羅生門

著作

rdfs:subPropertyOf

小説

rdf:type

rdfs:domain rdfs:range

小泉純一郎 小泉進次郎 親族

owl:SymmetricProperty

10

夕食に『ラーメン』を食べたよ!

○○ラーメンがおいしいよ!

夕食に『紙』を食べたよ!

紙は食べ物じゃないよ! 本当は何を食べたの?

Page 11: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 (全体像)

11

Page 12: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 is-a関係の抽出

•カテゴリ階層に対する文字列照合 •カテゴリ名とInfobox テンプレートの照合 •目次見出しのスクレイピング

12

Page 13: LOD and JWO for TokyoWebmining35th

http://ja.wikipedia.org/wiki/Category:プログラミング言語 カテゴリとカテゴリ階層 カテゴリ階層

カテゴリ「プログラミング言語」

性質の継承という観点からのis-a関係数 : 約6割

• has-a関係

• クラス-インスタンス関係

• その他の関係が混在

カテゴリ階層からis-a関係のみを抽出

カテゴリ数:122,199

13

9種類の主要カテゴリ

Page 14: LOD and JWO for TokyoWebmining35th

カテゴリ階層に対する文字列照合 後方文字列照合

前方文字列照合部除去

日本の空港

空港

日本の空港

空港

is-a

カテゴリ階層 クラス階層

サブカテゴリ

日本のゴルファー

日本のスポーツ選手

ゴルファー

スポーツ選手

is-a

カテゴリ階層 クラス階層

サブカテゴリ

合計:12,558 (93.1%)

is-a関係

親クラス 子クラス 麺料理 焼きそば メディア 音楽 メディア 新聞 企業 金融機関 作家 詩人

親クラス 子クラス 高速道路 各国の高速道路

高速道路画像 阪神高速道路画像 高速鉄道 台湾高速鉄道

魚類 化石魚類 魚類 軟骨魚類

後方文字列照合: 7,971

前方文字列照合部除去: 4,587

14

Page 15: LOD and JWO for TokyoWebmining35th

カテゴリ名とInfoboxテンプレートの照合

「楽器」テンプレート

鍵盤楽器 | ピアノ

「ピアノ」記事が所属するカテゴリ

is-a関係:3,782(95.6%)

楽器

鍵盤楽器

ピアノ

「ピアノ」記事

is-a

is-a

親クラス 子クラス

哲学者 儒教家

男性モデル 男性ファッションモデル

商業施設 スーパーマーケット

テレビ番組 深夜アニメ

ソフトウェア 電子メールソフト

言語 日本語

15

Page 16: LOD and JWO for TokyoWebmining35th

目次見出しのスクレイピング

is-a関係:83,228 (72.6%)

親クラス 子クラス

医学 臨床医学 臨床医学 臓器別分類

臓器別分類 循環器学 臓器別分類 消化器学 歯原性腫瘍 悪性腫瘍 悪性腫瘍 歯原性癌腫

歯原性癌腫 転移性エナメル上皮腫

歯原性癌腫 エナメル上皮癌

==種類== *木材パルプ **N材 **L材 *非木材パルプ **バガスパルプ **ワラパルプ *古紙パルプ

パルプ

パルプ

木材パルプ 非木材パルプ 古紙パルプ

N材 L材

バガスパルプ ワラパルプ

is-a is-a

is-a

16

Page 17: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 クラス―インスタンス関係の抽出

•一覧記事のスクレイピング

17

Page 18: LOD and JWO for TokyoWebmining35th

クラス-インスタンス関係の抽出

一覧記事数 約12,000 クラス-インスタンス関係:

421,989(97.2%)

東京都出身の人物一覧

東京都出身の人物

小平邦彦

秋葉忠利

三田一郎

数学者

物理学者

= =

= =

タイトルがクラス 項目がインスタンスを表している

クラス インスタンス 慶應義塾大学の人物 三浦まり 慶應義塾大学の人物 山本達雄 慶應義塾大学の人物 池田成彬

日本の観光地 草津 日本の観光地 浅草 日本の観光地 秋葉原

ノーベル賞受賞者 パトリック・ブラケット ノーベル賞受賞者 湯川秀樹 ノーベル賞受賞者 セシル・パウエル

18

Page 19: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 プロパティ名とトリプルの抽出

•Infoboxのモデリングによる抽出 •記事のリスト構造からのスクレイピングによる抽出

19

Page 20: LOD and JWO for TokyoWebmining35th

Infoboxのモデリングによるプロパティ抽出

コンピュータゲーム テンプレートページ

(記事ソース) MediaWiki書式

マリオブラザーズ

任天堂 発売元

人数 1~2人 インスタンス

インスタンス

リテラル

owl:ObjectProperty

owl:DatatypeProperty 40種類のテンプレートについて モデリング(約7割)

20

プロパティ数 : 7,137

トリプル数 : 1,962,411 (92.5%)

Page 21: LOD and JWO for TokyoWebmining35th

記事のリスト構造からのスクレイピングによる抽出

芥川龍之介

老年

インスタンス

インスタンス

著作 羅生門

インスタンス

インスタンス

21

プロパティ数 : 3,980

トリプル数 : 2,919,470 (95.2%)

Page 22: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 プロパティ定義域の抽出

•Infoboxテンプレート名とカテゴリ名の照合

22

Page 23: LOD and JWO for TokyoWebmining35th

Infoboxテンプレート名とカテゴリ名の照合 によるプロパティ定義域抽出

「武士」テンプレート

戦国大名 | 織田氏

「織田信長」記事が所属するカテゴリ

武士

戦国大名

織田氏

「織田信長」記事

is-a

is-a

各プロパティの 定義域

として抽出

プロパティ名 定義域

出身校 政治家

売上高 会社

開発元 コンピュータゲーム

出身地 女性モデル

来館者数 博物館

23

関係数 : 9,486 (94.8%)

約8割のプロパティは定義域を持つ

Page 24: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 プロパティ値域の抽出

•クラス-インスタンス関係からの抽出 •is-a関係からの抽出

プロパティ名 値域

テレビアニメ 漫画作品

キャスト 男優

映画 映画作品

出演者 俳優

24

関係数 : 40,262 (90.4%)

Page 25: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 プロパティ上位下位関係の抽出

•プロパティトリプルを利用した抽出

上位プロパティ 下位プロパティ

キャスト 出演者

スタッフ 監督

祭神主 祭神

関連会社 主要子会社

著作 代表作

25

関係数 : 1,387(57.5%)

Page 26: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 プロパティタイプの推定

•プロパティトリプルの照合による推定

対称関係(関連学校,接続道路),推移関係(後方互換),関数関係(毛色,築城主),逆関数関係(収録作品)の4つのプロパティタイプを推定

26

Page 27: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築 その他の関係の抽出

•上位下位関係 (jwo:hyper) •関連語・同義語(jwo:nearly) •動詞とプロパティの関係(jwo:verb)

27

Page 28: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの自動構築

28

Page 29: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの全体像

全ての手法を統合し, 一つのオントロジーとして構築

使用言語 : Java 使用DB : MySQL コード数 : 40,060行

日本語Wikipediaオントロジー統計情報(20131107版) 1500万以上の関係

日本語Wikipediaオントロジープロジェクト : http://www.wikipediaontology.org

29

Page 30: LOD and JWO for TokyoWebmining35th

30

日本語Wikipediaオントロジー

Page 31: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジー LODの設計

Linked Open Data Design Issueに則ったモデル モノの名前にURIを利用し,参照できる

http://www.wikipediaontology.org/instance/福澤諭吉

http://www.wikipediaontology.org/property/国籍

URIを参照した時,Web標準の技術(RDF/SPARQL等)を使う

http://www.wikipediaontology.org/data/instance/福澤諭吉

SPARQLエンドポイントの用意

外部データへのリンク(URI)を含める

DBpedia Japanese

LODAC

saveMLAK 等

31

Page 32: LOD and JWO for TokyoWebmining35th

既存の日本語汎用オントロジーとの比較

Ont Path

人 (音楽家)

JWO 事物-人物-音楽家-演奏家-ギタリスト-ジャズ・ギタリスト

N 名詞-具体-主体-人-人_職業_地位_役割-人_職業 -人_専門的技術的職業-芸術家-音楽家

WN ものー全般-生き物-生物-人-エンターテイナー-公演者-ミュージシャン-ギタリスト

無 生 物

(兵器)

JWO 文化と歴史-出来事-政治-行政-軍事-兵器-航空兵器-空対空ミサイル -イギリスの空対空ミサイル

N “兵器”の類はなし

WN もの-全般-出土品-機器-機器-装甲-ミサイル-空対空ミサイル

抽 象 物

(過去)

JWO “過去”は未定義

N 名詞-抽象-抽象的関係-時間-非暦日-現在_過去_未来-過去

WN 属性-時-古-過去

JWO:日本語Wikipediaオントロジー N:日本語語彙大系 WN:日本語WordNet

利点 •特定分野については、他にはない細かな分類 •多くの固有表現を持つクラス •用語数は日本語語彙大系(30万語), WordNet(15万語)に比べ非常に多い (クラス16万+クラスにタイプ付けされたインスタンス70万)

欠点 •上位概念の不足 •抽象的な概念の不足

32

Page 33: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーと外部LODを用いた 検索・分析ツール

日本語Wikipediaオントロジーと外部LODの検索ツール : WiLD

33

Page 34: LOD and JWO for TokyoWebmining35th

WiLD

34

Page 35: LOD and JWO for TokyoWebmining35th

ロボット連携 35

Page 36: LOD and JWO for TokyoWebmining35th

XBRL LODとの連携

金融庁 EDINETのXBRLから半自動的に構築したLOD http://xbrl-lod.org/

36

Page 37: LOD and JWO for TokyoWebmining35th

Linked Open Data

Page 38: LOD and JWO for TokyoWebmining35th

Linked Open Data (LOD) Web上で公開され,相互に連結するRDFデータ

オントロジーの抽象的な概念構造の利用における高いハードル

具体物であるインスタンスの記述をしたRDFのデータベースを公開・共有し合うべきという風潮が高まっている

2007年5月

2008年5月

2011年9月

英語版Wikipediaから 構築されたDBpediaは 様々な他のLOD ハブとなっている

メディア

地理

出版物 政府

生命科学 クロス ドメイン

その他

データセット数 : 326 トリプル数 : 500億以上

<rdf:Description rdf:about=“http://ja.dbpedia.org/resource/福澤諭吉">

<dbpprop:notableworks xml:lang="ja">『学問のすゝめ』</prop-ja:majorWorks>

</rdf:Description>

福澤諭吉 学問のすゝめ dbpprop:notableworks

DBpedia

38

Page 39: LOD and JWO for TokyoWebmining35th

モノの名前にURIを利用する

HTTP URIにより人々が参照できる

http://www.wikipediaontology.org/instance/福澤諭吉

http://www.wikipediaontology.org/property/国籍

URIを参照した時,Web標準の技術(RDF/SPARQL等)を使う

http://www.wikipediaontology.org/data/instance/福澤諭吉

SPARQLエンドポイントの用意

外部データへのリンク(URI)を含める

Linked Open Data Design Issue

Linked Data Platform 1.0 2013年7月30日にW3C最終草案に(2014年3月11日改訂)

39

Page 40: LOD and JWO for TokyoWebmining35th

SPARQL •RDFクエリ言語

PREFIX rdfs:<http://www.w3.org/2000/01/rdf-schema#> PREFIX psys:<http://proton.semanticweb.org/protonsys#> PREFIX test:<http://www.keio.ac.jp/test/> PREFIX owl:<http://www.w3.org/2002/07/owl#> PREFIX xsd:<http://www.w3.org/2001/XMLSchema#> PREFIX rdf:<http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX pext:<http://proton.semanticweb.org/protonext#> SELECT ?website WHERE { ?website <http://www.keio.ac.jp/test/title> 'Yamaguchi Laboratory, Keio University' }

•SELECT 取得したい変数名

•WHERE 変数を含んだトリプル

接頭辞 指定

クエリ

40

Page 41: LOD and JWO for TokyoWebmining35th

DBpedia •http://www.dbpedia.org •WikipediaのInfoboxを利用し、大規模なDBを構築 •LODにおいて、ハブとして広く利用されている

41

Page 42: LOD and JWO for TokyoWebmining35th

GeoNames •http://www.geonames.org •世界中の地理情報に関する大規模DB

42

Page 43: LOD and JWO for TokyoWebmining35th

NewYorkTimes •http://data.nytimes.com •NewYorkTimes誌の人、組織、土地等の情報をRDF化

43

Page 44: LOD and JWO for TokyoWebmining35th

UniProt •http://www.uniprot.org •タンパク質の配列と機能に関する情報を集めた大規模DB

44

Page 45: LOD and JWO for TokyoWebmining35th

DATA.GOV.UK •http://data.gov.uk •英国政府による政府情報のオープン化のための大規模DB

45

Page 46: LOD and JWO for TokyoWebmining35th

DBpedia Japanese (by NII) http://ja.dbpedia.org/

Dbpedia:Wikipedia英語版を対象

DBpedia Japanese:Wikipedia日本語版を対象

46

Page 47: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジー (by 山口研) http://wikipediaontology.org

47

Page 48: LOD and JWO for TokyoWebmining35th

Linked Open Data Initiative 2012年8月に発足

LODを普及促進する活動

日本語LOD Cloudの作成

日本語LOD Cloud 2008年の欧米と同程度の規模

DBpedia Japaneseと相互リンクとなっているのは以下の3つのみ

本家DBpedia

日本語WordNet

日本語Wikipediaオントロジー

DBpedia Japaneseが持っていない概念階層関係の補完として,日本語LODハブの一つとして期待されている

48

DBpedia Japanese DBpedia

日本語WordNet

日本語Wikipediaオントロジー

Page 49: LOD and JWO for TokyoWebmining35th

CKAN http://dataforjapan.org/ オープンソースのデータポータル

49

Page 50: LOD and JWO for TokyoWebmining35th

Linked Open Data Challenge Japan

http://lod.sfc.keio.ac.jp/challenge2013/

日本国内でのLODに関する初のコンテスト

一般の応募者からLOD活用のためのアイデア,及び,実際のLODデータ,LODを利用したアプリケーションを募集

50

Page 51: LOD and JWO for TokyoWebmining35th

Open Knowledge Foundation Japan http://okfn.jp/

51

Page 52: LOD and JWO for TokyoWebmining35th

総務省のオープンデータ実証実験概要 http://btob.nikkeibp.co.jp/semi/opendata0626/

52

日本政府 データカタログサイト (試行版) http://data.go.jp/

Page 53: LOD and JWO for TokyoWebmining35th

日本における行政LOD

http://citydata.jp/

http://spending.jp/

神奈川県横浜市 http://yokohama.spending.jp/ 千葉県千葉市 http://chiba.spending.jp/ 宮城県仙台市 http://sendai-miyagi.spending.jp/ 福岡県福岡市版 http://fukuoka.spending.jp/ 愛知県北名古屋市 http://kitanagoya.spending.jp/ 宮城県南三陸町 http://minamisanriku-cho.spending.jp/ 北海道江別市 http://ebetsu.spending.jp/ 北海道札幌市 http://sapporo.spending.jp/ 京都府京都市 http://kyoto-city.spending.jp/ 東京都小金井市 http://koganei.spending.jp/ 東京都武蔵野市 http://musashino.spending.jp/ 宮城県石巻市 http://ishinomaki.spending.jp/ 北海道旭川市 http://asahikawa.spending.jp/ 茨城県水戸市 http://mito.spending.jp/ 東京都杉並区 http://suginami.spending.jp/ 東京都中野区 http://nakano-ku.spending.jp/ 東京都調布市 http://chofu.spending.jp/ 東京都葛飾区 http://katsushika.spending.jp/ 大阪府吹田市 http://suita.spending.jp/ 福島県会津若松市 http://aizuwakamatsu.spending.jp/ 新潟県新潟市 http://niigata.spending.jp/

53

Page 54: LOD and JWO for TokyoWebmining35th

オープンデータアプリコンテスト

http://www.opendata.gr.jp/2013contest/index.html

オープンデータ流通推進コンソーシアムと総務省によるアプリコンテスト

総務省による7つの実証実験が提供するオープンデータの活用をテーマにしたアプリコンテスト

2013年最優秀賞 花粉くん : http://www.kahunkun.com/pc/

54

Page 55: LOD and JWO for TokyoWebmining35th

Linked Open Vocabularies

Page 56: LOD and JWO for TokyoWebmining35th

Linked Open Vocabularies

http://lov.okfn.org/dataset/lov/

LODで使われる語彙の集合

56

rdf http://www.w3.org/1999/02/22-rdf-syntax-ns# rdfs http://www.w3.org/2000/01/rdf-schema# owl http://www.w3.org/2002/07/owl# SKOS http://www.w3.org/TR/skos-reference/ dc http://purl.org/dc/elements/1.1/ 書誌 OAI-ORE: http://www.openarchives.org/ore/ アーカイブ vCard: http://www.w3.org/Submission/vcard-rdf/ カード rev http://dannyayers.com/xmlns/rev/# 評価 foaf http://xmlns.com/foaf/0.1/ 人 SIOC: http://rdfs.org/sioc/spec/ オンラインコミュニティ geo http://www.w3.org/2003/01/geo/wgs84_pos# 位置 gn http://www.geonames.org/ontology# 地理 gr http://purl.org/goodrelations/v1# 商品 Music http://musicontology.com/ 音楽 PO http://purl.org/ontology/po/ メディア DOAP: http://trac.usefulinc.com/doap プロジェクト schema.org : http://schema.org/ 総合

Page 57: LOD and JWO for TokyoWebmining35th

DC(Dublin Core) プロパティ 書誌語彙 http://dublincore.org/documents/dcmi-terms/

title リソースに与えられた名前

description リソースに関する説明

date リソースのライフサイクル中の出来事に関連する日時もしくは期間

creator リソースの作成*に主たる責任を持つ実体

contributor リソースへの協力、貢献に責任を持つ実体

publisher リソースを利用可能にすることに責任を持つ実体

type リソースの性質もしくはジャンル

format ファイル形式、物理メディア、リソースのサイズなど

language リソースの言語

identifier ある文脈における、リソースへの曖昧さのない参照

rights リソースに適用される権利に関する情報

relation 関連するリソース

source リソースの派生元リソース

subject リソースのトピック

coverage リソースの空間的あるいは時間的トピック、or適用対象、リソースが有効となる地域など

57

Page 58: LOD and JWO for TokyoWebmining35th

geonameid GeoNamesID

name 地理名称

asciiname 地理名称(ASCIIコードで表現)

alternatenames 代替名称

latitude 緯度

longitude 経度

featureClass see http://www.geonames.org/export/codes.html

featureCode see http://www.geonames.org/export/codes.html

countryCode 国名ID

cc2 代替国名ID

population 人口

elevation 海抜

gtopo30 900m×900m毎の平均海抜

timezone タイムゾーン

modification date 修正日時

locatedIn どこに位置するか表現

nearby 近くに何があるか表現

gn(GeoNames) 地理語彙 http://www.geonames.org/ontology#

58

Page 59: LOD and JWO for TokyoWebmining35th

59

Person address

birthDate

email

memberOf

Organization event

employee

founder

member

Event startDate

location

offers

schema (schema.org) 汎用語彙 http://schema-ja.appspot.com/

Google、Microsoft、Yahoo! がウェブの改善を目的として共同で進めている、構造化データ マークアップの共通仕様を策定する取り組み

Page 60: LOD and JWO for TokyoWebmining35th

日本語Wikipediaオントロジーの表記揺れ問題 死亡・死傷・死去・死没 死傷者数 死亡 死去 死亡者 死没地 死亡年月日 死去地 死亡地 生死 死亡日 死没 死没日 死地 死者 死 死因 死去日 死没場所

60

出生・誕生・生誕 出生・出身地 出生名 誕生年月日時 出生日 出生地・国籍 生誕名 出生地點 出生 生誕 出生場所 出生地 誕生場所 出生国 誕生 生誕地 誕生日 誕生名 生誕年月日

Page 61: LOD and JWO for TokyoWebmining35th

JWOプロパティ 標準語彙 商品名 gr:name ジャンル schema:genre 子 chema:children 郵便番号 schema:postalCode 郵便番号 gn:postalCode 設立日 schema:foundingDate 製品名 gr:name 出生日 schema:birthDate 作者 chema:author 監督 schema:director 所在地 gn:locatedIn

標準語彙との対応付けの必要性

61