semantic web and library

Post on 18-Dec-2014

2.918 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

เทคโนโลยีเว็บเชิงความหมายกับการประยุกต์ใช้งานทางด้านห้องสมุด

TRANSCRIPT

เทคโนโลยเวบเชงความหมายกบ การประยกตใชงานทางดานหองสมด

Semantic Web Technology for Library Applications

ดร.มารต บรณรช

หนวยปฏบตการวจยวทยาการมนษยภาษา

ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (NECTEC)

marut.bur@nectec.or.th

การประชมวชาการประจ าป 2554 ฝายบรการความรทางวทยาศาสตรและเทคโนโลย (STKS) วนท 21 กรกฎาคม 2554

หวขอบรรยาย

แนวโนมการพฒนาเทคโนโลยส าหรบหองสมด (Evolution of Libraries)

แนะน าเทคโนโลยเวบเชงความหมาย (Semantic Web Technology)

มาตรฐานขอมล RDF, RDFS, OWL, SPARQL

การประยกตเทคโนโลยเวบเชงความหมายกบงานดานหองสมด

การบรณาการขอมล RDF ในแบบขอมลทมการเชอมโยง (Linked Data)

การสบคนขอมล RDF ในแบบการคนหาตามมต (Faceted Search)

2

แนวโนมการพฒนาเทคโนโลยส าหรบหองสมด (Evolution of Libraries)

หองสมด (Libraries)

หองสมดดจตอล (Digital Libraries)

หองสมด (Library)

สถานทเกบ: หองเกบหนงสอและเอกสาร

การลงรายการ: บตรรายการหนงสอ (Catalog Card)

ผชวยคนหา: บรรณารกษ

5

หองสมด (Library) (2)

จดเดน

สามารถปรกษาบรรณารกษได หากมขอสงสย หาหนงสอไมพบ

หองสมดมสภาพแวดลอมทด สามารถพบปะผอน

จดดอย

ตองใชสถานทและพนทในการจดเกบหนงสอ และเอกสารตางๆ

หองสมดหลายแหงมไดเชอมโยงกน บางครงผใชตองเดนทางไปยงหองสมดหลายแหงเพอใหไดขอมลทตองการ

6

หองสมดดจตอล (Digital Library)

สถานทเกบ: หนงสอและเอกสารจดเกบในฐานขอมล

การลงรายการ: เมตาดาตา (Metadata)

ผชวยคนหา: ระบบสบคนขอมล (Full-text search)

7

หองสมดดจตอล (Digital Library) (2)

จดเดน

สามารถเขาถงไดแบบออนไลน (Online Access) ผานอนเทอรเนต

ประหยดเนอทในการจดเกบ ประหยดเวลาเดนทาง

จดดอย

ผใชโดดเดยว ไมสามารถสอบถามบรรณารกษไดหากคนหาเรองทตองการไมพบ (เชน ใส keyword ในการคนหาไมถกตอง)

ยงขาดการเชอมโยงระหวางระบบหองสมดดจตอลตางระบบ (Library interconnections)

8

หองสมดดจตอลในยคตอไป (Next-generation Digital Library)

สถานทเกบ: หนงสอและเอกสารจดเกบในฐานขอมล บนเวบ

การลงรายการ:

เมตาดาตาทมการบรณาการ (Integrated Metadata)

เมตาดาตาทผใชเปนผปอนขอมล (Social Metadata)

ผชวยคนหา: ระบบการคนหาทชาญฉลาด (Smart Search and Browsing)

9

หองสมดดจตอลในยคตอไป (Next-generation Digital Library) (2)

จดเดน

การบรณาการขอมลเมตาดาตาตางมาตรฐาน เพอการเชอมโยงระบบหองสมดดจตอลตางระบบ (Library Interoperability)

การสบคนขอมลทใชขอมลอนๆ มาชวยในการเพมประสทธภาพในการคนหาขอมล เชน ขอมลปจเจกวธาน (folksonomy), ขอมลสวนตวของผใช (user profiles/ preferences), ออนโทโลย (ontology) เปนตน

10

เทคโนโลยเวบเชงความหมาย (Semantic Web Technology)

เทคโนโลยเวบเชงความหมาย เปนกลมมาตรฐานขอมลเพอการจดการขอมลในแบบเมตาเดตา (Metadata) ส าหรบเวบ

RDF (Resource Description Framework)

OWL (Web Ontology Language)

SPARQL (An RDF query language)

SKOS (Simple Knowledge Organization System)

ตวอยางการประยกตใชงานในปจจบน:

วกเชงความหมาย (Semantic Wikis)

การบรณาการขอมลโดยใชมาตรฐาน RDF (Linked Data)

ระบบหองสมดดจตอล (Digital Libraries)

11

เทคโนโลยเวบเชงความหมายส าหรบหองสมดดจตอล

ชวยในการบรณาการขอมลทใชมาตรฐานแตกตางกนจากตางระบบ

บรณาการขอมลเมตาดาตาตางมาตรฐาน (เชน Dublin Core, Marc21) โดยใชมาตรฐาน RDF

บรณาการขอมลทมาจากระบบหองสมดดจตอลตางระบบ รวมทงขอมลจากแหลงขอมลอนๆ บนอนเทอรเนตดวยมาตรฐาน RDF

ชวยเพมประสทธภาพการสบคนขอมลดวยเทคนคการสบคนแบบใหมๆ เชน

การสบคนขอมลตามออนโทโลย (Ontology-based search) หรอการสบคนขอมลตามมต (Faceted search)

การน าขอมลเฉพาะบคคลของผใช รวมทงขอมลจากผใชคนอนๆ มาชวยในการสบคน เชน User Profile/ Preference, Folksonomy, Bookmark เปนตน

12

หองสมดดจตอล vs. เทคโนโลยเวบเชงความหมาย

หองสมดดจตอล เทคโนโลยเวบเชงความหมาย

• มขอมลเมตาเดตาอยแลว • เมตาเดตามหลากหลาย

มาตรฐาน เชน Dublin Core, Marc21, FRBR เปนตน

• ก าหนดกรอบการบรณาการขอมลเมตาเดตาตางมาตรฐานโดยใชมาตรฐาน RDF

13

หองสมดดจตอล vs. เทคโนโลยเวบเชงความหมาย (2)

หองสมดดจตอล เทคโนโลยเวบเชงความหมาย

• มค าศพทควบคม (Controlled Vocabulary) ทงในแบบของอนกรมวธาน (Taxonomy) หรอ อรรถาภธาน (Thesaurus) ใชงานอยแลว เชน Library of Congress Classification (LCC), Dewey Decimal Classification (DDC), Medical Subject Headings (MeSH)

• ท าใหชดค าศพทควบคมอยในแบบทประมวลผลไดโดยโปรแกรมคอมพวเตอร (machine understandable) และสามารถบรณาการกนได

• ก าหนดมาตรฐานขอมลออนโทโลย ไดแก RDF Schema, OWL, SKOS

14

แนะน าเทคโนโลยเวบเชงความหมาย (Semantic Web technology)

Peter Haase and Denny Vrandečić, AIFB, Universität Karlsruhe (TH) Asian School for the Semantic Web ASSW2008, Bangkok, Thailand – December 2008

Slide 16

Universal Access to All Knowledge

17

18

19

20

21

Angola

Africa

Zambia

Country Continent

22

Angola

Africa

Zambia

Country Continent

type

Country

Continent

23

Angola

Africa

Zambia

Country Continent

24

Angola

Africa

Zambia

Country

Continent

type

Slide 25

RDF

A set of triples

Triples are Subject, Predicate, Object

26

http://semanticweb.org/id/Denny_Vrandecic

URIs / IRIs

URIs are “Uniform Resource Identifiers”

– IRI: Unicode-based “Internationalized Resource Identifiers”

Every URI identifies one entity

Semantic Web URIs usually use HTTP

– HyperText Transfer Protocol

– Can be resolved to get more data (ideally)

– Linked data

QName as abbreviation (Qualified Name)

Protocol Domain Local name

thing:Denny_Vrandecic Prefix

Namespace

28

Angola

Africa

Zambia

Country

Continent

type

29

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

Angola

http://www.w3.org/2000/01/rdf-schema#label

Africa

Located in

Zambia

Country

Borders

Continent http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

30

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

ประเทศแองโกลา

http://www.w3.org/2000/01/rdf-schema#label

ทวปแอฟรกา

แหง

ประเทศแซมเบย

ประเทศ

ชายแดน

ทวป http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

31

ประเทศแองโกลา

ทวปแอฟรกา

ประเทศแซมเบย

ประเทศ

ทวป

32

Angola

Africa

Zambia

Country Continent

Slide 33

RDF

A set of triples

Triples are Subject, Predicate, Object

Subjects and Predicates are URIs

Objects are URIs or Literals

– Literals are concrete data values

– e.g. the integer 27 or the date Dec 1, 2008

34

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

Angola

http://www.w3.org/2000/01/rdf-schema#label

Africa

Located in

Zambia

Country

Borders

Continent http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

Slide 35

Slide 36

RDF

A set of triples

Triples are Subject, Predicate, Object

Subjects and Predicates are URIs

Objects are URIs or Literals

– Literals are concrete data values

– e.g. the integer 27 or the date Dec 1, 2008

Several serialization formats like RDF/XML, N3, etc.

37

Slide 38

SPARQL : RDF Query Language

PREFIX rdfs:

<http://www.w3.org/2000/01/rdf-schema#>

PREFIX thing:

<http://ontoworld.org/id/>

PREFIX relation:

<http://ontoworld.org/id/Relation:>

SELECT ?label

WHERE {

thing:Angola relation:Located_in ?c.

?c rdfs:label ?label

}

39

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

Angola

http://www.w3.org/2000/01/rdf-schema#label

Africa

Located in

Zambia

Country

Borders

Continent http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

40

RDF Schema

Define relations between terms to give formal semantics

In RDF(S): – subClassOf

– subPropertyOf

– And others (domain, range, list, collection, etc.)

Example: – Country subClassOf Location

– Continent subClassOf Location

Allows inferences – Angola type Country

– Country subClassOf Location

– -> Angola type Location

42

Angola

Africa

Zambia

Country Continent

Location

43

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

Angola

http://www.w3.org/2000/01/rdf-schema#label

Africa

Located in

Zambia

Country

Borders

Continent http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://ontoworld.org/id/Category:Location

Location

http://www.w3.org/2000/01/rdf-schemas#subClassOf

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

Slide 44

RDF Schema

Define relations between terms to give formal semantics

In RDF(S): – subClassOf

– subPropertyOf

– And others (domain, range, list, collection, etc.)

Example: – Country subClassOf Location

– Continent subClassOf Location

Allows inferences – Angola type Country

– Country subClassOf Location

– -> Angola type Location

45

http://ontoworld.org/id/Angola

http://ontoworld.org/id/Africa

http://ontoworld.org/id/Zambia

Angola

http://www.w3.org/2000/01/rdf-schema#label

Africa

Located in

Zambia

Country

Borders

Continent http://ontoworld.org/id/Category:Country

http://ontoworld.org/id/Category:Continent

http://ontoworld.org/id/Category:Location

Location

http://www.w3.org/2000/01/rdf-schemas#subClassOf

http://www.w3.org/1999/02/22/rdf-syntax-ns#type

46

Angola

Africa

Zambia

Country Continent

Location

Slide 47

Semantic Web

Angola

Zambia

Africa

Continent

African Elephant

Indian

Elephant

Mammal

Animal

Gorilla

Egypt

Pig

Alexandria

Memphis

Alexander the Great

China

Ceylon

India

Airline

Asia

Hotel Restaurant

Enterprise

Airport Vacation

Plant Vegeterian restaurant

Europe

Earth

Inchineon

Mumbay Airport

Mumbay

Cell

DNA

Genom

Lao Tse Aristotle

Philosophy

48

49

50

Universal Access to All Knowledge

การประยกตเทคโนโลยเวบเชงความหมาย กบงานดานหองสมด Semantic Web Applications for Libraries

การประยกตเทคโนโลยเวบเชงความหมาย กบงานดานหองสมด

การบรณาการขอมล RDF ในแบบขอมลทมการเชอมโยง (Linked Data)

การสบคนขอมล RDF ในแบบการคนหาตามมต (Faceted Search)

52

การบรณาการขอมล RDF ในแบบ Linked Data

เวบในปจจบน

เวบในปจจบนเปนการเชอมโยงหนาเวบโดยใช Hypertext links หรอ เวบของเอกสาร (Web of Documents)

ขอมลถกน าเสนอในแบบทใหผใชอานและน าไปใชประโยชนโดยตรง

โปรแกรมคอมพวเตอรน าขอมลไปใชประโยชนไดยาก

53

การบรณาการขอมล RDF ในแบบ Linked Data (2)

Linked Data (http://linkeddata.org/)

น าขอมลทมอยในฐานขอมลอยเผยแพรในแบบขอมลตามแบบมาตรฐานขอมล RDF

ขอมลสามารถอางองไปยงขอมล RDF จากแหลงขอมลอนๆ ได

เพอใหสะดวกตอโปรแกรมคอมพวเตอรน าไปใชงาน

Slides from Tim Berners-Lee’s Linked Data Talk at TED 2009 54

Documents vs. Linked Data

สรางหนาเวบ (Web documents) จากฐานขอมล (Database)

55

Documents vs. Linked Data (2)

สรางหนาเวบ (Web documents) และขอมล RDF ในแบบ Linked Data จากฐานขอมล (Database)

56

Linked Data ม 5 ระดบ

★ ขอมลเขาถงไดผานเวบในรปแบบใดกตาม ในแบบไมมลขสทธ (open license)

★★ ขอมลอยในแบบทมโครงสราง (structured data) เชน ในแบบไฟล MS Excel เปนตน

★★★ ขอมลอยในแบบทมโครงสราง และใชมาตรฐานเปด เชน ในแบบไฟล CSV เปนตน

★★★★ ขอมลในแบบทมโครงสราง และใชมาตรฐานเปดของ W3C ไดแก ขอมลแบบ RDF ซงตองใช URI ในการอางองถงสงตางๆ ในฐานขอมล

★★★★★ ขอมลในแบบเดยวกบระดบท 4 และมการเชอมโยง (linked) โดยอางถงขอมลจากแหลงขอมล RDF อนๆ ดวย

http://www.w3.org/DesignIssues/LinkedData.html 57

ตวอยางหนวยงานทเผยแพรขอมล ในแบบ Linked Data

UK Government

US Government

BBC

Open Calais – Thomson Reuters

Freebase

NY Times

Best Buy

CNET

Dbpedia

58

Data.gov.uk – Opening up government

http://data.gov.uk/linked-data/

BBC Ontologies

http://www.bbc.co.uk/ontologies

60

http://www.bbc.co.uk/nature/life

62

63

64

การเตบโตของ Linked Data

เรมตนป 2007

65

ป 2010

66

Library Linked Data (LLD)

http://ckan.net/group/lld

67

Library Linked Data (LLD) (2)

1. AGROVOC

2. BibBase

3. Calames

4. Chronicling America

5. Gemeinsame Normdatei (GND)

6. Europeana Linked Open Data

7. Freebase

8. TheSoz Thesaurus for the Social Sciences (GESIS)

9. Hungarian National Library (NSZL) catalog

10. IdRef: Sudoc authority data

11. Library of Congress Subject Headings

12. LCSubjects.org Library of Congress Subject Headings

13. LIBRIS

14. LinkedLCCN

15. Linked Periodicals Database

16. lobid. Index of libraries and related organisations

17. lobid. Bibliographic Resources

68

Library Linked Data (LLD) (3)

18. medline

19. Web NDL Authorities - National Diet Library of Japan

20. National Diet Library of Japan subject headings

21. Norwegian Medical Subject Headings (MeSH)

22. Norsk inndeling av vitenskapsdisipliner

23. The Open Library

24. Polythematic Structured Subject Heading System

25. Rådata nå!

26. RAMEAU subject headings (STITCH)

27. Sudoc bibliographic data

28. Thesaurus for Graphic Materials (t4gm.info)

29. Open Library data mirror in the Talis Platform

30. TEKORD

31. Thesaurus W for Local Archives

32. theses.fr

33. Linked Data Service der Universitätsbibliothek Mannheim

34. VIAF: The Virtual International Authority File

35. Yleinen suomalainen asiasanasto - YSA

36. 20th Century Press Archives

69

The British National Bibliography

http://www.bl.uk/bibliographic/datafree.html

70

The British National Bibliography (2)

71

Library of Congress Authorities and Vocabularies

72

http://id.loc.gov/

Library of Congress Authorities and Vocabularies (2)

RDF Data (adopting SKOS, Dublin Core) 73

Dewey Summaries

http://dewey.info

74

LOD-LAM Summit at Linked Data and Libraries 2011

http://lod-lam.net 75

ปญหาของการสบคนขอมลในระบบหองสมดดจตอล

การบราวสขอมล (Browse) ในระบบหองสมดดจตอล มการออกแบบสวนตดตอกบผใชทแตกตางกนในแตละแหลงขอมล (collection)

ระบบหองสมดดจตอล เชน DSpace ชวยใหการจดการทรพยากรเนอหา และการคนหาขอมลของผใชท าได สะดวกยงขน ทงในสวนของการคนหาแบบ full-text และ การบราวส

ขอมลตามเมตาดาตา

http://dspace.org/

76

การสบคนขอมล RDF ในแบบ Faceted Search

การคนหาตามมต (Faceted Search)

เปนเทคนคการ Browse ขอมลโดยกรองผลลพธการคนหาขอมลตามมตตางๆ

กลนกรองขอมล (Filter) ตามฟลดของเมตาดาตาทก าหนดไวใหเปนมตของขอมล (Facet)

รปแบบการบราวส และคนหาขอมลในระบบหองสมดดจตอลตางระบบทเปนรปแบบเดยวกน

เปนเทคนคการคนหาขอมลทสามารถประยกตใชงานกบขอมลแบบ RDF ไดโดยตรง

77

ตวอยางระบบหองสมดดจตอลทประยกตใช เทคโนโลยเวบเชงความหมาย

SIMILE (http://simile.mit.edu/)

FedoraCommons (http://fedora-

commons.org/)

JeromeDL (http://www.jeromedl.org/)

78

SIMILE

โครงการ SIMILE ของ MIT เปนการพฒนาเทคโนโลยเพอเพมประสทธภาพของระบบหองสมดดจตอล โดยใชเทคโนโลยเวบเชงความหมาย

ตวอยางโปรแกรมเครองมอทชวยในการพฒนาระบบสบคนขอมลแบบ Faceted Search

Longwell

Exhibit

79

SIMILE’s Longwell

80

SIMILE’s Exhibit

http://simile-widgets.org/exhibit/

81

SIMILE’s Exhibit (2)

82

Fedora Commons

ซอฟแวรระบบหองสมดดจตอลทเรมการพฒนาตงแตป 1997 ทมหาวทยาลย Cornell

เนนใหรองรบการรองรบ Digital Objects หลากหลายชนด ปรมาณมหาศาล (> 10,000,000 objects)

จดเกบความสมพนธระหวาง object ตางๆ ใน collection โดยใชมาตรฐาน RDF

สบคนขอมล RDF ในแบบ faceted search (โดยใชภาษา SPARQL)

83

Fedora Commons (2)

DuraSpace = Fedora Commons + DSpace

http://duraspace.org/

Islandora = Fedora Commons + Drupal

http://islandora.ca/

84

Fedora Commons (3)

http://digital.lib.umd.edu/ 85

สรป

เทคโนโลยเวบเชงความหมาย (Semantic Web Technology) จะเขามามบทบาทส าคญเพมมากยงขนตอไปในระบบหองสมดดจตอล

ชวยสงเสรมการสราง และแบงปนขอมลเมตาเดตาในแบบมาตรฐาน RDF

ชวยการบรณาการเชอมโยงขอมลเมตาเดตาจากตางระบบในแบบ Linked Data

ชวยการสบคนขอมลตามเมตาดาตาในแบบของ Faceted Search

86

top related