justyna walkowska, semantic web - technologia w rękach humanistów

15
Semantic Web technologia w rękach humanistów Justyna Walkowska, Geek Girls Carrots, Poznań, 13 grudnia

Upload: geek-girls-carrots-poznan

Post on 24-Jan-2015

173 views

Category:

Education


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Semantic Webtechnologia w rękach humanistów

Justyna Walkowska, Geek Girls Carrots, Poznań, 13 grudnia 2012

Page 2: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Miło mi

Prywatnie:• Email: [email protected]• Blog: http://girllostinit.wordpress.com

Praca• Zespół Bibliotek Cyfrowych w Poznańskim Centrum Superkomputerowo Sieciowym (

http://dl.psnc.pl/)• Wydawnictwo Helion (http://helion.pl/)

Hobbystycznie informatycznie• Poznań JUG (http://www.jug.poznan.pl/)• GeeCON (http://2013.geecon.org/)

Page 3: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Do rzeczy… Web 3.0

• Web 2.0: przełom w sposobie korzystania z sieci przez użytkowników: – odbiorcy stali się twórcami,

– „Internet jako platforma”,

– oskarżenia o zalew amatorszczyzny i pogardliwe określenie „Bubble 2.0”.

• Web 3.0– rozszerzenie Web 2.0 o mechanizmy związane ze sztuczną inteligencją

– język naturalny, wnioskowanie, odkrywanie informacji,

– dalej posunięta personalizacja, np. dzięki smartfonom,

– powrót ekspertów?

– częściowo utożsamiane z Semantic Web.

• Semantic Web („semantyczny Internet”)– międzynarodowa inicjatywa postulująca reprezentowanie danych w ustandaryzowanych

formatach umożliwiających ich automatyczne przetwarzanie i integrację, a także automatyczne wnioskowanie w oparciu o nie,

– strony internetowe czytelnie zarówno dla ludzi, jak i dla maszyn,

– strukturyzacja Internetu.

Page 4: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

RDF: Resource Description Framework

• Format prezentacji danych (i metadanych) w postaci trójek podmiot-orzeczenie-dopełnienie (subject-predicate-object).

• Ważną rolę pełnią unikalne identyfikatory URI. • W trójce:

– podmiot: URI lub tzw. blank node,

– orzeczenie: URI,

– dopełnienie: URI, blank node lub literał.

• Trójki bywają łączone w tzw. grafy

nazwane (konteksty).

• Istnieje kilka standardowych

formatów zapisu RDF, np:– RDF/XML

http://www.w3.org/TR/REC-rdf-syntax/

– Ntriples

http://www.w3.org/2001/sw/RDFCore/ntriples/

Page 5: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

SPARQL

• SPARQL (SPARQL Protocol and RDF Query Language), wym. sparkle.• http://www.w3.org/TR/sparql11-query/• Język zapytań dla RDF. • Początkowo był językiem „tylko do odczytu”, od wersji 1.1 umożliwia również

modyfikację danych.• Przykład:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix viaf: <http://viaf.org/ontology/1.1/#> .

@prefix rdaGr2: <http://rdvocab.info/ElementsGr2/> .

select ?x where {

?x rdf:type foaf:Person

?x rdaGr2:dateOfBirth "1972"

}

Page 6: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Ontologia

• Ontologia w informatyce to formalna reprezentacja wiedzy jako zbioru konceptów z pewnej dziedziny i relacji pomiędzy tymi konceptami. Jest wykorzystywana do opisu dziedziny i do wnioskowania na jej temat.

• Jest to formalna, jawna specyfikacja wspólnej konceptualizacji.– formalna: czytelna dla maszyny,

– jawna: wyspecyfikowane wszystkie używane koncepty i ich ograniczenia,

– wspólna: ogólnie uznawana wiedza,

– konceptualizacja: abstrakcyjny model zjawiska identyfikujący istotne koncepty.

• Podział: ontologia to klasy (konceptualizacja), baza wiedzy to instancje (konkretni reprezentanci tych konceptów).

Page 7: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

OWL

• OWL (Web Ontology Language): język do tworzenia ontologii, często stosowany w środowisku Semantic Web.

• http://www.w3.org/TR/2004/REC-owl-semantics-20040210/• http://www.w3.org/TR/owl2-syntax/• Można zapisać go za pomocą składni RDF.• Istnieje kilka „podjęzyków” OWL, które mają ułatwiać wnioskowanie na danych

zapisanych w OWL:– OWL Lite: udostępnia klasyfikacje i proste ograniczenia,– OWL DL: większa ekspresywność przy zachowaniu rozstrzygalności i kompletności (DL: description logic)– OWL Full: pełna semantyka, nie istnieją silniki wnioskujące w pełni ją implementujące

• Ontologie definiujemy za pomocą klas, właściwości i ograniczeń. Brzmi znajomo, ale na programistów obiektowych czyhają pułapki…

• Przykładowe ontologie do nauki i zabawy: – http://www.co-ode.org/ontologies/pizza/2007/02/12/pizza.owl

– http://www.w3.org/TR/owl-guide/wine.rdf

Page 8: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

OWL: pułapki na programistów obiektowych

• Wielodziedziczenie• Wieloinstancyjność (?)• Dziedziczenie właściwości• Definicja właściwości za pomocą domain i range, a nie jako atrybutów obiektu:

<owl:ObjectProperty rdf:ID="madeFromGrape">

<rdfs:subPropertyOf rdf:resource="http://www.w3.org/TR/2003/PR-owl-guide-20031209/food#madeFromFruit"/>

<rdfs:domain rdf:resource="#Wine"/>

<rdfs:range rdf:resource="#WineGrape"/>

</owl:ObjectProperty>

• Założenie świata otwartego (open world assumption)• Brak założenia o unikalności nazw (unique name assumption)

• Co się stanie, jeśli zadeklaruję, że relacja p zawsze musi mieć dokładnie jeden argument i…

– nie podam wartości argumentu?

– podam dwie wartości?

Page 9: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Linked Open Data

• Linked Open Data to sposób publikowania informacji w Internecie. Tim Berners-Lee zdefiniował następujące zasady:

1. URI jako identyfikatory zasobów.

2. URI HTTP, które pozwalają na odwołanie się do zasobu („wyłuskanie go”, tzw. dereferenceable URIs).

3. Odwołanie się zasobu pod danym adresem prowadzi do uzyskania przydatnych informacji na jego temat.

4. Dane na temat zasobu zawierają także linki do zasobów z nim powiązanych, co pozwala na odkrywanie informacji.

• Przykład takiego zbioru danych: DBPedia– http://dbpedia.org/sparql interfejs SPARQL

– http://dbpedia.org/page/Grace_Kelly przykład reprezentacji zasobu zgodnie z LOD

Page 10: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

To gdzie ci humaniści?

• Idee związane z Semantic Web i Linked Open Data powoli zmieniają kształt katalogów bibliotecznych, danych muzealnych etc.

• Coraz więcej bibliotek i muzeów publikuje swoje dane w sieci, podejmując próby przekształcenia tradycyjnych schematów metadanych (takich jak MARC 21) na schematy ontologiczne i zgodne z ideą Semantic Web i LOD.

• Ciekawy przykład: – http://www.europeana.eu/portal/ (portal Europeana)– http://europeana.ontotext.com/ (interfejs SPARQL)– http://pro.europeana.eu/web/guest/hackathons (konkursy dla programistów wykorzystujących API portalu)

• Ważne prace w dziedzinie Semantic Web i LOD prowadzi Biblioteka Kongresu USA

• Coraz więcej kartotek autorytatywnych LOD w Internecie: – http://viaf.org/– http://www.getty.edu/research/tools/vocabularies/index.html

Page 11: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

To gdzie ci humaniści?

Rekord w formacie MARC 21

Page 12: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

To gdzie ci humaniści?

Rekord w formacie OWL (ontologia FRBRoo)

Page 13: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Narzędzia

• Dane RDF i OWL przechowuje się w repozytoriach RDF.• Część repozytoriów przechowuje dane na dysku we własnych formatach, część jest

oparta o relacyjne bazy danych.• Niektóre repozytoria są wyposażone w silniki wnioskujące. Najczęściej są to silniki

wnioskujące w przód, które dodają do repozytorium wywnioskowane trójki.• Przegląd repozytoriów wraz z danymi na temat ich wydajności można znaleźć tutaj:

http://www.w3.org/wiki/LargeTripleStores• Narzędzia implementują różne API. Najpopularniejsze to: OWL API, Sesame API,

Jena API. • Wszystkie repozytoria RDF obsługują język zapytań SPARQL.

Page 14: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Problemy i wyzwania

• Wydajność i skalowalność repozytoriów RDF i silników wnioskujących

• Prezentacja danych w tym formacie

• Wielojęzyczność

• Stabilność ontologii i języków

• Niechciana personalizacja i kwestie prawne

Page 15: Justyna Walkowska, Semantic Web - technologia w rękach humanistów

Dziękuję za uwagę.

Pytania?