intro til linked data
DESCRIPTION
An introduction in Norwegian. Prepared for an internal presentation at the NTNU Library 17 December 2009.TRANSCRIPT
Intro til linked data
17. desember 2009Ole Husby
Linked data handler om å organisere data på en fornuftig måte
http://www.w3.org/2009/Talks/0204-ted-tbl
å organisere data betyr
• å samle det som hører sammen• å skille det som ikke hører sammen• å dele arbeidet på en fornuftig måte• slik at hver enkelt passer på sine egne data• og ikke gjentar arbeid som andre gjør• og ikke bearbeider dataene mer enn nødvendig • på en slik måte at dataene kan brukes av• andre personer• andre maskiner• på den måten brukerne foretrekker • uansett hvilket språk de snakker• eller hvilket operativsystem de bruker
Linked data handler om å gjøre semantikken forståelig for maskiner
?
maskinleselig semantikk betyr at
maskina (dvs programmet) forstår • hvilke egenskaper som de forskjellige objektene har• og hvilke sammenhenger som eksisterer mellom dem
og at maskina (dvs programmet) kan formidle denne forståelsen til
• forskjellige personer• til andre maskiner• på forskjellige måter
Linked data handler om standarder for dataformater, spørrespråk etc
<http://www.ntnu.no/ub/data/humord#HUME00012>a dc:subject;rdf:type skos:Concept;skos:prefLabel "Bygdeborger"@no;skos:related <http://www.ntnu.no/ub/data/humord#HUME05293>;skos:related <http://www.ntnu.no/ub/data/humord#HUME05291>;skos:broader <http://www.ntnu.no/ub/data/humord#HUME00008>.
<http://www.ntnu.no/ub/data/humord#HUME00013>a dc:subject;rdf:type skos:Concept;skos:prefLabel "Dyregraver"@no;skos:broader <http://www.ntnu.no/ub/data/humord#HUME00008>.
<http://www.ntnu.no/ub/data/humord#HUME00015>a dc:subject;rdf:type skos:Concept;skos:altLabel "Gravanlegg"@no;skos:prefLabel <http://www.ntnu.no/ub/data/humord#HUME00014>.
Definisjon
The Semantic Web isn't just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data.
Like the web of hypertext, the web of data is constructed with documents on the web. However, unlike the web of hypertext, where links are relationships anchors in hypertext documents written in HTML, for data they links between arbitrary things described by RDF,. The URIs identify any kind of object or concept. But for HTML or RDF, the same expectations apply to make the web grow:
Definisjon (forts)
1. Use URIs as names for things2. Use HTTP URIs so that people can look up those names.3. When someone looks up a URI, provide useful information, using
the standards (RDF, SPARQL)4. Include links to other URIs. so that they can discover more things.
http://www.w3.org/DesignIssues/LinkedData.html
RDF
RDF er dataformatet som brukes for linked dataRDF betyr Resource Description FrameworkRDF er en enkel datamodellRDF er en beskrivelsesmetode for å angi sammenhengen mellom ting
http://www.w3.org/RDF/
RDF kan skrives ut på forskjellige måter, f.eks. i XML
RDF-tripler
Komplekse strukturer
Enda mer komplekst
Nå mangler vi identifikatorer
som gjør folk og maskiner istand til å følge lenkene på nettet
f.eks.
http://orlabs.oclc.org/identities/lccn-n81-112099
i stedet for
lccn-n81-112099 Å lage linked data handler mye om å lage et teknisk opplegg for å hente data vha slike identifikatorer (URI)
og vi mangler skjema
Dvs standardiserte vokabularer som kan brukes av folk og maskiner for å forstå betydninger
f.eks. hva relasjonen (predikatet) "har forfatter" betyr
noe som f.eks. angis vha merkelappen dc:creator
eller hva termen (objektet) "Agriculture" betyr
noe som f.eks. kan angis vha merkelappen skos:prefLabel
Linked data krever datamodellering
Hvilke datatyper er av interesse?
• Bibliografiske data for verker og manifestasjoner• Lokaliseringsdata og tilgangssdata for eksemplarer• Autoritetsdata og brukerdata for personer og institusjoner• Transaksjonsdata, utlånsdata• Data om bibliotek• Geodata, topsy, geografiske emneord, kart• Emnedata• Leksikale data
Hvem eier datene, og hvordan henger de sammen?
Linked data krever databeskrivelse
Hvordan skal dataene og relasjonene beskrives?
SkjemaTaksonomierTesauruserOntologier
F.eks.
FOAF, SKOS, Dublin Core, TEKORD,
Redundans = overflødig replisering
• vi repliserer i stedet for å gjenbruke data • hvor mange forskjellige filer / databaser / registre må
oppdateres hvis du skifter navn? • dette er ikke bare unødvendig arbeid
• men også en kilde til inkonsistens i dataene
• hvorfor er vi så ufornuftige da ???
Interessenter
• Tim Berners-Lee• W3C• LinkingOpenData• linkeddata.org• LIBRIS• OCLC• DBPedia• Library of Congress• TALIS • en stadig økende mengde bibliotek verden rundt
• men ikke så mye i Norge
Hvorfor er det viktig at UBiT kan alt om linked data?• Fordi linked data begrepsmessig er nøye knyttet til
datamodellering, katalogisering, FRBR, RDA etc • Fordi linked data ikke er en lukket bibliotekverden (slik som
MARC, Z39.50 etc) • Fordi vi er i starten av en prosess med å åpne opp
datasiloene våre slik at de kan brukes av så mange som mulig
• Fordi også vi bruker mye tid på unødvendig dobbeltarbeid
http://www.w3.org/2009/Talks/0204-ted-tbl
Raw data now!