automatizovatelná aktualizace wikidata z veřejných databází · 2018-12-03 · lp-etl - přes...

25
Automatizovatelná aktualizace Wikidata z veřejných databází Jakub Klímek

Upload: others

Post on 30-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Automatizovatelná aktualizace Wikidata z

veřejných databází

Jakub Klímek

Page 2: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Veřejné databáze, Otevřená data

https://data.gov.cz 2

Page 3: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Veřejné databáze, Otevřená data - zajímavé zdroje● Český úřad zeměměřický a katastrální

○ Registr územní identifikace, adres a nemovitostí (RÚIAN)■ Kraje, obce, okresy, budovy, adresní místa

● Český statistický úřad○ Počty obyvatelstva○ Výsledky voleb

● Česká správa sociálního zabezpečení○ Statistiky o důchodech a důchodcích

3

Page 4: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Veřejné databáze, Otevřená data - různá kvalita

https://5stardata.info 4

Page 5: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Odbočka: WWW ~ Web dokumentů - všichni známeSdílený globální prostor dokumentů

Vybudován na pár jednoduchých principech:

1. HTML jako jazyk pro dokumenty2. URL jako unikátní globální identifikátory3. HTTP pro lokalizaci a přístup k dokumentům

na základě jejich URL4. odkazy mezi dokumenty

Existují dva druhy aplikací pracujících v tomto prostoru dokumentů:

• webové prohlížeče (lokalizace a prohlížení stránek)• vyhledávače (indexace a vyhledávání stránek)

HTML

HTML

HTML

HTML

Webový prohlížeč

Vyhledávač

HTTP

HTTP

5

Page 6: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Principy propojených dat1. Pro pojmenování věcí používejte IRI2. Používejte HTTP IRI, aby se o věcech dala

dohledat data.3. Když někdo vyhledá IRI, poskytněte užitečné

informace, a to pomocí standardů (RDF, SPARQL)

4. V datech poskytněte odkazy na jiná IRI, aby uživatelé mohli objevovat další věci.

https://5stardata.info/

6

Page 7: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

RDF - Resource Description FrameworkRDF

● grafový datový model● množina trojic

Trojice popisuje vztahy jako:

subjekt predikát objekt

2004 & 2014 W3C Recommendations

https://jakub.klímek.com/#me

https://www.mff.cuni.cz

https://schema.org/alumniOf

Jakub Klímek studoval na MFF UK .

predikát objektsubjekt

7

Page 8: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2007 - 12 datových sad

8

Page 9: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2008 - 32 datových sad

9

Page 10: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2009 - 89 datových sad

10

Page 11: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2010 - 203 datových sad

11

Page 12: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2011 - 295 datových sad

12

Page 13: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2014 - 570 datových sad

13

Page 14: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Cloud propojených dat - 2018 - 1229 datových sad

14

Page 15: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

LinkedPipes ETL - Extract Transform Load pro LOD

EXTRACT TRANSFORM LOAD

komponenty v pipeline

15

Page 16: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

LinkedPipes ETL - Extract Transform Load pro LODkomponenty v pipeline

16

Page 17: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

17

Page 18: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

LP-ETL - přes 60 znovupoužitelných komponent- Extraktory

- HTTP GET, SPARQL endpoint (and variants), Text holder, Extract from FTP, Files from local- Transformery

- SPARQL Construct, SPARQL Update- Files to RDF, RDF to file- XSLT, JSON to JSON-LD, Tabular, Excel to CSV- Bing translator, Decode base64, File hasher, Compress, Decompress, Mustache

- Loadery- Files to SCP- SPARQL Update, SPARQL Graph Store Protocol- Files to local

https://etl.linkedpipes.com/components/ 18

Page 19: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

LP-ETL - Pipeliny (někde též “datovody”)

19

Page 20: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

LP-ETL Tutoriály a návody

20

Page 21: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

WikidataDatabáze

● Volně dostupná● Kolaborativní● Vícejazyčná

Obsahuje

● Položky● Tvrzení

○ Vlastnosti○ Hodnoty○ Kvalifikátory

21

Page 22: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

RDF vs. (zjednodušený) datový model Wikidata

Jakub Klímek studoval na MFF UK .

predikát objektsubjekt

https://jakub.klímek.com/#me

https://www.mff.cuni.cz

https://schema.org/alumniOf

Q57585169

Q31519

P69

22

Page 23: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

RDF a (zjednodušený) datový model Wikidata

Jakub Klímek studoval na MFF UK .

predikát objektsubjekt

https://jakub.klímek.com/#me

https://www.mff.cuni.cz

https://schema.org/alumniOf

https://www.wikidata.org/wiki/Q57585169

https://www.wikidata.org/wiki/Q12036042

https://www.wikidata.org/wiki/Property:P69

23

Page 24: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Stávající problémy Wikidata s nahráváním dat v dávkách● Převážně jednorázové skripty

○ Jen někdy používají již existující knihovny○ Není počítáno s jejich pravidelným spouštěním

● Nejednotný přístup napříč autory○ Autoři si pak těžko mohou navzájem skripty udržovat○ Skripty se funkčně překrývají

24

Page 25: Automatizovatelná aktualizace Wikidata z veřejných databází · 2018-12-03 · LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - HTTP GET, SPARQL endpoint (and variants),

Wikidata & ETL● Projektový návrh k financování Wikimedia Foundation● Úprava a aplikace LinkedPipes ETL pro práci s datovým modelem Wikidata● Tvorba tutoriálu, jak na tvorbu pipeline pro Wikidata● Úspěch záleží zejména na zájmu komunity

Prosíme o podporu formou “endorsementu”

● Účet na Wikipedii● Jít na

https://meta.wikimedia.org/wiki/Grants:Project/MFFUK/Wikidata_%26_ETL● Přidat endorsement

○ uživatelské jméno○ důvod, proč si myslíte že to má smysl řešit