die dariah-de föderationsarchitektur · 2015. 12. 14. · grammatik: definition sprachlicher...
TRANSCRIPT
![Page 1: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/1.jpg)
de.dariah.eu
DARIAH-DE Methodenworkshop„Quantitative Vorauswahl und Validierung
für ein qualitatives Arbeiten in den Geisteswissenschaften: Ein iterativer Prozess?“
Die DARIAH-DE
Föderationsarchitektur
Tobias Gradl
![Page 2: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/2.jpg)
1. Begriffe, Architektur, Überblick
2. Strukturelle Anreicherung
3. Mappings / Transformation
4. Fragen / Diskussion
14/12/20152
Überblick
Live Session I
Live Session II
![Page 3: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/3.jpg)
14/12/20153
DARIAH-DE Föderationsarchitektur
Föderation vs. Integration
![Page 4: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/4.jpg)
• Verteilung
• Autonomie
– der Organisationen
– zu integrierender Systeme
• Heterogenität
– Schnittstellen
– Daten
14/12/20154
Dimensionen der Informationsintegration
logisch geographisch
jeweils starke Ausprägung in den Kultur- und Geisteswissenschaften (bei breiter Betrachtung)
technisch
syntaktisch
strukturell semantisch
![Page 5: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/5.jpg)
• Integrationsproblem: Verteilung und Heterogenität verhindern integrierte Sicht auf Daten
• Aber auch:
– Daten entstehen im Kontext spezifischer Forschung
– (Entstehungs-)Kontext wichtig für Interpretation
14/12/20155
Heterogenität nicht nur „Problem“
Interdisziplinäre Forschung?
Übergreifende Dienste
Heterogenität spiegelt Diversität der Domäne
![Page 6: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/6.jpg)
Daten sind in einer bewusst oder unbewusst festgelegten Form zugreifbar; eine Umwandlung in eine andere Form ist oft verlustbehaftet.
• Informationsverlust kann akzeptabel sein, wenn Verwendungskontext definiert
• Gegensätzliche Zielsetzungen durch:
– Diversität der Forschungsdaten, -fragen und -kontexte
– Notwendigkeit übergreifender Auswertungen
14/12/20156
Grundannahmez. B. Standards akuter Bedarf
vgl. WiWi
![Page 7: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/7.jpg)
• Datenintegration versucht die Harmonisierung heterogener Darstellungsformen
– eine globale Sicht für integrative Betrachtung
– oft als einmaliger Aufwand realisiert
– Spezifität von Daten irrelevant, wenn nicht in Integrationssicht assoziierbar
14/12/20157
Integration von Daten
Lenzerini, M (2002): Data Integration: A Theoretical Perspective. In: Abiteboul, S (Ed.):
Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on
Principles of database systems, p. 233. ACM, 2002. ISBN:9781581135077.
z. B. ETL
![Page 8: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/8.jpg)
• Datenföderation beschreibt eine losere Zusammenführung von Daten
– Daten bleiben im ursprünglichen Zustand erhalten
– Aufwand je notwendiger Sicht erforderlich
• globale Sichten auch hier als einmaliger Aufwand
• aber: mehrere „globale“ Sichten denkbar
– Integrationsansätze nach spezifischen Bedürfnissen
14/12/20158
Föderation von Daten
Gradl, T.; Henrich, A. (2014): A novel approach for a reusable federation of research data within the
arts and humanities, in: Digital Humanities 2014: Book of Abstracts. Lausanne: Ecole polytechnique
fédérale de Lausanne; Université de Lausanne 2014, S. 382–384.
Standards
domänenspezifisch
![Page 9: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/9.jpg)
14/12/20159
Grundlegende Anwendungsfälle
Digitale
Kollektionen
Datenintegration
Breitensuche
Individuelle
Analyse
Tiefensuche
![Page 10: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/10.jpg)
14/12/201510
Horizontale und vertikale Integration
StrukturelleTiefe
Sprache Geschichte Religion …z. B.
Horizontale Integration- Verwendung eines gemeinsamen Nenners- Mapping auf übergreifende Sicht- Abstraktion domänenspezifischer Information
Vertikale Integration- Ursprungsdaten- Fokus auf
individuelle Domänen oder Kollektionen
• Anfragen über eine große Mengeverteilter Kollektionen möglich
• Komplexität wird reduziert durchAbstraktion von Details
• Vergleichbar mit traditionellenIntegrationsansätzen – basierend auf einem zentralen Schema / einerzentralen Ontologie
• Tiefe Analyse, Visualisierung und Referenzierung von Daten möglich
• Reduzierung der Komplexität durchBetrachtung einzelner Disziplinen
• Vergleichbar mit weiteren Ansätzen, deren Fokus auf einzelnen A+H Domänen liegt
![Page 11: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/11.jpg)
14/12/201511
DARIAH-DE Föderationsarchitektur
Ziele und Funktionen
![Page 12: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/12.jpg)
• Verzeichnung von Forschungsdaten-sammlungen und verwendeten Datenmodellen
• Kombinierte Unterstützung:
– Domänenspezifische Integration auf Basis spezifischer inhaltlicher Bedürfnisse
– Übergreifender Zugriff auf Inhalte heterogener Sammlungen durch Standardschemata
• (Exemplarische) Anwendungen der Suche und Visualisierung von Kollektionen und Inhalten
14/12/201512
Ziele der Föderationsarchitektur
![Page 13: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/13.jpg)
14/12/201513
Idee: Forschungsorientierte Föderation
C1
S1
S3
S2
Fachwissenschaftler…
1. identifizieren relevante Kollektionen
2. wählen semantisch „passende“ Export-schemata aus
3. assoziieren Konzepte der gewählten Schemata
Ergebnis: Semantisch eng korrelierte Datenbasis
Beispiel: drei Repräsentationsformen biographischer Daten
![Page 14: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/14.jpg)
S4
S5
C2
14/12/201514
Idee: Forschungsorientierte Föderation
S1
S3
S2
C1
S9
S7S6
S8
C3
S10
Übergreifende Sichtz. B. mittels Dublin Core
![Page 15: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/15.jpg)
14/12/201515
DARIAH-DE Föderationsarchitektur
Architekturkomponenten
![Page 16: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/16.jpg)
Föderations-
schicht
Zugreifbare
Kollektionen
14/12/201516
Komponenten des Föderationskonzepts
Verweise auf digitale
KollektionenAssoziation
lokaler Datenmodelle
Beschreibung von Struktur und Inhalt verfügbarer Daten
Nutzung der Schnittstellen für Zugriff auf Daten und
Indexierung
Föderation der Daten zur
Anfragezeit
„Zugreifbare“ Kollektionen
Repository
![Page 17: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/17.jpg)
• Forschungsdatenarchiv mit Publish-GUI zur Publikation von Forschungsdaten
• Daten sind sicherund nachhaltig referenzierbar(PIDs) gespeichert
• Metadaten in DC
• OAI-PMH Export
14/12/201517
Repository
![Page 18: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/18.jpg)
• Verzeichnis für Forschungsdaten-sammlungen
• Suchen, Bearbeiten, Reviewen
• Zugriffsdienste zu Sammlungen
• OAI-PMH Export
14/12/201518
Collection Registry
Collection
Location Serviceowns collects
located access
admin
admin
Agent
![Page 19: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/19.jpg)
14/12/201519
Schema Registry
Live-Sessions
![Page 20: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/20.jpg)
14/12/201520
Generische Suche
• Breitensuche
• Facettierte Tiefensuche
Adaptiert an modellierte
Kontexte
![Page 21: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/21.jpg)
• Biographische Profile aus verschiedenen Quellen
• Kontextspezifische Auswertung der Daten
• Transformation in integriertes Datenmodell
• Assoziationen der Schema Registry
14/12/201521
aber auch: Cosmotool
![Page 22: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/22.jpg)
14/12/201522
Funktionsprinzip
Titel
Author
Schema
definieren
2
Die Sammlung wird eingetragen und die Zugriffsschnittstelle auf Daten der Sammlung beschrieben.
Suche
4
Nachnutzung
Forscherin möchte Daten einer Sammlung, für die es keine geeigneten Suchmöglichkeiten gibt, analysieren und vergleichen.
Das Schema der Daten wird ausgewählt oder neu angelegt.
Schemata werden miteinander assoziiert.
Die generische Suche indiziert die Daten der Kollektion.
Forscherinnen und Forscher können Sammlungsbe-schreibung, Schema, Mapping und Suche für ähnliche Anfragen nachnutzen.
Sammlung
beschreiben
1
Mappings
erstellen
3
![Page 23: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/23.jpg)
14/12/201523
DARIAH-DE Föderationsarchitektur
Strukturelle Anreicherung
![Page 24: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/24.jpg)
• Schema Registry unterscheidet zwei Phasen:
– Datenaufbereitung: Daten nach Vorgaben des Modellierers evaluieren und in erweiterter Form abgespeichert
– Mappings & Transformation: Überführung von (aufbereiteten) Daten in Zielform
14/12/201524
Fachliche Datenaufbereitung
dadurch „Integrationsvorbereitung“ bei Import
Aufwand reduziert
kontextspezifisch
Original bleibt erhalten
generisch oder kontextspezifisch
![Page 25: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/25.jpg)
14/12/201525
Beispiel: Pangaea
http://doi.pangaea.de/10.1594/PANGAEA.51915
...
<dc:coverage>
LATITUDE: -46.069333 * LONGITUDE: 90.111167
* MINIMUM AGE: 4.610 ka BP * MAXIMUM AGE:
201.000 ka BP * MINIMUM DEPTH, sediment: 0.0
m * MAXIMUM DEPTH, sediment: 11.7 m
</dc:coverage>
...
Beispiele:- Substrukturen z. B. Listen- Muster wie
„Nachname, Vorname“
Beispiel für Substruktur
![Page 26: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/26.jpg)
• Beschreibung der Daten mit dem Ziel der Einarbeitung von Hintergrundwissen zu Daten in ihrem Erstellungskontext
– durch Domänenexperten
– Daten werden ohne Rücksicht auf spätere Verwendung erweitert
– Kombination explizit vorliegender Strukturinformationen und Wissen um Instanzen
14/12/201526
Aufgabe 1: Datenbeschreibung
![Page 27: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/27.jpg)
• Anwendung von Methoden aus dem Bereich sprachbasierter Anwendungen:
– Kernidee: Daten werden durch grammatikalische Regeln definiert und erklärt
– Es werden domänenspezifische Sprachen (domainspecific language, DSL) konstruiert und mit schematischen Informationen hinterlegt
– Explikation von Wissen auf Instanzebene
14/12/201527
Aufgabe 1: Datenbeschreibung
![Page 28: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/28.jpg)
12/14/201528
Aufgabe 1: Datenbeschreibung
KontextfreieGrammatik
EBNF
grammar PangaeaCoverage;
substruct : subelem+;
subelem : (longitude | latitude | start
| end | minDepth | maxDepth
| otherElem) SEPARATOR?;
longitude : ’LONGITUDE’ ’: ’ value;
latitude : ’LATITUDE’ ’: ’ value;
...
otherElem : key ’: ’ value;
key : ID;
value : DATE
| ID;
…
Modelliert durchDomänenexperten
value
latitude
subelem
LATITUDE DATE/TIME·END
end
value
subelem
·*·
value
subelem
1988-02-25T17:49:00
start ·*·
value
-70.339167
subelem
-11.656833
:·
·*·
LONGITUDE
1988-02-25T17:49:00
:· DATE/TIME·START
·*·
:· :·
...
longitude
substruct
Syntaxbaum
22 Zeilen insgesamt
![Page 29: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/29.jpg)
• Beschreibung von Transformationsregeln zur Verfeinerung, Erweiterung, Bereinigung von Daten
– Ebenfalls durch Domänenexperten
– wenn möglich, auch hier ohne konkrete Ausrichtung auf Verwendungskontext
– Vorbereitung der Umwandlung von Daten in andere Formate, Befragung externer Quellen wie Thesauri, Ontologien etc.
14/12/201529
Aufgabe 2: Datentransformation
![Page 30: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/30.jpg)
14/12/201530
Aufgabe 2: Datentransformation
value
latitude
subelem
LATITUDE DATE/TIME·END
end
value
subelem
·*·
value
subelem
1988-02-25T17:49:00
start ·*·
value
-70.339167
subelem
-11.656833
:·
·*·
LONGITUDE
1988-02-25T17:49:00
:· DATE/TIME·START
·*·
:· :·
...
longitude
substruct
lon = @longitude.value;
lat = {
value = @latitude.value;
};
combined = CONCAT(“[”, @latitude.value, “-“
, @longitude.value, "]");
Zuweisung
GenerierunguntergeordneterElemente
Erweiterbarer Funktionssatz
Syntaxbaum
![Page 31: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/31.jpg)
14/12/201531
Session 1: Datenbeschreibung
Live-Session
![Page 32: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/32.jpg)
14/12/201532
Gesamtüberblick
Generierter Java-Code
Transformations-funktion
Regelframework
Datenbeschreibung. Transformation.
Pangaea DC
Title
Creator
Subject
Description
Coverage
...
PangaeaCreator-DSL
PangaeaSubject-DSL
PangaeaCoverage-DSL
fTrans
fTrans
fTrans
Schema (RTG) Ausgabeelemente
(Syntaxbäume)
ROOT
Latitude Longitude ...
ROOT
Subject*
ROOT
FirstName LastName
fTrans
![Page 33: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/33.jpg)
14/12/201533
Beispiel: Wikipedia
<page>
<title>Lujo Brentano</title>
<ns>0</ns>
<id>142397</id>
<revision>
<id>134487883</id>
<parentid>133924296</parentid>
<timestamp>2014-09-30T13:12:04Z</timestamp>
<contributor>
<username>Gelehrter11</username>
<id>993293</id>
</contributor>
<minor/>
<comment>/* Leben */ Spätere Distanzierung vom "Manifest der 93" gem. dem
Artikel "Manifest der 93"</comment>
<text xml:space="preserve">...
* [[19. Dezember]] [[1844]] in [[Aschaffenburg]]; † [[9. September]]
[[1931]] in [[München]]) war ein [[Deutschland|deutscher]]
[[Volkswirtschaftslehre|Nationalökonom]] und [[Sozialreform]]er.
== Leben ==
Lujo Brentano wurde hineingeboren in die prominente, aus Italien stammende
katholische Intellektuellenfamilie Brentano: ...
Metadaten eher irrelevant
Biographische Daten im Fließtext
Aber: relevante Substruktur
![Page 34: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/34.jpg)
Wikipedia
Dump
23.01.1534
Beispiel: Wikipedia Cosmotool
GTF GTF
Profil-
Speicher
Grammatik: Definition
sprachlicher Elemente
Extraktion von „Inhalt“
Transformation des Inhalts
in Elemente des Profils
Ergebnis: Paare von
Überschriften und Text
Anwendung technischer
Verfahren
Iteration im Beispiel:
Satzerkennung
Anwendung typischer NLP-
Verfahren (mehrfach)
Ableitung von Korrelationen
Wiki-Entities
GrammaticalTransformation Framework
![Page 35: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/35.jpg)
23.01.1535
Implementierte Adapter
GTF
Profil-
Speicher
Datei: wird genutzt für
Wikipedia/Wikidata-Dumps
OAI-PMH (aus generischer Suche):
derzeit noch nicht verwendet
HTTP-GET: Abruf aus Webseiten
Bezeichner als GET-Parameter
![Page 36: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/36.jpg)
23.01.1536
Implementierte Analysefunktionalität
GTF
Profil-
Speicher
Core
String-Funktionen
Logische Funktionen
NLP Adapter
Stanford
OpenNLP
Biographische
Korrelationsanalyse
Generisch wiederverwendbar
![Page 37: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/37.jpg)
14/12/201537
DARIAH-DE Föderationsarchitektur
Datentransformation
![Page 38: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/38.jpg)
• Keine Abbildung kollektionsspezifischer Verwendung
• Nur einfache Assoziationen zw. Elementen möglich
14/12/201538
Einschränkung generischer Crosswalks
http://www.getty.edu/research/publications/electronic_publications/intrometadata/crosswalks.html
![Page 39: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/39.jpg)
• wie bei Erweiterung von Schemata sind auch hier Beschreibung und Transformation der Daten möglich
• Hier aber: Fokus auf Verwendungskontext
• Modellierer: Experte der Anwendungsdomäne
14/12/201539
Aufgaben der Mappings
![Page 40: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/40.jpg)
12/14/201540
Mappings verfeinern
Interpretation
CreatorType2Person
NameType6ForeName
ΨSurName
Ψ
PersonType1
Ψ
CreatorType2Person
NameType6ForeName
ΨSurName
Ψ
PersonType1
Ψ
TitleType1Lang
Ψ
Title_enΨ
Title_de
Ψ
Interpretation
TitleType1Lang
Ψ
Title_enΨ
Title_de
Ψ
Wertkorrespondenzen AssozierteKonzepte
![Page 41: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/41.jpg)
14/12/201541
Mappings vs. Anreicherung
Assoziierte
Konzepte
Generic DC
Title
Creator
Subject
Description
Publisher
Contributor
Date
Type
Format
Identifier
Source
Language
RelationCoverage
Rights
Pangaea DC
Title
Creator
LastName
FirstName
Subject
Description
Publisher
Contributor
Date
Type
Format
Identifier
SourceLanguage
Relation
Coverage
Latitude
Longitude
Start
DateTimeEnd
MinimumDepth
MaximumDepth
RightsWertkorrespondenzen
Konzept
mappings
Transformations
output
![Page 42: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/42.jpg)
14/12/201542
Session 2: Mappings
Live-Session
![Page 43: Die DARIAH-DE Föderationsarchitektur · 2015. 12. 14. · Grammatik: Definition sprachlicher Elemente Extraktion von „Inhalt“ Transformation des Inhalts in Elemente des Profils](https://reader035.vdocuments.pub/reader035/viewer/2022063013/5fcd63dc4909ad7475095779/html5/thumbnails/43.jpg)
14/12/201543
Vielen Dank! Fragen?