l'intégrateur de données talend
TRANSCRIPT
Gestion de données avec TALEND
Journée Bases de données OSUC
Aurore Hertout Chargée d’études Géomatique & Expertise Spatiale
Validation et insertion
Introduction Présentation Méthodologie Application Conclusion
Données thématiques : Nombreuses et variées Différents modes d’acquisition
• Continues • Ponctuelles • Autres
Nécessaire de mettre en place des processus et des routines
pour le traitement de ces données AUTOMATISATION
Introduction Présentation Méthodologie Application Conclusion
Données thématiques : Nombreuses et variées Différents modes d’acquisition
• Continues • Ponctuelles • Autres
Nécessaire de mettre en place des processus et des routines
pour le traitement de ces données AUTOMATISATION
ETL
Introduction Présentation Méthodologie Application Conclusion
ETL = Extract, Transform, Load
Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données
Introduction Présentation Méthodologie Application Conclusion
ETL = Extract, Transform, Load
Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données - intégrer les données dans une base de données
• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL
Introduction Présentation Méthodologie Application Conclusion
Présentation de Talend
• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL
Introduction Présentation Méthodologie Application Conclusion
Présentation de Talend
Gestion des données et des bases de données
Introduction Présentation Méthodologie Application Conclusion
Composants Jobs / Routines
Définition des paramètres des composants /
Exécution
Présentation de Talend (interface Job Designer)
Introduction Présentation Méthodologie Application Conclusion
Présentation de Talend (interface Job Designer)
Composants = pas de développement en JAVA TALEND Open Studio -> nécessaire de connaitre le schéma des données Organisation du fichier d’entrée et du fichier de sortie obligatoire Connaissance du formatage des fichiers de données
APPLICATION AUX DONNÉES SCIENTIFIQUES
SO Tourbières et Principasol
Introduction Présentation Méthodologie Application Conclusion
Données brutes (sites Frasne, La Guette, Landemarais)
Traitement (validation)
Intégration dans la BDD Principasol
Introduction Présentation Méthodologie Application Conclusion
Introduction Présentation Méthodologie Application Conclusion
Données de terrain (GSM, relevés, etc.)
Fichiers de données (.dat)
TALEND
Intégration dans la BdD Principasol
Validation Expert
Publication
Introduction Présentation Méthodologie Application Conclusion
Données de terrain (GSM, relevés, etc.)
Fichiers de données (.dat)
TALEND
Intégration dans la BdD Principasol
Validation Expert
Publication
Introduction Présentation Méthodologie Application Conclusion
TALEND
Données validées dans
la BdD
𝜎𝑥 =1
𝑁 − 1�(𝑥𝑥 − �̅�)𝑁
𝑖=1
Introduction Présentation Méthodologie Application Conclusion
Données validées dans
la BdD
Min < Valeur < Max
Min < Valeur < Max
VALIDEE
Validation expert requise
TALEND
Données brutes à valider
Introduction Présentation Méthodologie Application Conclusion
Données validées dans
la BdD
Données brutes à valider
Min < Valeur < Max
Min < Valeur < Max
VALIDEE
Validation expert requise
Intégration dans la BdD Principasol
TALEND
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
routines.Data_PreTraitement.SiteId(row3.RH_Avg,row3.Record)
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
Données
Intervalle Max
Intervalle Min
Routine Checked / Expert validation required
Routine Unchecked
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Introduction Présentation Méthodologie Application Conclusion
De la théorie à la pratique…
Intégration des données dans différents types de bases de données
Introduction Présentation Méthodologie Application Conclusion
Modifications ? Modification des Jobs et des routines
Ajout d'un paramètre (+ 1 colonne au fichier de données)
→ Modification du schéma global à remplacer et à importer dans l'ensemble des jobs
Modification d'une unité ou d'un paramètre
→ Modification dans la routine Traitement_Unite
Modification de l'emplacement de la base de données
→ Modification du composant tMySQLInput, tMySQLConnection, tMySQLOutput dans l'ensemble des jobs
Modification de l'ordre des paramètres
→ Problème de cohérence mais traitement effectué normalement
Talend = Σ d'outils puissants mais complexes => Forums indispensables pour comprendre l'utilisation de
certains composants => Communauté de développeurs = amélioration constante des composants
SO Tourbières : ETL Talend utilisé et performant pour la
gestion des données et l’intégration dans la BdD Principasol
Introduction Présentation Méthodologie Application Conclusion
Conclusions et perspectives
Merci de votre attention
Journée Bases de données OSUC 15 janv. 2014
Questions ?