approche semi-automatisée de conception de schémas multidimensionnels valides
Post on 26-Jan-2016
40 Views
Preview:
DESCRIPTION
TRANSCRIPT
Approche semi-automatisée de
conception de schémas multidimensionnels valides
Laboratoire
Article présentée par :
Ahlem SOUSSI
Ingénieur en informatique &Étudiante en 2ème année
mastère F.S.T. Tunisie
Directeurs de Mastère
M.A. Jamel FEKIM.C. Faiez GARGOURI
10 Juin 200510 Juin 2005
2
Plan
Introduction État de l’art Approche proposée
• Architecture fonctionnelle
• Modules Conclusion et perspectives
3
Systèmes décisionnels
Deux espaces de stockage :
• l’entrepôt de données (ED)
• les magasins de données (MD)
Systèmes transactionnels => production
Système décisionnel => pilotageED
MD
MD
SOURCES
DE DONNEES
4
Modèles Multidimensionnels
5
Plan
Introduction État de l’art Approche proposée
Architecture fonctionnelle Modules
Conclusion et perspectives
6
Etat de l’art
Guidée par les besoins
Guidée par la source Mixte
Basée surrequêtes
décisionnelsSource
de donnéesrequêtes et source
Participation des utilisateurs dans la conception de l’ED
forte limitée forte
Structuration de l’approche
non oui oui
Automatisation manuellesemi-
automatiquesemi-
automatique
Adopté par KimballGolfarelli,
Cabibbo, Moody, Hüsemann
Bonifati, Phipps
Types d’approche
Propriété
7
Plan
Introduction État de l’art Approche proposée
Architecture fonctionnelle Modules
Conclusion et perspectives
8
Approche proposée
Limite des approche mixtes : •Générer et gérer un grand nombre de schémas candidats inutiles
Approche proposée : •Mixte•Privilégie les besoins OLAP / aux besoins offerts par les sources
9
Architecture fonctionnelle
Génération de schémas en constellation
Génération de schémas
en étoile
Correspondance et validation des
schémas en étoile
Dictionnaire Schémas des Sources de Données
Schémas en étoile idéaux des MD
Schémas en étoile valides des MD
Acquisition graphique
des besoins OLAP
Génération de schémas
de MD
Générationd’un schéma
d’ED
Besoins OLAP semi-structurés
Schéma de l’EDBesoins OLAP
exprimés
BD de spécification des besoins décisionnels
Schémas valides des MD
Génération de schémas
de MD
10
Structure des besoins OLAP
Nom du Domaine
Paramètre 1 {Attributs faibles}
Paramètre 2 {Attributs faibles}
Paramètre 1 {Attributs faibles}
Paramètre 2 {Attributs faibles}
Condition de sélection
Dimension D2 /
Hiérarchie H_D2
NOM DU FAIT ( Mesure 1, …, Mesure k)
Dimension D1 / Hiérarchie H_D1
Valeurs
des
mesures
Valeurs
des
paramètres
Valeurs des
paramètres
D3 D4 Dn Dimensions masquées :
ATTRIBUT
NomATypeA
Params
NiveauA_FAIBLE A_FORT1..*
FaibleH
1..*
MESURE
NomMFormule
DOMAINE
NomDomDescriptDom
FAIT
NomF DIMENSION
NomDTABLEAU
NomTAgentDate_spécifDescriptTab
1..*
1..*
1..*
1..*1..*1..*
1..*1..*
2..*1..*
2..*1..*
HIERARCHIE
NomH
1..*1..*
ParamsH
1..*1..*
1..*
2..*
1..*
2..*
11
Génération des étoiles
Enrichissement des tableaux de besoins Tableaux spécifiés => Tableaux enrichis Construction des étoiles
Tableaux enrichis ===> schémas en étoiles
GENETOILE
DOM 1 DOM 2
DOM 3
f1f2
f3
12
SECTION
Code_ Section
Libellé_ Section
Année_Univ
Numéro_ Semestre
H-Semestre
H-AU
ENCADREMENT
Charge_horaire_encadrement
SEMESTRE
ANNÉE UNIVERSITAIRE
ENSEIGNANT
H-Section
Code_ Enseignant
Grade_Enseignant
Prénom_Enseignant
Nom _Enseignant
H2-Enseig
Type_ Enseignant
H1-Enseig
Année_Univ
Numéro_ Semestre
Code_ Enseignant
Grade_ Enseignant
Prénom_Enseignant
Nom _Enseignant
H-Semestre
H-AU
H2-Enseig
ENCADREMENT
Charge_horaire_encadrement
SEMESTRE
ANNÉE UNIVERSITAIRE
ENSEIGNANT
Sch : Schéma en étoile équivalent au tableau T1
T1
Année_Univ
Grade_Enseigant
Code_Enseignant {Nom_Enseig, Prénom_Enseig}
Répartition des enseignements
ENCADREMENT ( Charge_horaire_encadrement )
Année_Universitaire / H_AU
Enseignant /
H2_Enseig
Numéro_semestre = 2
Semestre
Exemple
Code_Section {Libellé_Section}
Type_EnseigantCode_Enseignant {Nom_Enseig, Prénom_Enseig}
Répartition des enseignements
ENCADREMENT ( Charge_horaire_encadrement )
Section / H_Section
Enseignant /
H1_Enseig
Année_Univ = 2002/2003 AND Numéro_semestre = 2
Année_Universitaire Semestre
T2
Sch1 : Schéma en étoile résultant de l’ajout de T2 à Sch
13
Correspondance étoiles/Source
Correspondance des :Faits, Mesures, Dimensions,
Hiérarchies
Deux étapes :
– Extraction des termes potentiels sources
– Correspondance
Correspondance étoile idéale / source (E/R)
Validation des correspondances effectuées
14
Exemple d’une source E/R
1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT_ENSEIGNER
COMPORTE_GRP
NBR_GRPCONTIENT_HEUR
VOL_HOR_ENS_NAT
REGROUPE_ETUD
NBR_ETUD
ENSEIGNEMENT_ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI
15
faits potentiels ?
Entités ou associations n-aires
contenant au moins un attribut numérique non-clé.
Correspondance du fait
DIM 1
DIM 2
faitmesures
Identifiant
H1_DIM1 H2_DIM1
Param 1
Param N
Enseignement
1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT_ENSEIGNER
COMPORTE_GRP
NBR_GRPCONTIENT_HEUR
VOL_HOR_ENS_NAT
REGROUPE_ETUD
NBR_ETUD
ENSEIGNEMENT_ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI
16
Mesures potentielles d’1 fait F ?
Si F-ass est une association n-aire :
Les attributs numériques non-clés appartenant au(x) : Fait F-ass Associations parallèles à F-ass Entités directement liées par F-ass
Si F-ass est une entité :
Les attributs numériques non-clés appartenant au(x) : F-ass Entités ou association porteuse de données (Ent ou
Apd) liées à F-ass par un lien (1,1) Entités liées à F-ass par un lien (1,n)
Correspondance des mesures
DIM 1
DIM 2
Identifiant
H1_DIM1 H2_DIM1
Param 1
Param N
faitmesuresNbre_ groupe_
enseignés, …
Enseignement
1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT_ENSEIGNER
COMPORTE_GRP
NBR_GRPCONTIENT_HEUR
VOL_HOR_ENS_NAT
REGROUPE_ETUD
NBR_ETUD
ENSEIGNEMENT_ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT_ENSEIGNER
COMPORTE_GRP
NBR_GRPCONTIENT_HEUR
VOL_HOR_ENS_NAT
REGROUPE_ETUD
NBR_ETUD
ENSEIGNEMENT_ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI
17
Identifiant
H1_DIM1 H2_DIM1
DIM 2
DIM 1
Param 1
Param N
faitmesures
Correspondance des dimensions (1)
identifiants potentiels de dimensions ?
Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la
fermeture transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n))
Nbre_ groupe_ enseignés, …
Enseignement
MATIERE
Code_Matière
1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT_ENSEIGNER
COMPORTE_GRP
NBR_GRPCONTIENT_HEUR
VOL_HOR_ENS_NAT
REGROUPE_ETUD
NBR_ETUD
ENSEIGNEMENT_ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI
18
1,n 1,n
1,n
0,n
1,n
0,n
0,n
0,n
0,n
0,n
1,n
1,n
0,n
0,n
0,n
0,n
0,n1,n
1,1
1,n 1,1
0,n
1,n
1,n
1,11,n
1,n
1,n
1,1
SECTION
COD_SECINT_SEC
CYCLE
NUM_CYC
SEMESTRE
NUM_SEM
ANNEE_UNIV
AN_UNIV
AUDITOIRE
COD_AUDINT_AUD
MATIERE
COD_MATINT_MATVOL_HOR_MAT
GRADE
GRAD_ENS
ETUDIANT
NUM_ETUDNOM_ETUDPRENOM_ETUD
NATURE_ENSMT
NAT_ENSMT ENSEIGNANT
NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL
TYPE_ENSEIGNANT
TYP_ENS
CONCERNECONCERNE_AUD
INSCRIT_DANS
TYPE_ENS
GRADE_ENS
PEUT _ENSEIGNER
COMPORT E_GRP
NBR_GRPCONT IENT _HEUR
VOL_HOR_ENS_NAT
REGROUPE_ET UD
NBR_ET UD
ENSEIGNEMENT _ASS
NBR_GRP_ENS
CHARGE_EXIGEE
CHARG_HOR_EXI
Attributs faibles potentiels de l’dentifiant d’une dimension ?
Les attributs appartenant au(x) : Fait F-ass Ent ou Apd liées à F-ass par un
lien (1,1)
Correspondance des dimensions (2)
Libellé_MatièreIdentifiant
H1_Matière
DIM 2
DIM 1
Cycle
faitmesuresNbre_ groupe_
enseignés, …
Enseignement
MATIERE
Code_Matière
Code_Auditoire
Attributs_faibles
19
Libellé_Section
CodeSection
CodeMatière
CodeAuditoire
Libellé Matière
Volume horaire
MATIERE
Libellé_Auditoire
H1_Matière
Correspondance des hiérarchies (1)
identifiants potentiels de dimensions ?
Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la fermeture
transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n))
20
Correspondance des hiérarchies (2)
AUDITOIRE
COD_AUDINT_AUD
Matière
Libellé_Auditoire
Code_Auditoire
Code_Matière
Code_Section
Libellé_Matière
Volume_horaire
Extraction des attributs faibles potentiels de P ?
Les attributs non-clés appartenant à :
L’élément E contenant P-ass
Ent ou Apd liées à E par un lien (1,1)
21
Validation des correspondances
Ajustement des correspondances effectuées
• corriger/supprimer les correspondances incorrectes
• Compléter les correspondance manquantes Choix de la correspondance la plus appropriée
Amélioration de la correspondance retenue
• éliminer les éléments sans correspondant• ajouter des mesures calculables valides• ajouter des dimensions et des attributs
supplémentaires
22
Métrique des :• Mesures • Dimensions• Hiérarchies• Paramètres
Calculés pour chaque solution de correspondance Comptent le nombre de mesures, dimensions, hiérarchies
et paramètres (d’un schéma en étoile) ayant un correspondant dans la source
Cas de plusieurs solutions de correspondance
Fp1
:
Fpi
:
Fpn Soln
Soli
Sol1Corresp. des mesures
Corresp. des dimensions
Corresp. des hiérarchies
Corresp. des mesures
Corresp. des dimensions
Corresp. des hiérarchies
Corresp. des mesures
Corresp. des dimensions
Corresp. des hiérarchies
Comparer les n
solutions de corresp
Solj
choisiefait F
Faits potentiels associés à F
Fait Fpj
associé à F
23
Génération des constellations
Entrée : des étoiles valides Sortie : des étoiles + des constellations Idée de base : similitude entre schémas multidimensionnels
Critère Sim(Si,Sj)
si p=0 0
si p=n=m 1
si p=1 1/5
si p=n et n<m 3/4
si p=n/2 et n=m 1/2
si p>=m/2 et n<m
2/3
si n/2<=p<m/2 1/3
si p<n/2 et n<=m
1/4
Soient : . Si et Sj deux schémas . Card(Dim(Si)) = n . Card(Dim(Sj)) = m . p = Card(Dim(Si) ∩ Dim(Sj))
Ordre de constellation ?
24
Algorithme de principe :
•Calculer MS et son maximum Max•Consteller les schémas les plus
similaires •Mettre à jour la matrice MS •Réitérer
Génération des constellations (2)
Arrêt : - Taille(MS) =1, - valeurs de similitude faibles - sur demande.
MS S1 . . Si . . Sk
S1 - ? ? ? ?
: - ? ? ?Si - ? ?
: - ?Sk -
25
Plan
Introduction État de l’art Approche proposée
• Architecture fonctionnelle
• Modules
Conclusion et perspectives
26
Conclusion et perspectives
Approche de construction de MD en 3 étapes :Génération des étoilesCorrespondance et validation des étoilesGénération des constellations
Perspectives
Implémentation de la méthode de correspondance avec des sources de données relationnelles.
Intégration des schémas de MD schéma de l’ED.
28
Modèles Multidimensionnels
Fait : activité analysé
Dimension : axe d’analyse
Modèle en étoile
• 1 fait central• dimensions
Modèle en constellation
• ++ faits ayant des dimensions communes Fusion de ++ schémas en étoile
29
30
ED & MD
Entrepôt de données ("data warehouse") – lieu de stockage centralisé d'un – extrait des sources – pertinent pour les décideurs, – daté, historisé – organisé selon un modèle informatique facilitant
la gestion des données.
Magasin de données ("data mart") – extrait de l'entrepôt – adapté à une classe de décideurs (ou à un usage
particulier) – organisé selon un modèle approprié aux outils
d'analyse.
top related