CIRAD
Choix d’une architecture pour la plate-forme SIST
20 juillet 2004
Architecture Générale
Publications
Utilisateurs
Plate-forme SIST
Générateurde
Requête
Serveur de Fichiers
Connecteurs
Analyse, Triet
Restitutiondes
résultats
Analyse dela requête
Connecteurs
Connecteurs
Base dedonnées Web
Moteur deRecherche
Tiers
Protocole de communicationHTTP, Z3950, etc.
Index
Indexeur
Base Locale d’Index
SGBDR (SQL)
Site Web(HTML)
Spidering/Crawling
Indexation donnéesstructurées
XML
Internet
Indexation Full Text
DonnéesBiblio
Annuaires
Office, pdf,texte, .
TRANSFERT( ftp, http, etc.)
ExtractionTransformation
Chargement
Autre Plate-forme SIST
Cas de la plate-forme régionale :interface avec les différentsportails SIST nationaux
Accès Local (LAN)
Outils decommunication
(forum, espace detravail collanoratif)
Outils et ServicesPartenaires
(e-learning, accèsserveurs
commerciaux)
Les Briques d’Architecture
Brique fonctionnelle Description
Moteur de recherche – générateur de requêtes
Moteur permettant la recherche d’information sur de multiples source de contenu distantes sans gestion d’index centralisé.
Moteur de recherche – indexation locale - crawling
Moteur permettant la recherche d’information sur de multiples source de contenu locale avec la gestion d’une base d’index centralisée (recherche texte intégral & recherche structurée).Moteur proposant un mécanisme de spidering ou crawling de site (robot parcourant le site Web de lien en lien pour en indexer le contenu dans une base de données)
Solution portail Solution proposant aux utilisateurs les services de présentations des résultats de recherches et les outils de communication et de collaboration (forum, newsletter, etc.)
E.T.L Outil destiné à extraire des données de diverses sources (bases de données de production, fichiers, Internet, etc.), à les transformer et à les charger dans un entrepôt de données
Les Briques Logicielles étudiées
Brique logicielles URL
MngoSearch http://www.mnogosearch.org
SPIP AGORA http://www.agora.gouv.fr/
ALBERT AMI Entreprise Discovery
http://www.albert.com/
Documentum ECI Services
http://www.documentum.com/askonce/
EVER i-Kiosk http://www.ever-ezida.com/online/i-kiosk/index-i-kiosk.htm
SPIP http://www.spip.net
OpenCMS http://www.opencms.org/
Octopus http://octopus.objectweb.org/
Les Choix d’implémentation
Scénario 1:
Brique fonctionnelle Solution
Moteur de recherche – générateur de requêtes
SPIP-AGORA
Moteur de recherche – indexation locale - crawling
SPIP-AGORA
Solution portail SPIP-AGORA
E.T.L OCTOPUS
Les Choix d’implémentation
Scénario 2:
Brique fonctionnelle Solution
Moteur de recherche – générateur de requêtes
AMI Entreprise Discovery d’ALBERT
Moteur de recherche – indexation locale - crawling
AMI Entreprise Discovery d’ALBERT
Solution portail SPIP (Apache PHP)
E.T.L OCTOPUS
Les Choix d’implémentation
Scénario 3:
Brique fonctionnelle Solution
Moteur de recherche – générateur de requêtes
Documentum ECI Services
Moteur de recherche – indexation locale - crawling
MnGoSearch
Solution portail OpenCMS (Apache Tomcat)
E.T.L OCTOPUS
Les Choix d’implémentation
Scénario 4:
Brique fonctionnelle Solution
Moteur de recherche – générateur de requêtes
EVER i-Kiosk
Moteur de recherche – indexation locale - crawling
EVER i-Kiosk & MngoSearch
Solution portail EVER i-Kiosk
E.T.L OCTOPUS
Indicateurs d’évaluation des scénarii
Références Clients
Evaluation approximative des coûts pour une plate-forme au niveau national:
• Achat (licence)• Maintenance annuelle• Coût de développement• Coût d’intégration• Coût annuel (maintenance et évolution)
AVEC LES HYPOTHESES SUIVANTES 10 sources de données connectées (distante en ligne) dont 5
propriétaires (connecteurs à développer intégralement; ex: CDS-ISIS, application propriétaires, etc.)
Nombre d’utilisateurs cibles : 1000 puis 5000 Charges de développement et intégration : 400€ j/h 10 sources non connectées (rapatriement en local par un mécanisme
ETL) Coût annuel comprend la maintenance et l’évolution annuelle de la
plate-forme SIST :6 sources de données supplémentaires par an dont 3 connectées propriétaires et 3 non connectées
Diagramme d’analyse SWOT : Strenght – Weakness – Opportunity – Threat
Publications
Utilisateurs
Plate-forme SIST
Générateurde
Requête
Serveur de Fichiers
Connecteurs
Analyse, Triet
Restitutiondes
résultats
Analyse dela requête
Connecteurs
Connecteurs
Base dedonnées Web
Moteur deRecherche
Tiers
Protocole de communicationHTTP, Z3950, etc.
Index
Indexeur
Base Locale d’Index
SGBDR (SQL)
Site Web(HTML)
Spidering/Crawling
Indexation donnéesstructurées
XML
Internet
Indexation Full Text
DonnéesBiblio
Annuaires
Office, pdf,texte, .
TRANSFERT( ftp, http, etc.)
ExtractionTransformation
Chargement
Autre Plate-forme SIST
Cas de la plate-forme régionale :interface avec les différentsportails SIST nationaux
Accès Local (LAN)
Outils decommunication
(forum, espace detravail collanoratif)
Outils et ServicesPartenaires
(e-learning, accèsserveurs
commerciaux)
SCENARIO 1
OCTOPUS
SPIP AGORA
SPIP AGORA
SPIP AGORA
SCENARIO 1 : SPIP AGORA + OCTOPUS
Références Clients:• SPIP-AGORA est un projet "libre" puisque SPIP est sous
licence GPL : s’il a été initié par le Service d’Information du Gouvernement pour ses propres besoins éditoriaux, il a été prévu dès l’origine du projet d’en assurer la diffusion non seulement au sein de l’Etat (Services du Premier ministre, ministères, administrations déconcentrées, etc.), mais même bien au delà : collectivités territoriales, établissement public, secteur associatif, entreprises privées, etc.
• Sites gouvernementaux : agora.gouv.fr, retraites.gouv.fr, forum.gouv.fr, europe.gouv.fr
• Partenaires du SIG: Braillenet, ANPE, ADULLACT (Association des Développeurs et Utilisateurs de Logiciels Libres pour les Administrations et les Collectivités Territoriales) , ADAE (Agence pour le Développement de l’Administration Electronique).
• Bientôt: equipement.gouv.fr, diplomatie.gouv.fr, environement.gouv.Fr
SCENARIO 1 : SPIP AGORA + OCTOPUS
Evaluation approximative des coûts:
Evaluation des coûts Commentaires (charge, calcul) charge (j/h) Prix (€)1000 utilisateurs 05000 utilisateurs 01000 utilisateurs 05000 utilisateurs 0connecteurs standards SPIP AGORA : 4j/connecteur 20 8 000autres connecteurs SPIP AGORA : 6j/connecteur 30 12 000présentation (pages portail, pages de recherche et de résultats)
SPIP AGORA : pages portail php (rubriquage, pages gabarits, design) : 10jSPIP AGORA : pages de recherche et de résultats (formulaires, tri, agrégation): 10j 20 8 000
ETL OCTOPUS : fichier de transformation XML : 2j /source 20 8 000
Intégration
installation, configuration portail (forum, etc.),gestion de l'indexation (crawling, full text, sql),catégorisation de la recherche SPIP AGORA 14 5 600
TOTAL mise en place 104 41 600Coût annuel (maintenance + évolution) 24 9 600
Licence
Maintenance
Développement
Publications
Utilisateurs
Plate-forme SIST
Générateurde
Requête
Serveur de Fichiers
Connecteurs
Analyse, Triet
Restitutiondes
résultats
Analyse dela requête
Connecteurs
Connecteurs
Base dedonnées Web
Moteur deRecherche
Tiers
Protocole de communicationHTTP, Z3950, etc.
Index
Indexeur
Base Locale d’Index
SGBDR (SQL)
Site Web(HTML)
Spidering/Crawling
Indexation donnéesstructurées
XML
Internet
Indexation Full Text
DonnéesBiblio
Annuaires
Office, pdf,texte, .
TRANSFERT( ftp, http, etc.)
ExtractionTransformation
Chargement
Autre Plate-forme SIST
Cas de la plate-forme régionale :interface avec les différentsportails SIST nationaux
Accès Local (LAN)
Outils decommunication
(forum, espace detravail collanoratif)
Outils et ServicesPartenaires
(e-learning, accèsserveurs
commerciaux)
SCENARIO 2
OCTOPUSSPIP
AMI ED
AMI ED
SCENARIO 2 : ALBERT AMI ED + SPIP + OCTOPUS
Références Clients:• Quelques références (portail et veille)
– Valeo– CCI Paris– Air France Industrie– Maris de Paris (CyberVeille)– Unesco– RFO– ReliefWeb.org (affaire humanitaire de l’ONU)– Saab Systems & Electronics– Université de East London– Etc.
SCENARIO 2 : ALBERT AMI ED + SPIP + OCTOPUS
Evaluation approximative des coûts:
Evaluation des coûts Commentaires (charge, calcul) charge (j/h) Prix (€)1000 utilisateurs 50 0005000 utilisateurs ALBERT : 50000 + 4000*20 130 0001000 utilisateurs 7 5005000 utilisateurs 19 500connecteurs standards ALBERT : 3j/connecteur 15 6 000autres connecteurs ALBERT : 6j/connecteur 30 12 000présentation (pages portail, pages de recherche et de résultats)
SPIP : pages portail php (rubriquage, pages gabarits, design) : 10jALBERT : pages de recherche et de résultats (formulaires, tri, agrégation): 7j 17 6 800
ETL OCTOPUS : fichier de transformation XML : 2j /source 20 8 000
Intégration
installation, configuration portail (forum, etc.), gestion de l'indexation (crawling, full text, sql), catégorisation de la recherche ALBERT 8 3 200
TOTAL mise en place (1000 utilisateurs) 93 500TOTAL mise en place (5000 utilisateurs) 185 500Coût annuel (1000 utilisateurs) 24 17 100Coût annuel (5000 utilisateurs) 24 29 100Total développement et intégration 90 36 000
Licence
Développement
ALBERT : 15 % par anMaintenance
Publications
Utilisateurs
Plate-forme SIST
Générateurde
Requête
Serveur de Fichiers
Connecteurs
Analyse, Triet
Restitutiondes
résultats
Analyse dela requête
Connecteurs
Connecteurs
Base dedonnées Web
Moteur deRecherche
Tiers
Protocole de communicationHTTP, Z3950, etc.
Index
Indexeur
Base Locale d’Index
SGBDR (SQL)
Site Web(HTML)
Spidering/Crawling
Indexation donnéesstructurées
XML
Internet
Indexation Full Text
DonnéesBiblio
Annuaires
Office, pdf,texte, .
TRANSFERT( ftp, http, etc.)
ExtractionTransformation
Chargement
Autre Plate-forme SIST
Cas de la plate-forme régionale :interface avec les différentsportails SIST nationaux
Accès Local (LAN)
Outils decommunication
(forum, espace detravail collanoratif)
Outils et ServicesPartenaires
(e-learning, accèsserveurs
commerciaux)
SCENARIO 3
OCTOPUSopenCMS
(Apache + Tomcat)
MngoSearch
ECI Services
SCENARIO 3 : DOCUMENTUM ECI SERVICES + openCMS + MngoSearch + Octopus
Références Client:
• Plus d’une trentaines de références (solution de veille et de portail) dont :
• Agropolis (Bibliothèque ouverte de Montpellier)• Xerox Corporate• France Télécom• EDF• Bibliothèques de Lyon, du Québec• Airbus• Etc.
SCENARIO 3 : DOCUMENTUM ECI SERVICES + openCMS + MngoSearch + Octopus
Evaluation approximative des coûts:Evaluation des coûts Commentaires (charge, calcul) charge (j/h) Prix (€)
1000 utilisateurs ECI Services : 200 € / user ou 50000 €/cpu 20 000
5000 utilisateursECI Services : 200 * 5000 = 100 000remarque: 5000 user <=> bi-cpu 100 000
1000 utilisateurs 3 6005000 utilisateurs 18 000connecteurs standards ECI Services : 2j/connecteur 10 4 000autres connecteurs ECI Services : 4j/connecteur 20 8 000présentation (pages portail,pages de recherche et de résultats)
openCMS: pages portail jsp (rubriquage, pages gabarits, design) : 10jECI Services : pages de recherche et de résultats (formulaires, tri, agrégation): 3j 13 5 200
ETL OCTOPUS : fichier de transformation XML : 2j /source 20 8 000
Intégration
installation, configuration portail (forum, etc.), gestion de l'indexation (crawling, full text, sql), catégorisation de la recherche ECI Services + MngoSearch + openCMS 10 4 000
TOTAL (1000 utilisateurs) 52 800TOTAL (5000 utilisateurs) 147 200Coût annuel (1000 utilisateurs) 18 10 800Coût annuel (5000 utilisateurs) 18 18 018Total développement et intégration 73 29 200
Développement
Licence
Maintenance ECI Services : 18 % par an
Publications
Utilisateurs
Plate-forme SIST
Générateurde
Requête
Serveur de Fichiers
Connecteurs
Analyse, Triet
Restitutiondes
résultats
Analyse dela requête
Connecteurs
Connecteurs
Base dedonnées Web
Moteur deRecherche
Tiers
Protocole de communicationHTTP, Z3950, etc.
Index
Indexeur
Base Locale d’Index
SGBDR (SQL)
Site Web(HTML)
Spidering/Crawling
Indexation donnéesstructurées
XML
Internet
Indexation Full Text
DonnéesBiblio
Annuaires
Office, pdf,texte, .
TRANSFERT( ftp, http, etc.)
ExtractionTransformation
Chargement
Autre Plate-forme SIST
Cas de la plate-forme régionale :interface avec les différentsportails SIST nationaux
Accès Local (LAN)
Outils decommunication
(forum, espace detravail collanoratif)
Outils et ServicesPartenaires
(e-learning, accèsserveurs
commerciaux)
SCENARIO 4
OCTOPUSi-Kiosk
i-Kiosk etMngoSearch
i-Kiosk
SCENARIO 4 : EVER I-KIOSK + MngoSearch + Octopus
Références Clients :• Quelques références seulement (offre récente)
• BDIC de Paris X : Bibliothèque de documentation internationale contemporaine
• Site du Musée du Quai Branly (arts et civilisations d’Afrique, d’Océanie et des Amériques)
• Université de Compiègne
SCENARIO 4 : EVER I-KIOSK
Evaluation approximative des coûts:
Evaluation des coûts Commentaires (charge, calcul) charge (j/h) Prix (€)1000 utilisateurs EVER : 50 k€ de licence et 30 k€ de services 80 0005000 utilisateurs 80 0001000 utilisateurs 12 0005000 utilisateurs 12 000connecteurs standards EVER: 2j/connecteur 10 4 000autres connecteurs EVER: 5j/connecteur 25 10 000présentation (pages portail,pages de recherche et de résultats)
EVER: pages portail (rubriquage, pages gabarits, design) : 8jEVER: pages de recherche et de résultats (formulaires, tri, agrégation): 3j 11 4 400
ETL OCTOPUS : fichier de transformation XML : 2j /source 20 8 000
Intégrationinstallation, configuration portail (forum, etc.), gestion de l'indexation (crawling, full text, sql) EVER + MngoSearch (crawling) 6 2 400
TOTAL (1000 utilisateurs) 120 800TOTAL (5000 utilisateurs) 120 800Coût annuel (1000 utilisateurs) 21 20 400Coût annuel (5000 utilisateurs) 21 20 400Total développement et intégration 72 28 800
Développement
Licence
Maintenance EVER : 15 % par an
Comparaison sur l’évaluation des coûts :
Scénario 1000 utilisateurs SPIP AGORA ALBERT DOCUMENTUM EVERCharge développement et intégration(j/h) 104 90 73 72Coût développement et intégration 41600 36000 29200 28800Coût licence et maintenance 0 57500 23600 92 000Coût total de mise en place 41600 93500 52800 120800Coût annuel 9 600 17 100 10 800 20 400
Scénario 5000 utilisateurs SPIP AGORA ALBERT DOCUMENTUM EVERCharge développement et intégration (j/h) 104 90 73 72Coût développement et intégration 41600 36000 29200 28800Coût licence et maintenance 0 149 500 118 000 92 000Coût total de mise en place 41600 185500 147200 120800Coût annuel 9 600 29 100 18 018 20 400
Comparaison sur l’évaluation des coûts : Scénario 1000 utilisateurs
Scénario 1000 utilisateurs
0
20000
40000
60000
80000
100000
120000
140000
Coût développement etintégration
Coût licence etmaintenance
Coût total de mise enplace
SPIP AGORA
ALBERT
DOCUMENTUM
EVER
Comparaison sur l’évaluation des coûts : Scénario 5000 utilisateurs
Scénario 5000 utilisateurs
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
200000
Coûtdéveloppementet intégration
Coût licence etmaintenance
Coût total demise en place
Coût annuel
SPIP AGORA
ALBERT
DOCUMENTUM
EVER
Scénario SPIP-AGORAForces Faiblesses
Coût de licence nul
Solution OSS (la disponibilité des sources est un gage de fiabilité des développements)
Simplicité d’utilisation et d’installation (pour la partie gestion de contenu)
Couverture fonctionnelle très large (Nombre important de fonctionnalités implémentées nativement : recherche full texte et fédérée, gestion de contenu forum, newsletter, etc.).
Solution retenue par le SIG (Service d’information du Gouvernement)
Manque de maturité des développements (problèmes de performances)
Complexité de la phase d’intégration et d’administration (partie indexation de contenu MngoSearch et couche d’abstraction Seven Sea); manque de documentation
Pertinence des résultats (algorithmes de recherche moins élaborés que ceux utilisés par les solutions éditeurs)
Opportunités Menaces
Produit amené à évoluer rapidement
Bénéficie du support de la communauté Open Source (notamment celle de SPIP)
Divergence entre SPIP et SPIP-AGORA risque d’affaiblir la communauté
Charge des développements spécifiques peut s’avérer conséquente
Peu de références professionnelles (sites gouvernementaux uniquement)
Support présent mais reste limité (hotline)
Scénario ALBERTForces Faiblesses
Couverture technique et fonctionnelle très large de la solution / t aux besoins de la plate-forme SIST (moteur de requête + moteur de recherche et d’indexation : niveau régional + niveau national)
Architecture ouverte à base de connecteurs/ data source
Pertinence des résultats de recherche (« post ranking »)
Intégration multi technologies au niveau du portail (jsp, php, etc.)
Coût de licence élevé (en fonction du nombre d’utilisateur)
Support éditeur limité (pour le moment)
Opportunités Menaces
La solution AMI ED peut fonctionner en collaboration avec une solution de veille AMI Market Intelligence qui permettrait de récupérer des informations statistiques sur le type d’information produites ou traiter dans les différents pays, etc.
Evolutivité de la solution par ajout « simple » d’une source de données (mise en place d’un connecteur)
Mécanisme d’auto apprentissage qui enlève la nécessité de mise en place d’un thesaurus (solution coûteuse)
Coûts de développement et d’intégration peuvent grimper très rapidement selon le nombre de sources de données et les disparités de celles ci
Pérennité de la solution (Société de 30 personnes).
Sous utilisation des possibilités du produit en terme d’analyse de requête et de recherche
Temps de réponses liées au mécanisme de « post ranking » (pas d’affichage au fil de l’eau)
Scénario ECI SERVICES
Forces Faiblesses
Architecture ouverte à base de connecteurs/ data source et basée sur la technologie J ava
Affichage des résultats au fil de l’eau (atténuation des impacts liés à la difficulté d’accès à une source d’information et à la performance des équipements informatiques distants)
Outil WDK disponible avec interface GUI : réduction des coûts de développement des wrappers
Support éditeur important
Pérennité de la solution (Documentum)
Fonctionnalités intégrées nativement
- Export des données
- Veilles
Pas de base d’index à gérer localement (Volume des bases d’index est généralement très important)
Toolkit de développement de wrapper intégré à Eclipse (IDE OSS utilisé par une grande partie de développeur J ava)
Coût de licence relativement important
Intégration limitée à une seule technologie au niveau portail (J ava/ J SP)
ECI Services ne couvre pas tous les besoins fonctionnels (recherche texte intégral et de mécanisme de spidering / crawling)
Opportunités Menaces
Couplage possible avec un moteur indexation full texte (développement de wrapper/adaptateur)
Evolutivité de la solution par ajout « simple » d’une source de données (mise en place d’un wrapper).
Fonctionnalités de profiling, personnalisation sont déjà implémentées.
Choix du mode de licence (par utilisateur ou par cpu)
Pertinence des résultats (pertinence par recherche de méta donné, pas de thésaurus, ni de gestion de synonymes)
Scénario I-KIOSK
Forces Faiblesses
Moteur de recherche (recherche texte intégrale) et méta moteur de recherche (recherche fédérée) inclus dans l’offre (partenariat reconduit avec Documentum ECI Services)
Respect du standard J 2EE, multi plate-forme
Couverture fonctionnelle et technique large (sauf crawling)
Support éditeur
Coûts d’acquisition (coût en fonction du nombre de services/connecteurs)
Rigidité du progiciel face à un outil typé « FrameWork »
Solution « jeune », peu éprouvée
Pas d’outil de développement pour les connecteurs.
Opportunités Menaces
Richesse fonctionnelle dans le domaine bibliothécaire
Possibilité de bénéficier de connecteurs implémentés par l’éditeur (connecteurs payants)
Dépendance forte envers l’éditeur
Impact du nombre de sources de données sur les coûts (licence / services)
N’intègre pas la dernière version de ECI Service
Questions / Réponses / Suppléments d ’info.