antidot information factory - aif
DESCRIPTION
Antidot Information Factory AIF - est une solution logicielle qui répond aux enjeux de crée un véritable « espace informationnel enrichi » au service des utilisateurs et des applications.TRANSCRIPT
Pour mettre en synergie de façon agile vos différentes sources, il convient
de rendre vos données interopérables. Sans modifier l’existant, un outil
dédié doit agréger, normaliser, articuler et exposer les données de ces
sources. Dès lors, pour chaque nouveau besoin, les données seront déjà
disponibles, prêtes à être assemblées selon votre objectif.
Antidot Information Factory (AIF) est une solution logicielle conçue
spécialement pour répondre à ces enjeux de valorisation et d’exploitation des
données non structurées ou semi-structurées. Antidot Information Factory est
une « machine à produire de l’information » qui industrialise le traitement des
données existantes et la mise à disposition automatisée d’informations riches.
Antidot Information Factory permet de :
• capter les données contenues dans les différents silos internes ou externes à votre entreprise ;
• transformer ces données : nettoyage, normalisation, mise en format cible ;
• les enrichir en les catégorisant selon des plans de classement, en les annotant automatiquement et en les alignant avec des référentiels métier ;
• relier vos données afin de les mettre en synergie et faire émerger l’information pertinente pour votre métier ;
• publier cette information selon des protocoles standardisés afin de l’exposer aux applications de votre système d’information, à vos utilisateurs ou à vos partenaires.
AIF crée un véritable « espace informationnel enrichi » au service de vos
utilisateurs et de vos applications.
Une solution souple et modulaire
AIF s’utilise comme un jeu de
construction : pour créer des
chaînes de traitement, il suffit
d’assembler et de paramétrer
des modules prêts à l’emploi :
• modules de captation qui se connectent aux sources et récupèrent les données ciblées ;
• modules de normalisation et de nettoyage des données ;
• modules d’enrichissement pour la classification, l’annotation et la mise en relation.
Antidot Information Factory permet de créer des chaînes de traitement
faciles à maintenir : AIF propose un catalogue de plus de 50 modules stan-
dard. C’est également une plateforme ouverte et grâce à des interfaces
accessibles vous pouvez rapidement développer vos propres modules pour
réaliser des traitements spécifiques.
www.antidot.net
Êtes-vous sûr d’exploiter pleinement le potentiel informationnel de votre organisation ?
• Vos utilisateurs disposent de nombreuses
données et applications. Pourtant ils se
plaignent de leur difficulté à trouver la
bonne information.
• Pour satisfaire rapidement les demandes
fonctionnelles, vous devez créer des
applications métier agrégeant des données
éparses dans et hors de votre entreprise.
• L’évolution de votre écosystème nécessite
de partager avec vos partenaires via
Internet des données choisies (catalogues,
fiches produit, etc.).
• Le schéma directeur du système
d’information inclut une phase
d’urbanisation des données afin de
repousser les limites du SOA qui n’autorise
que les échanges applicatifs.
Aujourd’hui les données de votre organisation
sont enfermées dans des applications.
E-mail, CRM, ERP, GED-CMS, bases
relationnelles, serveurs de fichiers, sites
web, intranet… constituent autant de silos
par essence hétérogènes qui imposent
des structures et des méthodes d’accès
spécifiques.
Antidot Information Factory
est une solution logicielle
industrielle et puissante
qui repose intégralement sur
des standards récents et
plébiscités : technologies XML (XSD, XSL, XPath,
XQuery) ; web services pour les
échanges ; technologies du web
sémantique (RDF, OWL, SPARQL) pour
la modélisation et le traitement.
Technologie
Antidot Information Factory est architecturé autour de 3 composants :
• Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement et qui fournit les fonctions essentielles : récupération et transmission des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de l’implémentation du stockage.
• L’ordonnanceur est le chef d’orchestre : il construit dynamiquement les chaînes de traitements déclarées, lance les instances de modules, pilote l’avancement des documents dans la chaîne. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs sur les traitements en cours.
• Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les chaînes de traitement.
Modélisation des unités documentaires
Une ressource documentaire est dans la plupart des cas composée de plusieurs éléments :
• Un « fichier bureautique » est une unité documentaire constituée du fichier lui-même, de ses droits d’accès et aussi de ses métadonnées : serveur et répertoire de stockage, propriétaire, auteur, date de création…
• Le document représentant une page Web peut comporter le code source HTML, les commentaires et les informations des réseaux sociaux (le « I like » de Facebook par exemple), les métadonnées extraites des balises RDFa, ou encore une vignette de la page.
La richesse du corpus et des documents ne s’arrête pas là :
• Les modules de traitement d’AIF génèrent des données supplémentaires qui complètent le document initial : sujets extraits, entités nommées, annotations sémantiques vers des référentiels, liens vers des documents similaires…
• Chaque document source peut exister en plusieurs versions et il est nécessaire de regrouper ces versions dans la même unité documentaire.
• De nouvelles unités documentaires peuvent être créées dynamiquement à partir de données source.
Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet
fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées
pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et la mise à disposition des unités documentaires.
En bout de chaîne, les
données enrichies ou
créées peuvent être
exposées / publiées de
plusieurs façons selon les
besoins :
•génération de fichiers ad hoc ;
• injection dans une base relationnelle ;
• injection dans un entrepôt RDF accessible via web service (SPARQL) ;
• exposition à travers le composant Antidot Content Repository qui fournit un service d’accès aux contenus.
Le moteur de recherche AFS peut aussi se connecter en sortie d’AIF,
pour offrir un service de
recherche performant et
riche sur l’ensemble des
informations.
Antidot Information Factory propose en standard une
bibliothèque de plus de 50 modules prêts à l’emploi, pour créer
les chaînes de captation et de traitement :
• Connecteurs pour capter des données en mode pull – AIF
va chercher les données – ou en mode push – les données
sont envoyées à AIF – pour des traitements synchrones ou
asynchrones.
Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom),
accès aux bases de données (Oracle, SQLServer, Sybase,
MySQL, PostgreSL…), annuaires (LDAP, AD), serveurs de
fichiers, GED (par CMIS), solutions de publication Web (CMS),
entrepôts documentaires (OAI)…
•Filtres de traitement pour manipuler les données :
» gestion des archives pour la réception des données
groupées (zip, tar…)
» manipulation des données au format XML et des
données structurées : validation, transformation, fusion,
découpage, dédoublonnage…
» normalisation de champs : dates, noms, codes…
» alignement sur des référentiels métier
» classification automatique
» connexion à des produits de text mining tiers (Arisem,
Gate, Temis...)
» traitements linguistiques d’extraction de concepts ou
de mise en relation des documents
En effet, Antidot Information Factory ne se contente pas de travailler sur des
fichiers. Chaque document est un objet composite, constitué de plusieurs
couches (layers) qui représentent les différents aspects de ce document :
contenu, méta-données, vignette, signature sémantique…
De nouvelles couches peuvent être créées dynamiquement par des modules
réalisant des traitements spécifiques (ex.: extraction des entités nommées du
document).
Chaque couche intègre un système de gestion des révisions si bien qu’une
même vue du document peut exister en plusieurs versions, sans avoir à dupliquer
le document.
La création, la lecture, la suppression des unités documentaires et de couches ou de
versions sont des opérations rendues très simples grâce à des méthodes de haut niveau
fournies par le framework AIF qui permettent de masquer la complexité technique et de
se concentrer sur les besoins fonctionnels.
La complexité du stockage physique est prise en charge de façon centralisée,
garantissant des performances et une scalabilité optimales avec une administration
simplifiée.
Intégration à votre environnement
Conçue pour être exploité dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de
disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de
protection des données, de sécurité applicative et de montée en charge.
Exemple d’application : Linked Data – Open data
Le Linked Data (web de données) décrit une méthode de publication des
données structurées de telle façon qu’elles puissent être liées entre elles et
ainsi devenir plus utiles. A l’instar du web qui relie des pages, le Linked Data
permet de lier des données au niveau le plus fin : ces liens sont comme des
jointures dans les bases relationnelles, mais ici à l’échelle du web qui devient
alors une immense base de données distribuée.
Le web de données utilise les normes du web sémantique qui ont été
développées par le W3C depuis plus de 10 ans : modélisation par OWL,
représentation des données en RDF, interrogation en SPARQL, échanges de
règles en RIF.
Antidot Information Factory intègre ces technologies de façon native ce qui
en fait l’outil idéal pour tout projet d’exposition et de partage des données,
que ce soit de façon publique sur le web, comme de façon privée au sein
de l’entreprise et avec ses partenaires. AIF permet en effet de sélectionner
les données à publier au sein des différentes sources, de les normaliser et
de les unifier, puis de les exposer dans un format adapté. Ainsi, plus besoin
de définir des flux et des API spécifiques, ni de concevoir des mécanismes
complexes à base de web services ad hoc ou d’échanges de fichiers
difficiles à suivre et à maintenir, car AIF intègre l’ensemble des composants
nécessaires à l’exposition des données.
De la même façon, AIF permet de récupérer des données externes et de
les intégrer dans le système d’information pour l’enrichir et créer une valeur
supplémentaire pour les utilisateurs. Par exemple, quelle puissance peut
apporter au système d’information l’ajout de données venant de Wikipédia
ou des statistiques de l’INSEE ? Le distributeur X vend N imperméables sur
Angoulême. Mais combien y a-t-il d’habitants à Angoulême ? Combien
de jours de pluie par an ? AIF permet d’intégrer aux applications toutes les
données nécessaires à la prise de décision.
L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise
à rendre accessibles les données sans mécanisme de sécurité ni de droit
afin de promouvoir leur réutilisation et d’encourager le développement
d’applications nouvelles. De par ses objectifs, l’Open Data a rencontré et
adopté les principes de Linked Data. À cet égard, AIF s’impose comme la
solution idéale pour les projets de Données Ouvertes.
Administration simple – Supervision en temps réel
Antidot Information Factory comprend une
console d’administration qui facilite son
utilisation : suivi du déroulement des chaînes de
traitement, contrôle de leur bonne exécution et
diagnostic d’éventuelles anomalies affectant
une source de données.
Une vue synthétique résume la situation des
flux de données en indiquant, pour chacun,
le nombre de documents traités avec succès
ou en échec, la vitesse moyenne, le volume
de données manipulées ainsi que la charge
système du serveur.
Des vues détaillées des traitements appliqués
à chaque flux montrent les résultats de l’action
de chaque filtre et la progression en temps réel
des documents dans la chaîne de traitement.
Contact
Direction commerciale
Tel : +33(0) 4 72 76 03 80
Fax : +33(0) 4 72 76 38 02
LYON
58 avenue Debourg 69007 Lyon
PARIS
22 rue du Sergent Bauchat 75012 Paris
Siège Social
29 avenue Jean Monnet 13410 Lambesc
Tel : +33 (0) 4 42 63 67 90
Fax : +33 (0) 4 42 28 61 03
www.antidot.net [email protected]