content analytics règles de l'art

Un document APROGED avec les contributions de :

Ever Team , IBM, Intellique, Novadys , Normier, Banctec, Proxem, Magillem

Groupe de travail piloté par Ever-Team 04 / 2013

Toujours plus de contenu Croissance de la volumétrie quotidienne des données

15 petabytes (1015) par jour

90% des contenus datent de moins de 2 ans

80% de l’information est disponible sour une forme non structurée

Cohabitation des types de contenu Pas de séparation stricte entre le contenu structuré et non

structuré. Constante cohabitation

Contenu structuré: Reference d’une tablette dans un catalogue (Marque,

mémoire vive, résolution écran, …)

Contenu non structuré mais lié Documents attachés : mode opératoire,

texte réglementaire ou/et normatif associé, avis de consommateurs sur des forums,

J’aime sur Facebook ou Linkedin, …

Gestion des contenus non structurés

(ECM = GED + BPM + SAE)

Acquisition Extraction

Qualification Indexation

Classement Recherche Archivage

Circulation Workflow

Gestion

Cycle de vie

Nu

léri

sati

on

email

COLD

Fax

PDF

ICR

QR Code

Case M

anagem

ent

BPM

Tâches Coffre-fort

SA

E

MoReq

Record

création

Les 3V de l’ECM Gérer l’augmentation des volumes (Volume)

Acquisition (numérisation, capture, …) Espaces de stockage, Cloud Storage, Sécuriser les contenus (sauvegardes, PRA, PCA)

Gérer la diversité des contenus (Variété) Techniques (CAD) , bureautiques Word, Excel,…), documents hybrides : Emails, .. Documents secrets : anonymaisation, chiffrement, … Documents multimédias , vidéos, enregistrements sonores, … Documents multilingues : thesaurus linguistique, lemmatisation, … Documents multi métiers : états comptables, factures, documents RH, contrats, PV d’AG,

…

Valoriser et maîtriser les contenus (Valeur)

Indexation , catégorisation, classement Recherche plein texte Archivage

La valorisation des contenus

Sources

Contenus internes Réseaux sociaux

Collecte

Connecteurs Extraction des contenu

Un coup d’avance :

Tendances et e-reputation

Sens

Text Mining

Extraction des entités

Détection des signaux

Analyse morphologique,…

Content Analytics

LinkedIn

GED

SAE

CDMI

tonalité

Les 4 V de la Big Data économie Volume : Gérer l’accroissement des volumes

Variété : Détecter les relations entre les contenus

Valeur : Valoriser les données extraites

Vélocité : Détecter les tendances, les exceptions et signaux faibles et surveiller les évolutions.

Sources de contenu et réseaux sociaux

Type de média: Contenu d’entreprise (ECM, GED, …)

Fil d’information : twitter

Classiques : Facebook, Linkedin, Google +

VCA : Youtube

Type de contenu Classiques : Articles, photos, vidéos, …

Commentaires : pauvres (kdo), riches, …

Tags : classification, catégorisation

Opinion : Like, ou aucun deux indicateurs

Analyse niveau 1 Time line, population , géolocalisation, fréquentation

Google Analystic

Youtube Insight

…

Des information sur :

les contenus

L’intérêt associé

Les catégories de contenu

La fréquentation

Analyse niveau 2 : Text mining

Le Text Mining, base du Content Analytics, repose sur des contenus textuels

Extraction

Web : du formulaire Web au métadonnées textuelles

Speach2Text : De la parole au texte

Image2Text : OCR, ICR, Barcode, Qr code, …

Video2Text : VCA = Speach2Text+ Image2Text++…

Du texte au sens Extraction des entités nommées

Entités connus (listes d’autorité de produits, sociétés, …)

Extraction des thématiques Entités découvertes (par analyse)

Identifier les entités qui ne sont pas des entités nommées

Extraction des opinions Analyse des avis,

opinion mining,

sentiment analysis

Analyse des sentiments

Analyse globale

Un texte dégage une tonalité positive ou négative

Ex. Le beaujolais Nouveau est bon cette année

Analyse fine

Difficultés lorsque plusieurs opinions sont exprimées:

Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive sur la carte, l’accueil mais des réserves peuvent être négatives sur le prix.

Analyse des tendances Natural Language Processing

chaque mot à une tonalité intrinsèque : « aimer », « satisfait », « soulagement » sont positifs « Craindre », « mécontent » « douleur » sont négatifs

Cependant

Ce médicament me donne des douleurs négatif Ce médicament calme mes douleurs positif Ce médicament ne calme pas mes douleurs négatif J’espérais que ce médicament calmerait mes douleurs négatif Est-ce que cela a calmé tes douleurs? pas de tonalité Ce médicament est indiqué pour calmer les douleurs pas de

tonalité

Analyse des tonalités Les adverbes ou adjectifs inverse souvent la tonalité

Diminution des bénéfices négatif Augmentation des bénéfices positif Une augmentation scandaleuse des bénéfices négatif Ce projet de loi devrait permettre e mettre un coup d’arrêt à

l’augmentation scandaleuse des bénéfices du CAC40 Tonalité ???

L’analyse linguistique est indispensable pour résoudre ces ambiguïtés (composants morphologique, syntaxiques, sémantiques)

Composants d’analyse Morphologique

La tokenisation : identification des mots et des phrases d’un texte (découpage)

Le tagging: identification de la catégorie (verbe, nom, adjectif, …)

La lemmatisation : identification de la forme canonique des mots (ou lemme)

Composants « syntaxiques » Analyse de surface d’une phrase (chuncking)

Identification des frontières majeures et/ou de relations majeurs entre les mots.

Ex: Entité nommé

Les actionnaires d’Ever-Team ont décidé Ever-Team est une société

Composants « syntaxiques » Analyse de surface d’une phrase (chuncking)

Ex . Règles pour reconnaitre un nom de personne:

« Prénom non ambiguë » suivi de « mot inconnu » nom de personne. Ex. « Joseph Merheb »

« Prénom ambiguë » « mot inconnu » « nom de personne ». Ex. Claire Merheb

« Prénom ambiguë « nom commun » « nom de personne ». Ex. Claire Potier

Composants « syntaxiques »

Analyse syntaxique (parsing)

Construction d’un arbre représentant la structure de la phrase complète

Ex. La société Ever-Team a pris une participation de 90% dans la société Creativ System [Société X] (actionnaire de) [société Y]

Composants « sémantiques » Sélection du sens (WSD pour Word Sense

Disambiguation)

Déterminer le sens de chaque mot lorsqu’un mot à plusieurs sens : boucher verbe, métier ?

Résolution des anaphores

Ex. François Hollande à peine élu. Il a déjà rencontré Obama, après avoir vu Angela, il lui a parlé.

Composants « sémantiques » Extraction de thématiques

Le boucher propose du veau thématique commerce alimentaire

L’évier vient de se boucher thématique plomberie

Limites de l’exercice

Les jumelles de ma voisine viennent de naître

Ma voisine a des jumelles… elle s’en sert peu

Catégorisation Méthodes basées sur l’apprentissage

Lors de l’arrivée d’un nouveau contenu, une ou plusieurs

catégories lui sont affectées. Nécessite l’existence d’un Corpus qui permet de construire un

référentiel statistique (ES-CTS)

Méthodes basées sur des profils linguistiques associées aux catégories Définir des formules de recherche thématiques associées aux

catégories. Ex. Si recherche « mai 68 » catégorie : manifestation

Exceptions et signaux faibles Définition des Signaux faibles :

Relève souvent de la sphère de la veille (technologie concurrentielle, commerciale, environnementale, sociale, …)

Elément peu visible, inattendu, perdu dans la masse

Signal de faible fréquence, qu’un agent a intérêt à détecter et à exploiter au plus tôt surveillance à mettre en oeuvre

Surveillance et détection

Proposition de candidats (fréquence d’apparition est en croissance)

Analyse dans l’espace temps

Pose de seuil d’alerte : passage du signal faible au signal fort

Exceptions et signaux faibles

-

5 000 000

10 000 000

15 000 000

20 000 000

25 000 000

30 000 000

35 000 000

-

500 000

1 000 000

1 500 000

2 000 000

2 500 000 20

01

200

2

200

3

200

4

200

5

200

6

200

7

200

8

200

9

2010

2011

2012

(ja

nvi

er à

Ju

ille

t)

"big data" dans les blogs (google)

"big data" sur le web (google)

Evolution du nombre de résultats de la recherche du buzz word "big data" via Google

Simplifier et représenter Représentation des contenus

Gérer le niveau de détail : Corrélation entre la taille des

données à analyser et le niveau de détail représenté représenter des statistiques sur 22 régions de France / sur 36700 communes.

Définir le type de données à représenter: Données brutes, numériques

Données calculées (comptage, somme, …)

Données annotées

Données habillées par du texte explicatif

Simplifier et représenter Possibilité d’interactivité

Dépendant du média : Zoomer, utiliser un curseur pour naviguer, un slider, …

Possibilité d’utiliser des facettes

Affectation de facettes sur les contenus pour permettre d’avoir une navigation synthétique et guidée

Exemples de représentation

Exemple d’application du Content Analytics

Réduction des risques dans une compagnie d’assurance

Amélioration de l’efficacité des investigations policières

Réduction du taux d’attrition clients dans une société de telco

Application d’une taxe écologiste

e@reputation d’une personne, d’une marque, d’une société

Réduction des risques dans une compagnie d’assurance

Les besoins Détection et prévention de la fraude. Meilleure analyse des risques.

La solution

Analyse des dossiers de traitement des dommages des 15 dernières années, plus de 15 sources différentes.

Détermination de profils et évolutions de comportements.

Les bénéfices

Proposition de catégorisation automatique des déclarations de sinistre selon niveau de risque et probabilité de tentative de fraude.

Traitement par exception et suivi des déclarations à risque. Rapidité du traitement des dossiers. Réduction des coûts. Expertise croissante.

Amélioration de l’efficacité des investigations policières

Les besoins La partie rédactionnelle des déclarations d’homicides, des rapports

d’investigations et d’expertises emploient des termes sans standardisation dépendant de chaque individu. Il n’est pas possible d’exploiter ces informations.

La solution

Analyse de l’ensemble de ces documents avec extraction d’informations permettant une caractérisation des faits indépendamment du mode de formulation de chaque auteur.

Les bénéfices techniques

Capacité de traiter une information volumineuse avec mise en évidence de corrélations (homicides, auteurs, …) permettant la résolution de dossiers, la détermination de profils et une approche prédictive du comportement criminel

Réduction du taux d’attrition clients dans une société de telco

Les besoins Accroitre la satisfaction clients. Etre à l’écoute de la « Voix du client » pour identifier de nouvelles opportunités,

éviter des ruptures de contrat par une réponse plus efficace aux incidents et la proposition de nouveaux services.

La solution

Analyse des rapports d’intervention du centre de support, des enquêtes de satisfaction et des messages clients.

Identification pour action des clients à risque de rupture. Meilleur traitement des incidents fréquents par un site d’information. Détermination de corrélations entre problèmes, comportements et offres

Les bénéfices

Diminution du taux d’attrition de 50 %. Définition de nouvelles offres. Amélioration du support.

Application d’une taxe écologiste Les besoins

Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes nationales et les voies rapides françaises.

Gérer la volumétrie engendrée par l’émission des points de collecte de passage des usagers. Etablir une taxe liée aux relevés de passage.

La solution

Collecte des points de passage des usagers. Extraction des entités (lieux, point de passage, identité, …) pour établir la taxe. Analyse des données par les organismes habilités au contrôle. Archivage à valeur probatoire.

Les bénéfices techniques

Mise en place d’un mécanisme de calcul de la taxe basé sur l’utilisation du réseau routier. Analyse des données pour optimisation de la taxe Détection de la fraude.

e@reputation e@reputation en B to C

l’individu au cœur de la Big Data Ebay : notation des vendeurs

e@reputation en B to B L’entreprise au cœur de la Big Data Valorisation des marques et du savoir faire

Publications APROGED DocuCloud

E-Reputation B2B Ethique et Big Data

Video Content Analytics Archivage sur le Cloud

Merci pour votre écoute

Christian DUBOURG

Directeur EVER TEAM Software

Editeur de progiciel ECM et Content Analytics

Secrétaire APROGED

[email protected]

www.ever-team.com

Tél. 06.82.85.32.80

mailto:[email protected]



http://www.ever-team.com/