Download - reconnissance d'écriture arabe
Reconaissance d'écriture arabe manuscrit 1
Université 08 Mai 1945Faculté des sciences et d’ingénieries
4ieme Année Ingénieur Informatique
Base de donnée pour la Reconnaissance
d’écriture Arabe des chèques
Exposé par : Diriger par :
Aouadi Zineb A.Bouramoul
Guerui Omar
Chiheb Badreddine
11/11/2008
Introduction
Reconaissance d'écriture arabe manuscrit 2
Problématique
Contribution
Etude de cas
Conclusion
11/11/2008
Reconaissance d'écriture arabe manuscrit 3
Depuis les origines l‟homme à besoin de
communiquer, pour cela il a mis au point des
codes, des alphabets et des langages …
Alors, Les moyens essentiels pour se
communiquer entre les personnes sont :
la parole et l'écriture manuscrite.
C‟est Quoi L‟écrit?
L’écrit : est un moyen naturel de
communication entre les individus (échange
d'informations)
11/11/2008
Reconaissance d'écriture arabe manuscrit 4
Existe sous différentes formes dans le
monde :
Synthétique signes
Analytique idéogrammes
Alphabétique vocabulaire
Les formes de l’écrit :
Car-isolés Msg manuscrit document
11/11/2008
Reconaissance d'écriture arabe manuscrit 5
1-Caractéristiques de l'écriture Arabe
Elle est cursive, c'est-à-dire que les lettres sont
liées généralement entre elles.
Chaque caractère peut prendre quatre formes
différentes, suivant sa position dans le mot.
Par ailleurs, il existe des lettres différentes qui
ont la même forme, mais qui se distinguent par
la position et le nombre de points qui leur
appartiennent
Exp ث -ت -ب :
11/11/2008
Reconaissance d'écriture arabe manuscrit 6
Les voyelles „a‟,‟i‟,‟ou‟ sont remplacés par des signes de voyelles.
les textes avec les signes de voyellesExp : Le Coran et les livres d'apprentissage de la lecture et de l'écriture pour les enfants.
les textes sans les signes de voyellesExp : les livres, les journaux, les publications.
Le vocabulaire de l‟arabe est plus grand que celui du latin à cause de :
Les trois différentes forme : singulier , double et pluriel
Exp ألف ألفين أالف
11/11/2008
Reconaissance d'écriture arabe manuscrit 7
Double et pluriel ont jusqu'à 4 formes
Exp ألفين ألفي ألفان ألفا
Féminin et masculin
Exp ثالث ثالثة
2/ Historique de la reconnaissance des mots
arabe :
Depuis les années 80, la reconnaissance des
caractères arabes prend un nouvel essor et
fait l'objet d'articles de plus en plus nombreux.
Le traitement d‟un chèque comporte :
11/11/2008
Reconaissance d'écriture arabe manuscrit 8
vérifiant noms
et signatures sur le chèque
vérifier la date
du chèque
égaler le montant légal
avec le montant
de la politesse
vérifier la paye
Accéder au
compte
11/11/2008
Reconaissance d'écriture arabe manuscrit 9
3-Les travaux similaires :
Un Système NEURO-FLOU Pour La
Reconnaissance de montants numériques de
chèques Arabes.
Un système Multi-classifieurs pour la
reconnaissance des montants littéraux
arabes.
Une Méthode Rapide de Reconnaissance
de l'Écriture Arabe Manuscrite.
11/11/2008
Reconaissance d'écriture arabe manuscrit 1011/11/2008
puisque le vocabulaire d‟arabe est très grande
et on peut Trouver une seul mot suivante
déferant forme alors il est defficile de réaliser un
système de reconnaissance d‟écriture
arabe sur le chèque pour cela On veux réaliser
un système de reconnaissance des montants.
comment réaliser une base de donnée pour
la reconnaissance d‟écriture des chèques
Arabes ?
Reconaissance d'écriture arabe manuscrit 1111/11/2008
But: Construire une base de donnée réel
pour la reconnaissance d‟écriture des
chèques Arabes c‟est pour ça il faut suivre
les pas suivants :
1/collection de donnée :
A travers la coopération avec Al Rajhi
BanKing,les chercheurs peuvent rassembler
approximativement 7000 vrai chèque.
C’est quoi le rassemblement?
Reconaissance d'écriture arabe manuscrit 12
Analyser le chèque est extraire toute les
informations personnels (nom,numéro de
compte,signature…).
2/pre-traitement :
La phase de prétraitement a comme objectif
de préparer les données pour la
reconnaissance, c'est-à-dire sélectionner
l‟information utile à l‟application.
11/11/2008
Reconaissance d'écriture arabe manuscrit 13
L’image
épaississement
Du contours
TraitementSubit
Filtrage
11/11/2008
Reconaissance d'écriture arabe manuscrit 14
Architecture du système
Image brutePre-traitement
Segmentation
Reconnaissance
Des montants
Agrégation
Reconstitution
De montant
Détection des
délimiteurs
11/11/2008
Reconaissance d'écriture arabe manuscrit 15
3/segmentation :
Consiste à :
Découper l‟image en élément susceptible.
Analyser les contours et extraire les
composantes connexes
Réaliser un filtrage sur l‟image.
Supprimer les bruits.
11/11/2008
Reconaissance d'écriture arabe manuscrit 16
4/Extraction des caractéristiques :
La phase d‟extraction de caractéristiques doit
être effectuée avec le plus grand soin, car les
traitements ultérieurs ne vont plus manipuler
l‟image d‟origine mais plutôt les résultats
fournis par ce module.
Dans ce système ils avaient retenu les
caractéristiques suivantes :
11/11/2008
Reconaissance d'écriture arabe manuscrit 17
Image segmenté
11/11/2008
Reconaissance d'écriture arabe manuscrit 18
5/Reconnaissance :
Consiste a reconnaître les chiffres et les sous
mots des montants de chèque Arabe.
Utilisation des primitives hybrides injectées
dans une même machine de classification.
Quelque résultats sont représentés dans le
shema suivant:
11/11/2008
Reconaissance d'écriture arabe manuscrit 19
Quelques échantillons de la base de données de chiffres
11/11/2008
Reconaissance d'écriture arabe manuscrit 20
6/Ettiquettage :
Consiste a donner une étiquette pour chaque sous-mot et pour chaque chiffre par un classifieur sur des modèles de Markov cachés (HMM).
deux étiquettes différentes ont été utilisées pour étiqueter des objets qui diffèrent seulement dans leurs composants secondaires (points) .
Exp ثالثة ثالثه
Deux formes communes pour le mot “cent”
Exp مئة مائة
11/11/2008
Reconaissance d'écriture arabe manuscrit 21
Cet outil a produit quatre ensembles d'objets d‟étiquettes:
1. montant de la politesse
2. chiffre indien
3. montant légal
4. sous mot arabe
Important !
L‟etiquittage du montant légal se fait indépendamment de l‟equittage du montant de politesse pour éviter les chances d‟erreurs
11/11/2008
Reconaissance d'écriture arabe manuscrit 22
Un échantillon de la base de données du chèque arabe
Montant légal segmenté
11/11/2008
Reconaissance d'écriture arabe manuscrit 23
7/Validation :
L‟etiquittage est un outil pour prévenir contre les erreurs,Mais il est possible de trouver quelque erreurs surtout lorsque le montant est très grand, c‟est pour ça il faut vérifier la véracité d‟etiquittage.
Il faut compare le montant légal avec le montant de politesse et corriger les erreurs.
Chaque étiquette est traduit en sous-mot.
Chaque suite de sous-mot est traduit en mot.
La séquence de mot est traduit en valeur numérique.
11/11/2008
Reconaissance d'écriture arabe manuscrit 24
Quelque raison pour ne pas approuver
L‟etiquittage:
Le montant peut être couper lors de
l‟extraction et fournir des données inexactes.
Le montant peut contenir des fautes
d‟orthographe.
Il peut y avoir des sous-mot manquants dans
le montant original.
11/11/2008
Reconaissance d'écriture arabe manuscrit 25
8/Bases de données résultats:
11/11/2008
Cet effort de la recherche a produit plusieurs
bases de données :
montants légaux arabe (1,547 légal montants)
la Politesse monte base de données (1,547
politesse monte écrit dans Indien chiffres)
base de données des sous-mots arabe
(23,325 sous mots), et base de données des
chiffres indienne (9,865)
Reconaissance d'écriture arabe manuscrit 26
Distribution des classes du sous-mot validées
11/11/2008
Reconaissance d'écriture arabe manuscrit 2711/11/2008
Reconaissance d'écriture arabe manuscrit 28
L‟objectif de cette recherche est d‟essayer de
remplacer l‟employé de la banque par un
système pour la reconnaissance d‟écriture
arabe manuscrite des chèques pour éviter le
problème de saisie.
Avantage: On peut utiliser cette base dans
d‟autres domaines de recherche
Inconvénient: Cette base de données
construite seulement a partir des données
d‟un seul banque et ne traite pas des chiffres
arabe11/11/2008
Reconaissance d'écriture arabe manuscrit 2911/11/2008
MERCIE POUR VOTRE
ATTENTIONS .