[ieee 2008 canadian conference on electrical and computer engineering - ccece - niagara falls, on,...

UN SYSTÈME MULTI-AGENT POUR LA PRÉSENTATION D’EXPRESSIONS MATHÉMATIQUES À DES UTILISATEURS NON-VOYANTS

Ali Awdé1, Chakib Tadj1, Yacine Bellik2

1LATIS, Département de Génie Électrique, Université du Québec, École de technologie supérieure 1100, rue Notre-Dame Ouest, Montréal, Québec H3C 1K3 Canada

2LIMSI-CNRS, Université Paris-Sud B. P. 133, 91403 Orsay, France

{[email protected], [email protected], [email protected]}

ABSTRACT Dans cet article, nous proposons un système multi-agent permettant de présenter des expressions mathématiques à des utilisateurs non voyants. Il a pour thème l’adaptation des formes de présentation d’une expression mathématique au sein d’un système multimodal sensible au contexte d’interaction (i.e. utilisateur, environnement et système). En se basant sur le contexte d’interaction, le système détermine les modalités possibles puis les médias supportant celles-ci. Les formes de présentation d’une expression mathématique sont sélectionnées en prenant en considération les médias disponibles, les préférences de l’utilisateur et la complexité de l’expression mathématique. Le système est capable de s’adapter aux besoins de l’utilisateur et aux changements affectant le contexte d’interaction. De ce fait, il offre à l’utilisateur non voyant une certaine autonomie lors de la manipulation de données complexes telles que les expressions mathématiques. Index Terms— Intelligent multi-agent system; mathematics for visually-impaired users, adaptive system.

1. INTRODUCTION

Les mathématiques constituent une base fondamentale pour les sciences. Malheureusement, l’accès aux mathématiques, pour un utilisateur non voyant, demeure une tâche complexe pour plusieurs raisons: premièrement, les expressions mathématiques exploitent souvent des structures bidimensionnelles (indice, exposant, matrices, bornes d’intégrales, etc.). Or, la conversion d’une structure multi-dimensionnelle en une structure linéaire (non visuelle) est un problème difficile. À titre d’exemple, le braille linéaire utilise des informations supplémentaires pour dénoter certaines composantes de l’expression (ex. exposants). Par ailleurs, les 64 caractères (du braille standard1) ne sont pas suffisants pour représenter tous les symboles fréquemment utilisés par les voyants pour écrire une expression mathématique. Enfin, le grand nombre de symboles exige une mémoire et un effort cognitif important de la part de l’utilisateur non voyant.

L’objectif de notre travail est de permettre aux handicapés visuels un accès plus facile aux expressions mathématiques tout

1 http://6dotbraille.com

en leur garantissant un certain niveau d’autonomie. Cet article traite des problèmes cités précédemment et propose un système multi-agent (SMA) adaptatif qui interagit avec l’utilisateur et qui est apte à sélectionner les modalités et les médias adéquats en se basant sur le contexte d’interaction (CI). La forme de la présentation d’une expression mathématique est sélectionnée, parmi différentes formes possibles, en considérant les médias disponibles et les préférences de l’utilisateur ainsi que la complexité de l’expression. Le système proposé est un SMA, réparti en couches multiples. Le découpage du système en couches permet de modifier une couche sans induire un impact sur les autres couches. Chacune des couches requiert des services de la couche précédente et en offre à la couche suivante. Cette architecture permet de créer une structure fondamentale et relativement simple pour ce SMA.

La structure de l’article se décompose de la façon suivante : la section 2 donne un aperçu des travaux existants; la section 3 présente l’architecture et les composantes de notre système; la section 4 porte sur les informations contextuelles puis le système adaptatif est présenté dans la section 5; la section 6 décrit les résultats de nos expériences; enfin, la conclusion et les perspectives de notre travail sont décrites dans la section 7.

2. LES TRAVAUX EXISTANTS

Certains travaux de recherche ont déjà été effectués pour développer des outils offrant un accès aux mathématiques pour les personnes non voyantes n. Différentes techniques ont été utilisées. Nous pouvons citer le braille linéaire qui traduit les expressions mathématiques écrites en LaTex2 ou MathML3 en braille. Les informations en braille peuvent être embossées sur du papier ou peuvent être affichées sur un terminal braille. Les outils qui offrent cette forme de présentation sont nombreux tels que VICKIE [1] et BraMaNet [2]. Il existe aussi un autre système nommé DotsPLus [3] qui permet d’embosser les symboles alphanumériques en braille tout en gardant la structure spatiale de l’expression mathématique telle qu’elle est écrite « en noire ». Plusieurs autres outils exploitent les sons pour lire les expressions mathématiques à l’utilisateur non voyant. Nous pouvons citer à titre d’exemple AudioMath [4] et

2 L. Lamport, LaTeX: The Macro Package, http://web.mit.edu/texsrc/source/info/latex2e.pdf, 1994 3 MathML, http://www.w3.org/Math

000565

CCECE/CCGEI May 5-7 2008 Niagara Falls. Canada978-1-4244-1643-1/08/$25.00 � 2008 IEEE

Aster [5] qui permettent de lire les expressions mathématiques codées en Latex ou MathML en utilisant plusieurs tonalités ainsi que des notes musicales. Le problème de ces techniques est qu’elles exigent des informations supplémentaires qui peuvent alourdir la présentation sonore de l’expression. En outre, ces méthodes ne permettent pas la manipulation des expressions.

Notre système permet de présenter des expressions mathématiques en utilisant une ou plusieurs formes simultanément. En exploitant la multimodalité, il permet de combiner différentes formes afin a) de présenter les informations pertinentes à l’utilisateur, b) de diminuer le plus possible la charge cognitive, et c) de rendre ainsi plus simple l’accès aux formules mathématiques pour les personnes aveugles.

La multimodalité permet d’adapter le système aux différentes situations d’interaction et au profil de l’utilisateur. Dans un système multimodal pour non-voyants, il est possible d’avoir des médias (au sens de dispositifs physiques) qui remplacent ceux qui mettent à contribution la vision. Par exemple, au lieu d’utiliser un écran pour visualiser les informations on peut utiliser un terminal braille combiné à un lecteur d’écran (screen reader). Par ailleurs, la combinaison de deux modes de communication contribue à la réduction de la charge informationnelle supportée par chaque mode. Des études précédentes ont permis de montrer l’intérêt de l’utilisation de l’interaction multimodale dans les applications non visuelles (par exemple, MEDITOR [6] est un éditeur textuel multimodal pour non-voyants, BrailleSurf [7] est un navigateur web pour les non voyants). Cependant l’approche adoptée dans notre système implique aussi les notions de profil d’utilisateur et de ses préférences ainsi que les configurations des médias. Cette approche repose sur la sélection des modalités (au sens de Bellik [6]) et des formes de présentation en fonction du contexte d’interaction courant.

Dans les dernières années, les SMAs [8, 9] ont été largement utilisés, aussi bien pour des programmes relativement modestes que pour des projets plus complexes. Nous avons déjà expérimenté et présenté un SMA dans des travaux précédents [10]. Cependant, ce SMA précédent ne traitait pas des données complexes telles que les expressions mathématiques.

3. LES COMPOSANTES D’UN SMA

MULTIMODAL SENSIBLE AU CONTEXTE L’architecture de notre système se décompose en 6 couches (Figure 1). La �� comporte toutes les entités physiques du système, y compris les dispositifs et les capteurs. La �� est responsable de collecter et d’interpréter les informations du contexte d’interaction (le triplet<utilisateur, système, environnement>). La �� permet la coordination entre les informations reçues de la couche inférieure et l’expression mathématique à présenter. La �� se décompose en deux parties : la première

permet d’analyser l’expression mathématique (format MathML) puis de l’encoder dans un format lisible par la couche supérieure; la seconde partie représente le noyau de notre approche; elle est responsable de la sélection de la forme de la présentation à utiliser en tenant compte des informations contextuelles. La�� offre des commandes spéciales à l’utilisateur afin de pouvoir manipuler et éditer l’expression. Enfin, la �� permet de présenter les expressions sous la forme sélectionnée précédemment via les médias appropriés.

Figure 1. L’architecture générale de notre système.

Les agents mis en œuvre au sein de chaque couche sont résumés dans la Table 1. Ces agents communiquent et interagissent ensemble pour présenter, selon la forme la plus adaptée, l’expression mathématique à l’utilisateur non voyant. Notre approche repose sur l’analyse des informations contextuelles et sur des techniques d’apprentissage permettant de concevoir un système capable de s’adapter au contexte.

4. LES INFORMATIONS CONTEXTUELLES

4.1. Le contexte de l’utilisateur La définition du contexte de l’utilisateur (CU) varie selon les différentes communautés de recherche. Dans ce travail, CU représente le profil de l’utilisateur et ses préférences. Le profil de l’utilisateur contient les données collectées concernant son mode de travail sur l’ordinateur, son niveau scolaire, ses connaissances en braille, etc. Les préférences permettent à l’utilisateur de personnaliser certains aspects du système (ex. modalités préférées). Elles sont utiles lors de la sélection de la forme de présentation optimale pour l’expression mathématique. Les informations du CU sont détectées et gérées par l’agent utilisateur (Table 1).

000566

Table 1. Les agents et leurs fonctionnalités.

4.2. Le contexte de l’environnement Le contexte de l’environnement (CE) comporte deux paramètres : le niveau de bruit et les restrictions imposées par l’environnement (ex. le silence est demandé dans une bibliothèque). L’agent d’environnement est responsable de collecter les données fournies par les capteurs, d’interpréter ces données, d’en extraire les spécifications et finalement de les fournir à la base de données contexte. L’information contextuelle est acquise par des capteurs physiques (ex. sonomètre), ou par des capteurs logiciels en utilisant des messages spéciaux entre les agents du système (ex. les restrictions). Nous avons crée deux catégories d’environnement : bruyant (plus de 50 db) et calme (moins de 50 db). En ce qui concerne les restrictions il existe deux options : silence obligatoire ou silence optionnel. 4.3. Le contexte du système Le contexte du système implique la machine de l’utilisateur (ex. ordinateur personnel, PDA, MAC, etc.), les médias disponibles (ex. clavier, terminal braille, overlay, etc.) et les formes de présentations (ex. braille linéaire, forme sonore, DotsPlus, EasyMath [11], etc.). Ce contexte est géré par l’agent gestionnaire de médias. Le poste de travail de l’utilisateur influe sur la sélection de la modalité. Par exemple, en utilisant un PDA la modalité tactile en sortie n’est pas possible. Dans notre cas, il existe quatre types de modalités possibles pour l’utilisateur aveugle. Il s’agit des modalités vocale et tactile, aussi bien en entrée qu’en sortie.

4.4. La complexité de l’expression mathématique Une expression mathématique est constituée d'une combinaison d'opérandes et d'opérateurs. C'est pourquoi nous avons élaboré une méthode basée sur l’arbre syntaxique de l’expression mathématique pour déterminer sa complexité. Nous retenons les trois paramètres suivants : Hauteur (hauteur de l’arbre, H), le nombre de feuilles terminales (opérandes, F), sommets non terminaux (opérateurs, S). Nous avons également remarqué que la branche mathématique (i.e. Algèbre, Analyse, Arithmétique, etc.) possède un impact sur la complexité de l’expression. La littérature nous a permis d’identifier 6 branches principales : Algèbre, Analyse, Arithmétique, Géométrie, Logique et Probabilité/statistiques. L'objectif que l'on se fixe est d'arriver à déterminer la forme de présentation la plus appropriée, non seulement au contexte d’interaction, mais également à la complexité de l’expression. La perception de la complexité d’une expression peut varier d’un utilisateur à un autre d’où la nécessité de prendre en compte le profil de l’utilisateur. L’analyse de l’expression et le calcul de la complexité se font à l’aide de l’agent de conversion et d’analyse.

5. SYSTÈME ADAPTATIF Notre système se veut adaptatif dans le sens où il est apte à détecter les modifications du contexte d’interaction et à prendre des décisions en conséquence. L’agent d’apprentissage (AA) permet à notre système de réagir de façon adéquate en tenant compte des modifications affectant dynamiquement le contexte d’interaction. Cet agent prend en entrée les informations contextuelles (pré-conditions) provenant des différents agents tels que l’agent d’environnement, utilisateur, gestionnaire des médias et d’analyse, puis détermine la présentation appropriée (post-conditions) en se basant ses les expériences précédentes sauvegardées dans une base de connaissances (BdC).

6. EXPÉRIMENTATION ET RÉSULTATS Dans cette section nous présentons les expérimentations faites avec divers algorithmes d’apprentissage sur des connaissances qui représentent des informations contextuelles mises en hypothèses dans le but de trouver un algorithme qui sera pertinent pour notre application. Dans ce travail, les expérimentations sont faites à l’aide de l’outil WEKA4. Ce logiciel libre, implémenté en java, permet d’appliquer de nombreux algorithmes d’apprentissage (ex. Bayes, Arbres de décisions, réseaux de neurones).

Nous avons retenu 19 attributs pour créer notre BdC. Ces attributs couvrent la totalité des informations contextuelles (i.e. contexte d’interaction, complexité de l’expression) et un attribut post condition pour indiquer la forme de présentation appropriée. La Figure 2 montre une partie de la BdC. Les 9 premières lignes représentent les expériences précédentes et la

4 http://www.cs.waikato.ac.nz/ml/weka/index_home.html

000567

dernière ligne représente un nouveau cas à traiter, tout en prédisant quelle forme doit être appliquée parmi les 5 formes (F1…F5) de cet exemple. Lorsque AA doit sélectionner une forme pour présenter l’expression, il consulte la BdC. S’il y trouve un scénario semblable (ex. scenario no. 1), il l’applique sans faire le calcul. Sinon, il doit prédire la forme de présentation en appliquant un algorithme d’apprentissage sur les connaissances de la BdC. Le résultat de la prédiction sera appliqué et ensuite ce nouveau scénario (Scenario No. 10) sera ajouté à la BdC pour une future utilisation.

Figure 2. Un aperçu de la base de connaissance. Nous avons entraîné notre système en utilisant deux

algorithmes : a) Bayes [12] et b) un réseau de neurones [12] (Perceptron multicouche) sur une base de 500 cas. Le corpus d’entraînement forme 66% de ces données et 34 % est dédié au test. Pour le premier algorithme, nous considérons que tous les attributs sont indépendants. Ainsi, Bayes fait une analyse statistiques sur les données afin de déduire ses prédictions alors que le perceptron multicouche fonctionne d’une manière similaire à celle des neurones humains. Dans notre cas, la couche d’entrée est représentée par les 19 attributs et la couche de sortie est représentée par les 5 classes possibles. Pour diminuer le temps de classification des données, nous avons juste pris un réseau à 3 couches cachées (avec 10 couches, le temps dépasse 60 secondes). Les résultats de notre expérience sont résumés dans la Table 2.

Le réseau de neurones produit de meilleurs résultats que

Bayes. Cependant, il est plus lent et demande beaucoup plus de ressources. C’est pourquoi nous avons préféré l’algorithme Bayes pour l’implémentation au cœur de notre système. Notre système peut prédire la meilleure forme de présentation dans 76% parmi les nouveaux scénarios. De plus, le système présente l’expression correctement et sans prédiction lorsqu’il rencontre un scénario déjà présent dans sa BdC.

Algorithme Taux de classification

correcte

Temps de classification (secondes).

Réseau de neurones 81.76 % 10 sec Méthode bayésienne naïve 75.88 % ~ 1 sec

Table 2. Les résultats de notre expérience. Pour tester notre SMA, nous l’avons implémenté en

utilisant JADE5 qui permet de concevoir et observer les comportements des agents. Cette simulation nous a permis de valider l’architecture de notre SMA ainsi que les comportements de chaque agent. Le langage de communication multi agents (FIPA-ACL) utilisé dans JADE a mis à l’épreuve les interactions (la coopération, la coordination et la négociation) entre les différents agents.

7. CONCLUSION

Nos recherches visent à améliorer l’accès aux mathématiques chez les personnes non voyantes tout en favorisant leur autonomie. C’est pourquoi, notre approche s’articule autour de la prise en compte du contexte d’interaction et de l’expression mathématique à présenter pour sélectionner une forme de présentation appropriée. Les travaux futurs seront consacrés à la configuration dynamique de l’architecture et l’évaluation des interactions multimodales entre le système et l’utilisateur.

8. REFERENCES

1. Moço, V. and D. Archabault. VICKIE: A Transcription Tool for Mathematical Braille. in AAATE -Association for the Advancement of Assistive Technology in Europe. 2003. Dublin, Ireland.

2. Schwebel, F. and R. Goiffon. BraMaNet: Quelques règles simples à connaître pour qu'un aveugle puisse lire vos documents mathématiques et vos pages web. in Journées nationales Caen. 2005. Caen, France.

3. Preddy, M., et al. Dotsplus: How-to Make Tactile Figures and Tactile Formatted Math. in International Conference on Technology and Persons with Disabilities. 1997. Los Angeles, CA, USA.

4. Ferreira, H. and D. Freitas. AudioMath: Towards Automatic Readings of Mathematical Expressions. in Human-Computer Interaction International (HCII). 2005. Las Vegas, Nevada, USA.

5. Raman, T.V., Audio System for Technical Readings. Vol. 1410. 1998, Berlin, Germany: Springer-Verlag.

6. Bellik, Y., Interfaces multimodales : concepts, modèles et architectures. in LIMSI. 1995, Université d'Orsay: Paris.

7. Archambault, D., BrailleSurf : An HTML Browser for visually handicapped people, in Conference CSUN. 1999: Los Angeles, USA.

8. Weiss, G., Multiagent systems. MIT-Press, 1999. 9. Ferber, J., Les systemes multi-agents, ed. V.u.i. collective. 1995, Paris:

InterEditions. 10. Awde, A., et al. Task Migration in a Pervasive Multimodal Multimedia

Computing System for Visually-Impaired Users. in Second International Conference on Grid and Pervasive Computing. 2007. Paris, France: Springer.

11. Podevin, A., Accès aux formules mathématiques par des personnes non voyantes : étude et définition d'une méthode adaptée. 2002, Université de CAEN.

12. Mitchell, T.M., Machine Learning. 1997: McGraw-Hill.

5 http://jade.tilab.com/

000568

[ieee 2008 canadian conference on electrical and computer engineering - ccece - niagara falls, on,...

Documents