mémoire de recherche documentaire, de terminologie et de … · 2016. 9. 28. · pdf search...
TRANSCRIPT
Lucie VILLERD
Protocole de recherche documentaire sous la direction de Geneviève Bordet
Protocole de terminologie sous la direction de Patricia Pépin
Commentaire de traduction sous la direction d’Odile Dabonot
Mémoire de recherche documentaire, de
terminologie et de traduction
Traitement des émotions pour la création d’un jeu vidéo
avec adaptation de la difficulté
CHANEL, Guillaume, REBETEZ, Cyril, BÉTRANCOURT,
Mireille, et al. Emotion assessment from physiological
signals for adaptation of game difficulty. Systems, Man
and Cybernetics, Part A: Systems and Humans, IEEE
Transactions on, 2011, vol. 41, no 6, p. 1052-1063.
M2 ILTS 2014-2015
Option traduction spécialisée
Texte de traduction
Remerciements
Je tiens à remercier mes directrices de mémoire, Geneviève Bordet pour la recherche
documentaire, Patricia Pépin pour la terminologie et Odile Dabonot pour la traduction, pour
leur disponibilité et leur réactivité exceptionnelles au cours de cette année. Leurs retours
rapides m’ont permis d’appliquer des actions correctives très tôt dans l’année et de « baliser »
mon travail de manière efficace.
Je remercie également M. Chanel et M. Pun d’avoir donné leur accord pour la traduction
de ce texte et pris le temps de répondre à mes questions d’ordre terminologique. Leur
expertise et leur disponibilité m’ont été d’une aide précieuse au cours de ce travail.
3
Table des matières REMERCIEMENTS ------------------------------------------------------------------------------------------------------------- 2
PROTOCOLE DE RECHERCHE DOCUMENTAIRE ------------------------------------------------------- 5
I. CHOIX DU DOMAINE ------------------------------------------------------------------------------------------------------- 5
Qu’est-ce qu’un domaine ? ------------------------------------------------------------------------------------ 5 1.
Partir du domaine ou du texte ? --------------------------------------------------------------------------- 6 2.
La recherche du texte -------------------------------------------------------------------------------------------- 6 3.
II. CHOIX DU TEXTE ------------------------------------------------------------------------------------------------------------ 7
1. Présentation du texte -------------------------------------------------------------------------------------------- 7
2. Auteurs -------------------------------------------------------------------------------------------------------------------- 8
3. Structure et enjeux du texte ---------------------------------------------------------------------------------- 8
Domaines abordés ----------------------------------------------------------------------------------------------- 10 4.
Délimiter le micro-domaine -------------------------------------------------------------------------------- 12 5.
III. LA RECHERCHE DOCUMENTAIRE : CONSTITUTION DU CORPUS ----------------------------------------- 14
1. Un texte unique en son genre ----------------------------------------------------------------------------- 14
2. Le tri sélectif, un pléonasme particulièrement pertinent -------------------------------- 15
3. L’organisation ------------------------------------------------------------------------------------------------------ 16
IV. LE PAYSAGE DOCUMENTAIRE ---------------------------------------------------------------------------------------- 18
1. L’incidence de la terminologie sur la recherche documentaire ---------------------- 18
2. Composition du corpus ---------------------------------------------------------------------------------------- 20
CONCLUSION ---------------------------------------------------------------------------------------------------------------------- 22
PROTOCOLE DE TERMINOLOGIE ------------------------------------------------------------------------------- 24
I. CONCEPTS PRINCIPAUX AU SEIN DU MICRO-DOMAINE ----------------------------------------------------- 24
Jeux vidéo : une terminologie foisonnante -------------------------------------------------------- 24 1.
Concurrents ---------------------------------------------------------------------------------------------------------- 25 2.
Équivalents français -------------------------------------------------------------------------------------------- 26 3.
II. LES EQUIVALENTS EN STATISTIQUE ET EN APPRENTISSAGE AUTOMATIQUE ---------------------- 26
Deux domaines étroitement liés ------------------------------------------------------------------------- 26 1.
Équivalents français : des tendances contrastées -------------------------------------------- 26 2.
Formes développées et sigles ------------------------------------------------------------------------------ 29 3.
III. ARBORESCENCES --------------------------------------------------------------------------------------------------------- 30
Constitution des arborescences -------------------------------------------------------------------------- 30 1.
Arborescence en anglais ------------------------------------------------------------------------------------- 32 2.
Arborescence en français ------------------------------------------------------------------------------------ 36 3.
IV. COMMENTAIRE SUR LES COLLOCATIONS GENERIQUES ---------------------------------------------------- 40
4
Future work will focus on sth ----------------------------------------------------------------------------- 40 1.
To gather increasing interest ----------------------------------------------------------------------------- 40 2.
Pioneering work --------------------------------------------------------------------------------------------------- 41 3.
To open the path to sth --------------------------------------------------------------------------------------- 42 4.
To our knowledge ------------------------------------------------------------------------------------------------ 42 5.
CONCLUSION ---------------------------------------------------------------------------------------------------------------------- 43
COMMENTAIRE DE TRADUCTION ------------------------------------------------------------------------------ 44
I. CARACTERISTIQUES DU TEXTE A TRADUIRE ------------------------------------------------------------------- 44
Choix de la partie à traduire. ------------------------------------------------------------------------------ 44 1.
Public visé ------------------------------------------------------------------------------------------------------------- 45 2.
II. DIFFICULTES DE TRADUCTION -------------------------------------------------------------------------------------- 45
Temps et modes ---------------------------------------------------------------------------------------------------- 45 1.
Genre --------------------------------------------------------------------------------------------------------------------- 47 2.
Sigles et acronymes --------------------------------------------------------------------------------------------- 48 3.
Répétitions ------------------------------------------------------------------------------------------------------------ 50 4.
Reformulations ----------------------------------------------------------------------------------------------------- 52 5.
Organisation des blocs de sens --------------------------------------------------------------------------- 54 6.
Explicitation : le cas de flow ------------------------------------------------------------------------------- 55 7.
CONCLUSION ---------------------------------------------------------------------------------------------------------------------- 56
III. TRADUCTION ALIGNEE ------------------------------------------------------------------------------------------------- 58
ANNEXES --------------------------------------------------------------------------------------------------------------------------- 87
EXPERTS CONSULTES ---------------------------------------------------------------------------------------------------------- 87
EXTRAITS DES CONVERSATIONS AVEC L’EXPERT ------------------------------------------------------------------- 88
TERMES TRAITES DANS ARTES ------------------------------------------------------------------------------------------ 91
BIBLIOGRAPHIE DE TERMINOLOGIE ------------------------------------------------------------------------------------- 93
BIBLIOGRAPHIE SELECTIVE POUR LA RECHERCHE DOCUMENTAIRE ---------------------------------------- 94
Anglais ------------------------------------------------------------------------------------------------------------------------- 94
Français ----------------------------------------------------------------------------------------------------------------------- 98
GLOSSAIRE D’AIDE A LA TRADUCTION EN>FR (EXPORT ARTES) ---------------------------------------101
GLOSSAIRE D’AIDE A LA TRADUCTION FR>EN (EXPORT ARTES) ---------------------------------------109
TEXTE SOURCE ------------------------------------------------------------------------------------------------------------------117
5
Protocole de recherche documentaire
Note : les termes en gras souligné ont été traités en fiches longues dans la base ARTES. Les
termes en gras ont fait l’objet de fiches courtes ou fiches glossaire. Cliquez sur les
termes en bleu pour obtenir davantage d’informations. La liste complète des termes
traités dans la base ARTES figure dans les Annexes.
I. Choix du domaine
Qu’est-ce qu’un domaine ? 1.
Diplômée d’un master de traduction juridique et commerciale (Université Jean Moulin
Lyon III & Monash University, Australie), je me suis inscrite dans cette formation pour
bénéficier d’enseignements plus pragmatiques et plus variés que ceux de mon précédent
cursus. Ce précédent diplôme m’a néanmoins permis de commencer réfléchir aux domaines
dans lesquels je souhaiterais me spécialiser (en procédant par élimination). Ayant toujours eu
plus d’affinités avec la traduction rédactionnelle qu’avec la traduction technique, je savais en
septembre que ce travail de traduction (et de terminologie, cette nouvelle discipline obscure
qu’aucun enseignant n’avait mentionnée dans mon précédent master) représenterait un défi
considérable. Puisqu’il était recommandé de choisir un texte très technique, très dense et très
riche du point de vue traduction et terminologie, je suis partie du principe qu’il me fallait un
texte appartenant à un domaine qui me passionne.
Après quelques jours de mise niveau intense en terminologie, la panique s’installe
dans la tête des néophytes. Domaines, sous-domaines, hyponymes, concurrents… autant de
concepts qu’il va falloir comprendre et maîtriser pour mener bien cette traduction, mais pas
seulement. La traduction ne représente finalement qu’un tiers du travail accomplir. Fébrile, je
me suis donc mise en quête d’un texte dont le domaine principal en interaction avec d’autres
domaines connexes me permettrait de réaliser un travail terminologique intéressant.
Instinctivement, j’ai pensé l’une de mes grandes passions : le jeu vidéo.
6
Partir du domaine ou du texte ? 2.
Comment procéder à partir de ce point ? Le jeu vidéo est un domaine extrêmement
vaste. Mes premières recherches sur Google ou PDF Search Engine m’ont un peu démoralisée :
en effet, il existe une multitude de documents grand public sur les jeux vidéo. C’est avant tout
un support de divertissement, qui n’a commencé être étudié que très tard. En persistant dans
mes recherches, je me suis rendu compte que la majeure partie des textes spécialisés traitant
des jeux vidéo s’intéressaient en premier lieu l’aspect psychologique, en particulier à
l’éternelle question : les jeux vidéo nous rendent-ils plus violents ? Avec en moyenne un article
publié sur ce sujet surgissant sur mon fil d’actualité chaque semaine, je ne souhaitais
absolument pas travailler sur cet aspect.
Perdue à la 53e page de résultats de ma recherche « video+games » sur
PDF Search Engine, j’ai trouvé une étude proposant un algorithme qui permettait d’ajuster en
temps réel la difficulté d’un jeu vidéo en fonction de la performance du joueur (barre de vie,
inventaire, nombre d’échecs un niveau donné). Me souvenant de mes déboires dans certains
jeux ayant adopté ce système de « difficulté adaptive » (sic. Certains préfèrent « adaptative »,
tout de même plus correct), j’étais curieuse de comprendre le fonctionnement de tels
algorithmes. En ouvrant le document, la multitude d’équations mathématiques et de matrices
statistiques m’ont confirmé que j’avais trouvé un sous-domaine digne d’intérêt. C’est
finalement grâce à ce texte (malheureusement trop vieux pour être traduit dans le cadre de ce
mémoire) que j’ai pu affiner mes recherches.
La recherche du texte 3.
Profitant de cette épiphanie, j’ai fait mes premières recherches sur Google
(PDF Search Engine est finalement peu convivial et assez désagréable à utiliser). En utilisant
les mots-clés cités au début du texte mentionné plus haut, j’ai été confrontée mes premières
difficultés : la majeure partie des textes dataient d’avant 2011, ou étaient trop courts par
rapport aux métriques indiquées dans les consignes du mémoire.
N’étant en aucun cas experte du domaine, j’ai dû éplucher les résultats de recherche
Google un à un, un procédé extrêmement chronophage. En effet, de nombreux résultats de mes
recherches sur « adaptive difficulty » (difficulté adaptative) et « dynamic difficulty
7
adjustment » étaient des fils de discussion lancés par des joueurs sur les forums des grands
développeurs (notamment Bioware), qui ne m’étaient d’aucune utilité pour le moment (je m’en
suis servie plus tard dans le cadre de mes recherches terminologiques). J’ai donc préféré
Google Scholar, qui m’a permis d’écrémer ces résultats. Je n’ai finalement pas eu besoin
d’autres plateformes que celle-ci, car les expériences et les études réalisées dans ce domaine
sont en général effectuées au sein des départements informatiques des universités, qui
publient ensuite ces documents sur leurs sites.
Pour diversifier ce processus de recherche, j’ai également passé beaucoup de temps à
examiner les références des textes qui ne correspondaient pas aux consignes (date ou
longueur). Cela m’a permis de trouver de nouveaux textes relativement proches des domaines
que je souhaitais aborder. C’est grce cette approche que j’ai découvert un autre domaine de
plus en plus étudié dans les jeux vidéo : les émotions. L’étude des émotions dans le domaine
informatique est appelée en anglais affective computing (informatique affective), et a pour
but de transformer la manière dont nous interagissons avec les machines. En effectuant
quelques recherches, tout d’abord sur IEEE (la liste des références sur la page d’un article est
une fonction particulièrement utile) puis sur Scholar, j’ai trouvé une multitude de textes
relevant de la pure science-fiction. Mon choix était fait : il me fallait un texte combinant jeux
vidéo, ajustement de la difficulté et informatique affective.
II. Choix du texte
1. Présentation du texte
Chanel, G., Rebetez, C., Bétrancourt, M., & Pun, T. (2011). Emotion assessment from physiological
signals for adaptation of game difficulty. Systems, Man and Cybernetics, Part A: Systems and Humans,
IEEE Transactions on, 41(6), 1052-1063.
En parcourant la liste de références d’un texte publié par IEEE, je suis tombée sur le
« Graal », un texte assez long qui rassemblait tous les concepts que je souhaitais aborder. Après
quelques recherches, j’ai trouvé une version gratuite sur le site de l’Université de Genève, très
active dans le domaine de l’informatique affective.
8
La revue dans laquelle ce texte a été publié appartient à la System, Man and Cybernetics
Society, qui s’intéresse aux interactions entre l’homme et les machines. L’association détaille sa
mission ainsi :
Development of systems engineering technology including problem definition methods, modeling, and simulation, methods of system experimentation, human factors engineering, data and methods, systems design techniques and test and evaluation methods.
Integration of the theories of communication, control, cybernetics, stochastics, optimization, and system structure towards the formulation of a general theory of systems.
Application at hardware and software levels to the analysis and design of biological, ecological, socio-economic, social service, computer information, and operational man-machine systems.1
2. Auteurs
Les auteurs de mon texte sont tous francophones : il aurait certes été préférable de
choisir un texte écrit par des anglophones, mais je n’ai pas réussi en trouver un assez récent
dans le même domaine. J’ai d’ailleurs observé une tendance intéressante pendant mes
recherches : la première grande vague de travaux sur le jeu vidéo et l’ajustement de la difficulté
provient en majorité des pays anglophones, mais les recherches actuelles sont à 90 % écrites
par des non-anglophones. J’ai d’ailleurs dû, mon grand regret, passer outre des études
extrêmement intéressantes mais écrites dans un anglais relevant du pidgin. Même si ce texte a
été écrit par des francophones, la qualité de l’anglais reste plus que correcte. Bon nombre de
ces auteurs, et notamment M. Chanel, mon expert (coordonnées en annexe), publient d’ailleurs
régulièrement de nouvelles recherches exclusivement en anglais. Tous ont étudié ou travaillé
au département informatique de l’Université de Genève.
3. Structure et enjeux du texte
Le texte est un compte-rendu d’une étude réalisée l’Université de Genève. Son
organisation suit donc le déroulement d’un protocole expérimental : description des objectifs,
de l’organisation de l’étude, étapes du processus, conclusion. L’objectif des auteurs est de
déterminer s’il serait possible d’exploiter les émotions humaines pour ajuster en temps réel la
difficulté d’un jeu. Comme mentionné plus haut, les algorithmes actuels d’ajustement de la
1 « About SMCS ». IEEE SMC. http://www.ieeesmc.org/about-smcs (consulté le 14 juin 2015)
9
difficulté ne prennent en compte que la compétence du joueur (c’est-à-dire ce qui se passe à
l’intérieur du jeu).
Dans cette expérience, les émotions sont mesurées l’aide de signaux physiologiques
(électroencéphalogramme, pression sanguine, fréquence cardiaque, etc.) collectés par des
instruments de mesure raccordés l’ordinateur. Les joueurs remplissent également des
formulaires d’auto-évaluation à la fin de chaque session de jeu. Une fois les premières données
collectées, les auteurs appliquent des algorithmes de classification statistique pour attribuer
trois catégories d’émotions aux données : l’ennui, l’engagement et l’anxiété. Ainsi, x valeur de
la pression sanguine correspondra à une catégorie, et y valeur correspondra à une autre
catégorie. Une fois les données classées, les auteurs doivent identifier les algorithmes les plus
performants et les plus précis pour l’identification des émotions. Les données sont donc
divisées en plusieurs ensembles, certains réservés l’apprentissage des algorithmes et d’autres
mis de côté pour les tests. C’est sur cette partie du texte que j’ai décidé de travailler car c’est la
plus intéressante du point de vue terminologique : en effet, les parties précédentes se
concentrent respectivement sur les domaines physiologique et statistique. Une fois entraînés,
les algorithmes les plus performants sont fusionnés et intégrés au jeu. Le nouveau joueur n’a
plus qu’ s’équiper du matériel, enregistrer son activité physiologique pendant une minute, et
le jeu est prêt l’emploi. Le dispositif utilisé pour mesurer l’activité physiologique est similaire
à cet équipement :
© Université de Genève
10
Ainsi, lorsque le joueur commence s’ennuyer du fait du manque de difficulté, le jeu
s’adapte immédiatement en augmentant la difficulté. Inversement, si le joueur est frustré et
commence s’énerver, le jeu réduit la difficulté. L’objectif des algorithmes est de maintenir
l’engagement de l’utilisateur, pour une expérience de jeu aussi divertissante que possible. Mon
expert m’a d’ailleurs fait savoir que le jeu adaptatif testé dans cette étude est actuellement
visible l’exposition temporaire « Émotions : une histoire naturelle » à Neuchâtel.
Domaines abordés 4.
Les neurosciences touchent une multitude de domaines distincts : la biologie, la
psychologie, la médecine, l’informatique, et bien d’autres. Elles peuvent être divisées en
plusieurs sous-disciplines, les plus connues du grand public étant les neurosciences cognitives
(le rôle du cerveau dans le processus cognitif), la neurologie et la neuropsychologie (incidence
de l’activité cérébrale sur les émotions et l’intelligence). Dans le texte, l’enjeu est d’étudier le
système nerveux central (le cerveau) et périphérique dans le but de reconnaître les émotions :
on a donc affaire à la neuropsychologie. Comme le montre l’image ci-dessus, les appareils de
mesure sont directement reliés l’ordinateur : c’est ce que l’on appelle une interface cerveau-
machine (brain-computer interface). L’étude de ces interfaces est en plein essor aujourd’hui, et
il est même possible d’acheter des casques capables de mesurer l’activité cérébrale pour usage
personnel à moins de 500 dollars.
Le casque EPOC fabriqué par EMOTIV (399/499 $)
11
La statistique est une science mathématique ayant pour but de rassembler, d’interpréter
et de présenter des données de manière compréhensible. Elle est utilisée dans tous les
domaines et tous les secteurs d’activités : économie, secteur public, milieux scientifiques,
marketing, etc. Dans le cadre d’études scientifiques, la statistique permet d’interpréter les
données rassemblées et de les visualiser l’aide notamment de matrices, d’histogrammes et de
tableaux.
Matrice de confusion2
L’apprentissage automatique est une discipline scientifique consacrée l’étude, au
développement et l’application de méthodes automatisables qui permettent aux machines
(notamment les ordinateurs) d’effectuer des tches automatiquement tout en « apprenant » :
elles évoluent chaque nouvelle tche. C’est une discipline en plein essor dont les applications
se multiplient : reconnaissance (écriture, voix, expressions faciales), analyse de données (data
mining, marchés boursiers), logiciels, jeux vidéo, marketing, etc. Grce l’apprentissage
automatique, certains progiciels de gestion intégrée (Enterprise Resource Planning) sont par
exemple capables d’enregistrer les données de chaque employé d’une entreprise, et de
proposer des recommandations de formation ou des avertissements en fonction de la
performance professionnelle.
Il existe plusieurs types d’apprentissage automatique dont les applications sont
différentes. Dans le texte, les auteurs utilisent l’apprentissage automatique supervisé : ce type
d’apprentissage est utile lorsque les catégories, ou classes auxquelles les données doivent être
attribuées sont déj définies. Au début du protocole de recherche, les auteurs expliquent qu’ils
ont défini trois émotions et trois niveaux de difficulté de jeu avant de procéder à la
classification et l’entraînement des algorithmes d’apprentissage automatique. Par opposition,
l’apprentissage non supervisé (ou classification automatique) ne fait intervenir aucune classe 2 CHANEL, Guillaume, REBETEZ, Cyril, BÉTRANCOURT, Mireille, et al.Emotion assessment from
physiological signals for adaptation of game difficulty. Systems, Man and Cybernetics, Part A: Systems and Humans, IEEE Transactions on, 2011, vol. 41, no 6, p. 1052-1063.
12
prédéfinie. C’est l’algorithme lui-même qui va identifier les catégories et les motifs au sein des
données.
L’informatique englobe ici l’apprentissage automatique effectué l’aide d’un
ordinateur, et le jeu vidéo (Tetris) utilisé par les participants lors de l’étude. Tout comme les
neurosciences, c’est un domaine pluridisciplinaire qui recoupe la plupart des concepts abordés
dans le texte choisi. En tenant compte de l’étude dans son ensemble et en reformulant son
objectif de manière synthétique (exploiter les émotions pour améliorer l’interaction avec un
produit informatique), on peut regrouper tous les domaines et sous-domaines du texte sous le
terme générique informatique affective. Cette discipline a pour but d’étudier et de
développer des outils et des méthodes permettant aux machines de reconnaître, de synthétiser
et de traiter les émotions humaines : on y retrouve donc les neurosciences, les sciences
cognitives, l’apprentissage automatique et l’informatique. L’informatique affective a
notamment rendu possible le développement de robots capables d’interagir avec des humains
et de reproduire leur comportement et leurs expressions.
Délimiter le micro-domaine 5.
Pour faciliter mon travail de recherche, j’ai construit une représentation visuelle des notions
présentes dans mon texte :
13
En début d’année, je pensais avoir affaire trois principaux domaines : la classification
statistique, les neurosciences et l’adaptation de la difficulté. Comme la partie du texte que
j’avais choisie traitait principalement des méthodes et outils de classification, je pensais, à tort,
que mon sous-domaine devait porter exclusivement sur la classification statistique. Au cours
de mon premier jet de traduction, je me suis rendu compte que le domaine que j’avais (par
erreur) identifié comme la statistique dans ma partie était en réalité un autre domaine,
l’apprentissage automatique. Les deux concepts font en effet appel des calculs et des
algorithmes identiques. C’est la présence de mots clés comme « train » (entraîner) qui m’a
permis de rectifier le tir au niveau de mes recherches documentaires et terminologiques.
En examinant le texte dans son ensemble, j’ai découvert que l’aspect jeu vidéo était finalement
l’un des moins importants : les enjeux du texte touchent avant tout les neurosciences (avec la
physiologie des émotions) et l’apprentissage automatique (entraînement d’algorithmes), deux
concepts clés du domaine de l’informatique affective, dont l’objectif est de reconnaître et
exploiter les émotions l’aide de machines. L’application n’est finalement pas un facteur
essentiel : on pourrait appliquer les algorithmes étudiés à des formations en ligne, à des robots,
etc. J’ai donc remanié mon diagramme pour inclure ces nouvelles notions :
Ce diagramme de Venn m’a permis de faire la liste des grands domaines abordés dans le texte :
la psychologie, les neurosciences, la statistique et l’informatique. Tous les domaines et sous-
14
domaines présentés dans cette figure interviennent dans l’informatique affective. À ce stade, il
me fallait formuler clairement mon domaine d’étude pour la terminologie et la base ARTES. Je
souhaitais garder l’apprentissage automatique au cœur de ma problématique en affinant mon
sujet (car mon sous-domaine initial était beaucoup trop vaste). Même si je ne traduisais qu’une
partie du texte, il fallait que le sous-domaine tienne compte de tous les domaines abordés dans
le reste du document. Sur les conseils de ma directrice de mémoire pour la terminologie, j’ai
choisi de formuler mon sous-domaine l’aide du terme « traitement », qui englobe à la fois les
neurosciences (théorie cognitive, mesure de l’activité physiologique) et les méthodes ou outils
informatiques/statistiques qui permettent de les exploiter dans le cadre de cette expérience :
Le traitement des émotions pour la création d’un jeu avec ajustement de la difficulté.
Ce domaine me permet donc d’aborder les concepts fondamentaux de la partie du texte que j’ai
choisi de traduire : l’aspect psychologique sous l’angle des neurosciences, et sa potentielle
application l’apprentissage automatique dans le cadre de la programmation. Satisfaite de cet
espace bien délimité, j’ai rapidement perdu mon enthousiasme en remplissant mes premières
fiches ARTES.
Ce micro-domaine étant extrêmement spécifique, la classification d’un point de vue
documentaire a été assez ardue dans la base ARTES. Pour les termes relevant de
l’apprentissage automatique, j’ai par exemple dû combiner la statistique et l’informatique. Pour
la terminologie des jeux vidéo, j’ai utilisé l’informatique et la catégorie « divertissement », car il
n’existe pas non plus de libellé dédié ce domaine. Comme le montre le diagramme ci-dessus,
chaque sous-domaine est en interaction avec d’autres domaines : c’est un phénomène très
intéressant en terminologie, mais cauchemardesque sur le plan documentaire.
III. La recherche documentaire : constitution du corpus
1. Un texte unique en son genre
Une fois le choix de texte validé, il est temps de se lancer dans la recherche de corpus.
C’est ce moment que j’ai compris quel point mon texte était spécifique : en recherchant des
documents portant sur le même genre d’études, j’ai été confrontée un manque cruel de
15
résultats. Les textes portant sur les émotions, les jeux vidéo et l’apprentissage automatique
sont extrêmement rares. J’ai donc adapté mes recherches en essayant différentes combinaisons
de sous-domaines que j’avais intégrés mon diagramme ci-dessus. J’ai par exemple recherché
des textes avec physiological signals et emotions, machine learning et emotions, difficulty
adjustment et machine learning, etc.
2. Le tri sélectif, un pléonasme particulièrement pertinent
Grce cette nouvelle méthode de recherche, j’ai pu amasser un nombre assez
conséquent de documents, sans vraiment faire de tri car il fallait constituer un corpus aussi
rapidement que possible. Pour les domaines plus scientifiques comme les neurosciences et
l’informatique affective, l’alliance IEEE-Google Scholar est restée ma méthode de choix. Pour le
domaine des jeux vidéo, j’ai découvert des phénomènes terminologiques intéressants sur les
sites des développeurs et sur les forums de joueurs (notamment quelques barbarismes comme
« difficulté adaptive »).
Une fois le matériel amassé vient l’heure du tri. J’ai commencé par renommer mes
fichiers avec le nom de l’auteur, la date et les abréviations des principaux concepts du texte (p.
ex. CLA = classification ML = machine learning, EM = emotions, AC = affective computing). Ayant
délimité mon sous-domaine de recherche sur le tard, j’avais commencé chercher une majorité
de textes portant sur ce que je pensais être mon domaine principal : la classification dans le
cadre de l’apprentissage automatique. Grce ce système d’abréviations, je me suis rendu
compte qu’il fallait équilibrer le corpus en termes de domaines, même si la terminologie de la
statistique et de l’apprentissage automatique était l’un des thèmes majeurs dans la partie du
texte que j’avais choisi de traduire (par opposition par exemple à la terminologie du jeu vidéo).
Manquant de temps pour la constitution du corpus, j’ai privilégié les textes figurant dans les
références de mon article. L’auteur principal de mon texte a également publié un certain
nombre de travaux exclusivement en anglais, mais j’ai choisi de ne pas les inclure dans mon
corpus, car ils traitent sensiblement des mêmes enjeux et la phraséologie est identique. Utiliser
ces textes pour valider des choix de traduction ou de terminologie ne serait pas une bonne
approche : il est nécessaire de comparer le texte d’autres documents écrits par des auteurs
différents.
16
J’ai malheureusement dû me débarrasser d’environ 30 % de mon corpus anglais initial :
de nombreux textes, bien que publiés dans des revues ou sur les sites des universités, étaient
rédigés dans un anglais quasiment incompréhensible. Comment faire confiance à de tels
documents ? Comment peut-on être sûr que la terminologie qu’ils emploient est exacte ? J’ai
éliminé les textes de moins bonne qualité, mais je retrouve parfois encore des perles dans
Antconc. Il semble que certains auteurs soignent particulièrement l’abstract et les premiers
paragraphes du texte au détriment du reste du document. Il serait donc plus avisé de parcourir
rapidement ces textes en « échantillonnant » (relire quelques lignes au début, au milieu et à la
fin du texte). En adoptant cette approche dès le départ, j’aurais perdu moins de temps à trier
mon corpus anglais.
3. L’organisation
De nature désorganisée, je me suis rendu compte ce stade qu’il me fallait absolument
réorganiser mon travail de recherche et de classement. Une fois le tri préliminaire de mes
documents effectué, je les ai catalogués dans un fichier Excel (un procédé chronophage lorsque
l’on doit ranger 40 documents en une fois), toujours avec mes abréviations de domaines pour
m’y retrouver plus facilement : il me suffit d’une recherche pour voir tous les documents
correspondant à x domaine.
Tableau Excel des textes du corpus EN
EEG_CLA_Larsen_2011
Classification of EEG Signals in a Brain-Computer Interface
System Thèse EEG, CLA 15309
http://ntnu.diva-
portal.org/smash/get/diva2:440513/FULLTEXT0
1.pdf
EEG_CLA_Lotte_2007
A article of Classification Algorithms for EEG-based Brain-
Computer Interfaces article EEG, CLA 5773 http://iopscience.iop.org/1741-2552/4/2/R01
EEG_EM_BCI_Kvaale_201
2 Emotion Recognition in EEG Thèse EEG, EM, BCI 25706
http://www.diva-
portal.org/smash/get/diva2:566256/FULLTEXT0
1.pdf
EEG_McMahan_2014
Modality Specific Assessment of Video Game Player's
Cognitive Workload Using Off-the-Shelf
Electroencephalographic Technologies
rapport
technique EEG 4167 https://larc.unt.edu/techreports/LARC-2014-03.pdf
EEG_Nacke_2010
Electroencephalographic Assessment of Player Experience: A
Pilot Study in Affective Ludology article EEG 7951
http://hciweb.usask.ca/uploads/192-
Simulation-Gaming-2010-Nacke.pdf
EM_AC_Chanel_2009
Emotion assessment for affective computing based on brain
and peripheral signals Thèse EM, CLA 8054 http://archive-ouverte.unige.ch/unige:4708
EM_Axelrod_2009 EMOTIONAL RECOGNITION IN COMPUTING Thèse EM 90518 http://bura.brunel.ac.uk/handle/2438/5758
EM_Chanel_2005
Emotion Assessment: Arousal Evaluation Using EEG's and
Peripheral Physiological Signals article EM 2923
http://citeseerx.ist.psu.edu/viewdoc/downloa
d?doi=10.1.1.72.6661&rep=rep1&type=pdf
EM_CLA_EEG_Nie_2011 EEG-based Emotion Recognition during Watching Movies article EM, CLA, EEG 2629
http://bcmi.sjtu.edu.cn/~blu/papers/2011/EEG-
Based%20Emotion%20Recognition%20During%
20Watching%20Movies.pdf
17
Du fait de ma méthode de recherche mentionnée plus haut (combinaisons plus ou moins
aléatoires de sous-domaines), j’ai consulté un nombre incalculable de documents. Je n’aurais
jamais pu tous les enregistrer, c’est pourquoi je n’ai conservé que ceux qui convenaient pour
mon corpus. Les interactions entre tous mes sous-domaines sont certes intéressantes, mais
rendent le travail de recherche ardu : je me suis rendu compte plusieurs fois que je « tournais
en rond », car différentes équations de recherche me proposaient les mêmes documents. J’ai
donc déprogrammé le nettoyage automatique de mon cache et de mon historique de
navigateur, ce qui me permet de savoir si j’ai déj visité une page (en violet) ou non (en bleu)
sur Google. Cela peut paraître extrêmement simple, mais c’est une astuce qui m’a permis
d’économiser des heures de travail en début d’année.
Je me suis également constitué un petit document pour rassembler tous les concurrents
apparaissant dans mes recherches. La terminologie du jeu vidéo est très sujette à ce
foisonnement terminologique : pour dynamic difficulty adjustment, mon terme vedette, on
trouve également adaptive difficulty, dynamic game balancing, et bien d’autres encore. Cette
richesse de termes permet d’accéder beaucoup plus de documents, aussi bien en anglais
qu’en français. Par exemple, si la recherche « emotions + dynamic diffculty adjustment » ne
renvoie que 2 résultats, pourquoi ne pas essayer « adaptive difficulty + emotions » ? Ces
concurrents m’ont permis de découvrir de nouveaux textes pour mon corpus et mon travail
terminologique : finalement, si une recherche ne renvoie que peu de résultats, peut-être qu’il
existe un concurrent plus souvent utilisé dans le domaine étudié.
Enfin, je conseillerais à tout étudiant de bien choisir le type de référence
bibliographique utiliser dans la base ARTES. J’avais commencé par utiliser un format hybride
APA-ISO 690, plus lisible dans la base (on lit mieux les noms d’auteurs en majuscules) mais qui
me forçait à modifier les formats suggérés par Google Scholar. Pour une meilleure lisibilité, je
pense que le format ISO 690 est le plus lisible. En s’y tenant dès le début, pas besoin de taper la
référence à la main, il suffit de la coller dans ARTES.
18
IV. Le paysage documentaire
1. L’incidence de la terminologie sur la recherche documentaire
La multitude de sous-domaines abordés dans mon texte se traduit par un paysage
documentaire extrêmement contrasté, en particulier pour les domaines liés l’informatique.
Jeux vidéo : j’étais au départ surprise de ne trouver qu’une poignée de textes de
recherche concernant les jeux vidéo, mais comme mentionné plus haut, je me suis rapidement
aperçue que c’est un domaine où la terminologie n’est absolument pas contrôlée. Chacun peut
écrire une étude en inventant de nouveaux termes ou en utilisant un terme inventé dans un
texte antérieur. Ce phénomène est certainement dû au caractère relativement nouveau du jeu
vidéo en tant que discipline académique. Les textes qui m’ont aiguillée vers mon sous-domaine
au début de mes recherches datent en effet des années 2000. Aujourd’hui, le nombre d’études
portant sur les jeux ne fait que croître, témoignant du succès de ce support, aussi bien pour le
divertissement qu’ des fins éducatives (on s’intéresse de plus en plus aux jeux « sérieux » dans
le cadre de la formation). Dans le cadre d’un projet de recherche comme celui-ci, il faudra faire
la distinction entre les mots-clés concurrents existants : selon les termes employés, on ne
trouve pas les mêmes types de documents. Prenons l’exemple de l’un des concepts centraux de
mon texte : les concurrents dynamic game balancing et dynamic difficulty adjustment
(adaptation/ajustement dynamique de la difficulté) permettent de trouver des documents
académiques, alors que le synonyme parfait adaptive difficulty (difficulté adaptative/adaptive)
est plutôt utilisé par les développeurs et les joueurs. Dans les deux cas, les personnes qui
utilisent ces termes sont des « experts » du domaine, mais choisissent une terminologie
différente pour décrire des concepts identiques. C’est une tendance qu’il est essentiel de
prendre en compte selon le type de document traduit et sa visée (si le texte de mémoire était à
traduire pour un public de joueurs averti, j’aurais par exemple préféré le terme « difficulté
adaptative »).
Comme je m’y attendais, il a été extrêmement difficile de trouver des textes français
portant sur cet aspect des jeux vidéo. La plupart des grands développeurs de jeux vidéo sont en
effet basés dans des pays anglophones, et même les studios non anglophones communiquent
majoritairement en anglais, langue principale du marché du jeu vidéo. Il serait intéressant
d’examiner les statistiques des nationalités des joueurs dans le monde entier, mais je pense
néanmoins que le public français ne figure pas parmi les principaux consommateurs de jeux
19
vidéo. Cela pourrait aussi expliquer la multitude de travaux de recherche en anglais (en tenant
bien sûr compte des auteurs non anglophones écrivant en anglais) et le manque d’études
réalisées en France. Dans les régions où le jeu vidéo figure parmi les divertissements les plus
populaires, il est naturel que les scientifiques s’intéressent ce support de plus près.
Statistique et apprentissage automatique : avec l’apprentissage automatique, la
statistique a été l’un de mes principaux domaines de recherche. Les contrastes entre le français
et l’anglais sont très intéressants du point de vue chronologique. En français, j’ai en effet trouvé
une grande quantité de documents étudiant la classification écrits dans les années 1990. La
terminologie utilisée dans ces documents était en majorité française (noms d’algorithmes, de
techniques, etc.). En revanche, au cours des années 2000, les documents mentionnant de
nouveaux outils (en général présentés dans des documents en anglais) ne comportaient pas de
traductions en français. Certains noms d’algorithmes employés dans mon texte n’ont par
exemple aucun équivalent français : les experts francophones du domaine préfèrent utiliser
des sigles et noter la forme développée d’un terme dans la liste des abréviations de leurs
travaux. Intriguée par ce phénomène, j’ai demandé l’avis de mon expert principal (voir
Annexes). Il explique que ces disparités terminologiques reposent sur différents facteurs :
- la nouveauté de l'algorithme (si il est nouveau la traduction n'existe pas encore et les informaticiens sont un peu hesitants à traduire); - l'utilisation de l'algorithme (un algorithme ancien mais peu utilisé ne sera probablement que peu traduit); - la facilité de la traduction (notament en regard de la possibilité de cumuler les qualificatif en anglais); - le fait que nous parlons de plus en plus anglais dans la recherche (en tout cas en informatique).
Comme l’apprentissage automatique fait appel de nombreux outils statistiques, le
phénomène est identique dans les travaux de recherche en français. À l’image des tendances
terminologiques observées dans le cas des jeux vidéo, cet aspect a grandement influencé mon
approche de recherche : j’ai en effet perdu énormément de temps chercher des équivalents
français pour mes candidats-termes avant de me rendre compte qu’il n’existait tout bonnement
aucun équivalent recevable (à part quelques propositions de traductions douteuses dans des
documents peu fiables). Armé de ces connaissances, le néophyte pourrait gagner un temps
précieux et orienter son travail de recherche correctement dès le départ.
Face au foisonnement de concurrents et de termes sans équivalents, je me suis appuyée
sur de nombreux cours de statistique et d’apprentissage automatique mis en ligne sur les sites
20
de plusieurs universités françaises et américaines (détaillés dans la bibliographie sélective).
C’est dans ce type de document que j’ai pu trouver la plupart des contextes définitoires pour
mes fiches, ou, défaut, des explications précieuses qui m’ont permis de comprendre les
concepts et de formuler mes propres définitions. J’ai également récolté des glossaires
unilingues et bilingues de la terminologie statistique issus de sources variées, notamment
l’Éducation nationale, les universités, les associations de statisticiens, voire des entreprises de
data mining.
2. Composition du corpus
En anglais : la majorité des documents rassemblés sont des articles issus de publications
scientifiques similaires au texte traduit, provenant majoritairement de sites comme IEEE et
d’universités. J’ai tout de même été surprise de trouver un certain nombre de thèses en anglais
(la plupart étant néanmoins rédigée par des auteurs non anglophones) portant en général sur
l’apprentissage automatique et la reconnaissance des émotions. Mon unique monographie3,
disponible en version numérique, m’a permis de mieux comprendre certains concepts liés au
domaine du jeu vidéo. Du fait du grand nombre de sous-domaines intervenant dans mon texte,
j’ai essayé d’homogénéiser mon corpus au maximum, mais je me suis rendu compte en
remplissant mes premières fiches ARTES qu’il me fallait rassembler des documents de
vulgarisation afin de me familiariser davantage avec certaines notions (en particulier en
matière de statistique et d’apprentissage automatique). Ces supports ne sont pas inclus dans le
graphique ci-dessous, mais seront ajoutés à la bibliographie sélective de ce protocole.
3 [ADAMS_2014] ADAMS, Ernest. Fundamentals of game design. Pearson Education, 2014.
21
En français : la composition de mon corpus français est sensiblement différente.
L’intérêt croissant pour la neuropsychologie et l’apprentissage automatique a fait l’objet d’un
grand nombre de thèses et de mémoires de Master ces dernières années. Pour ces types de
documents, l’archive ouverte HAL m’a permis de gagner du temps (pas besoin d’éplucher les
résultats Google). Bon nombre de ces thèses proviennent également d’universités mettant à
disposition les thèses de leurs anciens doctorants. La faible quantité d’articles de publications
scientifiques s’explique notamment par la tendance identifiée par mon expert dans la partie
précédente : pour être lu, il faut publier en anglais. J’ai néanmoins passé du temps rassembler
autant d’articles que possible pour pouvoir effectuer des comparaisons au niveau de la
phraséologie. En effet, certaines de mes thèses étaient truffées de fautes d’orthographe et
globalement assez mal rédigées, ce qui m’a fait douter de la fiabilité de certaines traductions de
termes. Avec les articles publiés par des revues ou des organismes de spécialité, on a au moins
l’assurance que le document a été révisé.
11
39
2 1 1
Thèse Publicationsscientifiques
Blogs/presse Monographie Rapporttechnique
Composition du corpus anglais (54 textes)
22
J’ai également inclus deux cours trouvés en début d’année, qui m’ont permis de me
familiariser quelque peu avec la terminologie statistique. Comme dans le cas de l’anglais, j’ai en
revanche été contrainte de chercher davantage de cours pour mon travail de traduction. Ces
cours seront inclus dans la bibliographie commentée.
Conclusion
Après des débuts plutôt chaotiques, en particulier concernant la définition de mon
micro-domaine, je pense avoir dompté ma nature désorganisée et ma passion pour cette
théorie que certains traducteurs appellent good enough. Ce travail de longue haleine requiert
une organisation et une discipline strictes, sans lesquelles on se retrouve très vite submergé.
Le travail de recherche documentaire effectué en début d’année est essentiel pour se
familiariser avec les domaines de spécialité. À l’inverse des productions académiques réalisées
lors de mes précédentes années d’études, l’approche de recherche adoptée dans ce cursus est
16
13
2 1
Thèse/mémoire Publicationsscientifiques
Cours Communiqué depresse
Français (32 textes)
23
beaucoup plus inclusive : pour l’étudiant en quête d’un bon article de vulgarisation, quel
bonheur de pouvoir consulter une page Wikipédia sans culpabiliser ! La multitude de
possibilités en matière de domaines de spécialité se traduit également par une vaste gamme de
documents différents : pourquoi ne pas utiliser des forums comme exemple de la terminologie
employée par des gamers invétérés ? Même si ce mémoire ressemble aux exercices
hebdomadaires que je réalisais en Master 1 (traduction accompagnée d’un journal de bord
justifiant les choix), l’approche est beaucoup moins restrictive.
En termes de recherche documentaire, l’accent est mis sur la pertinence des sources
rassemblées par rapport l’utilisation que l’étudiant souhaite en faire, l’image de la théorie
fonctionnaliste (quel est le skopos de ce document ?). La fiabilité reste évidemment un critère
important, mais n’est plus le seul et unique facteur motivant un choix. Le terme trouvé sur trois
bases de données, dans un dictionnaire et dans deux brevets sera certes fiable, mais sera-t-il
adapté au contexte et à la visée du texte à traduire ? C’est ici qu’intervient l’expert. J’ai eu la
chance de pouvoir solliciter l’aide de l’un des auteurs de mon texte, qui a également fait appel
ses co-auteurs pour répondre mes questions. C’est une situation idéale, puisqu’il est le mieux
placé pour expliquer sa démarche. Cependant, des réserves ont été émises en début d’année
concernant ce choix : en effet, les auteurs étant tous francophones, il serait facile de céder à la
tentation et de demander de l’aide pour la traduction. Je me suis donc limitée aux problèmes
terminologiques les plus ardus.
Les connaissances acquises dans le cadre de ce mémoire et des cours m’ont permis de
mieux m’organiser et d’acquérir des réflexes qui seront certainement utiles si je suis amenée
traduire des textes techniques sans mémoire de traduction. J’ai également pris conscience des
liens très forts entre la terminologie et la recherche documentaire : sans la bonne terminologie,
il est difficile de faire aboutir une recherche documentaire. De même, il est essentiel d’adopter
dès le départ une méthode de recherche efficace pour trouver les bons termes. Sans ces deux
disciplines, il serait impossible (ou extrêmement difficile) de mener bien la traduction d’un
texte aussi technique.
À l’issue de ce master, je souhaiterais terminer la traduction intégrale de ce texte (les
parties sélectionnées correspondent à environ un tiers du volume total du texte) et la proposer
aux auteurs, mon expert ayant exprimé son intérêt pour ce projet.
24
Protocole de terminologie
Note : les termes en gras souligné ont été traités en fiches longues dans la base ARTES. Les
termes en gras ont fait l’objet de fiches courtes ou fiches glossaire. Cliquez sur les
termes en bleu pour obtenir davantage d’informations. La liste complète des termes
traités dans la base ARTES figure dans les Annexes.
Le choix du texte de traduction et la présentation des domaines sont détaillés dans les
parties suivantes :
Choix du domaine
Choix du texte
I. Concepts principaux au sein du micro-domaine
Le dictionnaire du micro domaine délimité dans la partie précédente contient en majorité
des termes appartenant la statistique et l’apprentissage automatique. En effet, ces domaines
représentent l’un des principaux enjeux du texte et sont omniprésents dans la partie IV
traduite dans le cadre de ce mémoire.
Certains termes relevant de la terminologie du jeu vidéo ont également été traités en fiches
longues car ils reflètent des tendances et des phénomènes représentatifs du domaine. En
revanche, les termes comme fréquence cardiaque et électroencéphalogramme appartenant
au vocabulaire médical ont été traités en fiches glossaire, car ils sont bien connus du grand
public et ne présentent pas d’intérêt majeur d’un point de vue terminologique dans ce texte.
Jeux vidéo : une terminologie foisonnante 1.
Au cœur de la problématique du texte se trouve le concept d’ajustement dynamique
de la difficulté (dynamic difficulty adjustment). Bien que les auteurs n’utilisent pas ce
terme dans leur texte (on trouve par contre « difficulty adjustment », « to adjust difficulty »,
et d’autres variantes qui renvoient toutes cette notion), j’ai choisi de le traiter en fiche
longue. Ce terme aux nombreux synonymes renvoie à un concept bien précis : la
modulation de la difficulté automatique et en temps réel. Ce type d’adaptation s’oppose par
exemple l’ajustement manuel que proposent les jeux (choix d’une difficulté tout moment
25
par le joueur). Dans le texte, c’est bien l’objectif que les auteurs cherchent à atteindre en
utilisant l’apprentissage automatique.
Concurrents 2.
Comme mentionné plus haut, mes premières recherches ont porté sur ce concept
d’ajustement dynamique de la difficulté. En consultant des sites de vulgarisation comme
Wikipédia4, il apparaît que le terme dynamic difficulty adjustment dispose de nombreux
concurrents, le principal étant dynamic game balancing (sans oublier les textes utilisant
des hyperonymes comme difficulty adjustment pour renvoyer au même concept). En
examinant les contextes dans lesquels ces deux termes concurrents sont employés, il
apparaît que le choix d’un terme ou d’un autre est purement préférentiel selon l’auteur.
Cependant, la forme dynamic difficulty adjustment semble être la plus utilisée dans les
milieux scientifiques, c’est pourquoi j’ai choisi d’en faire mon terme vedette, avec dynamic
game balancing comme concurrent.
Au cours de ces recherches, d’autres concurrents ont fait leur apparition, l’un des plus
utilisés étant adaptive difficulty. Une fois de plus, le terme renvoie à la même notion, mais
les contextes d’emploi ne sont pas les mêmes : en effet, cette forme sera préférée par les
développeurs de jeux vidéo et les joueurs (en particulier sur les forums). Dans les deux cas,
nous avons affaire à des experts (scientifiques / développeurs et joueurs avertis), mais les
choix terminologiques sont très différents. Les résultats renvoyés sont naturellement très
contrastés : dynamic difficulty adjustment permet de consulter des articles de
publications scientifiques, tandis que le concurrent adaptive difficulty figure sur des sites
ou forums accessibles au grand public. Dans le texte traduit, il sera donc plus avisé de
privilégier les équivalents utilisés dans le milieu scientifique, même si les auteurs font
parfois référence à leur jeu « adaptatif » (« adaptive game »).
4Dynamic game difficulty balancing. Wikipédia.
https://en.wikipedia.org/wiki/Dynamic_game_difficulty_balancing (dernière consultation le 30 mai 2015)
26
Équivalents français 3.
Il est également intéressant d’étudier les équivalents du terme adaptive difficulty en
français. Le terme difficulté adaptive utilisé par les développeurs et les joueurs reste la
traduction la plus utilisée, mais certains emploient la variante « difficulté adaptive », en
particulier sur les forums de joueurs. Quel que soit le domaine concerné, adaptive se traduit
généralement par adaptatif, la plupart des traducteurs évitant le calque « adaptif ».
L’emploi de cette forme dans le cadre du jeu vidéo est certainement dû l’omniprésence de
l’anglais dans le milieu du jeu vidéo et de la programmation (terminologie informatique). Le
public non-linguiste emploie donc naturellement une traduction calquée, que l’on tend
observer de plus en plus fréquemment, en particulier dans les textes de marketing où la
terminologie ne cesse d’évoluer.
II. Les équivalents en statistique et en apprentissage automatique
Deux domaines étroitement liés 1.
Mes recherches terminologiques ont principalement porté sur les termes utilisés en
statistique et en apprentissage automatique. Comme mentionné plus haut, j’avais commencé
par orienter mes recherches exclusivement vers le domaine de la statistique. En revanche, la
présence de termes comme le verbe to train m’a aidé à mieux comprendre les concepts utilisés
dans mon texte de traduction. Les auteurs utilisent en effet des outils statistiques (en
particulier les algorithmes traités en fiches longues dans la base ARTES) pour analyser les
données de manière automatique : le domaine principal est donc l’apprentissage automatique,
qui fait appel à des méthodes et outils statistiques automatisés.
Les tendances reflétées par l’emploi des algorithmes aussi bien en anglais qu’en français
ont fait l’objet de recherches approfondies et d’échanges avec des experts du domaine (extrait
de conversations en annexe).
Équivalents français : des tendances contrastées 2.
Une fois mes premiers candidats termes identifiés, j’ai commencé par chercher des
équivalents en utilisant des traductions littérales. Pour certains algorithmes comme l’analyse
27
discriminante linéaire (linear discriminant analysis), cette approche s’est révélée
fructueuse. En revanche, d’autres termes comme sequential foward floating selection et fast
correlation-based filter ne retournaient aucun résultat. Difficile en effet d’imaginer des
traductions comme « sélection séquentielle flottante en avant ». Les termes statistiques
accumulent volontiers les qualificatifs en anglais (trois dans le cas de sequential forward
floating selection), mais le français tend à être plus économe.
Il convient également de noter qu’ l’image de la terminologie du jeu vidéo, la
terminologie statistique est sujette au foisonnement des concurrents : le terme sequential
floating forward selection apparaît par exemple dans le texte de traduction sous la forme
sequential forward floating selection. Les deux variantes renvoient un nombre de résultats
similaires dans les recherches Google, et le choix d’un concurrent ou d’un autre semble relever
de la préférence de l’auteur. Afin de déterminer mon terme vedette, j’ai tenté de retracer
l’évolution de ce terme : il apparaît que la majeure partie des articles utilisant cet algorithme se
basent une publication de référence5 datant de 1994, où figure la variante sequential floating
forward selection. Les auteurs y expliquent que cet algorithme est un type de forward
selection. Il serait donc recommandé de ne pas scinder ce terme composé avec floating. J’ai
donc choisi cette variante comme terme vedette.
Tous ces algorithmes relativement bien représentés dans mon corpus anglais (j’avais
accumulé un certain nombre de textes portant sur la statistique en début d’année) étaient
employés dans les mêmes types de textes et de contextes que dans mon corpus français.
Cependant, nombre de documents français ne comportaient pas d’équivalents et conservaient
l’anglais, la plupart du temps entre parenthèses ou en début de document dans une liste des
abréviations :
Deux autres méthodes de la famille (FS, BS) qui limitent les inconvénients des
méthodes décrites ci-dessous, appelées SffS (Sequential Floating Forward Selection)
et SFBS (Sequential Floating Backward Selection) sont proposées en 1994 par Pudil et
al (Pudil et al. [1994]). Ces méthodes consistent utiliser l fois l’algorithme SFS de
manière ajouter l variables, puis utiliser r fois l’algorithme SBS afin d’en supprimer
r.6
5 FERRI, F., PUDIL, P., HATEF, M., et al. Comparative study of techniques for large-scale feature selection. Pattern Recognition in Practice IV, 1994, p. 403-413. 6 [CHOUAIB_2011] CHOUAIB H. - Sélection de caractéristiques : méthodes et applications - Thèse de doctorat, Dir. Pr. Nicole Vincent, Université Paris Descartes. 2011.
28
Afin de déterminer si cette tendance était valable pour l’ensemble des publications, j’ai
amassé du corpus français sur les domaines de la statistique et de l’apprentissage automatique
l’aide de sigles (notamment SFFS pour sequential floating forward selection). Ces
recherches m’ont confirmé que certains termes ne disposaient tout bonnement d’aucun
équivalent reconnu en français. De plus, certaines méthodes ou algorithmes étant relativement
récents, il est trop tôt pour connaître avec certitude le statut terminologique que chaque
nouveau terme. Il est fort probable qu’un regain d’intérêt envers un algorithme encourage la
communauté scientifique à créer de nouveaux équivalents.
Les échanges avec les auteurs de mon texte (extraits en annexe) m’ont permis de mieux
comprendre les facteurs qui peuvent influencer la formation ou l’évolution des termes en
statistique. Des notions relativement anciennes comme l’analyse discriminante linéaire ont
par exemple fait l’objet d’études détaillées dans le milieu scientifique français. En revanche, des
termes plus récents comme fast correlation-based filter7 apparus dans les années 2000 ne
disposent pas encore d’équivalents français. Selon mon expert, l’absence d’équivalent repose
sur les facteurs suivants :
- l’ancienneté du terme,
- sa fréquence d’utilisation,
- sa facilité de traduction.
Il ajoute cela que l’anglais gagne en importance dans les milieux scientifiques : pour
améliorer sa visibilité, il est essentiel d’écrire en anglais. Beaucoup d’auteurs francophones
publient ainsi davantage en anglais qu’en français (c’est par exemple le cas de mon expert).
Puisqu’ils savent que leur public, anglophone ou non, est même de lire et comprendre les
enjeux de leurs publications, la traduction devient superflue. Dans ARTES, j’ai donc choisi
d’utiliser, en guise d’équivalent français, le sigle du terme anglais. En effet, dans la totalité des
publications scientifiques de mon corpus (anglais comme français), les sigles sont préférés aux
formes développées.
Note : dans le cas du terme fast correlation-based filter, une occurrence d’une traduction
française (présente dans un seul texte) a été incluse dans la base ARTES en tant que concurrent
du sigle FCBF : filtre à sélection de caractéristiques par corrélation rapide. Cependant, ce
terme est beaucoup plus long que l’original anglais, et il n’est pas évident la première lecture
7 Première occurrence dans YU, Lei et LIU, Huan. Feature selection for high-dimensional data: A fast correlation-based filter solution. In : ICML. 2003. p. 856-863.
29
qu’il renvoie au même concept. En revanche, le sigle FCBF est plus facilement identifiable : il
serait donc recommandé d’employer ces deux variantes conjointement.
Formes développées et sigles 3.
Les textes scientifiques tendent privilégier l’emploi des sigles désignant des termes
composés. La forme développée est en général employée en début de texte, puis remplacée par
le sigle dans le développement. Certains textes incluent également une liste des abréviations,
très utile dans le domaine de la statistique ou de l’apprentissage automatique où les termes
composés sont nombreux. Dans la base ARTES, les termes comme sequential floating forward
selection et fast correlation-based filter ont été définis comme termes vedette, mais leurs
sigles respectifs SFFS et FCBF sont statistiquement plus employés. Ce phénomène a donc fait
l’objet de notes techniques de type :
Fast correlation based filter is more widely used in its abbreviated form, FCBF. As
the contexts of this entry demonstrate, the developed form is usually followed by
the acronym at the first occurrence. The acronym is then used throughout the rest
of the publications.8
L’utilisation des acronymes en français va parfois l’encontre des tendances linguistiques
détaillées dans le point précédent. En effet, pour des termes disposant d’un équivalent français
comme analyse discriminante linéaire, le nombre d’occurrences du sigle localisé (ADL) est
nettement inférieur à celui du sigle anglais (LDA). Dans mon corpus constitué d’une trentaine
de documents, seule une thèse emploie la forme ADL, le reste des documents utilisant LDA. Il
est donc nécessaire de préciser, lors de la création de l’entrée dans la base de données, que
certaines variantes sont moins utilisées que d’autres et pourraient éventuellement prêter
confusion.
Un exemple de terme ne disposant d’aucun sigle localisé est l’analyse de la variance
(analysis of variance, ANOVA). C’est une méthode statistique extrêmement connue et utilisée,
qui figure dans tous les lexiques ou glossaires de statistique, qu’ils soient destinés des experts
ou au grand public. Une fois de plus, le sigle est préféré à la forme développée. En revanche,
ANOVA semble prendre le statut de terme à part entière dans les publications scientifiques :
puisque c’est un acronyme, et non un sigle, certains auteurs ont tendance l’employer comme
8 Fiche ARTES du terme fast correlation-based filter
30
un mot, et de lui ajouter des qualificatifs comme « méthode », voire « analyse » (alors que le
mot analyse est déj compris dans l’acronyme ANalysis Of VAriance). Ce phénomène n’est pas
sans rappeler la redondance de « HIV virus » et « ATM machine » : plus ils sont utilisés, plus les
sigles ou acronymes tendent à se distancier de leur forme développée. Il serait par exemple
intéressant de demander plusieurs personnes de développer l’acronyme UNESCO : nous
connaissons tous la fonction et les missions de cet organisme, mais la forme développée a de
grandes chances d’échapper au plus grand nombre. C’est ce qui est en train de se produire pour
ANOVA, qui est aujourd’hui systématiquement accompagné (en anglais comme en français) de
termes satellites comme « test », « approche » et « méthode ». Dans le cadre d’une traduction, il
serait néanmoins sage d’éviter la redondance « analyse ANOVA », même si beaucoup l’utilisent.
III. Arborescences
Constitution des arborescences 1.
Ayant débuté mon travail terminologique en pensant me consacrer uniquement l’étude
des termes statistiques, j’ai commencé par établir une organisation hiérarchique des outils et
méthodes employés dans le texte. La représentation ci-dessous a été réalisée début janvier.
Ma démarche a été de partir du terme classification, qui me semblait être la notion
principale de la partie à traduire, pour ensuite relier les méthodes et outils intervenant dans ce
processus : l’analyse de caractéristiques (ou features) l’aide de classifieurs (classifiers) et
31
d’algorithmes de sélection de caractéristiques (feature selection). En revanche, au fil de ma
première traduction du texte en janvier, il est apparu que classification et feature selection
étaient deux processus bien distincts. En effet, la classification a pour objectif d’assigner des
données à des classes (prédéfinies ou non), ou catégories. Par exemple, dans le cas du texte de
traduction, les classes déterminées par les auteurs sont les trois émotions choisies en début
d’étude (ennui, engagement et anxiété). Par opposition, la sélection de caractéristiques a
pour but d’analyser un ensemble de données (data set) pour ne retenir que les éléments les
plus pertinents. Ces deux approches sont donc complémentaires : on commence par appliquer
la classification pour trier les données, puis on utilise la sélection de caractéristiques pour ne
conserver que les caractéristiques les plus pertinentes au sein de cet ensemble. Il a donc fallu
séparer ces deux méthodes d’analyse de données et leurs outils respectifs. En effet, les auteurs
du texte commencent par procéder à une classification, puis appliquent la sélection de
caractéristiques. L’élément clé reliant les deux termes dans mon arborescence est donc le
terme data set (ensemble de données), auquel les deux méthodes et leurs outils sont
appliqués.
Note : il ne faut pas confondre caractéristiques et données. Prenons l’exemple du texte de
traduction : au sein des données de la fréquence cardiaque, les auteurs se sont intéressés à
des caractéristiques comme la fréquence moyenne et les variations de fréquence cardiaque. J’ai
donc traité cette relation avec le lien « A est extrait de B ». En effet, l’interaction entre les deux
termes ne relève pas de la méronymie : les caractéristiques sont le résultat d’une analyse de
l’ensemble de données et sont choisies par les auteurs du texte (ils auraient tout fait pu ne
pas s’intéresser à la caractéristique de variation de la fréquence cardiaque).
Une fois mon micro-domaine clairement délimité, il m’a fallu inclure les termes du texte ne
relevant pas de la statistique ou de l’apprentissage automatique à mon arborescence. Pour
faciliter la compréhension et ne pas surcharger la page centrale, l’arborescence a été divisée en
trois parties :
- Une introduction au micro-domaine en première page incluant les notions clés : les
émotions, l’informatique affective, l’apprentissage automatique et l’ajustement
dynamique de la difficulté.
- Le développement des techniques et outils employés dans le cadre de l’apprentissage
automatique, enjeu principal du texte à traduire.
32
- Le détail du processus d’apprentissage automatique employé : la composition de
l’ensemble de données, la manière dont il est exploité et analysé ; le processus de fusion
des méthodes de classification et sélection de caractéristiques, ses objectifs.
Cette organisation permet de présenter succinctement le micro-domaine, puis de distinguer les
différentes méthodes et leurs outils, leurs objectifs et leurs applications. Une fois les méthodes
présentées, la démarche d’analyse de l’ensemble de données est détaillée en page 3, et se
conclut par la méthode de la fusion, étape finale du processus d’apprentissage automatique.
Arborescence en anglais 2.
A utilise B
B est extrait de A
A est appliqué à B
A évite B
A est traité par B
Objectif
Hyperonymes / hyponymes
Holonymes / méronymes
Fiches longues
Fiches courtesFiches glossaire
A est mesuré par B
A est divisé en B
Termes non traités dans
ARTES
A B
A B
A B
A B
A B
A B
A B
A B A est affecté à B
Légende
machine learning
dynamic difficulty
adjustment
emotion
physiological signal
EEG signalperipheral signal
engagement
boredom
anxiety
galvanic skin
response sensorplethysmograph
respiration
belt
temperature
sensorelectroencephalogram
affective computing
classifier feature selection
support vector machine
quadratic discriminant
analysis
linear discriminant
analysis
radial basis
function kernel
analysis of variancefast correlation-based
filter
sequential floating forward
selection
training setclassificationk-fold cross
validation
diagonalized singular covariance matrix
data set
linear classifier
generalization
test set
covariance matrix
cross-validation
feature
machine learning
Bayes’ belief integration
probability
confusion matrix
fusion
window
sample
uniform distribution
class
decision-level fusion
classifier feature selection
session
accuracy
data set
Arborescence en français 3.
A utilise B
B est extrait de A
A est appliqué à B
A évite B
A est traité par B
Objectif
Hyperonymes / hyponymes
Holonymes / méronymes
Fiches longues
Fiches courtesFiches glossaire
A est mesuré par B
A est divisé en B
Termes non traités dans
ARTES
A B
A B
A B
A B
A B
A B
A B
A B A est affecté à B
Légende
apprentissage
automatique
ajustement dynamique
de la difficulté
émotion
signal physiologique
signal EEGsignal périphérique
engagement
ennui
anxiété
capteur de
conductance
cutanée
pléthysmographe ceinture
de
respiration
capteur de
température
électroencéphalogramme
informatique
affective
38
classifieursélection de
caractéristiques
machine à vecteurs de
support
analyse discriminante
quadratique
analyse discriminante
linéaire
noyau à base
radiale
analyse de la variance FCBF SFFS
ensemble
d’apprentissageclassification
validation
croisée k-fold
diagonalisématrice de covariance
singulière
ensemble de
données
classifieur linéaire
généralisation
ensemble de
test
matrice de covariance
validation croisée
caractéristique
apprentissage
automatique
39
intégration de la croyance
de Bayes
probabilité
matrice de confusion
fusion
fenêtre
échantillon
distribution uniforme
classe
fusion de décision
classifieursélection de
caractéristiques
session
précision
ensemble de
données
IV. Commentaire sur les collocations génériques
Les collocations génériques analysées ici proviennent de l’introduction et de la conclusion
du texte à traduire. Leur usage a été confirmé en effectuant une recherche dans le corpus
(AntConc et Google Scholar).
Future work will focus on sth 1.
Cette collocation est omniprésente dans les études ou rapports des domaines étudiés dans
la partie terminologie de ce mémoire. Il convient en effet d’informer le lecteur des objectifs
long terme ou d’éventuels changements de direction dans les recherches présentées. Cette
collocation a donc été attribuée à la fonction discursive « exprimer la postériorité ».
Il existe de nombreuses traductions pour « future work » en français, notamment des
structures très calquées sur l’anglais comme « les futurs travaux ». Dans des structures comme
celle-ci, la position de l’adjectif avant le nom rend le calque sur l’anglais très visible. En
revanche, le placement des adjectifs par rapport au nom semble aujourd’hui un choix
préférentiel de la part de l’auteur (il serait néanmoins étrange d’utiliser « les travaux futurs »).
Afin de contourner ce problème, j’ai choisi de traduire par « les travaux à venir concerneront
qqch » : on évite ainsi le calque sur l’anglais de la première proposition.
La traduction de « focus on » tend également à être sujette aux calques comme « se
concentrer sur » : de tels verbes sont en général plutôt utilisés pour désigner des personnes.
Un objet inanimé ou un concept ne peut pas vraiment « se concentrer sur qqch ». En employant
un verbe comme « concerner », dont l’emploi est adapté aux inanimés et aux notions abstraites,
on évite une fois de plus le calque sur la construction anglaise.
Enfin, il a été jugé pertinent de conserver « travaux » pour « work », plus large et plus
abstrait que le terme « recherches » (qui pourrait néanmoins fonctionner parfaitement dans
certains contextes plus spécifiques).
To gather increasing interest 2.
Cette collocation sera en général employée en début de texte pour faire l’état des lieux du
domaine étudié. Sémantiquement parlant, elle est similaire à une autre entrée de la base
41
ARTES, « much recent interest in ». La fonction discursive que j’ai décidé d’attribuer cette
collocation est « évoquer son positionnement ou le contexte théorique dans lequel s’inscrit le
travail ». On dresse en effet un aperçu du travail accompli ou des recherches qui n’ont pas
encore été effectuées dans un domaine donné.
La traduction choisie pour cette collocation est « susciter un intérêt croissant ». Pour
cette collocation, l’anglais aura tendance privilégier l’emploi du prétérit ou du present perfect,
mais le français utilisera plutôt le présent, ainsi : « [domain] has gathered significant interest in
the last few years », mais « depuis quelques années, [domaine] suscite un intérêt croissant ».
Pioneering work 3.
Cette collocation a pour but de présenter les premiers travaux réalisés dans un domaine
donné. C’est une expression récurrente dans les textes scientifiques, mais également dans des
contextes moins spécialisés. Tout comme la collocation précédente, la fonction discursive
choisie est « évoquer son positionnement ou le contexte théorique dans lequel s’inscrit le
travail ».
Deux traductions possibles ont été proposées en fonction des résultats de la recherche dans
le corpus de spécialité : « travail pionnier » et « travail innovant ».
- De nombreux textes en français emploient la traduction littérale « travail pionnier », qui
peut parfois gêner : en effet, le français tend à employer « pionnier » en tant que nom,
beaucoup moins en tant qu’adjectif. Le problème ne se pose pas en anglais, car il existe
deux formes distinctes (pioneer/pioneering). Certains préfèreront donc éviter l’emploi
de l’adjectif « pionnier » pour désigner des notions abstraites. En revanche, le nombre
d’occurrences de cette collocation reste élevé : elle est très employée dans la
communauté scientifique.
- « Travail innovant » est un concurrent plus large et plus abstrait de cette collocation. On
perd malheureusement la force du terme « pionnier » : même si l’adjectif « innovant »
est lui aussi très fort, il tend à être utilisé très fréquemment et dans tous les contextes
possibles, jusqu’ perdre cette notion d’exclusivité et de « jamais vu ». De plus « travail
innovant » est une collocation beaucoup plus générique, qui est utilisée dans de
nombreux types de discours et ne se limite pas aux textes scientifiques.
42
To open the path to sth 4.
On emploie cette collocation pour présenter les perspectives ou les résultats obtenus grâce
à une démarche ou un travail de recherche : elle appartient donc à la fonction discursive
« évoquer son positionnement ou le contexte théorique dans lequel s’inscrit le travail ». Il est
possible de l’utiliser soit dans l’introduction pour détailler les aspects qui ont été rendus
possibles par des travaux, soit dans la conclusion pour évoquer de potentiels sujets de
recherche apparus lors de l’étude.
La traduction choisie pour cette collocation est « ouvrir la voie à qqch ». Il existe déjà
une collocation quasiment identique dans la base ARTES, à savoir « ouvrir la voie vers qqch ».
En revanche, la fiche ne contient pas de traduction. Une comparaison du nombre de résultats
de recherche pour ces deux collocations confirme également que « ouvrir la voie à » est la
forme la plus employée (environ 300 000 occurrences, contre 15 000 pour « vers »). Il serait
utile de lier ces deux collocations l’équivalent anglais et d’ajouter une note pour préciser la
fréquence d’emploi des deux prépositions.
To our knowledge 5.
Les auteurs emploient cette collocation pour exprimer un fait en fonction de leur
connaissance du domaine de type : « to our knowledge, no study has ever examined […] » ou « to
our knowledge, this is the first time […] ». Il s’agit cette fois d’exprimer un degré de certitude
sans pour autant être catégorique : la fonction discursive choisie est donc « exprimer une
atténuation ou un doute ». Même si cette collocation est principalement employée pour
nuancer un énoncé, l’anglais a tendance « atténuer » les propos dans lesquels des éléments
personnels entrent en jeu (on utilise ainsi « with all due respect » pour introduire un énoncé qui
pourrait s’avérer offensant pour le destinataire). « To our knowledge » pourrait donc sous-
entendre un degré de certitude relativement élevé, ou relativement faible. En français, la
traduction littérale « à notre connaissance » est fréquemment utilisée et ne pose pas de
problèmes particuliers.
43
Conclusion
La terminologie représente très certainement la plus grande partie du travail effectué dans
le cadre de ce mémoire. N’ayant jamais étudié cette discipline, il m’a fallu rapidement assimiler
les concepts et la terminologie de la terminologie pour pouvoir définir mon domaine de
recherche. Cette tche s’est d’ailleurs étirée sur plusieurs mois, car la pluralité de disciplines
présentes dans le texte de traduction et leurs interactions ne sont pas évidentes au premier
abord. C’est au fil de mes recherches documentaires que j’ai pu affiner et identifier les notions
principales à inclure dans le micro-domaine. Le travail terminologique m’a permis en retour de
mieux cibler mes recherches afin de faciliter le processus de traduction.
Le micro-domaine choisi dans le cadre de cette traduction m’a permis d’analyser des
phénomènes terminologiques complexes et contrastés. En revanche, les disciplines clés
traitées dans ce protocole se caractérisent quasiment toutes par un phénomène qui fait l’objet
de débats dans les pays francophones : l’utilisation de termes anglais dans les publications
françaises. Cette tendance ne surprend pas dans le domaine de l’informatique, dominé par la
terminologie anglaise, mais j’ai été étonnée de constater qu’elle touchait également la
statistique, très étudiée en France. La recherche documentaire et les explications des experts
m’ont permis de mettre en lumière les facteurs expliquant cette transition relativement
récente vers une terminologie anglaise.
La constitution des arborescences représente une aide considérable à la compréhension du
micro-domaine : les liens graphiques entre les notions permettent de se rendre compte
rapidement des erreurs de logique et des articulations entre les différents domaines. À l’image
de la recherche documentaire, le travail sur les arborescences et la terminologie du micro-
domaine n’est jamais réellement terminé. Plus les recherches sont approfondies, plus l’on
découvre de nouveaux liens et concepts pertinents. Ce mémoire représente donc la première
étape d’un processus de longue haleine, essentielle pour se familiariser avec un domaine. Les
méthodes, approches, échecs et réussites qui sont intervenus dans ce travail sont donc d’une
aide précieuse si l’on souhaite s’orienter vers la traduction spécialisée.
44
Commentaire de traduction
Note : les termes en gras souligné ont été traités en fiches longues dans la base ARTES. Les
termes en gras ont fait l’objet de fiches courtes ou fiches glossaire. Cliquez sur les
termes en bleu pour obtenir davantage d’informations. La liste complète des termes
traités dans la base ARTES figure dans les Annexes.
Le choix du texte de traduction et la présentation des domaines sont détaillés dans les
parties suivantes :
Choix du domaine
Choix du texte
I. Caractéristiques du texte à traduire
Choix de la partie à traduire. 1.
Le texte choisi étant beaucoup trop long pour être traduit intégralement (environ
50 000 caractères espaces compris), il m’a fallu effectuer des coupes avant de me lancer dans le
travail de traduction. En comparant le contenu du développement de l’étude (sections II, III et
IV) du point de vue terminologique, je me suis rapidement rendu compte que la Section IV
serait la plus intéressante à étudier et à traduire. Ce choix a été confirmé par les responsables
de terminologie et de traduction. Afin de conserver une certaine cohérence dans le texte,
l’introduction (Section I) et la conclusion (Section V) ont également été incluses : ces deux
parties sont en effet assez détaillées pour permettre au lecteur de comprendre les démarches
effectuées en amont de la Section IV.
La Section II décrit le protocole d’acquisition des données physiologiques : elle contient
une majorité de termes relatifs à la médecine (outils de mesure notamment). La terminologie
médicale étant considérablement contrôlée, cette partie ne présentait pas d’intérêt majeur du
point de vue terminologique. La Section III concerne quant elle l’analyse statistique mise en
œuvre une fois les données collectées. On a affaire ici au domaine de la statistique, plus
précisément à la méthode de classification. Cette partie était néanmoins un peu trop courte
pour être traduite, et comportait moins de phénomènes dignes d’intérêt que la Section IV. En
effet, dans cette dernière, les méthodes de classification entrent en interaction avec d’autres
outils et approches dans le cadre de la création d’un système d’apprentissage automatique.
45
C’est sur ces interactions que porte la plus grande partie de mon travail de recherche et
de terminologie ; l’introduction et la conclusion permettent quant à elles de prendre en compte
les autres grands domaines du texte comme la neuropsychologie et le jeu vidéo.
Public visé 2.
Ce texte est disponible sur la plateforme IEEE, spécialisée dans les nouvelles
technologies liées l’informatique. Une lecture rapide du document confirme qu’il s’agit d’un
texte rédigé par des spécialistes pour des spécialistes : la terminologie des différents domaines
est extrêmement dense.
Sans consignes particulières concernant le skopos de la traduction, il convient de
traduire ce type de document de manière claire (en explicitant notamment certains passages
pouvant prêter à confusion), sans toutefois simplifier le texte, puisque le public cible de cette
traduction sera majoritairement composé de spécialistes du domaine.
II. Difficultés de traduction
Temps et modes 1.
Pour décrire un protocole expérimental, les auteurs commencent par annoncer la
composition du document, puis décrivent les expériences réalisées, pour enfin conclure et
proposer de potentiels travaux de recherche basés sur les résultats de l’étude. En termes de
temps employés, le texte se structure de la manière suivante :
- Introduction : présent + passé
- Protocole expérimental : passé
- Conclusion : passé + futur
En début de texte, les auteurs utilisent deux temporalités différentes : l’écriture du texte (au
présent, notamment pour présenter l’objectif de l’étude) et le déroulement du protocole
expérimental (au passé). Cette distinction a été conservée dans l’introduction :
This paper attempts to verify the validity
and usefulness of the three defined
L’objectif de cette étude est de confirmer
la validité et l’utilité des trois émotions
46
emotional states by using a Tetris game
where the challenge is modulated by
changing the level of difficulty. Self-
reports as well as physiological activity
were obtained from players by using the
acquisition protocol described in Section
II. Using those data, three analyses were
conducted. The first aims at validating the
applicability of the flow theory for games
(see Section III). In the second analysis,
detailed in Section IV, physiological
signals were used for the purpose of
classification of the different states. In
this case, since one of the goals of this
paper is to go toward applications,
particular attention was paid to designing
classifiers that could be used for any
gamer without having to retrain it.
citées plus haut l’aide d’un jeu de Tetris
modulable grce l’ajustement de la
difficulté. Dans la Section II, nous
décrivons le protocole d’acquisition des
questionnaires remplis par les
joueurs/joueuses et de leur activité
physiologique. Dans la Section III, nous
présentons trois analyses que nous avons
appliquées aux données rassemblées. La
première nous a permis de confirmer
l’application de la théorie du flow dans le
cadre des jeux vidéo. La Section IV décrit
notre approche de classification des trois
émotions l’aide des signaux
physiologiques. Puisque l’application des
outils étudiés figure parmi nos objectifs,
nous avons accordé une importance
particulière à la conception des
classifieurs : il est en effet nécessaire de
choisir des classifieurs que chaque
joueur/joueuse pourrait utiliser sans
avoir à les entraîner de nouveau.
Cette démarche permet également d’éviter les tournures passives, très employées dans
ce texte : il est en effet rare de trouver des structures du type « we used X in order to », les
auteurs semblent préférer la voix passive. L’anglais tend utiliser le passif plus facilement que
le français, mais dans ce texte, on a affaire à un cas extrême. La majeure partie du
développement est en effet rédigée à la voix passive, ce qui se traduit à la lecture par un
manque de dynamisme. Pour remédier ce problème, il suffit d’utiliser des structures actives,
sans toutefois abandonner complètement la voix passive, ainsi :
Three classifiers were applied on this
data set: a linear discriminant analysis
Trois classifieurs ont été appliqués à cet
ensemble de données : une analyse
47
(LDA), a quadratic discriminant analysis
(QDA), and a support vector machine
(SVM) with radial basis function (RBF)
kernel [37], [38]. The diagonalized
versions of the LDA and the QDA were
employed because of the low number of
samples, which sometimes gives rise to
the problem of singular covariance
matrices.
discriminante linéaire (LDA), une analyse
discriminante quadratique (QDA) et une
machine à vecteurs de support (SVM)
avec noyau à base radiale (RBF) [37] [38].
Du fait du nombre réduit d’échantillons,
nous avons utilisé les versions
diagonalisées de LDA et QDA afin d’éviter
les matrices de covariance singulières.
L’utilisation alternée de la voix active et de la voix passive permet ainsi d’éviter les
structures trop répétitives tout en apportant davantage de dynamisme au développement du
texte. Même s’il est en général recommandé de ne pas utiliser la première personne dans les
textes scientifiques, de plus en plus d’auteurs utilisent « nous » dans leurs protocoles de
recherche (sur les 13 articles issus de publications scientifiques figurant dans mon corpus, 12
utilisent la première personne du pluriel). De plus, il serait difficile de traduire le travail réalisé
par quelqu’un sans utiliser la première personne : il faudrait recourir au passif, aux structures
impersonnelles, voire au « on ».
Genre 2.
L’utilisation du genre dans les études publiées en anglais varie sensiblement d’un auteur
l’autre : certains choisissent d’employer their, le choix le plus neutre, alors que d’autres vont
préférer his ou her, voire his/her. Les auteurs du texte ont choisi d’employer his/her dans leur
protocole de recherche, car leur groupe d’étude est composé d’hommes et de femmes.
En revanche, la traduction de certains termes en français peut poser problème du point
de vue du genre : c’est par exemple le cas pour « player », « user » et « participant ».
- « Participant » a été traduit par « sujet », un terme adéquat dans le contexte scientifique
de cette étude. Sa neutralité permet d’éviter l’utilisation de « participant(e) ».
- « User » est un terme employé dans le domaine informatique, dont l’équivalent français
est « utilisateur », exclusivement au masculin. De manière générale, les profils en
48
informatique sont traduits au masculin (p. ex. administrateur). Afin de respecter cette
convention, le terme « utilisateur » a été retenu dans la traduction.
- « Player » est en revanche plus délicat. En effet, le marché des jeux vidéo était
auparavant constitué d’une grande majorité d’hommes. Cependant, cette tendance a
évolué, car de plus en plus de femmes utilisent ce support de divertissement. Ces
dernières années, la proportion joueurs/joueuses a fait l’objet de nombreuses
discussions : le nombre croissant de joueuses s’explique notamment par la
diversification des types de jeux et l’évolution des mentalités au sein de cette niche
relativement fermée. La quantité de publications et de discussions plus informelles
concernant cette tendance a pour effet d’améliorer la visibilité des femmes et de
reconnaître leur contribution à ce marché (selon le Guardian, 52 % des consommateurs
de jeux vidéo sont des femmes9). Afin de traduire ce phénomène et de respecter le choix
des auteurs, j’ai choisi d’employer « joueurs/joueuses » au pluriel (cela permet d’éviter
« le/la joueur/joueuse »). Bien que cette solution alourdisse sensiblement le texte, il est
tout de même nécessaire de conserver cette dualité des genres présente au niveau du
texte mais aussi l’échelle du marché mondial.
Sigles et acronymes 3.
Les recherches détaillées dans le protocole de terminologie montrent que les sigles de
certains termes employés dans le texte ne disposent pas d’équivalents en français, même s’il
existe une traduction française de la forme développée. C’est notamment le cas de l’analyse
discriminante linéaire (LDA) et de l’analyse de la variance (ANOVA). En revanche, les
textes français du corpus emploient ces acronymes différemment : deux tendances majeures
sont observables.
9 JAYANTH, Meg. « 52% of gamers are women – but the industry doesn’t know it ». The Guardian. 18 septembre
2014. http://www.theguardian.com/commentisfree/2014/sep/18/52-percent-people-playing-games-women-industry-doesnt-know [consulté le 20 mai 2015]
49
Concordance AntConc
Certains choisissent d’utiliser une construction sans déterminant, qui permet d’alléger
sensiblement le texte, l’inverse de l’autre approche qui consiste ajouter des qualificatifs aux
sigles de type « approche », « méthode », « analyse », etc :
Concordance AntConc
Afin de ne pas surcharger le texte, l’utilisation des qualificatifs a été sensiblement limitée.
L’utilisation des déterminants dans certaines phrases relativement longues alourdit également
la traduction : il est donc parfois préférable d’adopter la première approche pour plus de clarté.
Par exemple :
The µHR feature was frequently selected
by the FCBF but never by the SFFS and
vice versa for the σResp feature. The
σResp feature was removed by the FCBF
because it was correlated with µHR.
However, the SFFS kept the σResp feature
based on its predictive accuracy which
La caractéristique µHR a souvent été
sélectionnée par FCBF, mais jamais par
SFFS, et vice versa pour la caractéristique
σResp. FCBF a en effet éliminé cette
dernière en raison de sa corrélation avec
µHR. Cependant, SFFS a conservé la
caractéristique σResp du fait de son
50
suggests that this feature may be better
than µHR for classification.
exactitude prédictive, suggérant ainsi sa
supériorité par rapport à µHR à des fins
de classification.
As can be seen from Fig. 8, the FCBF
selected less features than the two other
feature-selection methods. It selected 3.1
features in average compared to 20.3 for
the ANOVA and 13.0 for the SFFS coupled
with the LDA.
Comme l’indique la Fig. 8, FCBF a
sélectionné moins de caractéristiques que
les deux autres méthodes, avec 3,1
caractéristiques en moyenne, par
opposition à ANOVA à 20,3 et SFFS-LDA à
13,0
Cette stratégie permet également d’éviter le problème du genre des sigles : en effet, les
formes développées de certains algorithmes comme SFFS et FCBF ne disposent pas d’une
traduction en français, et il est donc difficile de leur attribuer un genre. S’il était nécessaire
d’utiliser des déterminants pour ces termes, il faudrait par exemple utiliser le qualificatif
« algorithme », puis employer le sigle au masculin (le SFFS, le FCBF, etc.). Il faut cependant
rester vigilant : certains sigles dont la forme développée est au féminin peuvent parfois être
utilisés au masculin lorsqu’un qualificatif est sous-entendu (par exemple : classifieur LDA → le
LDA, alors que LDA est normalement au féminin car sa forme développée est analyse
discriminante linéaire).
Répétitions 4.
Comme dans tout texte scientifique, il convient de privilégier la clarté et la
compréhension du texte. Cela donne lieu à de nombreuses répétitions au niveau de la
terminologie et de la structure des phrases. Bien qu’il soit parfois impossible d’éviter la
répétition de certains termes dans le texte cible, certains aspects comme la logique interne du
texte et le contexte permettent d’alléger certains passages. Le paragraphe ci-dessous montre
les différentes stratégies adoptées pour traiter plusieurs types de répétitions.
Three feature-selection algorithms were
applied on this problem to find the
Face à ce problème, nous avons utilisé
trois algorithmes de sélection de
51
features that provide good generalization
across participants. All those algorithms
were applied on the training set to select
features of interest, and only the selected
features were used for the classification
of the test set. An ANOVA feature
selection was applied to keep only the
features that are relevant to the class
concept (p-value < 0.1). The fast
correlation-based filter (FCBF) [39] was
applied to select relevant features and
remove redundant ones.
caractéristiques pour identifier les
caractéristiques proposant une bonne
généralisation chez tous les sujets. Ces
algorithmes ont été appliqués à
l’ensemble d’apprentissage afin de
sélectionner les caractéristiques dignes
d’intérêt. La classification de l’ensemble
de test a ensuite été réalisée
exclusivement l’aide des
caractéristiques retenues. Le test ANOVA
(analyse de la variance) nous a permis de
sélectionner uniquement les
caractéristiques pertinentes par rapport
au concept de classe (valeur-p < 0,1).
L’algorithme FCBF (fast correlation-based
filter) [39] a également réalisé une
sélection des caractéristiques pertinentes,
tout en éliminant les caractéristiques
redondantes.
On est ici confronté à trois répétitions : les termes feature et feature selection, ainsi que le
verbe to apply.
- La répétition de feature selection n’a pas posé de problème ici : en effet, la première
phrase annonce que les trois outils utilisés sont des algorithmes de sélection de
caractéristiques. Il est donc superflu de préciser que l’analyse de la variance
(ANOVA) appartient cette catégorie d’outils.
- Dans le cas de feature, j’ai choisi de conserver la répétition : en effet, bien qu’il existe un
concurrent (variable) en anglais comme en français, les auteurs utilisent toujours le
même terme dans leurs publications. Il serait peu recommandable d’alterner entre les
deux variantes dans le but d’éviter les répétitions, car cela pourrait créer une confusion
chez le lecteur.
52
- En revanche, il est tout fait possible d’éviter de répéter le verbe « appliquer ». Dans de
telles situations, il est utile de chercher les synonymes des répétitions du texte source,
voire de reformuler les phrases : to apply = to use, X is used in order to obtain Y= X allows
us to obtain Y = X leads to Y, etc. Cette démarche se révèle très pratique lorsque l’on
peine à trouver des synonymes ou reformuler directement dans la langue cible, et m’a
permis ici de trouver des reformulations variées pour éviter la structure répétitive de la
source.
Reformulations 5.
Dans ce texte, certains liens logiques évidents pour les auteurs sont parfois difficiles à
identifier à la première lecture. Dans les phrases les plus longues, il faut parfois reprendre la
lecture plusieurs reprises pour s’assurer d’avoir compris. Ces difficultés donnent donc lieu
un travail de reformulation et de segmentation des idées indispensable à la clarté de la
traduction française.
By inspecting the SFFS, FCBF, and ANOVA
selected features, the ∫
and
∫
features were always selected
which shows their importance for the
classification of the three conditions from
physiological signals.
Nous nous sommes ensuite penchés plus
en détail sur ces résultats : SFFS, FCBF et
ANOVA ont toujours sélectionné les
caractéristiques ∫
et ∫
, qui
sont donc importantes pour la
classification des trois conditions l’aide
des signaux physiologiques.
Cet exemple illustre certaines constructions problématiques lors de la traduction. Ici, il n’y a
pas de lien logique entre la démarche d’observation (« by inspecting ») et les phénomènes
observés (les caractéristiques sélectionnées par les algorithmes). Comme ce paragraphe fait
partie de l’analyse d’un tableau présenté dans le texte (Fig. 6), j’ai décidé d’introduire un
rappel : les observations rapportées dans cette phrase sont en effet le résultat d’une analyse
53
approfondie de la Figure 6. L’ajout des deux-points permet également de rétablir la logique de
la phrase (observation/résultat).
The following cross-validation method
was employed to compute the test
accuracy of the classifiers. For each
participant, a classifier was trained using
the features of other participants;
accuracy was then computed by applying
the trained model on the physiological
data of the tested participant. Since the
classifier is tested on the data of
participants that are not present in the
training set, this method allows
evaluating the performance of the
classifier in the worst case where the
model is not user specific, i.e., no
information about the specificity of the
user’s physiology is required for emotion
assessment, except for a baseline
recording of 1 min
Nous avons ensuite calculé la précision-
test des classifieurs l’aide de la méthode
de validation croisée suivante. Nous
avons entraîné un classifieur par sujet à
l’aide des caractéristiques des autres
sujets. La précision du classifieur a
ensuite été calculée en appliquant le
modèle entraîné aux données
physiologiques du sujet testé. En
appliquant le classifieur aux données des
sujets non incluses dans l’ensemble
d’apprentissage, nous pouvons étudier la
performance du classifieur dans la
situation la plus défavorable possible. En
effet, notre modèle n’est pas spécifique
un utilisateur donné : il n’est pas
nécessaire de fournir d’informations
particulières sur la physiologie des
joueurs/joueuses pour évaluer leurs
émotions, un simple enregistrement
initial d’une minute suffit.
Certains passages du texte comportent des phrases beaucoup trop longues pour être
comprises à la première lecture. Il est souvent nécessaire de lire plusieurs fois afin de rétablir
la logique de la phrase (ce qui était par exemple le cas dans l’exemple précédent). Dans cette
phrase, il est difficile d’identifier l’élément auquel « this method » fait référence. Il est
nécessaire de revenir au début du paragraphe pour comprendre que la méthode en question
est la validation croisée, qui est appliquée d’une certaine manière : le classifieur C destiné au
sujet A est entraîné l’aide des données des sujets B, C, D, E, puis testé sur le sujet A. Les
54
données du sujet A n’entrent donc pas en jeu dans l’apprentissage du classifieur : c’est ce que
résume le début de la phrase que nous examinons (« Since the classifier is tested on the data of
participants that are not present in the training set »). J’ai donc choisi d’éliminer la référence
la méthode de validation croisée qui prête à confusion dans la source. La reformulation choisie
permet d’expliciter le lien de causalité (« en appliquant […], nous pouvons […] ») qui n’était pas
évident dans la source.
La seconde difficulté de ce passage a été la longueur de la dernière phrase. Pour plus de
clarté, la phrase a été divisée en deux : une première phrase décrivant l’intérêt de la méthode
utilisée pour les auteurs (analyse du scénario le plus défavorable), et une deuxième phrase
expliquant son fonctionnement d’un point de vue pragmatique (les avantages de la méthode
pour les nouveaux joueurs).
Organisation des blocs de sens 6.
Comme nous l’avons vu dans le point précédent, le choix de certains mots ou termes
peut perturber la logique interne du texte. Dans l’exemple ci-dessous, aucun terme ne prête à
confusion, mais on est confronté un problème de logique issu de l’organisation des éléments
de sens.
The diagonalized versions of the LDA and
the QDA were employed because of the
low number of samples, which sometimes
gives rise to the problem of singular
covariance matrices.
Du fait du nombre réduit d’échantillons,
nous avons utilisé les versions
diagonalisées de LDA et QDA afin d’éviter
les matrices de covariance singulières.
La logique de la phrase peut sembler obscure au lecteur non anglophone du fait de la
présence de « , which » : la virgule suggère que c’est l’utilisation de la solution adaptée à la
situation qui engendre le problème. En supprimant la virgule, la logique de la phrase est
facilement rétablie : les auteurs choisissent une solution adaptée à une situation qui pourrait
engendrer un problème. Pour la traduction, j’ai choisi de réorganiser ces blocs de sens, pour
ainsi obtenir une progression plus logique de type situation > solution > résultat. Ce type de
schéma est d’ailleurs caractéristique de la démarche scientifique, et permet de conserver les
liens de causalité présents dans la source tout en évitant le foisonnement.
55
Explicitation : le cas de flow 7.
Dans les textes plus généraux, le traducteur aura tendance éviter d’ajouter des notes
de bas de page. En revanche, dans les domaines techniques et scientifiques où les concepts sont
extrêmement nombreux et complexes, il est parfois nécessaire de recourir à des notes pour
préciser certaines notions. Afin de ne pas interrompre la lecture de la traduction, je ne
souhaitais pas utiliser de notes de bas de page. Bien qu’il ne figure pas parmi les éléments clés
du texte, le concept du flow présenté dans l’introduction a cependant fait l’objet d’une note du
traducteur.
La notion a été définie par le psychologue Mihály Csíkszentmihályi dans les années
1970, et fait partie du domaine de la psychologie positive. Elle désigne l’état mental
d’immersion totale que l’on peut atteindre lors de la réalisation d’une tche, qui provoque un
sentiment de profonde satisfaction (ce que les anglophones appellent being in the zone). La
tche ou l’activité accomplie peut appartenir au milieu professionnel, au sport, aux loisirs, etc.
Ce concept peut donc être appliqué à de nombreux aspects de notre vie quotidienne, ce qui
peut expliquer sa popularité dans les pays anglophones. Dans le cadre du jeu vidéo,
l’application du flow consiste maximiser l’engagement de l’utilisateur pour une expérience de
jeu optimale : c’est l’objectif que les auteurs du texte souhaitent atteindre l’aide de leur
méthode d’ajustement dynamique de la difficulté.
En revanche, cette théorie n’est arrivée en France que dans les années 2000 avec la
première traduction d’une publication de Mih|ly Csíkszentmih|lyi (en note de bas de page
dans la traduction). L’équivalent proposé pour le concept du flow dans cet ouvrage est
« expérience optimale ». Cependant, les résultats de recherche Google sur le travail du
psychologue montrent qu’avant la traduction de cet ouvrage en français, le terme flow n’était
pas traduit dans les publications francophones (on parle ainsi de « théorie du flow »). Les
équivalents proposés comme « flux » sont en général accompagnés du terme dans la langue
originale entre parenthèses, ainsi :
L'expérience artistique 1 rentre ainsi dans la catégorie d'expériences dite de flux (flow) de la typologie proposée par Csikszentmihalyi (1997) ; c'est une « expérience fondamentalement incorporée » (Joy et Sherry, à paraître).10
10
CARÙ, Antonella et COVA, Bernard. Approche empirique de l'immersion dans l'expérience de consommation: les opérations d'appropriation. Recherche et applications en marketing, 2003, vol. 18, no 2, p. 47-65.
56
En utilisant le terme dans sa langue d’origine, il est donc plus probable que la référence soit
comprise par les lecteurs. Néanmoins, j’ai choisi d’ajouter une note comportant l’équivalent
français proposé dans la traduction de l’ouvrage de Mih|ly Csíkszentmih|lyi ainsi qu’une
définition : comme vu plus haut, cette théorie est beaucoup plus connue dans les pays
anglophones que dans les pays francophones. Cette stratégie permet de s’assurer que les
lecteurs (qu’ils soient spécialistes en psychologie ou non) identifient le concept auquel flow fait
référence, quelle que soit la terminologie qu’ils utilisent (expérience optimale, flux, etc.).
Conclusion
Pour traduire un texte spécialisé, il est essentiel d’effectuer les recherches
documentaires et terminologiques nécessaires. Cependant, commencer la traduction
relativement tôt dans l’année permet d’identifier les principales difficultés, aussi bien au
niveau du texte que de la terminologie. Le travail réalisé en cours d’année permet ensuite de
mieux d’approprier le texte et de détecter de potentielles erreurs qui seraient autrement
passées inaperçues, notamment au niveau de la logique interne du texte.
Dans le contexte de l’entreprise, il est malheureusement impossible d’effectuer un tel
travail de préparation : les recherches terminologiques et documentaires sont réservées aux
difficultés les plus critiques. Pour le reste, le traducteur doit pouvoir se fier aux mémoires de
traduction et aux glossaires disponibles : ces supports deviennent un outil vital pour le
traducteur, aussi bien pour la productivité que pour la qualité de la traduction finale. Il est
donc essentiel de s’assurer de la fiabilité des aides la traduction, et d’actualiser les différentes
mémoires ou bases terminologiques régulièrement : en effet, dans certains domaines, la
terminologie est en constante évolution, et de nouveaux termes et néologismes font leur
apparition chaque jour.
À l’image de cette tendance (observable notamment dans le domaine des jeux vidéo), le
travail réalisé dans le cadre de ce mémoire représente un processus d’apprentissage continu.
Chaque recherche effectuée apporte son lot de nouvelles connaissances, qui à leur tour
nourrissent la traduction et l’organisation du domaine terminologique. Le rendu de ce
mémoire ne signifie pas que le domaine et le texte de traduction ont été parfaitement traités ou
compris : c’est une étape qui symbolise l’acquisition d’une base de connaissances permettant
d’appréhender un domaine, voire des domaines. L’étudiant devenu traducteur spécialisé
57
trouverait-il des modifications à apporter à la traduction technique choisie pour ce mémoire
après quelques années d’expérience ? Sans aucun doute. La curiosité, la proactivité et
l’accumulation de connaissances sont les meilleures alliées du traducteur, toutes
spécialisations confondues.
58
III. Traduction alignée
Note : les termes en gras ont été traités dans la base ARTES. Un tableau récapitulatif et un
glossaire (FR et EN) d’aide la traduction figurent dans les annexes.
59
I. INTRODUCTION I. INTRODUCTION
Due to their capability to present information
in an interactive and playful way, computer
games have gathered increasing interest as
tools for education and training [1]. Games
are also interesting from a human–computer
interaction point of view, because they are an
ideal ground for the design of new ways to
communicate with machines. Affective
computing [2] has opened the path to new
types of human–computer interfaces that
adapt to affective cues from the user. As one
of the main goals of games, which is to
provide emotional experiences such as fun
and excitement, affective computing is a
promising area of research to enhance game
experiences. Affective information can be
used to maintain involvement of a player by
adapting game difficulty or content to induce
particular emotional states [3]. For this
purpose, automatic assessment of emotions
is mandatory for the game to adapt in real
time to the feelings and involvement of the
player, without interrupting his/her gaming
experience (like it would be the case by using
questionnaires). This paper thus focuses on
emotion assessment from physiological
signals in the context of a computer game
application.
Les jeux vidéo permettent de transmettre des
connaissances de manière interactive et ludique,
et suscitent de plus en plus d’intérêt dans les
secteurs de l’éducation et de la formation [1].
Dans le cadre des interactions homme-
ordinateur, ces supports pourraient permettre
de concevoir de nouvelles méthodes de
communication avec les machines.
L’informatique affective [2] a déjà ouvert la
voie à la création de nouvelles interfaces
homme-ordinateur capables de s’adapter aux
signaux affectifs des utilisateurs. Puisque
l’objectif principal d’un jeu est de générer des
émotions comme le divertissement et
l’excitation, l’application de l’informatique
affective semble particulièrement prometteuse si
l’on souhaite optimiser l’expérience de jeu. À
l’aide de données affectives, il est possible de
maintenir l’engagement des joueurs/joueuses
en adaptant la difficulté ou le contenu du jeu
pour véhiculer des émotions précises [3]. Dans
ce but, il est indispensable d’automatiser le
traitement des états émotionnels pour que le jeu
puisse s’ajuster en temps réel aux émotions et
l’engagement des joueurs/joueuses sans
interrompre l’expérience de jeu (ce qui serait le
cas en utilisant des questionnaires, par
exemple). Dans cet article, nous nous
concentrons donc sur le traitement des émotions
à partir de signaux physiologiques dans le
cadre d’un jeu sur ordinateur.
60
Physiological signals can be divided into two
categories: those originating from the
peripheral nervous system [e.g., heart rate,
electromyogram, galvanic skin response
(GSR)] and those coming from the central
nervous system [e.g.,
electroencephalogram (EEG)]. In recent
years, interesting results have been obtained
for emotion assessment with the first
category of signals. Very few studies,
however, have used the second category, even
though the cognitive theory of emotions
states that the brain is heavily involved in
emotions [4].
Nous distinguons deux catégories de signaux
physiologiques : ceux qui proviennent du
système nerveux périphérique (p. ex. la
fréquence cardiaque, l’électromyogramme, la
conductance cutanée), et ceux qui proviennent
du système nerveux central (p. ex.
l’électroencéphalogramme ou EEG). Ces
dernières années, les signaux périphériques
ont permis d’obtenir des résultats intéressants
dans le cadre du traitement des émotions. En
revanche, rares sont ceux qui ont étudié les
signaux provenant du système nerveux central,
même si la théorie cognitive des émotions
souligne l’importance du rôle du cerveau [4].
One of the pioneering work on emotion
assessment from peripheral signals is [5]
where the authors detected eight self-induced
emotional states with an accuracy of 81%. In
[6], six emotional states, elicited by film clips,
were classified with an accuracy of 84%. In a
gaming context, Rani et al. [7] proposed to
classify three levels of intensity for different
emotions. The emotions were elicited by
stimulating participants with a Pong game
and anagram puzzles. The best average
accuracy obtained with this method was of
86%. The classifiers developed in this paper
were used in [3] to adjust game difficulty in
real time based on anxiety measures. In this
case, the accuracy dropped to 78%, but a
significant improvement of player experience
was reported compared to difficulty
Dans le travail pionnier sur le traitement des
émotions à partir de signaux périphériques
présenté dans [5], les auteurs ont détecté huit
états émotionnels (volontairement provoqués)
avec une précision de 81 %. Dans [6], six états
provoqués par des clips vidéo ont été classifiés
avec une précision de 84 %. Dans le cadre d’un
jeu, Rani et al. [7] ont proposé une classification
de différentes émotions sur trois niveaux
d’intensité. Celles-ci ont été provoquées l’aide
d’une partie de Pong et d’anagrammes. La
meilleure précision moyenne obtenue grâce à
cette approche a atteint 86 %. Les classifieurs
que nous avons utilisés ont également été
exploités dans [3] pour ajuster la difficulté d’un
jeu en temps réel en mesurant l’anxiété. Dans ce
cas précis, la précision a diminué (78 %), mais
l’engagement des joueurs/joueuses a augmenté
61
adjustment based on performance. This
demonstrates the interest of using affective
computing for the purpose of game
adaptation. In [8], the authors proposed to
continuously assess the emotional state of a
player using an approach based on fuzzy
logic. The obtained results showed that the
emotional state evolved according to the
events of the game, but no exact measure of
performance was reported. Nevertheless, this
tool could be used to include the player’s
experience in the design of innovative video
games. In [9], three emotional states were
detected from peripheral signals with an
accuracy of 53%. The emotions were elicited
by using a Tetris game. This paper is a
significant extension of this work, which, in
particular, now takes into account the
analysis of EEG signals.
de manière significative, par opposition à un
ajustement de la difficulté basé sur la
performance. Cela montre bien les avantages de
l’informatique affective dans le cadre de
l’adaptation de la difficulté d’un jeu. Dans [8], les
auteurs ont traité l’état émotionnel des
joueurs/joueuses en continu grâce à une
méthode basée sur la logique floue. Les
résultats obtenus ont montré l’évolution de l’état
émotionnel en fonction des évènements du jeu,
mais n’ont pas permis de mesurer précisément
la performance. Néanmoins, il serait possible
d’utiliser cet outil dans le cadre du
développement de jeux innovants, afin de
prendre en compte l’expérience des
joueurs/joueuses. Dans [9], les auteurs ont
détecté trois états émotionnels à partir de
signaux périphériques avec une précision de
53 %. Les émotions ont été provoquées l’aide
d’une partie de Tetris. Cet article est le
prolongement de ce travail, mais prend
désormais en compte l’analyse des signaux EEG.
There is an increasing amount of
psychological literature pointing toward the
hypothesis that emotions result from a series
of cognitive processes [10], [11]. There is also
evidence of different patterns of brain activity
during the presentation of emotional stimuli.
For instance, depending on the nature of
reactions (approach or withdrawal),
Davidson [12] showed prefrontal
lateralization of alpha waves as well as
De plus en plus d’études psychologiques
émettent l’hypothèse que les émotions sont le
résultat de processus cognitifs [10] [11].
Certaines ont également mis en lumière
différentes structures d’activité cérébrale
variant en fonction des stimuli émotionnels.
Davidson [12] a par exemple observé une
latéralisation préfrontale du rythme alpha
ainsi qu’une activation marquée des
amygdales selon la nature des différentes
62
distinct activations of the amygdala. Aftanas
et al. [13] reported differences in event-
related desynchronization/synchronization
during the visualization of more or less
arousing images. In the emotional recall
context, Smith et al. [14] showed an
augmentation of activity in the connections
between the hippocampus and the amygdala
during the recollection of negative events
compared to neutral events. These works
emphasize the importance of using brain
signals to improve temporal resolution and
classification accuracy in emotion assessment.
Among the studies that recognize emotional
states from EEG, Takahashi [15] obtained an
accuracy of 42% to recognize five emotional
states elicited by film clips. In [16], three self-
induced emotional states were recognized
with an accuracy of 68%. Other works tried to
infer operator engagement, fatigue, and
workload by using EEG signals in order to
adapt the complexity of a task [17]–[21]. To
our knowledge, however, this paper is the first
to report on the use of EEG signals for
emotion assessment in a gaming paradigm.
réactions (approche ou retrait dans ce
contexte). Aftanas et al. [13] ont quant à eux
découvert des différences de désynchronisation
/ synchronisation en fonction des évènements
lors du visionnage d’images suscitant une
activation psychologique plus ou moins forte.
Sur le plan émotionnel, Smith et al. [14] ont
démontré que l’interaction entre l’hippocampe
et les amygdales est plus forte lorsque le sujet
est confronté à des souvenirs négatifs. À
l’inverse, cette activité diminue dans le cas
d’évènements plus neutres. Ces travaux de
recherche soulignent donc l’importance des
signaux cérébraux dans le cadre du traitement
des émotions : ils peuvent en effet participer à
l’amélioration de la résolution temporelle et de
la précision de la classification. Dans le cadre
d’une étude visant reconnaître des émotions
partir de signaux EEG, Takahashi [15] s’est basé
sur des extraits de films pour reconnaître cinq
états émotionnels, pour lesquels il a atteint une
précision de 42 %. Dans [16], trois états
émotionnels volontairement provoqués ont été
détectés avec une précision de 68 %. D’autres
travaux ont également exploité les signaux EEG
pour estimer le niveau d’engagement de
l’opérateur, sa fatigue et sa charge de travail
afin d’adapter le degré de complexité de la tâche
effectuée [17]-[21]. À notre connaissance, notre
étude est la première à traiter les émotions à
l’aide de signaux EEG dans le cadre du jeu vidéo.
Games can elicit several emotional states, but Les jeux peuvent susciter différentes émotions,
63
knowing all of them is not necessary to
maintain involvement in the game. Many
representations of the player’s affective state
have been used in previous studies like
anxiety, frustration, engagement, distress
scales, and the valence-arousal space [22],
[23]. According to emotion and flow theories
[10], [24], strong involvement in a task occurs
when the skills of an individual meet the
challenge of a task (Fig. 1). Too much
challenge would increase workload which
would then be appraised by the player as
anxiety. Similarly, not enough challenge would
induce boredom. Both these situations would
restrain the player’s ability to achieve a “flow
experience,” leading to less involvement,
engagement, and possibly interruption of the
game [25].
mais il n’est pas nécessaire de toutes les
connaître pour maintenir l’engagement des
joueurs/joueuses. De nombreux travaux ont déjà
étudié les états émotionnels comme l’anxiété, la
frustration, l’engagement, le niveau de détresse
et le modèle de valence-activation (valence-
arousal) [22] [23]. Selon les théories du flow11 et
des émotions [10], [24], l’implication de
l’utilisateur est plus forte lorsque ses
compétences sont égales au niveau requis pour
exécuter une tâche (Fig. 1). Une difficulté trop
élevée augmenterait ainsi la charge de travail, ce
qui se traduirait ensuite par un état d’anxiété
chez les joueurs/joueuses. À l’inverse, le manque
de difficulté pourrait engendrer l’ennui. Dans
ces deux cas, les joueurs/joueuses ne bénéficient
pas d’une « expérience-flux » optimale, ce qui
peut entraîner une baisse d’implication et
d’engagement, voire l’interruption du jeu [25].
In a game, the change from an emotional state
to another can occur due to two main reasons.
First, the difficulty is increased because of the
progression in different levels, but the
increase is too fast compared to the
competence increase of the player (potentially
Dans le cadre d’un jeu, le passage d’un état
émotionnel à un autre est engendré par deux
facteurs principaux. Dans le premier cas, la
difficulté augmente au fil des niveaux, mais à un
rythme trop rapide par rapport l’évolution des
compétences des joueurs/joueuses (ce qui peut
11 Ndt. Le flow, ou l’expérience optimale, désigne un état mental défini comme suit par le psychologue Mihály Csíkszentmihályi : « Voilà ce que nous entendons par expérience optimale. C’est ce que ressent le navigateur quand le vent fouette son visage… C’est le sentiment d’un parent au premier sourire de son enfant. Pareilles expériences intenses ne surviennent pas seulement lorsque les conditions externes sont favorables. Des survivants de camp de concentration se rappellent avoir vécu de riches et intenses expériences intérieures en réaction à des évènements aussi simples que le chant d’un oiseau [...]. Ces grands moments de la vie surviennent quand le corps ou l’esprit sont utilisés jusqu’à leurs limites dans un effort volontaire en vue de réaliser quelque chose de difficile et d’important. L’expérience optimale est donc quelque chose que l’on peut provoquer... Pour chacun, il y a des milliers de possibilités ou de défis susceptibles de favoriser le développement de soi (par l’expérience optimale). »
[Source : CSÍKSZENTMIHÁLYI, Mihály. Vivre : la psychologie du bonheur. Robert Laffont. 2004 (p. 24)]
64
giving rise to anxiety; see Fig. 1). Second, the
competence of the player has increased while
the game remained at the same difficulty
(potentially giving rise to boredom). In both
cases, the challenge should be corrected to
maintain a state of pleasure and involvement,
showing the importance of having games that
adapt their difficulty according to the
competence and emotions of the player. Based
on this theory, we defined three emotional
states of interest that correspond to three well
separated areas of the valence-arousal space:
boredom (negative calm), engagement
(positive excited), and anxiety (negative
excited).
entraîner l’anxiété, voir Fig. 1). Inversement, les
compétences des joueurs/joueuses augmentent
alors que la difficulté du jeu reste inchangée
(provoquant ainsi l’ennui). Dans ces deux
situations, il serait nécessaire de remanier
l’objectif afin de maintenir le niveau de
divertissement et d’implication : l’adaptation de
la difficulté en fonction des compétences des
joueurs/joueuses est donc un aspect
fondamental dans le domaine des jeux vidéo. En
exploitant cette théorie, nous avons défini trois
états émotionnels correspondant à trois parties
distinctes du modèle de valence-activation :
l’ennui (calme négatif), l’engagement (excitation
positive) et l’anxiété (excitation négative).
This paper attempts to verify the validity and
usefulness of the three defined emotional
states by using a Tetris game where the
challenge is modulated by changing the level
of difficulty. Self-reports as well as
physiological activity were obtained from
players by using the acquisition protocol
described in Section II. Using those data, three
analyses were conducted. The first aims at
validating the applicability of the flow theory
for games (see Section III). In the second
analysis, detailed in Section IV, physiological
signals were used for the purpose of
classification of the different states. In this
case, since one of the goals of this paper is to
go toward applications, particular attention
L’objectif de cette étude est de confirmer la
validité et l’utilité des trois émotions citées plus
haut l’aide d’un jeu de Tetris modulable grce
l’ajustement de la difficulté. Dans la Section II,
nous décrivons le protocole d’acquisition des
questionnaires remplis par les joueurs/joueuses
et de leur activité physiologique. Dans la Section
III, nous présentons trois analyses que nous
avons appliquées aux données rassemblées. La
première nous a permis de confirmer
l’application de la théorie du flow dans le cadre
des jeux vidéo (voir Section III). La Section IV
décrit notre approche de classification des trois
émotions l’aide des signaux physiologiques.
Puisque l’application des outils étudiés figure
parmi nos objectifs, nous avons accordé une
65
was paid to designing classifiers that could be
used for any gamer without having to retrain
it.
importance particulière à la conception des
classifieurs : il est en effet nécessaire de choisir
des classifieurs que chaque joueur/joueuse
pourrait utiliser sans avoir à les entraîner de
nouveau.
IV. CLASSIFICATION OF THE GAMING
CONDITIONS USING PHYSIOLOGICAL
SIGNALS
IV. CLASSIFICATION DES CONDITIONS DE JEU À
L’AIDE DES SIGNAUX PHYSIOLOGIQUES
A. Classification Methods A. Méthodes de classification
In this section, the classification accuracy that
can be expected from emotion assessment is
investigated. For this purpose, classification
methods were applied on the data gathered
from the gaming protocol. The ground-truth
labels were defined as the three gaming
conditions, each one being associated to one
of the three states: boredom (easy condition),
engagement (medium condition), and anxiety
(hard condition).
Dans cette section, nous nous penchons sur la
précision de la classification pour le traitement
des émotions. Nous avons appliqué des
méthodes de classification aux données
rassemblées pendant le protocole de jeu. Les
étiquettes de vérité-terrain correspondent aux
trois conditions de jeu, elles-mêmes associées
aux états émotionnels qu’elles engendrent :
ennui (condition facile), engagement (condition
intermédiaire) et anxiété (condition difficile).
Three classifiers were applied on this data set:
a linear discriminant analysis (LDA), a
quadratic discriminant analysis (QDA), and
a support vector machine (SVM) with
radial basis function (RBF) kernel [37],
Trois classifieurs ont été appliqués à cet
ensemble de données : une analyse
discriminante linéaire (LDA), une analyse
discriminante quadratique (QDA) et une
machine à vecteurs de support (SVM) avec
66
[38]. The diagonalized versions of the LDA
and the QDA were employed because of the
low number of samples, which sometimes
gives rise to the problem of singular
covariance matrices. The size of the RBF
kernel was chosen by applying a five-fold
cross-validation procedure on the training
set and finding the size yielding the best
accuracy. The tested size values belonged to
the 5.10−3–5.10−1 range with a step of 5.10−3.
noyau à base radiale (RBF) [37] [38]. Du fait
du nombre réduit d’échantillons, nous avons
utilisé les versions diagonalisées de LDA et QDA
afin d’éviter les matrices de covariance
singulières. La taille du noyau RBF a été
sélectionnée l’aide d’une procédure de
validation croisée 5-fold appliquée à
l’ensemble d’apprentissage pour déterminer la
dimension garantissant la meilleure précision.
Les valeurs de dimension testées sont comprises
dans l’intervalle 5.10−3–5.10−1 avec un pas
d’avancement de 5.10−3.
The following cross-validation method was
employed to compute the test accuracy of the
classifiers. For each participant, a classifier
was trained using the features of other
participants; accuracy was then computed by
applying the trained model on the
physiological data of the tested participant.
Since the classifier is tested on the data of
participants that are not present in the
training set, this method allows evaluating the
performance of the classifier in the worst case
where the model is not user specific, i.e., no
information about the specificity of the user’s
physiology is required for emotion
assessment, except for a baseline recording of
1 min. Due to the interparticipant variability
that remains in physiological activity after
baseline subtraction, player-independent
classifiers will certainly yield a lower
accuracy than player-dependant classifiers.
Nous avons ensuite calculé la précision-test des
classifieurs l’aide de la méthode de validation
croisée suivante. Nous avons entraîné un
classifieur par participant l’aide des
caractéristiques des autres sujets. La précision
du classifieur a ensuite été calculée en
appliquant le modèle entraîné aux données
physiologiques du sujet testé. En appliquant le
classifieur aux données des sujets non incluses
dans l’ensemble d’apprentissage, nous pouvons
étudier la performance du classifieur dans la
situation la plus défavorable possible. En effet,
notre modèle n’est pas spécifique un utilisateur
donné : il n’est pas nécessaire de fournir
d’informations particulières sur la physiologie
des joueurs/joueuses pour évaluer leurs
émotions, un simple enregistrement initial d’une
minute suffit. Il faudra s’attendre ce que ces
classifieurs indépendants soient moins précis
que les classifieurs entraînés l’aide des
67
However, this approach allows designing
applications where it is not necessary to train
a classifier for each user which is drastically
time consuming [3].
données des joueurs/joueuses : en effet, l’activité
physiologique varie d’un sujet l’autre une fois
l’enregistrement initial éliminé. Cette approche
permet cependant de concevoir des applications
qui ne requièrent pas l’entraînement d’un
classifieur par utilisateur, un procédé
extrêmement chronophage [3].
Three feature-selection algorithms were
applied on this problem to find the features
that provide good generalization across
participants. All those algorithms were
applied on the training set to select features
of interest, and only the selected features
were used for the classification of the test set.
An ANOVA feature selection was applied to
keep only the features that are relevant to the
class concept (p-value < 0.1). The fast
correlation-based filter (FCBF) [39] was
applied to select relevant features and remove
redundant ones. The δFCBF threshold was set
to 0.2 because of the following: 1) It was
shown in [40] that this value is relevant for
FCBF EEG feature selection; and 2) the
number of features that has a correlation with
the classes higher than 0.2 (7 for peripheral
features and 23 for EEG features) is similar to
the number of relevant features found using
the ANOVA test (10 for peripheral features
and 20 for EEG features). Finally, the
sequential forward floating selection
(SFFS) algorithm [41] was also used to select
Face à ce problème, nous avons utilisé trois
algorithmes de sélection de caractéristiques
pour identifier les caractéristiques proposant
une bonne généralisation chez tous les
participants. Ces algorithmes ont été appliqués à
l’ensemble d’apprentissage afin de sélectionner
les caractéristiques dignes d’intérêt. La
classification de l’ensemble de test a ensuite été
réalisée exclusivement l’aide des
caractéristiques retenues. Le test ANOVA
(analyse de la variance) nous a permis de
sélectionner uniquement les caractéristiques
pertinentes par rapport au concept de classe
(valeur-p < 0,1). L’algorithme FCBF (fast
correlation-based filter) [39] a également
réalisé une sélection des caractéristiques
pertinentes, tout en éliminant les
caractéristiques redondantes. Le seuil δFCBF a
été fixé à 0,2 pour les raisons suivantes :
- cette valeur est pertinente pour la section de
caractéristiques EEG avec FCBF selon [40] ;
- le nombre de caractéristiques en corrélation
avec les classes supérieures à 0,2 (7 pour les
68
features of interest, including potentially
interacting features. To search for features
that have good generalization across
participants, the accuracy of a feature subset
was estimated by computing the participant
cross-validation accuracy on the training set.
The maximum size of a feature subset for the
SFFS algorithm was set to 18 for peripheral
features and 20 for EEG features.
caractéristiques périphériques et 23 pour les
caractéristiques EEG) est similaire au nombre de
caractéristiques pertinentes retenues par le test
ANOVA (10 pour les caractéristiques
périphériques et 20 pour les caractéristiques
EEG).
Enfin, les caractéristiques dignes d’intérêt (y
compris les caractéristiques en interaction avec
d’autres) ont été sélectionnées l’aide de
l’algorithme SFFS (sequential floating forward
selection) [41]. Nous avons également évalué la
précision d’un sous-ensemble de
caractéristiques en calculant la précision de la
validation croisée des participants par rapport à
l’ensemble d’apprentissage, ce qui nous a permis
d’identifier les caractéristiques offrant une
généralisation satisfaisante pour l’ensemble des
joueurs/joueuses. La dimension maximum du
sous-ensemble de caractéristiques pour SFFS a
été fixée à 18 pour les caractéristiques
périphériques et à 20 pour les caractéristiques
EEG.
Fig. 5. Accuracies of the different classifiers
and feature-selection methods on the
Fig. 5. Précision des classifieurs et des méthodes
de sélection de caractéristiques pour les
Pré
cis
ion Pas de car.
sélect.
69
peripheral features.
caractéristiques périphériques.
The fusion of the EEG and peripheral
information was performed to improve
classification accuracy. This fusion was
performed at the decision level [42], by
combining the outputs of the classifiers using
the Bayes’ belief integration [43]. For Bayes’
belief integration, the errors produced by the
classifiers are expressed by the probabilities
that a classifier q estimates a class as
being , while the true class was y. These
probabilities can be computed from the
confusion matrices obtained from the
training set. The fusion is then performed by
assuming classifier independency and
choosing the class y that maximizes the
following probability:
(2)
where Q is the ensemble of classifiers used for
the fusion.
Afin d’améliorer la précision de la classification,
nous avons procédé à une fusion de décision
[42] des données EEG et périphériques en
combinant les sorties des classifieurs l’aide de
l’intégration de la croyance de Bayes [43].
Dans le cadre de cette intégration, les erreurs
produites par les classifieurs sont exprimées par
les probabilités : un classifieur
estime qu’une classe est égale , alors que la
classe réelle est égale à . Ces probabilités
peuvent être calculées grâce aux matrices de
confusion obtenues l’aide de l’ensemble
d’apprentissage. La fusion est ensuite réalisée en
tenant compte de l’hypothèse d’indépendance
des classifieurs et en choisissant la classe y qui
permet de maximiser la probabilité
(2)
où représente l’ensemble des classifieurs
utilisés pour la fusion.
Since the EEG signals were recorded only for
14 out of the 20 participants, the available
number of samples for EEG-based
classification is not the same as for
peripheral-based classification. For this
reason, the results obtained from EEG and
peripheral features are separated in two
sections with classification algorithm applied
Comme les signaux EEG n’ont été enregistrés que
pour 14 des 20 participants, le nombre
d’échantillons disponibles pour les
classifications EEG et périphérique diffèrent.
Pour cette raison, nous avons séparé les
résultats tirés des caractéristiques EEG et
périphériques en deux sections : l’algorithme de
classification a été appliqué à 14 participants
70
on 14 participants for EEG and 20
participants for peripheral features. In Section
IV-D, the classification accuracies obtained
with EEG and peripheral features on different
time scales are compared, while the fusion of
peripheral and EEG modalities is investigated
in Section IV-E. In both cases, the
classification accuracy was computed only on
the 14 participants having EEG recorded.
pour l’EEG et 20 participants pour les signaux
périphériques. Nous avons ensuite comparé la
précision de la classification des caractéristiques
EEG et périphériques sur différentes durées
(Section IV-D). La fusion des modalités EEG et
périphérique est détaillée dans la section IV-E.
Dans les deux cas, la précision de la classification
n’a été calculée que pour les 14 participants
disposant d’enregistrements EEG.
B. Peripheral Signals B. Signaux périphériques
Fig. 5 presents the accuracies obtained by
applying the classification methods on the
features extracted from the peripheral signals.
Without feature selection, the LDA obtained
the best accuracies of 54% showing its ability
to find a boundary that generalizes well
across participants. In any case, the accuracies
are higher than the random level of 33%.
Except for the ANOVA, the feature-selection
methods always improved the classification
accuracies. The best accuracy of 59% is
obtained with the QDA combined with the
SFFS feature selection. However, the FCBF
results (58%) are not significantly different
from those obtained with the SFFS algorithm
because of the high variance of the accuracies.
Moreover, the variance of the accuracies
obtained with SFFS tends to be higher than
those obtained with the FCBF which shows
that the FCBF is more stable than the SFFS
algorithm in selecting the proper features.
According to the results and considering that
La Fig. 5 représente la précision obtenue grâce à
l’application des méthodes de classification aux
caractéristiques extraites des signaux
périphériques. Sans la sélection de
caractéristiques, LDA a obtenu la meilleure
précision à 54 %, et permet donc de déterminer
une frontière disposant d’une généralisation
satisfaisante pour l’ensemble des participants.
Dans tous les cas, les précisions sont supérieures
au seuil aléatoire de 33 %. À l’exception
d’ANOVA, toutes les méthodes de sélection de
caractéristiques ont permis d’améliorer la
précision de la classification. La combinaison de
QDA et de l’algorithme SFFS fournit la meilleure
précision à 59 %. Les résultats obtenus avec
FCBF (58 %) sont néanmoins très similaires à
ceux de SFFS du fait de la variance élevée de la
précision. De plus, la variance de précision
obtenue avec SFFS est souvent plus élevée
qu’avec FCBF : ce dernier est donc plus stable
que l’algorithme SFFS pour la sélection des
caractéristiques adéquates. Si l’on tient compte
71
the FCBF is much faster than the SFFS, the
FCBF can be considered as the best feature-
selection algorithm for this classification
scheme.
des résultats obtenus et de sa vitesse
(supérieure à SFFS), la sélection de
caractéristiques FCBF est la mieux adaptée à ce
processus de classification.
Since the participant cross-validation method
was used, the feature-selection algorithms
were applied 20 times on different training
sets. For this reason, the features selected at
each iteration of the cross-validation
procedure can be different. The histograms of
Fig. 6 show, for each feature, the number of
times it was selected by a given feature-
selection algorithm. The average number of
selected features is 3.5 for the FCBF, 9.35 for
the ANOVA feature selection, and 4.8 for the
SFFS. The ANOVA nearly always selected the
features that were found to be relevant in
Section III-A but with poor resulting accuracy
(Fig. 5). Owing to the removal of redundant
features, the FCBF strongly reduces the
original size of the feature space with a good
resulting accuracy. Moreover, this algorithm
nearly always selected the same features
independently of the training set showing its
stability. The SFFS also obtained good
performance, but as can be seen from Fig. 6,
some of the features were selected only on
some of the training sets, showing that this
algorithm is less stable than the FCBF.
Comme nous avons choisi d’utiliser la méthode
de validation croisée, chaque algorithme de
sélection de caractéristiques a été appliqué 20
fois différents ensembles d’apprentissage. Les
caractéristiques sélectionnées à chaque itération
peuvent donc être différentes. Les histogrammes
de la Fig. 6 montrent combien de fois chaque
caractéristique a été sélectionnée par chaque
algorithme de sélection de caractéristiques. Le
nombre moyen de caractéristiques sélectionnées
est de 3,5 pour FCBF, 9,35 pour ANOVA et 4,8
pour SFFS. Le test ANOVA a presque toujours
réussi à sélectionner les caractéristiques
identifiées comme pertinentes dans la Section
III-A, au détriment cependant de la précision
(Fig. 5). En éliminant les caractéristiques
redondantes, FCBF réduit considérablement la
taille originale de l’espace de description, ce qui
permet d’obtenir une bonne précision. De plus,
l’algorithme a quasiment toujours sélectionné les
mêmes caractéristiques, quel que soit l’ensemble
d’apprentissage, ce qui prouve sa stabilité.
L’algorithme SFFS est également performant,
mais comme en atteste la Fig. 6, il tend à ne
sélectionner certaines caractéristiques que dans
certains ensembles d’apprentissage : il est donc
72
moins stable que FCBF.
By inspecting the SFFS, FCBF, and ANOVA
selected features, the ∫
and
∫
features were always selected
which shows their importance for the
classification of the three conditions from
physiological signals. To our knowledge,
similar features have been used only in [44]
for emotion assessment despite of their
apparent relevance. The µHR feature was
frequently selected by the FCBF but never by
the SFFS and vice versa for the σResp feature.
The σResp feature was removed by the FCBF
because it was correlated with µHR. However,
the SFFS kept the σResp feature based on its
predictive accuracy which suggests that this
feature may be better than µHR for
classification. Finally, the temperature
features were also found to be frequently
relevant.
Nous nous sommes ensuite penchés plus en
détail sur ces résultats : SFFS, FCBF et ANOVA
ont toujours sélectionné les caractéristiques
∫
et∫
, qui sont donc
importantes pour la classification des trois
conditions l’aide des signaux physiologiques. À
notre connaissance, ces caractéristiques n’ont
été utilisées que par [44] dans le cadre du
traitement des émotions, malgré leur pertinence
évidente. La caractéristique µHR a souvent été
sélectionnée par FCBF, mais jamais par SFFS. On
observe le phénomène inverse pour la
caractéristique σResp. FCBF a en effet éliminé
cette dernière en raison de sa corrélation avec
µHR. Cependant, SFFS a conservé la
caractéristique σResp du fait de son exactitude
prédictive, suggérant ainsi sa supériorité par
rapport à µHR à des fins de classification. Enfin,
les caractéristiques de température se sont
fréquemment avérées pertinentes.
Because of its good accuracy and low
computational time, the FCBF algorithm
coupled with QDA classification was used for
further analyses involving the peripheral
modality. Table V presents the confusion
matrix for the three classes: It can be seen
that the boredom condition was well
classified, followed by the anxiety condition.
Samples from the engagement condition tend
Compte tenu de sa bonne précision et de sa
rapidité en termes de calcul, nous avons utilisé
l’algorithme FCBF en association avec le
classifieur QDA pour effectuer une analyse plus
poussée de la modalité périphérique. Le Tableau
V représente la matrice de confusion pour les
trois classes : la condition d’ennui affiche une
bonne classification, suivie de la condition
d’anxiété. Les échantillons appartenant la
73
to be classified mostly as bored samples and
also as anxious samples. This is not surprising
since this condition lies in between the others.
Notice that 21% of the samples belonging to
the anxiety class are classified as bored
samples; this can be due to the fact that some
participants completely disengaged from the
task because of its difficulty, reaching an
emotional state close to boredom. In this case,
the adaptive game we propose would increase
the level of difficulty since the detected
emotion would be boredom, which is not the
proper decision to take. A solution to correct
this problem could be to use contextual
information such as the current level of
difficulty and the direction of the last change
in difficulty (i.e., increase or decrease) to
correctly determine the action to take.
condition d’engagement ont en revanche
souvent été attribués aux conditions d’ennui ou
d’anxiété. Ce résultat était prévisible, puisqu’il
s’agit d’une condition intermédiaire. Il convient
également de noter que 21 % des échantillons
appartenant la classe de l’anxiété ont été
affectés la classe de l’ennui : certains
participants avaient en effet abandonné leur
tâche du fait de la difficulté et atteint un état
émotionnel proche de l’ennui, ce qui pourrait
expliquer les résultats de cette classification.
Dans cette situation, notre jeu adaptatif
augmenterait la difficulté suite à la détection de
l’ennui : ce n’est malheureusement pas la bonne
solution. Pour remédier à ce problème, il
faudrait par exemple exploiter les informations
contextuelles comme le niveau de difficulté
actuel et la nature du dernier changement
(augmentation ou réduction de la difficulté).
Fig. 6. Histograms of the number of cross-
validation iterations (over a total of 20) in
which the features have been selected by the
FCBF, ANOVA, and SFFS feature-selection
algorithms. The SFFS feature selection is
displayed for the QDA classification.
Fig. 6. Histogrammes du nombre d’itérations de
validation croisée (pour un total de 20) avec les
algorithmes de sélection de caractéristiques
FCBF, ANOVA et SFFS. La sélection de
caractéristiques SFFS représentée est basée sur
la classification QDA.
74
TABLE V
CONFUSION MATRIX FOR THE QDA
CLASSIFIER
WITH FCBF FEATURE SELECTION
TABLEAU V
MATRICE DE CONFUSION POUR LE
CLASSIFIEUR QDA AVEC SÉLECTION DE
CARACTÉRISTIQUES FCBF
Estimée
Réelle
Facile
(ennui)
Intermédiaire
(engagement)
Difficile
(anxiété)
Facile (ennui) 80 % 10 % 10 %
Intermédiaire
(engag.) 37 % 33 % 30 %
Difficile (anxiété) 21 % 19 % 60 %
Fig. 7. Accuracies of the different classifiers
and feature-selection methods on the EEG
features.
Fig.7. Précision des différents classifieurs et
méthodes de sélection de caractéristiques pour
les caractéristiques EEG.
C. EEG Signals C. Signaux EEG
All the classification methods obtained
accuracy higher than the random level of 33%
(Fig. 7). Without feature selection, the LDA
had the best accuracy of 49%, followed by the
RBF SVM with 47%. As with the peripheral
La précision obtenue par l’ensemble des
méthodes de classification est supérieure au
seuil aléatoire de 33 % (Fig. 7). Sans la sélection
de caractéristiques, le classifieur LDA dispose de
la meilleure précision à 49 %, suivi de RBF SVM
Pré
cis
ion Pas de car.
sélect.
75
features, these results demonstrate the ability
of linear and support vector classifiers to well
generalize across the participants. The best
result of 56% was obtained by the LDA
coupled with ANOVA feature selection. The
ANOVA feature-selection method always had
a better performance than the other methods.
To our knowledge, these are the first results
concerning the identification of gaming
conditions from EEG signals, particularly
considering that the classifiers were trained
using a cross-participant framework.
à 47 %. Comme pour les signaux périphériques,
ces résultats montrent que les classifieurs
linéaires et les machines à vecteurs de support
disposent d’une généralisation satisfaisante pour
l’ensemble des participants. La combinaison
LDA-ANOVA a obtenu le meilleur résultat, à
56 %. La performance d’ANOVA a
systématiquement surpassé celle des autres
algorithmes de sélection de caractéristiques. À
notre connaissance, ces résultats sont les
premiers qui permettent d’identifier les
conditions de jeu à partir des signaux EEG, en
particulier lorsque l’on tient compte de
l’entraînement croisé des classifieurs sur les
participants.
As can be seen from Fig. 8, the FCBF selected
less features than the two other feature-
selection methods. It selected 3.1 features in
average compared to 20.3 for the ANOVA and
13.0 for the SFFS coupled with the LDA. This
explains the low accuracy obtained with the
FCBF and shows that good accuracies on this
problem can be obtained only by
concatenating several features. The ANOVA
algorithm often selected the features
described in Section III-A. The SFFS coupled
with the LDA had accuracies close to those of
the ANOVA with LDA but by selecting less
features in average. For this reason, the
features selected by this method are of
particular importance for accurate
classification of the three gaming conditions.
Comme l’indique la Fig. 8, FCBF a sélectionné
moins de caractéristiques que les deux autres
méthodes, avec 3,1 caractéristiques en moyenne,
par opposition à ANOVA à 20,3 et SFFS-LDA à
13,0. Cela explique le manque de précision de
FCBF et montre que la seule solution pour
obtenir des résultats précis est de rassembler
plusieurs caractéristiques. L’algorithme ANOVA
a souvent sélectionné les caractéristiques
figurant dans la Section III-A. La combinaison
SFFS-LDA a obtenu une précision similaire à
ANOVA-LDA, mais en sélectionnant moins de
caractéristiques en moyenne. Celles-ci revêtent
donc une importance particulière dans la
classification précise des trois conditions de jeu.
Les caractéristiques les plus souvent
sélectionnées (plus de huit fois) sont les
76
The more often selected features (selected
more than eight times) were the theta band
energies of the T7, O1, Cz, P4, and P3
electrodes and the beta band energies of the
P7, Pz, and O2 electrodes. This result shows
that the occipital and parietal lobes were
particularly useful for the differentiation of
the three gaming conditions.
suivantes :
- rythme thêta des électrodes T7, O1, Cz, P4, et
P3 ;
- rythme bêta des électrodes P7, Pz, et O2.
Ces résultats montrent que les lobes occipital et
pariétal se révèlent particulièrement utiles pour
la différenciation des trois conditions de jeu.
The confusion matrix displayed in Table VI for
the LDA and FCBF methods shows that the
different classes were detected with similar
accuracies. The medium condition still has the
lowest accuracy but is better detected than
when using the peripheral features. On the
other hand, the easy condition is detected
with less accuracy than with peripheral
features. This indicates that the fusion of the
two modalities should increase the overall
accuracy.
La matrice de confusion présentée dans le
Tableau VI montre que les méthodes LDA et
FCBF ont détecté les différentes classes avec un
degré de précision similaire. La condition
intermédiaire reste la moins précise, mais sa
détection a été meilleure qu’avec les
caractéristiques périphériques. À l’inverse, les
caractéristiques périphériques ont permis de
détecter la condition facile de manière plus
précise. Ce résultat montre que la fusion des
deux modalités devrait permettre d’améliorer la
précision globale.
D. EEG and Peripheral Signals D. Signaux périphériques et EEG
Fig. 8. Histograms of the number of cross- Fig. 8. Histogrammes du nombre d’itérations de
77
validation iterations (over a total of 14) in
which features have been selected by the
FCBF, ANOVA, and SFFS feature-selection
algorithms. The SFFS feature selection is
displayed for the LDA classification.
validation croisée (pour un total de 14) avec
FCBF, ANOVA et SFFS. La sélection SFFS
représentée est basée sur la classification LDA.
TABLE VI
CONFUSION MATRIX FOR THE LDA
CLASSIFIER WITH ANOVA FEATURE
SELECTION
TABLEAU VI
MATRICE DE CONFUSION POUR LE
CLASSIFIEUR LDA AVEC SÉLECTION DE
CARACTÉRISTIQUES ANOVA
Estimée
Réelle
Facile
(ennui)
Intermédiaire
(engagement)
Difficile
(anxiété)
Facile (ennui) 57 % 43 % 0 %
Intermédiaire
(engag.) 21 % 50 % 29 %
Difficile (anxiété) 19 % 19 % 62 %
In order to compare the accuracies obtained
using either EEG or peripheral signals, the
best combinations of classifiers and feature-
selection methods were applied on the
physiological database with the same number
of participants for both modalities (the 14
participants for whom EEG was recorded).
Moreover, the comparison was conducted for
different time scales to analyze the
performance of each modality as a function of
the signal duration used for the feature
computation. For this purpose, each session
(see Fig. 2) was divided into one to ten
nonoverlapping windows of 300/W s, where
W is the number of windows and 300 s is the
duration of a session. EEG and peripheral
features were then computed from each
Afin de comparer les précisions obtenues avec
les signaux EEG ou périphériques, nous avons
appliqué les meilleures combinaisons de
classifieurs et de méthodes de sélection de
caractéristiques à la base de données
physiologiques pour le même nombre de
participants sur les deux modalités (les 14
participants dont les signaux EEG ont été
enregistrés). De plus, nous avons réalisé la
comparaison sur différentes durées afin
d’évaluer la performance de chaque modalité en
fonction de la durée du signal utilisée pour le
calcul des caractéristiques. Nous avons donc
divisé chaque session (voir Fig. 2) en plusieurs
fenêtres de (entre 1 et 10, sans
chevauchement), où représente le nombre de
fenêtres et représente la durée d’une
78
window, and the label of the session was
attributed to these features. By using this
method, a database of physiological features
was constructed for each window size ranging
from 30 to 300 s.
session. Les caractéristiques EEG et
périphériques ont ensuite été traitées pour
chaque fenêtre, et l’étiquette de la session leur a
été attribuée. Grâce à cette méthode, nous avons
constitué une base de données des
caractéristiques physiologiques pour chaque
durée, de à .
For a database in which the features were
computed from W windows, the number of
samples for each class is 20 × 2 × W (20
participants, 2 sessions per class, and W
windows per session). Thus, the number of
samples per class increases with W.
Pour une base de données dans laquelle les
caractéristiques ont été traitées à partir de
fenêtres, le nombre d’échantillons pour chaque
classe est de (20 participants, 2
sessions par classe, fenêtres par session). Le
nombre d’échantillons par classe augmente donc
en fonction de .
Since the number of samples can influence
classification accuracy and the goal of this
study is to analyze the performance of EEG
and peripheral features at different time
scales, it is important that this comparison be
conducted with the same number of samples
for each window’s length. To satisfy this
constraint, one sample was chosen randomly
from each session using a uniform
distribution to have 20 × 2 = 40 samples per
class. The classification algorithms were then
applied on this reduced database. This was
repeated 1000 times for each value of W to
account for the different possible
combinations of the windows (except for W =
1). Notice that it is not possible to perform
classification for all window combinations
Le nombre d’échantillons pouvant influencer la
précision de la classification, et l’objectif de cette
étude étant d’analyser la performance des
caractéristiques périphériques et EEG sur
différentes échelles de temps, il est important
d’effectuer la comparaison l’aide d’un même
nombre d’échantillons pour chaque durée de
fenêtre. Dans ce but, un échantillon par session a
été choisi au hasard grâce à une distribution
uniforme, pour ainsi obtenir
échantillons par classe. Nous avons ensuite
appliqué les algorithmes de classification à cette
base de données réduite. Nous avons utilisé ce
processus 1 000 fois pour chaque valeur de
afin de prendre en compte les différentes
combinaisons de fenêtres (sauf pour ). Il
convient de noter qu’il est impossible
79
since there are W40 of such combinations. d’appliquer la classification l’ensemble des
combinaisons de fenêtres, dont le nombre
s’élève F40.
By using this method, the average accuracies
over the 1000 iterations are displayed in Fig.
9. The small accuracy oscillations that can be
observed for small time windows (less than
100 s) are likely due to the increase of the
number of possible combinations of windows.
As can be seen from Fig. 9, the accuracy
obtained for the peripheral signals with the
original duration of the sessions (300 s) is not
significantly different from the one obtained
with all of the 20 participants (see Section IV-
B). Thus, having 13 or 19 participants for
classifier training (because of participant
cross validation) does not significantly change
the classification performance. This suggests
that adding more participants to the current
database would not increase classification
accuracies, and that, recording 14 to 20
participants is enough to obtain reliable
accuracy estimations.
La Fig. 9 présente la précision moyenne obtenue
avec cette méthode pour 1 000 itérations. Pour
les fenêtres les plus courtes (moins de 100 s),
nous observons de légères variations en termes
de précision, probablement dues à
l’augmentation du nombre de combinaisons
possibles entre les fenêtres. Comme le montre la
Fig. 9, la précision obtenue pour les signaux
périphériques sur la durée initiale des sessions
(300 s) est sensiblement similaire à celle
obtenue pour l’ensemble des 20 participants
(voir Section IV-B). Le nombre de participants
sollicités pour l’entraînement des classifieurs n’a
donc pas d’incidence significative sur la
performance de la classification (grâce à la
validation croisée entre les participants). Ce
phénomène suggère qu’il serait inutile d’ajouter
de nouveaux participants à la base de données
dans le but d’améliorer la précision de la
classification : les enregistrements de 14 à
20 participants sont suffisants pour obtenir des
estimations de précision fiables.
80
Fig. 9. Classification accuracy as a function of
the duration of a trial for EEG and peripheral
features.
Fig. 9. Précision de la classification en fonction
de la durée d’un essai pour les caractéristiques
EEG et périphériques.
TABLE VII
CONFUSION MATRIX FOR THE “BAYES’
BELIEF INTEGRATION” FUSION
TABLEAU VII
MATRICE DE CONFUSION POUR LA FUSION
« INTÉGRATION DE LA CROYANCE DE BAYES »
Estimée
Réelle
Facile
(ennui)
Intermédiaire
(engagement)
Difficile
(anxiété)
Facile (ennui) 82 % 14 % 4 %
Intermédiaire
(engag.) 29 % 39 % 32 %
Difficile (anxiété) 4 % 27 % 69 %
For both modalities, decreasing the duration
of the window on which the features are
computed leads to a decrease of accuracy.
However, this decrease is stronger for
peripheral features than for EEG features. For
the EEG features, the accuracy drops from
56% for windows of 300 s to around 51% for
windows of 30–50 s. For the peripheral
La diminution de la durée de la fenêtre pour
laquelle les caractéristiques sont traitées
entraîne une baisse de précision des deux
modalités. Celle-ci est plus importante pour les
caractéristiques périphériques que pour les
caractéristiques EEG. Pour ces dernières, la
précision passe de 56 % pour les fenêtres de
300 s à environ 51 % pour les fenêtres de 30-
Pré
cis
ion
Durée de la fenêtre (en secondes)
EEG avec DLDA et ANOVA
Périphérique avec DQDA et FCBF
81
features, the accuracy is 57% for windows of
300 s and around 45% for windows of 30–50
s. Moreover, the EEG accuracy remains
approximately the same for windows having
duration inferior to 100 s, while the
peripheral accuracy continues to decrease. All
those results demonstrate that the EEG
features are more robust on short-term
assessment than the peripheral features. For
our application, adapting the difficulty of the
Tetris game based on the physiological signals
gathered during precedent 5 min may be
undesirable since there is a high probability
that the difficulty of the game has changed
during this laps of time due to usual game
progress. Having modalities, like EEG, that are
able to estimate the state of the user on
shorter time periods is thus of great interest.
50 s. Dans le cas des caractéristiques
périphériques, la précision s’élève 57 % pour
les fenêtres de 300 s, et atteint environ 45 %
pour les fenêtres de 30-50 s. De plus, la précision
EEG reste relativement stable pour les fenêtres
d’une durée inférieure 100 s, tandis que la
précision périphérique continue de diminuer.
Ces résultats montrent que les caractéristiques
EEG sont plus robustes que les caractéristiques
périphériques sur de courtes durées. Dans le
cadre de notre étude, l’adaptation de la difficulté
du jeu Tetris en fonction des signaux
physiologiques enregistrés pendant les
5 minutes précédentes pourrait se révéler
indésirable : en effet, il est fortement probable
que la difficulté change pendant cette période
compte tenu de la vitesse de progression
normale du jeu. Il est donc très utile de disposer
de modalités comme l’EEG capables d’estimer
l’état émotionnel de l’utilisateur sur des périodes
plus courtes.
E. Fusion E. Fusion
As can be seen from the confusion matrices
obtained from the classification based on the
peripheral and EEG features (Tables V and
VI), the errors made with these two feature
sets are quite different. The Bayes’ belief
integration is well suited for this type of
problem and, thus, was employed for the
fusion of the best classifiers found for each
feature set (the LDA couples with ANOVA for
EEG features and the QDA couples with FCBF
Comme l’indiquent les matrices de confusion
obtenues grâce à la classification des
caractéristiques périphériques et EEG (Tableaux
V et VI), les erreurs des deux ensembles de
caractéristiques sont sensiblement différentes.
L’intégration de la croyance de Bayes est
particulièrement utile pour ce type de problème,
c’est pourquoi nous l’avons employée pour
fusionner les meilleurs classifieurs de chaque
ensemble de caractéristiques (LDA-ANOVA pour
82
for peripheral features). Another advantage of
the Bayes’ belief integration is that the
probabilities P(y|yˆq) as in (2) can be
estimated independently for the two
classifiers. It was thus possible to use the
training data of 19 participants to compute
probabilities for the peripheral features, while
only 13 participants were used for the EEG
features. The resulting accuracy and
confusion matrices were obtained by using
the participant cross validation applied on the
14 participants for whom both EEG and
peripheral activity were recorded.
les caractéristiques EEG, QDA-FCBF pour les
caractéristiques périphériques). L’intégration de
la croyance de Bayes permet également
d’estimer les probabilités (voir (2))
séparément pour chacun des deux classifieurs.
Nous avons donc pu utiliser les données
d’apprentissage de 19 participants pour calculer
les probabilités des caractéristiques
périphériques, contre 13 participants pour les
caractéristiques EEG. La précision et les matrices
de confusion issues de cette fusion ont été
obtenues grâce à une validation croisée
appliquée aux 14 participants disposant à la fois
d’enregistrements EEG et périphériques.
The accuracy obtained after fusion was 63%
which corresponds to an increase of 5%
compared to the best accuracy obtained with
the peripheral features. Table VII presents the
confusion matrix obtained after fusion. By
comparing this table to Tables V and VI, it can
be observed that the detection accuracy of the
easy and the hard classes was increased by
2% and 7%, respectively, compared to the
accuracy obtained with the best feature set
(peripheral features for the easy class and
EEG features for the hard class). The accuracy
obtained on the medium class with fusion
(39%) is lower than the one obtained with
EEG features (50%) but higher than with
peripheral features (33%). When performing
classification based either on EEG or
peripheral features, many of the hard samples
La fusion nous a permis d’atteindre une
précision de 63 %, soit une hausse de 5 % par
rapport à la meilleure précision obtenue avec les
caractéristiques périphériques. Le Tableau VII
présente la matrice de confusion après la fusion.
En le comparant avec les Tableaux V et VI, nous
remarquons que la précision de la détection des
classes facile et difficile s’est améliorée
respectivement de 2 % et 7 % par rapport à la
précision obtenue avec le meilleur ensemble de
caractéristiques (caractéristiques périphériques
pour la classe facile et EEG pour la classe
difficile). La précision de la classe intermédiaire
après la fusion (39 %) est inférieure à celle des
caractéristiques EEG (50 %), mais supérieure à
celle des caractéristiques périphériques (33 %).
Lors de la classification des caractéristiques EEG
ou périphériques, de nombreux échantillons
83
were classified as easy, while this problem
was solved after fusion. All these results
demonstrate the interest of peripheral and
EEG fusion at the decision level for a more
accurate detection of the three conditions.
appartenant à la condition difficile ont été
attribués à la condition facile. Ce problème a été
résolu grâce à la fusion. Ces résultats prouvent
l’utilité de la fusion de décision pour les
caractéristiques périphériques et EEG : les trois
conditions sont ainsi détectées de manière plus
précise.
The accuracy obtained in the present study is
15% lower than the one obtained in [3].
However, according to the confusion matrix
presented in Table VII, the adjusted level of
difficulty using the current method should
oscillate around the true difficulty level where
the participant experiences engagement. It is
thus expected that our method will also
improve a player’s experience. Moreover, as
stressed before, the current method only
requires a baseline recording of 1 min for
each new player, compared to the recording
of six 1-h training game sessions for each
participant in [3].
La précision atteinte dans cette étude est
inférieure de 15 % à celle obtenue dans [3]. En
revanche, comme l’indique la matrice de
confusion du Tableau VII, cette méthode devrait
permettre d’obtenir un ajustement de la
difficulté relativement proche du niveau réel de
difficulté favorisant l’engagement du participant.
Notre approche pourrait donc améliorer
l’expérience des joueurs/joueuses. De plus,
comme nous l’avons mentionné plus haut, la
méthode actuelle ne requiert qu’un
enregistrement initial d’une minute par nouvel
utilisateur, par rapport à six sessions de jeu
d’une heure chacune par sujet dans [3].
V. CONCLUSION V. CONCLUSION
This paper has investigated the possible use
of emotion assessment from physiological
signals to adapt the difficulty of a game. A
protocol has been designed to record
physiological activity and gather self-reports
of 20 participants playing a Tetris game at
three different levels of difficulty. The
difficulty levels were determined according to
the competence of the players on the task.
Dans cette étude, nous avons évalué
l’exploitation potentielle du traitement des
émotions dans le cadre de l’adaptation de la
difficulté d’un jeu. Nous avons développé un
protocole afin d’enregistrer l’activité
physiologique et de collecter les auto-
évaluations de 20 participants utilisant un jeu de
Tetris à trois niveaux de difficulté. Ces niveaux
ont été délimités en fonction de la compétence
84
Two types of analysis have been conducted on
the data: First, a statistical analysis of self-
reports and physiological data has been
performed to control that different cognitive
and emotional states were elicited by the
protocol; second, classification has been
conducted to determine whether it is possible
to detect those states from physiological
signals.
des joueurs/joueuses pour la tâche. Les données
ont ensuite été analysées de deux manières
différentes. Nous avons tout d’abord réalisé une
analyse statistique des données physiologiques
et des auto-évaluations afin de confirmer que les
différents états cognitifs et émotionnels étaient
bien engendrés par le protocole. Nous avons
ensuite procédé à la classification pour
déterminer si les signaux physiologiques
permettaient de détecter ces états.
The results obtained from the analysis of self-
reports and physiological data have showed
that playing the Tetris game at different levels
of difficulty gave rise to different emotional
states. The easy difficulty was related to a
state of low pleasure, low pressure, low
arousal, and low motivation which was
determined as boredom. The medium
difficulty elicited higher arousal than the easy
difficulty, as well as higher pleasure, higher
motivation, and higher amusement. It was
thus defined as engagement. Finally, the hard
condition was associated to anxiety since it
elicited high arousal, high pressure, and low
pleasure. Moreover, the analysis of
consecutive engaged trials has showed that
the engagement of a player can decrease if the
game difficulty does not change. These results
have demonstrated the importance of
adapting the game difficulty according to the
emotions of the player in order to maintain
his/her engagement.
Les résultats de l’analyse des auto-évaluations et
des données physiologiques ont montré que les
états émotionnels varient en fonction du niveau
de difficulté du jeu Tetris. La difficulté facile a été
associée à un faible niveau de divertissement, de
pression, d’excitation et de motivation : nous lui
avons attribué la condition d’ennui. La difficulté
intermédiaire se caractérise par un niveau
d’excitation, de motivation, de plaisir et de
divertissement supérieur à celui de la difficulté
facile. Nous l’avons donc associée la condition
d’engagement. Enfin, la condition difficile se
traduit par des niveaux d’excitation et de
pression élevés, mais peu de plaisir : nous
l’avons donc associée l’état d’anxiété. De plus,
l’analyse des essais d’engagement consécutifs a
montré que l’engagement des joueurs/joueuses
peut diminuer si la difficulté du jeu reste
inchangée. Ces résultats prouvent qu’il est
important d’adapter la difficulté du jeu en
fonction des émotions de l’utilisateur pour
maintenir son engagement.
85
The classification accuracy of EEG and
peripheral signals to recover the three states
elicited by the gaming conditions has been
analyzed for different classifiers, feature-
selection methods, and durations on which
the features have been computed. Without
feature selection, the best classifiers obtained
an accuracy around 55% for peripheral
features and 48% for EEG features. The FCBF
increased the best accuracy on the peripheral
feature to 59%, while the ANOVA selection
increased the accuracy to 56% for EEG
features. The analysis of the classification
accuracy for EEG and peripheral features
computed on different duration demonstrated
that the EEG features are more robust to a
decrease in duration than the peripheral
features, which confirms the importance of
EEG features for short-term emotion
assessment.
La précision de la classification des signaux
périphériques et EEG pour l’identification des
trois états engendrés par le protocole de jeu a
été analysée en traitant les caractéristiques à
l’aide de différents classifieurs, méthodes de
sélection de caractéristiques et durées. Sans la
sélection de caractéristiques, la précision des
meilleurs classifieurs atteint 55 % pour les
caractéristiques périphériques et 48 % pour les
caractéristiques EEG. L’algorithme FCBF a
permis d’améliorer la précision des
caractéristiques périphériques avec 59 %, contre
56 % pour les caractéristiques EEG avec ANOVA.
L’analyse de la précision pour la classification
des caractéristiques EEG et périphériques sur
différentes durées a souligné la robustesse des
caractéristiques EEG par rapport aux
caractéristiques périphériques sur les durées
plus courtes.
Future work will focus on the improvement of
the detection accuracy. Fusion of
physiological information with other
modalities such as facial expressions, speech,
and vocal signals would certainly improve the
accuracy. Including game information such as
the evolution of the score can also help to
better detect the three states. Another
question of interest is to determine the
number of classes to be detected. Since
boredom and anxiety are detected with higher
confidence than engagement, it might be
Les futurs travaux porteront sur l’amélioration
de la précision lors de la détection. La fusion des
données physiologiques et d’autres modalités
comme les expressions faciales, la parole et les
signaux vocaux pourrait certainement se révéler
utile. Il serait également possible d’inclure des
informations relatives au jeu comme l’évolution
du score pour mieux détecter les trois états. Le
nombre de classes à détecter est un aspect
particulièrement intéressant : comme l’ennui et
l’anxiété sont détectés plus précisément que
l’engagement, ces deux classes sont suffisantes
86
enough to use those two classes for
adaptation to the game difficulty. Moreover,
from the observation of Fig. 1, one can
conclude that it is more interesting to adapt
the difficulty of the game solely based on the
increase of competence because it leads to a
stronger change of state in the flow chart and
stimulates learning. In this case, only the
detection of boredom is of importance to
modulate difficulty. This also implies to more
clearly define the relations between emotions
and competence changes. A future study
would be to implement an adaptive Tetris
game and verify that it is more fun and
enjoyable than the standard one. Finally,
analysis of physiological signals for different
types of games is also required to see if the
results of this study can be extended to other
games.
pour l’adaptation de la difficulté du jeu. De plus,
la Fig. 1 nous permet de conclure qu’il est plus
avantageux d’adapter la difficulté uniquement en
fonction de l’augmentation de la compétence : on
obtient en effet des changements d’état plus
importants en termes de flow, tout en favorisant
l’apprentissage. Dans ce cas, seule la condition
d’ennui est nécessaire pour l’adaptation de la
difficulté. Cela implique également de délimiter
des relations plus précises entre les émotions et
les changements de compétences. Dans une
étude ultérieure, nous mettrons en œuvre un jeu
de Tetris adaptatif pour confirmer ses bénéfices
en termes de divertissement par rapport au jeu
original. Enfin, il serait nécessaire d’analyser les
signaux physiologiques pour différents types de
jeux afin de déterminer si les résultats de cette
étude sont applicables d’autres jeux.
87
Annexes
Experts consultés
CHANEL, Guillaume. Chercheur au Laboratoire de vision par ordinateur et multimédias (CVML,
Computer Vision and Multimedia Laboratory) de l’Université de Genève. Publications et
coordonnées disponibles sur le site du CVML.
PUN, Thierry. Directeur du Laboratoire de vision par ordinateur et multimédias (CVML,
Computer Vision and Multimedia Laboratory) de l’Université de Genève. Publications et
coordonnées disponibles sur le site du CVML.
88
Extraits des conversations avec l’expert
Lucie Villerd
Re: Traduction de "Emotion Assessment From Physiological Signals for Adaptation of Game Difficulty" 1 message
PUN Thierry <[email protected]> 25 mars 2015 15:28 À : Guillaume Chanel <[email protected]>, Lucie Villerd <[email protected]>
Bonjour,
Aux remarques de Guillaume je rajouterai que dans certains cas la méthode a été développée dans le monde francophone, ou a donné lieu à beaucoup de travaux en français, comme p.ex. l'analyse discriminante (p.ex. par un chercheur nommé Benzécri).
Cette question de "francisation", à mon avis et sans rentrer dans la polémique quant à son utilité pour la préservation de nos racines, agite beaucoup plus le monde de la recherche en France qu'en Suisse ou en Belgique. Peutêtre qu'au Québec pour des raisons historiques la situation est proche de la situation française. Nous sommes peutêtre plus dans la situation des arabophones ou autres qui emploient automatiquement les mots anglais (je suppose). Cordialement, Thierry Pun
Le 25.03.2015 11:50, Guillaume Chanel a écrit :
Bonjour Lucie,
je me permet de joindre un collègue à cette discussion.
Difficille a dire... pour moi je dirais que cela dépend de plusieurs facteurs: - la nouveauté de l'algorithme (si il est nouveau la traduction n'existe pas encore et les informaticiens sont un peu hesitants à traduire);
89
- l'utilisation de l'algorithme (un algorithme ancien mais peu utilisé ne sera probablement que peu traduit); - la facilité de la traduction (notament en regard de la possibilité de cumuler les qualificatif en anglais); - le fait que nous parlons de plus en plus anglais dans la recherche (en tout cas en informatique).
Par exemple SFFS est difficillement traduisible en francais bien que l'algorithme sois connu. Recherche flottante séquentielle en avant semble un peu étrange non ?
L'analyse discrimnante linéaire est quand à elle une méthode "classique" et facilement traduisible.
Guillaume
From: Lucie Villerd
[[email protected]] Sent:
Tuesday, March 24, 2015 19:46
To: Guillaume Chanel
Subject: Traduction de "Emotion Assessment From Physiological Signals for Adaptation of Game Difficulty"
Bonsoir,
Je vous avais contacté il y a quelques mois afin de demander votre permission pour traduire votre texte "Emotion Assessment From Physiological Signals for Adaptation of Game Difficulty" dans le cadre de mon Master en traduction (notre échange a malheureusement disparu de ma boîte mail).
Comme promis, voici une première question de traduction et de terminologie. Auriezvous un peu de temps pour éclairer ou confirmer la tendance suivante ? J'ai commencé la traduction il y a quelques semaines, et je remarque que pour certains termes, notamment les algorithmes (sequential floating forward selection et fast correlationbased filter notamment), presque aucun texte en français ne comporte d'équivalents français. On tend plutôt à utiliser les sigles de ces algorithmes (SFFS, FCBF), ou leur nom en anglais. En revanche, d'autres termes seront majoritairement utilisés en français (par ex. analyse discriminante linéaire / quadratique). L'utilisation de l'anglais pour certains termes estelle arbitraire, ou reflètetelle plutôt la "nouveauté" de ces termes (il me semble que le terme FCBF soit apparu au début des années 2000) ? Je souhaiterais discuter de ce phénomène dans le protocole de recherche de mon mémoire, c'est très intéressant du point de vue terminologique.
Je vous remercie d'avance, Cordialement,
Lucie Villerd Tél. +33 (0)6 95 06 81 39
90
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ Prof. Thierry Pun,
http://cvml.unige.ch
Computer Science Department and Swiss Center for Affective Sciences University of
Geneva, Switzerland
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
91
Termes traités dans ARTES
LUCIE VILLERD Fiches base ARTES - M2 ILTS 2014-2015
Nb. Fiches FICHES LONGUES
TERME EN TRADUCTION
1 analysis of variance analyse de la variance
2 classifier classifieur
3 dynamic difficulty adjustment ajustement dynamique de la difficulté
4 fast correlation-based filter FCBF
5 feature caractéristique
6 feature selection sélection de caractéristiques
7 linear discriminant analysis analyse discriminante linéaire
8 quadratic discriminant analysis analyse discriminante quadratique
9 radial basis function kernel noyau à base radiale
10 sequential floating forward selection SFFS
11 support vector machine machine à vecteurs de support
Nb. Fiches FICHES COURTES (sans les concurrents)
TERME EN TRADUCTION
1 affective computing informatique affective
2 classification classification
3 confusion matrix matrice de confusion
4 covariance matrix matrice de covariance
5 cross-validation validation croisée
6 decision level décision
7 diagonalized diagonalisé
8 generalization généralisation
9 k-fold cross-validation validation croisée k-fold
10 machine learning apprentissage automatique
11 singular covariance matrix matrice de covariance singulière
12 test set ensemble de test
13 training set ensemble d'apprentissage
Nb. Fiches FICHES GLOSSAIRE
TERME EN TRADUCTION
1 alpha wave rythme alpha
2 amygdala activation activation des amygdales
92
3 anxiety anxiété
4 approach approche
5 Baye's belief integration intégration de la croyance de Bayes
6 boredom ennui
7 central nervous system système nerveux central
8 class classe
9 classifier independency indépendance du classifieur
10 data set ensemble de données
11 distress détresse
12 EEG signal signal EEG
13 electroencephalogram électroencéphalogramme
14 electromyogram électromyogramme
15 emotion émotion
16 engagement engagement
17 fatigue fatigue
18 flow flow
19 fusion fusion
20 fuzzy logic logique floue
21 galvanic skin response conductance cutanée
22 galvanic skin response sensor capteur de conductance cutanée
23 ground truth vérité terrain
24 heart rate fréquence cardiaque
25 hippocampus hippocampe
26 peripheral nervous system système nerveux périphérique
27 peripheral signal signal périphérique
28 physiological signal signal physiologique
29 plethysmograph pléthysmographe
30 prefrontal lateralization latéralisation de l'activité préfrontale
31 probability probabilité
32 respiration belt ceinture de respiration
33 sample échantillon
34 stimulus stimulus
35 temperature sensor capteur de température
36 temporal resolution résolution temporelle
37 to train entraîner
38 uniform distribution distribution uniforme
39 valence-arousal space modèle de valence-activation
40 window fenêtre
41 withdrawal retrait
42 workload charge de travail
93
Bibliographie de terminologie
CANDEL, Danielle, « Terminologie de la terminologie. Métalangage et reformulation
dans l'Introduction à la terminologie générale et à la lexicographie terminologique d'E.
Wüster. », Langages 4/2007, n° 168, p. 66-81. www.cairn.info/revue-langages-2007-4-
page-66.htm [consulté le 10 janvier 2015]
EVERS, Vincent. « Terminologie et traduction » [en ligne]. Mémoire de fin d’études (Master
Traduction), dir. Maarten B. van Buuren, Université d’Utrecht (Pays-Bas), Faculté de lettres.
Mars 2010.
http://dspace.library.uu.nl/bitstream/handle/1874/44747/Terminologie%20et%20traductio
n.pdf?sequence=1 [consulté le 15 novembre 2014]
FRANCE TERME. « Qu’est-ce que la terminologie ? » [page Web]. CULTURE.FR.
http://www.culture.fr/Ressources/FranceTerme/Qu-est-ce-que-la-terminologie [consulté le
23 octobre 2014]
L'HOMME, Marie-Claude. La terminologie: principes et techniques. Pum, 2004.
SEVILLA MUÑOS, Manuel. « Introduction to terminology » [présentation PDF]. Open
Courseware – Universidad de Murcia. http://ocw.um.es/cc.-sociales/terminologia/material-
de-clase-1/unit-i.pdf [consulté le 21 octobre 2014]
THOIRON, Philippe et BÉJOINT, Henri. La terminologie, une question de termes?. Meta: Journal
des traducteursMeta:/Translators' Journal, 2010, vol. 55, no 1, p. 105-118.
94
Bibliographie sélective pour la recherche documentaire
L’organisation de la bibliographie sélective est la suivante :
- Langue
• Domaine
• Type de document
Les références précédées de [AUTEUR_ANNÉE] sont incluses dans le corpus.
Le texte choisi pour la traduction est le prolongement de l’étude suivante :
CHANEL, Guillaume, REBETEZ, Cyril, BÉTRANCOURT, Mireille, et al. Boredom, engagement
and anxiety as indicators for adaptation to difficulty in games. In : Proceedings of the 12th
international conference on Entertainment and media in the ubiquitous era. ACM, 2008. p. 13-17.
Ce travail de recherche est avant tout centré sur le protocole d’acquisition de données
physiologiques et l’analyse statistique (classification).
Anglais
Apprentissage automatique
Public averti
Cours
SMOLA, Alex. « Introduction to machine learning » (page Internet). Carnegie Mellon University
(États-Unis). http://alex.smola.org/teaching/cmu2013-10-701/ [consulté le 04 avril 2015]
Page Internet d’un cours universitaire complet. Contient des notes de cours, des vidéos
de cours magistraux, ainsi que des lectures recommandées. Cours destiné aux étudiants
disposant de solides connaissances en statistique, en algèbre et en informatique.
Vulgarisation / public averti
Cours
SCHAPIRE, Robert. « Machine Learning algorithms for classification » (présentation PDF).
Princeton University (États-Unis). 2006.
http://www.cs.princeton.edu/~schapire/talks/picasso-minicourse.pdf [consulté le
02 mai 2015]
95
Présentation sur les outils de classification dans le cadre de l’apprentissage
automatique. Synthétique mais très complet : permet aux non-spécialistes de
comprendre les différentes notions qui entrent en jeu dans le processus d’apprentissage
automatique.
SCHAPIRE, Robert. « Theoretical machine learning » (présentation PDF). Princeton University
(États-Unis). 4 février 2008.
http://www.cs.princeton.edu/courses/archive/spr08/cos511/scribe_notes/0204.pdf
[consulté le 02 mai 2015]
Cours d’introduction l’apprentissage automatique : objectifs, méthodes et outils.
ZISSERMAN, Andrew. « C19 – Machine Learning » (présentation PDF). University of Oxford
(Royaume-Uni). 2015. http://www.robots.ox.ac.uk/~az/lectures/ml/lect1.pdf [consulté le
10 avril 2015]
Cours d’introduction l’apprentissage automatique et ses applications. Contient de
nombreux ouvrages recommandés pour les futurs spécialistes.
Informatique affective
Public averti
Article
BOS, Danny Oude. EEG-based emotion recognition. The Influence of Visual and Auditory Stimuli,
2006, p. 1-17.
Protocole expérimental pour la reconnaissance des émotions l’aide de signaux EEG
(électroencéphalogramme). Propose également un aperçu des études réalisées par le
passé dans le domaine de l’informatique affective.
Vulgarisation
Rapport
PICARD, Rosalind W. Affective computing. M.I.T Media Laboratory Perceptual Computing
Section Technical Report No. 321. 1995.
Cet article, bien que publié par des experts au Massachussetts Institute of Technology,
est écrit dans un langage clair, avec une terminologie accessible au grand public. Il
propose un panorama et un état des lieux du domaine aux experts comme aux profanes.
96
Jeux vidéo
Public averti
Articles de presse
[ADAMS_2008] ADAMS, Ernest. « The Designer's Notebook: Difficulty Modes and Dynamic
Difficulty Adjustment » [en ligne]. Gamasutra. 14 mai 2008.
http://www.gamasutra.com/view/feature/132061/the_designers_notebook_.php [consulté le
22 mai 2015]
Présentation et analyse critique du processus d’adaptation dynamique de la difficulté.
Monographie
[ADAMS_2007] ADAMS, Ernest. Fundamentals of game design. Pearson Education, 2014.
Aperçu des méthodes et du processus de programmation des jeux vidéo.
Thèses et mémoires
[CHEN_2007] CHEN, Jenova. Flow in Games. MFA Thesis. 2007.
http://www.jenovachen.com/flowingames/Flow_in_games_final.pdf [consulté le 20 février
2015]
Présentation de la théorie du Flow appliquée au jeu vidéo et aux méthodes d’ajustement
de la difficulté. Un article du même auteur reformule ce travail pour les non-spécialistes
et figure dans la section Vulgarisation de cette bibliographie.
Vulgarisation
Articles de publications scientifiques
CHEN, Jenova. Flow in games (and everything else). Communications of the ACM, 2007, vol. 50,
no 4, p. 31-34.
Version grand public du mémoire du même auteur.
Statistique
Public averti
Cours
JONES, James. « Introduction to Applied Statistics: Lecture Notes » (page Internet). Richland
Community College (États-Unis). https://people.richland.edu/james/lecture/m113/ [consulté
le 02 avril 2015]
Page Internet contenant des définitions, des exercices et des cours sur la statistique,
notamment l’analyse de la variance (ANOVA).
97
Public averti & experts
Lexiques et glossaires
International Statistics Institute. « Glossary ». http://isi.cbs.nl/glossary/index.htm [consulté
le 13 avril 2015]
Glossaire multilingue le plus complet, avec plus de 30 langues disponibles.
OCDE. « Glossary of Statistical Terms ». http://stats.oecd.org/glossary/ [consulté le 20 mai
2015]
Glossaire du département statistique de l’OCDE. Très complet, définitions relativement
faciles s’approprier.
STARK, Philip. B. « Glossary of Statistical Terms ». University of California, Berkeley (États-
Unis). 2014. http://www.stat.berkeley.edu/~stark/SticiGui/Text/gloss.htm [consulté le
15 avril 2015]
Glossaire de l’université de Berkeley. Très complet, avec des exemples de formules.
Vulgarisation
Cours
WILKINSON, D.J. « Introduction to statistics » (présentation PDF). University of Southern
California (États-Unis). 2013.
https://www.staff.ncl.ac.uk/d.j.wilkinson/teaching/mas131/bignotes.pdf [consulté le 12 avril
2015]
Cours d’introduction la statistique, présentant notamment la terminologie la plus
courante et les domaines ou sciences faisant appel à la statistique.
98
Français
Apprentissage automatique
Public averti
Cours
BOUZY, Bruno. « Apprentissage automatique – Séance 1 » (présentation PDF). Université Paris
Descartes. 2005. http://www.math-info.univ-paris5.fr/~bouzy/Doc/AA1/Seance1.pdf
[consulté le 23 avril 2015]
Introduction l’apprentissage automatique (objectifs, outils, méthodes) destinée aux
futurs experts du domaine.
Vulgarisation / public averti
Cours
TORRE, Fabien. « Notes de cours en apprentissage automatique » (page Internet). GRAppA :
informatique à Lille 3. 2015. http://www.grappa.univ-
lille3.fr/~torre/Enseignement/Cours/Apprentissage-Automatique [consulté le 28 mai 2015]
Page d’introduction l’apprentissage automatique comprenant des liens vers d’autres
cours en lien avec le domaine, notamment la classification statistique.
Jeux vidéo
Public averti
Thèses et mémoires
[CHEN_2007] CHEN, Jenova. Le Flow dans les jeux. Mémoire traduit de l’anglais par
Brieuc Swales. 2007
http://www.jenovachen.com/flowingames/Flow_in_games_final_FRENCH.pdf [consulté le 02
avril 2015]
Présentation de la théorie du Flow appliquée au jeu vidéo et aux méthodes d’ajustement
de la difficulté.
99
Statistique
Vulgarisation
Lexiques et glossaires
Éducation nationale. « Les définitions des termes et indicateurs statistiques de l'éducation
nationale ». http://www.education.gouv.fr/cid23200/definitions-des-termes-indicateurs-
statistiques-education-nationale.html [consulté le 12 avril 2015]
Glossaire avec des définitions claires et simples, accessibles aux non spécialistes.
VILLEMIN, Gérard. « Statistiques ».
http://villemin.gerard.free.fr/Referenc/Vocabula/GlosS/Statisti.htm [consulté le 26 mars
2015]
Site Internet riche en lexiques et glossaires pour débutants ou public averti dans
différents domaines (mathématiques, physique, etc.)
Public averti & experts
Cours
[CHAMROUKI_2012] CHAMROUKI, Faicel. « Classification supervisée : Analyse discriminante »
(présentation PDF). Cours de Licence 2 Sciences pour l’ingénieur, Université du Sud Toulon –
Var. 2012. http://chamroukhi.univ-tln.fr/courses/2012-2013/i41/Projets/projet-2-i41-LDA-
QDA.pdf [consulté le 20 février 2015]
Introduction à la classification supervisée.
[MARTIN_2004] MARTIN, Arnaud. « L’analyse de données » (présentation PDF). École
nationale supérieure de techniques avancées Bretagne. 2004.
http://www.arnaud.martin.free.fr/Doc/polyAD.pdf [consulté le 24 février 2015]
Cours très complet détaillant les outils et méthodes statistiques pour l’analyse de
données.
Lexiques et glossaires
International Statistics Institute. Glossary. http://isi.cbs.nl/glossary/index.htm [consulté le
13 avril 2015]
Glossaire multilingue le plus complet, avec plus de 30 langues disponibles.
StatSoft. « Glossaire ». http://www.statsoft.fr/concepts-statistiques/glossaire/a/a.html
[consulté le 10 mai 2015].
Glossaire d’une entreprise spécialisée dans le data mining comportant des définitions
détaillées ainsi que des renvois vers les concepts apparentés.
Université de Montréal (Québec). « Lexique anglais-français d'écologie numérique et de
statistique ». http://biol09.biol.umontreal.ca/legendre/Lexique.pdf [consulté le 20 avril 2015]
100
Glossaire bilingue très complet pour le vocabulaire statistique. Également utile pour les
sujets liés l’apprentissage automatique.
101
Glossaire d’aide à la traduction EN>FR (export ARTES)
affective computing (Anglais) - nom
Définition: study and development of systems and tools that can identify, process and simulate
human affects
Traduction(s): informatique affective (Français)
analysis of variance (Anglais) - nom
Concurrent(s): ANOVA (Anglais)
Définition: a set of statistical models used to identify the factors that influence a data set
Collocation(s): using analysis of variance (Anglais), analysis of variance method (Anglais), analysis
of variance is conducted (Anglais)
Traduction(s): analyse de la variance (Français)
Bayes’ belief integration (Anglais) - nom
Traduction(s): intégration de la croyance de Bayes (Français)
class (Anglais) - nom
Traduction(s): classe
(Français)
classification (Anglais) - nom
Définition: a method aimed at assigning a new observation to a class or category based on a
training set
Traduction(s): classification
(Français)
102
classifier (Anglais) - nom
Définition: statistical tool used to automatically assign data contained in a data set to different
classes
Collocation(s): to train the classifier (Anglais), classifier fusion (Anglais)
Traduction(s):
classifieur (Français)
confusion matrix (Anglais) - nom
Définition: "A confusion matrix is a table that is often used to describe the performance of a
classification model (or "classifier") on a set of test data for which the true values are
known."
Traduction(s): matrice de confusion (Français)
covariance matrix (Anglais) - nom
Définition: "A covariance matrix is a symmetric matrix where each diagonal element equals the
variance of a variable and each diagonal element is the covariance between the row
variable and the column variable."
Traduction(s): matrice de covariance (Français)
cross-validation (Anglais) - nom
Définition: a method used to determine the accuracy of a predictive model when it is applied to
an independent data set
Traduction(s): validation croisée (Français)
data set (Anglais) - nom
Traduction(s): ensemble de données (Français)
103
decision level (Anglais) - nom
Définition: the stage at which a decision is taken by a classifier or other statistical tools
Traduction(s): décision
(Français)
diagonalized (Anglais) - adjectif
Définition: the application of the linear algebra process of diagonalisation
Traduction(s):
diagonalisé (Français)
dynamic difficulty adjustment (Anglais) - nom
Concurrent(s): dynamic game balancing (Anglais), DDA (Anglais), adaptive difficulty (Anglais)
Définition: "A game’s ability to detect player’s skill level and adapt to it to change player’s
experience."
Collocation(s): dynamic difficulty adjustment mechanism (Anglais)
Traduction(s): ajustement dynamique de la difficulté (Français), adaptation dynamique de la difficulté (Français)
fast correlation-based filter (Anglais) - nom
Concurrent(s): FCBF (Anglais)
Définition: “[a feature selection] method which can identify relevant features as well as
redundancy among relevant features without pairwise correlation analysis.”
Collocation(s): fast correlation-based filter method (Anglais), fast correlation-based filter approach
(Anglais), to apply a fast correlation-based filter (Anglais)
Traduction(s): FCBF
(Français)
104
feature (Anglais) - nom
Concurrent(s): variable (Anglais)
Définition:
"A feature is a meaningful and distinguishing characteristic of a data sample
used by a classifier to associate it with a particular data category."
Collocation(s): to compute a feature (Anglais), the best feature (Anglais), the feature is
extracted (Anglais), the feature is added (Anglais)
Traduction(s): caractéristique (Français)
feature selection (Anglais) - nom
Concurrent(s): variable selection (Anglais)
Définition: the selection of a subset of features from a data set using an algorithm, to be used in
the construction of a predictive model
Collocation(s): to perform feature selection (Anglais), to conduct feature selection (Anglais), sparse
feature selection (Anglais), feature selection procedure (Anglais), to apply feature
selection (Anglais)
Traduction(s): sélection de caractéristiques (Français)
fusion (Anglais) - nom
Traduction(s): fusion
(Français)
fuzzy logic (Anglais) - nom
Traduction(s): logique floue (Français)
105
generalization (Anglais) - nom
Définition: "Statistical generalization involves inferring the results from a sample and applying
it to a population."
Traduction(s):
généralisation (Français)
ground truth (Anglais) - nom
Traduction(s): vérité terrain (Français)
linear discriminant analysis (Anglais) - nom
Concurrent(s): LDA
(Anglais)
Définition: a systematic statistical approach for supervised dimensionality reduction in
classification problems
Collocation(s): applicability of linear discriminant analysis (Anglais), linear discriminant analysis
generalizes (Anglais), linear discriminant analysis approach (Anglais), linear
discriminant analysis is used (Anglais)
Traduction(s): analyse discriminante linéaire (Français)
machine learning (Anglais) - nom
Définition: "Machine learning is the sub-field of artificial intelligence which focuses on methods to
construct computer programs that learn from experience with respect to some class of
tasks and a performance measure."
Traduction(s): apprentissage automatique (Français)
probability (Anglais) - nom
Traduction(s): probabilité
(Français)
106
quadratic discriminant analysis (Anglais) - nom
Concurrent(s): QDA
(Anglais)
Définition: "The quadratic discriminant analysis is a classification method sensitive to the
assumption
of multivariate normal distribution of the data."
Collocation(s): quadratic discriminant analysis is used (Anglais), using quadratic discriminant
analysis (Anglais), quadratic discriminant analysis is utilized (Anglais), quadratic
discriminant analysis is exploited (Anglais), quadratic discriminant analysis is
applied (Anglais), quadratic discriminant analysis performs (Anglais)
Traduction(s): analyse discriminante quadratique (Français)
radial basis function kernel (Anglais) - nom
Concurrent(s): RBF kernel (Anglais)
Définition: a kernel function that is widely used in kernelized learning algorithms like support
vector machines for classification
Collocation(s): a radial basis function kernel is used (Anglais), radial basis function kernel
parameter (Anglais), using a radial basis function kernel (Anglais)
Traduction(s): noyau à base radiale (Français)
sample (Anglais) - nom
Traduction(s): échantillon
(Français)
sequential floating forward selection (Anglais) - nom
Concurrent(s): sequential forward floating selection (Anglais), SFFS (Anglais)
Définition: “wrapper approach that selects or removes a feature according to some criterion
107
function that evaluates subsets instead of just comparison of feature pairs”
Collocation(s): to implement sequential floating forward selection (Anglais), sequential floating
forward selection procedure (Anglais), sequential floating forward selection algorithm
(Anglais), to apply sequential floating forward selection (Anglais)
Traduction(s): filtre à sélection de caractéristiques par corrélation rapide (Français), SFFS
(Français)
singular covariance matrix (Anglais) - nom
Définition: a covariance matrix that is not invertible
Traduction(s): matrice de covariance singulière (Français)
support vector machine (Anglais) - nom
Concurrent(s): SVM
(Anglais)
Définition: a machine learning method used to classify two different classes using features
contained in a data set
Collocation(s): to build a support vector machine (Anglais), support vector machine is applied
(Anglais), using the support vector machine (Anglais), success of the support vector
machine (Anglais)
Traduction(s): machine à vecteurs de support (Français)
test set (Anglais) - nom
Définition: a set of data used to determine the validity of a predictive relationship
Traduction(s): ensemble de test (Français)
to train (Anglais) - verbe
Traduction(s):
108
entraîner (Français)
training set (Anglais) - nom
Définition: a data set used to develop a predictive model
Traduction(s): ensemble d'apprentissage (Français)
uniform distribution (Anglais) - nom
Traduction(s): distribution uniforme (Français)
window (Anglais) - nom
Traduction(s): fenêtre
(Anglais)
109
Glossaire d’aide à la traduction FR>EN (export ARTES)
ajustement dynamique de la difficulté (Français) - nom
Concurrent(s): difficulté adaptive (Français), difficulté adaptative (Français), adaptation dynamique
de la difficulté (Français)
Collocation(s): système d'ajustement dynamique de la difficulté (Français)
Traduction(s): dynamic difficulty adjustment (Anglais)
analyse de la variance (Français) - nom
Concurrent(s): ANOVA
(Français)
Définition: ensembles de méthodes statistiques permettant d'identifer les facteurs qui
influencent un ensemble de données
Collocation(s): l'analyse de la variance montre (Français), réaliser l'analyse de la variance
(Français), en effectuant une analyse de la variance (Français), modèle d'analyse de
la variance (Français)
Traduction(s): analysis of variance (Anglais)
analyse discriminante linéaire (Français) - nom
Concurrent(s): LDA
(Français)
Définition: approche statistique systématique permettant de réduire le nombre de dimensions
dans le cadre de problèmes de classification
Collocation(s): effectuer une analyse discriminante linéaire (Français), l'analyse discriminante
linéaire est utilisée (Français), l'analyse discriminante linéaire de Fisher (Français)
Traduction(s): linear discriminant analysis (Anglais)
110
analyse discriminante quadratique (Français) - nom
Concurrent(s): QDA
(Français)
Définition: méthode de classification supposant une distribution normale à plusieurs variables
des données
Collocation(s): l'analyse discriminante quadratique est utilisée (Français), utiliser l'analyse
discriminante quadratique (Français), obtenir l'analyse discriminante quadratique
(Français), par analyse discriminante quadratique (Français), en recourant à une
analyse discriminante quadratique (Français)
Traduction(s): quadratic discriminant analysis (Anglais)
apprentissage automatique (Français) - nom
Définition: « L'apprentissage automatique est la discipline scientifique qui cherche à développer
des systèmes évoluant automatiquement avec l'expérience et à comprendre les lois
fondamentales sous-tendant les processus d'apprentissage. »
Traduction(s): machine learning (Anglais)
caractéristique (Français) - nom
Concurrent(s): variable
(Français)
Définition: attribut distinctif d'un échantillon de données, exploité par un classifieur dans le but
de l'associer à une catégorie de données précise
Collocation(s): la caractéristique est extraite (Français), pertinence d'une caractéristique (Français),
évaluer une caractéristique (Français)
Traduction(s): feature
(Anglais)
111
classe (Français) - nom
Traduction(s): class
(Anglais)
classification (Français) - nom
Définition: méthode permettant d'attribuer une classe à une nouvelle observation en fonction
d'un ensemble d'apprentissage
Traduction(s): classification
(Anglais)
classifieur (Français) - nom
Concurrent(s): classificateur (Français)
Définition: algorithme utilisé dans le traitement de caractéristiques extraites d'un ensemble de données pour
les assigner à une classe spécifique
Collocation(s): généralisation du classifieur (Français), construire le classifieur (Français), entraîner un classifieur (Français)
Traduction(s): classifier (Anglais)
diagonalisé (Français) - adjectif
Définition: application du procédé de diagonalisation en algèbre linéaire
Traduction(s): diagonalized (Anglais)
distribution uniforme (Français) - nom
Traduction(s): uniform distribution (Anglais)
décision (Français) - nom
Définition: prise de décision d'un classifieur ou autre outil statistique
112
Traduction(s): decision level (Anglais)
échantillon (Français) - nom
Traduction(
s): sample
(Anglais)
ensemble d'apprentissage (Français) - nom
Définition: ensemble de données permettant de construire un modèle prédictif
Traduction(s): training set
(Anglais)
ensemble de données (Français) - nom
Traduction(s): data set
(Anglais)
ensemble de test (Français) - nom
Définition: ensemble de données permettant d'évaluer la validité d'un modèle prédictif
Traduction(s): test set
(Anglais)
FCBF (Français) - nom
Concurrent(s): filtre à sélection de caractéristiques par corrélation rapide (Français)
Définition: approche de filtrage utilisant une mesure de corrélation afin de sélectionner les
caractéristiques les plus pertinentes et d'éliminer les plus redondantes
Collocation(s): méthode de sélection FCBF (Français), algorithme FCBF (Français)
Traduction(s): fast correlation-based filter (Anglais), FCBF (Anglais)
entraîner (Français) - verbe
Traduction(s):
113
to train (Anglais)
fenêtre (Français) - nom
Traduction(s): window (Anglais)
fusion (Français) - nom
Traduction(s): fusion
(Anglais)
généralisation (Français) - nom
Définition: application des résultats d'un échantillon à l'ensemble de la population
Traduction(s): generalization
(Anglais)
informatique affective (Français) - nom
Définition: étude et développement de systèmes et outils capables d'identifier et de traiter les
émotions humaines
Traduction(s): affective computing (Anglais)
intégration de la croyance de Bayes (Français) - nom
Traduction(s): Bayes' belief integration (Anglais)
logique floue (Français) - nom
Traduction(s): fuzzy logic (Anglais)
machine à vecteurs de support (Français) - nom
Concurrent(s): SVM
(Français)
Définition: méthodes d'apprentissage automatique pour la classification de deux classes à l'aide
114
des caractéristiques d'un ensemble de données
Collocation(s): utiliser une machine à vecteurs de support (Français), utlisant une machine à
vecteurs de support (Français), à l'aide d'une machine à vecteurs de support
(Français)
Traduction(s): support vector machine (Anglais)
matrice de confusion (Français) - nom
Définition: « Une matrice de confusion ou tableau de contingence sert à évaluer la qualité d'une
classification. Elle est obtenue en comparant les données classées avec des données
de référence qui doivent être différentes de celles ayant servi à réaliser la
classification. »
Traduction(s): confusion matrix (Anglais)
matrice de covariance (Français) - nom
Définition: matrice symmétrique où chaque élément est égal à la variance d'une variable et où
chaque élément diagonal est la covariance entre la variable d'une colonne et la
variable d'une ligne
Traduction(s): covariance matrix (Anglais)
matrice de covariance singulière (Français) - nom
Définition: matrice de covariance non inversible
Traduction(s): singular covariance matrix (Anglais)
noyau à base radiale (Français) - nom
Concurrent(s): noyau RBF (Français)
Définition: fonction noyau utilisée par de nobreux algorithmes d'apprentissage automatique,
notamment les machines à vecteurs de support pour la classification
115
Collocation(s): utiliser un noyau à base radiale (Français)
Traduction(s): radial basis function kernel (Anglais)
probabilité (Français) - nom
Traduction(s): probability
(Anglais)
sélection de caractéristiques (Français) - nom
Concurrent(s): sélection de variables (Français)
Définition: « La sélection de caractéristiques est une technique permettant de choisir les
caractéristiques, variables ou mesures les plus intéressantes, pertinentes ou
informantes, d’un système donné,pour la réalisation de la tâche pour laquelle il a
été conçu. »
Collocation(s): procédure de sélection de caractéristiques (Français), effectuer une sélection de caractéristiques (Français), la sélection de caractéristiques est appliquée (Français)
Traduction(s): feature selection (Anglais)
SFFS (Français) - nom
Concurrent(s): SffS
(Français)
Définition: algorithme heuristique sélectionnant le meilleur sous-ensemble de caractéristiques
dans l'ensemble de caractéristiques original grâce à des itérations de sélection et
d'exclusion successives
Collocation(s): méthode SFFS (Français), SFFS tente (Français)
Traduction(s): SFFS (Anglais), sequential floating forward selection (Anglais)
validation croisée (Français) - nom
Définition:
116
méthode permettant de déterminer la précision d'un modèle prédictif lors de son
application à un ensemble de données indépendant
Traduction(s): cross-validation (Anglais)
variable (Français) - nom
Concurrent(s):
caractéristique (Français)
Collocation(s): le poids d'une variable (Français), la variable possède (Français), la valeur d'une
variable (Français)
Traduction(s): variable
(Anglais)
vérité-terrain (Français) - nom
Traduction(s): ground truth (Anglais)
117
Texte source
Note : les passages traduits dans le cadre de ce mémoire sont :
I. Introduction
IV. Classification of the gaming conditions using physiological signals
V. Conclusion
118
Emotion Assessment From Physiological Signals for Adaptation of Game Difficulty
Guillaume Chanel, Cyril Rebetez, Mireille Bétrancourt, and Thierry Pun, Member, IEEE Abstract—This paper proposes to maintain player’s
engagement by adapting game difficulty according to player’s emotions assessed from physiological signals. The validity of this approach was first tested by analyzing the questionnaire responses, electroencephalogram (EEG) signals, and peripheral signals of the players playing a Tetris game at three difficulty levels. This analysis confirms that the different difficulty levels correspond to distinguishable emotions, and that, playing several times at the same difficulty level gives rise to boredom. The next step was to train several classifiers to automatically detect the three emotional classes from EEG and peripheral signals in a player-independent framework. By using either type of signals, the emotional classes were successfully recovered, with EEG having a better accuracy than peripheral signals on short periods of time. After the fusion of the two signal categories, the accuracy raised up to 63%.
Index Terms—Electroencephalography, emotion assessment, games, pattern classification, signal analysis
I. INTRODUCTION
UE TO their capability to present information in an interactive and playful way, computer games have
gathered increasing interest as tools for education and training [1]. Games are also interesting from a human–computer interaction point of view, because they are an ideal ground for the design of new ways to communicate with machines. Affective computing [2] has opened the path to new types of human–computer interfaces that adapt to affective cues from the user. As one of the main goals of games, which is to provide emotional experiences such as fun and excitement, affective computing is a promising area of research to enhance game experiences. Affective information can be used to maintain involvement of a player by adapting game difficulty or content to induce particular emotional states [3]. For this purpose, automatic assessment of emotions is mandatory for the game to adapt in real time to the feelings and involvement of the player, without interrupting his/her gaming experience (like it would be the case by using questionnaires). This paper thus focuses on emotion assessment from physiological signals in the context of a computer game application.
Physiological signals can be divided into two categories: those originating from the peripheral nervous system [e.g., heart rate, electromyogram, galvanic skin response (GSR)] and those coming from the central nervous system [e.g., electroencephalogram (EEG)]. In recent years, interesting results have been obtained for emotion assessment with the
first category of signals. Very few studies, however, have used the second category, even though the cognitive theory of emotions states that the brain is heavily involved in emotions [4].
One of the pioneering work on emotion assessment from peripheral signals is [5] where the authors detected eight self-induced emotional states with an accuracy of 81%. In [6], six emotional states, elicited by film clips, were classified with an accuracy of 84%. In a gaming context, Rani et al. [7] proposed to classify three levels of intensity for different emotions. The emotions were elicited by stimulating participants with a Pong game and anagram puzzles. The best average accuracy obtained with this method was of 86%. The classifiers developed in this paper were used in [3] to adjust game difficulty in real time based on anxiety measures. In this case, the accuracy dropped to 78%, but a significant improvement of player experience was reported compared to difficulty adjustment based on performance. This demonstrates the interest of using affective computing for the purpose of game adaptation. In [8], the authors proposed to continuously assess the emotional state of a player using an approach based on fuzzy logic. The obtained results showed that the emotional state evolved according to the events of the game, but no exact measure of performance was reported. Nevertheless, this tool could be used to include the player’s experience in the design of innovative video games. In [9], three emotional states were detected from peripheral signals with an accuracy of 53%. The emotions were elicited by using a Tetris game. This paper is a significant extension of this work, which, in particular, now takes into account the analysis of EEG signals.
There is an increasing amount of psychological literature pointing toward the hypothesis that emotions result from a series of cognitive processes [10], [11]. There is also evidence of different patterns of brain activity during the presentation of emotional stimuli. For instance, depending on the nature of reactions (approach or withdrawal), Davidson [12] showed prefrontal lateralization of alpha waves as well as distinct activations of the amygdala. Aftanas et al. [13] reported differences in event-related desynchronization/synchronization during the visualization of more or less arousing images. In the emotional recall context, Smith et al. [14] showed an augmentation of
D
119
Fig. 1. Flow chart and the suggested automatic adaptation to emotional reactions.
activity in the connections between the hippocampus and the amygdala during the recollection of negative events compared to neutral events. These works emphasize the importance of using brain signals to improve temporal resolution and classification accuracy in emotion assessment. Among the studies that recognize emotional states from EEG, Takahashi [15] obtained an accuracy of 42% to recognize five emotional states elicited by film clips. In [16], three self-induced emotional states were recognized with an accuracy of 68%. Other works tried to infer operator engagement, fatigue, and workload by using EEG signals in order to adapt the complexity of a task [17]–[21]. To our knowledge, however, this paper is the first to report on the use of EEG signals for emotion assessment in a gaming paradigm.
Games can elicit several emotional states, but knowing all of them is not necessary to maintain involvement in the game. Many representations of the player’s affective state have been used in previous studies like anxiety, frustration, engagement, distress scales, and the valence-arousal space [22], [23]. According to emotion and flow theories [10], [24], strong involvement in a task occurs when the skills of an individual meet the challenge of a task (Fig. 1). Too much challenge would increase workload which would then be appraised by the player as anxiety. Similarly, not enough challenge would induce boredom. Both these situations would restrain the player’s ability to achieve a “flow experience,” leading to less involvement, engagement, and possibly interruption of the game [25].
In a game, the change from an emotional state to another can occur due to two main reasons. First, the difficulty is increased because of the progression in different levels, but the increase is too fast compared to the competence increase of the player (potentially giving rise to anxiety; see Fig. 1). Second, the competence of the player has increased while the game remained at the same difficulty (potentially giving rise to boredom). In both cases, the challenge should
be corrected to maintain a state of pleasure and involvement, showing the importance of having games that adapt their difficulty according to the competence and emotions of the player. Based on this theory, we defined three emotional states of interest that correspond to three well-separated areas of the valence-arousal space: boredom (negative calm), engagement (positive excited), and anxiety (negative excited).
This paper attempts to verify the validity and usefulness of the three defined emotional states by using a Tetris game where the challenge is modulated by changing the level of difficulty. Self-reports as well as physiological activity were obtained from players by using the acquisition protocol described in Section II. Using those data, three analyses were conducted. The first aims at validating the applicability of the flow theory for games (see Section III). In the second analysis, detailed in Section IV, physiological signals were used for the purpose of classification of the different states. In this case, since one of the goals of this paper is to go toward applications, particular attention was paid to designing classifiers that could be used for any gamer without having to retrain it.
II. DATA ACQUISITION
A. Acquisition Protocol
A gaming protocol was designed for acquiring physiological signals and gathering self-reported data. The Tetris game was chosen in this experiment for the following reasons: It is easy to control the difficulty of the game (speed of falling blocks); it is a widely known game so that we could expect to gather data from players with different skill levels (which occurred); and it is playable using only one hand, which is mandatory since the other hand is used for the placement of some data acquisition sensors.
The difficulty levels implemented in the Tetris game were adapted to have a wider range of difficulties than in the original game. The new levels ranged from 1 to 25 with the blocks going down a line every 0.54 s at level 1 and 0.03 s at level 25. The speed of the falling blocks at the intermediate levels increased exponentially with the level. Other modifications to the original Tetris allowed playing without changing the difficulty level for a given amount of time. Each time the blocks reach the top of the Tetris board, a game-over event was reported, the board was cleared, and the participant could continue to play.
Twenty participants (mean age is 27; 13 males; all right handed) took part in this study. After signing a consent form, each participant played Tetris several times to determine the game level where he/she reported engagement. This was done by repeating three times the threshold method, starting from a low level and progressively increasing it until engagement was reported by the participant or starting from a high level and decreasing it. The average of the obtained
120
levels was then considered as the participant’s skill level. Depending on this skill level, three experimental conditions were determined: medium condition (game difficulty equal to the player’s skill level), easy condition (lower difficulty, computed by subtracting eight levels of difficulty from the player’s skill level), and hard condition (higher difficulty, computed by adding eight levels). The participants of the study reported to be engaged at different levels ranging, for most of them, from 11 to 16, confirming that they had different Tetris skills.
Participants were then equipped with several sensors to measure their peripheral physiological activity: a GSR sensor to measure skin resistance, a plethysmograph to record blood volume pulse (BVP), a respiration belt to estimate chest cavity expansion, and a temperature sensor to measure palmar changes in temperature. Those sensors are known to measure signals
Fig. 2. Schedule of the protocol.
that are related to particular emotional activations as well as useful for emotion detection (see Section II-B). In addition, an EEG system was used to record central signaling from 14 of the 20 participants. In this paper, 19 electrodes were positioned on the skull of the participants according to the 10–20 system [26]. As demonstrated in other studies, EEGs can help in assessing emotional states and is also useful in providing an index of task engagement and workload [17]–[20]. Peripheral and EEG signals were recorded at a 256-Hz sampling rate using the Biosemi Active 2 acquisition system.12 This sampling rate allows keeping the frequency bands of interest for this study.
Once equipped with the sensors, the participants took part in six consecutive sessions (Fig. 2). For each session, the participants had to follow three steps: stay calm and relax for at least 1 min and 30 s, play the Tetris game for 5 min in one of the three experimental conditions (difficulty level), and finally answer a questionnaire. The first step was useful to let the physiological signals return to a baseline level, to record a baseline activity, and to provide a rest period for the participants. For the second step, each experimental condition was applied twice and in a random order to account for side effects of time in questionnaires and physiological data. The goal of participants was to perform the highest possible score. To motivate them
12 Technical details are available at http://www.biosemi.com.
toward this goal, a prize of 20 Swiss francs was offered to three of the participants having the highest score (the participants were divided in three groups according to their competence). The questionnaire was composed of 30 questions related to both the emotions they felt and their level of involvement in the game. The answer to each question was given on a seven-point Likert scale. Additionally, participants rated their emotions in the valence-arousal space using the self-assessment manikin [27] scales.
B. Feature Extraction
Once the data are acquired, it is necessary to compute features from the signals in order to characterize physiological activity for the different gaming conditions. The features were generally computed over the complete duration of a given session, except in Section IV-D where the features were computed on shorter time windows to analyze the effect of time on emotion-assessment accuracy. Two sets of features were computed: the first set includes the features computed from the EEG signals, and the second includes those computed from the peripheral signals.
In this paper, the collected data are not analyzed for each participant separately but as a whole. It is, thus, necessary
TABLE I
ENERGY FEATURES COMPUTED FOR EACH ELECTRODE AND THE ASSOCIATED FREQUENCY BANDS
that the patterns of emotional responses remain stable across participants. Although different patterns of emotional responses have been found in psychophysiological studies, Stemmler [28] argues that they are due to context deviation specificity. Since, in the current study, the emotions are elicited in the same context (the video game), this should reduce interparticipant variability. Nevertheless, to further reduce this variability, the physiological signals acquired during the last minute of the rest period were used to compute a baseline activity for each session (six baseline per participant) that was subtracted from the corresponding physiological features.
1) EEG Features: Prior to extracting features from EEG data, we need to remove noise by preprocessing the signals. Environment noise and drifts were removed by applying a 4–45-Hz bandpass filter. The signals were visually checked in order to ensure that the remaining artifacts did not exceed 5% of the signal. The second step was to compute a local reference by applying a local Laplacian filter [29] to render the signals independent of the reference electrode position and to reduce artifact contamination. For the Laplacian filter computation, the neighboring electrodes were considered as lying in a radius of 4 cm from the filtered electrode.
121
The set of features described in this section was defined to represent the energy of EEG signals in frequency bands known to be related to emotional processes [12], [13]. For each electrode i, the energy in the different frequency bands displayed in Table I was computed for a session, using the fast Fourier transform (FFT) algorithm. Moreover, the following EEG_W feature (1) was computed from the Ne
electrodes. This feature is known to be related to cognitive processes like workload, engagement, attention, and fatigue [20], which are cognitive states of interest in our paper. In many studies, the EEG_W feature is computed from only three to four electrodes [17], [18], [20]. However, there is high discrepancy among studies in the electrodes used. Moreover, the playing of a video game can stimulate several brain areas (for instance, the occipital lobe for visual processing, the auditory cortex of the parietal and temporal lobes, and the frontal lobe for emotional processing). For those reasons, all the electrodes were included in the computation of the EEG_W feature
. (1)
The EEG_FFT feature set thus contains a total of 3 × 19 + 1
= 58 features (three frequency bands and 19 electrodes plus
the EEG_W feature).
2) Peripheral Features: Many studies in psychophysiology have shown correlations between signals of the peripheral nervous system and emotions; effectiveness of such signals in emotion assessment is now fully demonstrated as detailed in
TABLE II FEATURES EXTRACTED
FROM PERIPHERAL SIGNALS
the introduction. All data were first filtered by a mean filtering to remove noise. For this purpose, we used a rectangular filter of length 128 for GSR, 128 for temperature, and 64 for chest cavity expansion.
GSR provides a measure of the resistance of the skin (electrodermal activity) by positioning two electrodes on the distal phalanges of the index and middle fingers. This resistance decreases due to an increase of sudation, which usually occurs when one is experiencing emotions such as stress or surprise. Moreover, Lang et al. discovered that the mean value of the GSR is related to the level of arousal [30]. The number of GSR falls was also computed by identification of the signal local minima. The features extracted from electrodermal activity are presented in Table II.
A plethysmograph was placed on the thumb of the participant to evaluate the BVP. This signal is not only used as a measure of BVP but also to compute heart rate (HR) by identification of local minima (i.e., foot of the systolic upstroke) and interbeat periods. Blood pressure and HR
122
variability are variables that correlate with defensive reactions [31], pleasantness of a stimuli [30], and basic emotions [32]. The HR signal energy in low frequencies (0.05–0.15 Hz) and high frequencies (0.15–1 Hz), as well as the ratio of these energies, was computed because they are indicators of parasympathetic and sympathetic activities [33].
Chest cavity expansion was measured by tying a respiration belt around the chest of the participant. Slow respiration is linked to relaxation, while irregular rhythm, quick variations, and cessation of respiration correspond to more aroused emotions like anger or fear [32], [34]. To characterize this process, we rely on features from both the frequency and time domain
(Table II). Skin temperature was measured by placing a sensor on
the distal phalange of the ring finger. Ekman et al. [35] found a significant increase of skin temperature for anger compared to his five other basic emotions (sadness, happiness, fear, surprise, and disgust). McFarland [36] found that stimulating persons with emotional music led to an increase of temperature for calm positive music and a decrease for excited negative pieces.
III. ANALYSIS OF QUESTIONNAIRES AND OF
PHYSIOLOGICAL FEATURES
In this section, the data gathered from the questionnaires and from the computed physiological features are analyzed to control the applicability of the flow theory for games. For this purpose, the validity of the following two hypotheses was tested.
1) H1: Playing in the three different conditions (difficulty levels) will give rise to different emotional states.
2) H2: As the skill increases, the player will switch from an engagement state to a boredom state (see Fig. 1).
A. Elicited Emotions
1) Questionnaires: To test for hypothesis H1, a factor analysis was performed on the questionnaires to find the axes of maximum variance. The first two components were obtained from the factor analysis account for 55.6% of the questionnaire variance and were found to be associated with higher eigenvalues than the other components (the eigenvalues of the first three components are 10.2, 8.2, and 1.7). The questionnaire answers given for each session were then projected in the new space formed by the two components, and an analysis of variance (ANOVA) test was applied to those new variables to check for differences in the distribution of judgment for the different conditions. By looking at the weights of the two components, the following was found.
1) The first component was positively correlated with the questions related to pleasure, amusement, interest, and motivation.
2) The second component was positively correlated with the question corresponding to levels of excitation and pressure and negatively correlated with calm and control levels.
The ANOVA test, applied on the data projected on the first component (see Fig. 3), showed that participants felt lower pleasure, amusement, interest, and motivation for the easy and hard conditions than for the medium one (F = 46,p < 0.01). Differences in the three distributions obtained from the second
Fig. 3. Mean and standard deviation of judgment for each axis of the two (comp.) component space and the different (diff.) difficulties: easy, (med.) medium, and hard.
component demonstrated that increasing difficulty led to higher reported excitation and pressure as well as lower control (F = 232,p < 0.01). This demonstrates that an adequate level of difficulty is necessary to engage players in the game so that they feel motivated and pleased to play. Moreover, those results also validate hypothesis H1 since they show that the different playing difficulties successfully elicited different emotional states with various levels of pleasure and arousal. According to the self-evaluations, those states were defined as boredom for the easy condition, engagement for the medium condition, and anxiety for the hard condition.
2) Peripheral Features: The physiological features were subjected to an ANOVA test to search for differences in activation for the different conditions and analyze the relevance of those features for emotion assessment. For this purpose, the ANOVA test was applied on the three distributions, and the F-values and p-values are reported in Table III. Moreover, the ANOVA test was also applied to check for differences between the easy and medium conditions as well as between the medium and hard conditions. If a difference is significant (p-value < 0.1), the trend of the mean from a condition to another is reported in Table III.
123
The decrease observed for the µGSR, δGSR, and fGSRDecRate
features and the increase of the fGSRNbPeaks between the easy
and medium conditions indicate an increase of electrodermal activity when progressing from the easy to the medium difficulty level. Between the easy and medium conditions, a significant decrease of temperature is also observed. Those results are in favor of an increase of arousal between the easy and the medium conditions. More specifically, the increase in the number of GSR peaks indicates that the changes in arousal are not only due to workload increase but also to some specific events that triggered emotional reactions. When analyzing the GSR feature changes between the medium condition and the hard conditions, only the fGSR
DecTime feature (percentage of negative samples in the GSR derivative) is significantly increasing. An increase of mean HR and a decrease of temperature are also observed between the same conditions. Those results suggest that there is also an increase of arousal between the medium and hard conditions but to a lesser extent than between the easy
TABLE III
F-VALUES AND p-VALUES OF THE ANOVA TESTS APPLIED ON THE PERIPHERAL FEATURES FOR THE THREE DIFFICULTY LEVELS. ONLY THE
RELEVANT FEATURES ARE PRESENTED (p-VALUE < 0.1). THE “TREND OF THE
MEAN” COLUMN INDICATES THE DIFFERENCES BETWEEN TWO CONDITIONS. FOR INSTANCE, INDICATES A SIGNIFICANT
DECREASE OF THE VARIABLE FROM THE EASY TO THE MEDIUM CONDITION (FIRST ) AND FROM THE MEDIUM TO THE HARD
CONDITION (SECOND ), WHILE → INDICATES NO SIGNIFICANT
DIFFERENCES BETWEEN THE EASY AND MEDIUM CONDITIONS AND A SIGNIFICANT INCREASE TO THE HARD CONDITION
TABLE IV
LIST OF THE RELEVANT EEG FEATURES (p-VALUE < 0.1) GIVEN BY
FREQUENCY BAND AND ELECTRODE
and medium conditions. In summary, an increased arousal is observed for increasing game difficulty, supporting the results obtained from the analysis of the questionnaires.
As can be seen from Table III, a total of ten features were found to have significantly different distributions among the three difficulties. This suggests that the conditions correspond to different emotional states and demonstrates the interest of those features for later classification of the
three conditions. One feature of particular interest is , which is the HR energy in low-frequency bands, because it has a lower value for the medium condition than for the two others, showing that this condition can elicit particular peripheral activation. This is also one of the only features that can help distinguish the medium condition from the two others.
3) EEG Features: An ANOVA test was also performed on each EEG feature to test for differences among the three conditions. Table IV gives a list of the EEG features that are relevant (p-value < 0.1). No feature corresponding to the energy in the alpha band was significantly different among the three conditions. However, several features in the theta and beta bands were significantly different, which shows their interest for automatic assessment of the three conditions. To illustrate the EEG activity, we focused on the EEG_W feature since it is a combination of the other features and is known to be related to cognitive processes such as engagement and workload [20].
Fig. 4. Boxplot of the EEG_W values for the three conditions. The middle line represents the median of the EEG_W values, the box represents the quartile, and the whiskers represents the range. NS: nonsignificant.
Significant differences were observed for the EEG_W feature among the three conditions (F = 5.5,p < 0.01). Fig. 4 shows the median and quartiles of the EEG_W values for each condition. Since for the medium difficulty the participants reported higher interest and motivation than for the easy and hard conditions, it was expected that the mean of the EEG_W values would be significantly higher for the medium condition. However, as can be seen from Fig. 4, there is an increase in the median of the EEG_W values as the difficulty increases. The differences between the medium and hard conditions as well as between the easy and hard conditions
124
are significant according to the ANOVA test. In our view, this reflects the fact that the EEG_W feature is more related to workload than to engagement. The participants involved more executive functions in the hard condition than in the medium one, even if they were less engaged.
B. Evolution of Emotions in Engaged Trials
Hypothesis H2 was tested by focusing on the data of the two sessions corresponding to the medium condition where the participant is expected to be engaged. Both physiological and questionnaire data were analyzed using a pairwise t-test to verify that there was a decrease of engagement from the first session to the second session.
The pairwise t-test used on the variables of the
questionnaire showed a significant decrease from the first
medium condition to the second medium condition for the
questions “I had pleasure to play” (t = −1.8,p = 0.09) and “I
had to adapt to the interface” (t = −3,p = 0.06). From
peripheral signals, a decrease in the number of GSR peaks
fGSRNbPeaks (t = −2.4,p = 0.02), as well as an increase in the
average of temperature µTemp (t = 2.6,p = 0.02), and in the
average of temperature derivative δTemp (t = 2.3,p = 0.03)
was found.
Those results are indicative of a decrease of arousal and pleasure while playing twice in the same condition, thus supporting hypothesis H2. The result obtained for the question “I had to adapt to the interface” gives a cue that this decrease could be due to an increase of the player’s competence. However, the competence changes were not measured with other indicators to confirm this possibility. In any case, those results demonstrate the importance of having automatic adaptation of the game’s difficulty when the challenge of the game remains the same.
IV. CLASSIFICATION OF THE GAMING CONDITIONS USING
PHYSIOLOGICAL SIGNALS
A. Classification Methods
In this section, the classification accuracy that can be expected from emotion assessment is investigated. For this purpose, classification methods were applied on the data gathered from the gaming protocol. The ground-truth labels were defined as the three gaming conditions, each one being associated to one of the three states: boredom (easy condition), engagement (medium condition), and anxiety (hard condition).
Three classifiers were applied on this data set: a linear discriminant analysis (LDA), a quadratic discriminant analysis (QDA), and a support vector machine (SVM) with radial basis function (RBF) kernel [37], [38]. The diagonalized versions of the LDA and the QDA were employed because of the low number of samples, which
sometimes gives rise to the problem of singular covariance matrices. The size of the RBF kernel was chosen by applying a five-fold cross-validation procedure on the training set and finding the size yielding the best accuracy. The tested size values belonged to the 5.10−3–5.10−1 range with a step of 5.10−3.
The following cross-validation method was employed to compute the test accuracy of the classifiers. For each participant, a classifier was trained using the features of other participants; accuracy was then computed by applying the trained model on the physiological data of the tested participant. Since the classifier is tested on the data of participants that are not present in the training set, this method allows evaluating the performance of the classifier in the worst case where the model is not user specific, i.e., no information about the specificity of the user’s physiology is required for emotion assessment, except for a baseline recording of 1 min. Due to the interparticipant variability that remains in physiological activity after baseline subtraction, player-independent classifiers will certainly yield a lower accuracy than player-dependant classifiers. However, this approach allows designing applications where it is not necessary to train a classifier for each user which is drastically time consuming [3].
Three feature-selection algorithms were applied on this problem to find the features that provide good generalization across participants. All those algorithms were applied on the training set to select features of interest, and only the selected features were used for the classification of the test set. An ANOVA feature selection was applied to keep only the features that are relevant to the class concept (p-value < 0.1). The fast correlation-based filter (FCBF) [39] was applied to select relevant features and remove redundant ones. The δFCBF threshold was set to 0.2 because of the following: 1) It was shown in [40] that this value is relevant for FCBF EEG feature selection; and 2) the number of features that has a correlation with the classes higher than 0.2 (7 for peripheral features and 23 for EEG features) is similar to the number of relevant features found using the ANOVA test (10 for peripheral features and 20 for EEG features). Finally, the sequential forward floating selection (SFFS) algorithm [41] was also used to select features of interest, including potentially interacting features. To search for features that have good generalization across participants, the accuracy of a feature subset was estimated by computing the participant cross-validation accuracy on the training
125
Fig. 5. Accuracies of the different classifiers and feature-selection methods on the peripheral features.
set. The maximum size of a feature subset for the SFFS algorithm was set to 18 for peripheral features and 20 for EEG features.
The fusion of the EEG and peripheral information was performed to improve classification accuracy. This fusion was performed at the decision level [42], by combining the outputs of the classifiers using the Bayes’ belief integration [43]. For Bayes’ belief integration, the errors produced by the classifiers are expressed by the probabilities P(y|yˆq) that a classifier q estimates a class as being yˆq, while the true class was y. These probabilities can be computed from the confusion matrices obtained from the training set. The fusion is then performed by assuming classifier independency and choosing the class y that maximizes the following probability:
(2)
where Q is the ensemble of classifiers used for the fusion.
Since the EEG signals were recorded only for 14 out of the 20 participants, the available number of samples for EEGbased classification is not the same as for peripheral-based classification. For this reason, the results obtained from EEG and peripheral features are separated in two sections with classification algorithm applied on 14 participants for EEG and 20 participants for peripheral features. In Section IV-D, the classification accuracies obtained with EEG and peripheral features on different time scales are compared, while the fusion of peripheral and EEG modalities is investigated in Section IV-E. In both cases, the classification accuracy was computed only on the 14 participants having EEG recorded.
B. Peripheral Signals
Fig. 5 presents the accuracies obtained by applying the classification methods on the features extracted from the
peripheral signals. Without feature selection, the LDA obtained the best accuracies of 54% showing its ability to find a boundary that generalizes well across participants. In any case, the accuracies are higher than the random level of 33%. Except for the ANOVA, the feature-selection methods always improved the classification accuracies. The best accuracy of 59% is obtained with the QDA combined with the SFFS feature selection. However, the FCBF results (58%) are not significantly different from those obtained with the SFFS algorithm because of the high variance of the accuracies. Moreover, the variance of the accuracies obtained with SFFS tends to be higher than those obtained with the FCBF which shows that the FCBF is more stable than the SFFS algorithm in selecting the proper features. According to the results and considering that the FCBF is much faster than the SFFS, the FCBF can be considered as the best feature-selection algorithm for this classification scheme.
Since the participant cross-validation method was used, the feature-selection algorithms were applied 20 times on different training sets. For this reason, the features selected at each iteration of the cross-validation procedure can be different. The histograms of Fig. 6 show, for each feature, the number of times it was selected by a given feature-selection algorithm. The average number of selected features is 3.5 for the FCBF, 9.35 for the ANOVA feature selection, and 4.8 for the SFFS. The ANOVA nearly always selected the features that were found to be relevant in Section III-A but with poor resulting accuracy (Fig. 5). Owing to the removal of redundant features, the FCBF strongly reduces the original size of the feature space with a good resulting accuracy. Moreover, this algorithm nearly always selected the same features independently of the training set showing its stability. The SFFS also obtained good performance, but as can be seen from Fig. 6, some of the features were selected only on some of the training sets, showing that this algorithm is less stable than the FCBF.
By inspecting the SFFS, FCBF, and ANOVA selected features, the fGSR
DecTime and fGSRNbPeaks features were always
selected which shows their importance for the classification of the three conditions from physiological signals. To our knowledge, similar features have been used only in [44] for emotion assessment despite of their apparent relevance. The µHR feature was frequently selected by the FCBF but never by the SFFS and vice versa for the σResp feature. The σResp feature was removed by the FCBF because it was correlated with µHR. However, the SFFS kept the σResp feature based on its predictive accuracy which suggests that this feature may be better than µHR for classification. Finally, the temperature features were also found to be frequently relevant.
Because of its good accuracy and low computational time, the FCBF algorithm coupled with QDA classification was used for further analyses involving the peripheral modality. Table V presents the confusion matrix for the three classes: It can be seen that the boredom condition was well classified, followed by the anxiety condition. Samples from the
126
engagement condition tend to be classified mostly as bored samples and also as anxious samples. This is not surprising since this condition lies in between the others. Notice that 21% of the samples belonging to the anxiety class are classified as bored samples; this can be due to the fact that some participants completely disengaged from the task because of its difficulty, reaching an emotional state close to boredom. In this case, the adaptive game we propose would increase the level of difficulty since the detected emotion would be boredom, which is not the proper decision to take. A solution to correct this problem could be to use contextual information such as the current level of difficulty and the direction of the last change in difficulty (i.e., increase or
decrease) to correctly determine the action to take. TABLE V
CONFUSION MATRIX FOR THE QDA CLASSIFIER WITH FCBF FEATURE SELECTION
Fig. 7. Accuracies of the different classifiers and feature-selection methods
on the EEG features.
C. EEG Signals
All the classification methods obtained accuracy higher than the random level of 33% (Fig. 7). Without feature selection, the LDA had the best accuracy of 49%, followed by the RBF SVM with 47%. As with the peripheral features, these results demonstrate the ability of linear and support vector classifiers to well generalize across the participants. The best result of 56% was obtained by the LDA coupled with ANOVA feature selection. The ANOVA feature-selection method always had a better performance than the other methods. To our knowledge, these are the first results concerning the identification of gaming conditions from EEG signals, particularly considering that the classifiers were trained using a cross-participant framework.
Fig. 6. Histograms of the number of cross-validation iterations (over a total of 20) in which the features have been selected by the FCBF, ANOVA, and SFFS feature-selection algorithms. The SFFS feature selection is displayed for the QDA classification.
127
As can be seen from Fig. 8, the FCBF selected less features than the two other feature-selection methods. It selected 3.1 features in average compared to 20.3 for the ANOVA and 13.0 for the SFFS coupled with the LDA. This explains the low accuracy obtained with the FCBF and shows that good accuracies on this problem can be obtained only by concatenating several features. The ANOVA algorithm often selected the features described in Section III-A. The SFFS coupled with the LDA had accuracies close to those of the ANOVA with LDA but by selecting less features in average. For this reason, the features selected by this method are of particular importance for accurate classification of the three gaming conditions. The more often selected features (selected more than eight times) were the theta band energies of the T7, O1, Cz, P4, and P3 electrodes and the beta band energies of the P7, Pz, and O2 electrodes. This result shows that the occipital and parietal lobes were particularly useful for the differentiation of the three gaming conditions.
The confusion matrix displayed in Table VI for the LDA and FCBF methods shows that the different classes were detected with similar accuracies. The medium condition still has the lowest accuracy but is better detected than when
using the peripheral features. On the other hand, the easy condition is detected with less accuracy than with peripheral features. This indicates that the fusion of the two modalities should increase the overall accuracy.
D. EEG and Peripheral Signals
In order to compare the accuracies obtained using either EEG or peripheral signals, the best combinations of classifiers and
TABLE VI
CONFUSION MATRIX FOR THE LDA CLASSIFIER WITH ANOVA
FEATURE SELECTION
feature-selection methods were applied on the physiological database with the same number of participants for both modalities (the 14 participants for whom EEG was recorded). Moreover, the comparison was conducted for different time scales to analyze the performance of each modality as a function of the signal duration used for the feature
Fig. 8. Histograms of the number of cross-validation iterations (over a total of 14) in which features have been selected by the FCBF, ANOVA, and SFFS feature-selection algorithms. The SFFS feature selection is displayed for the LDA classification.
128
computation. For this purpose, each session (see Fig. 2) was divided into one to ten nonoverlapping windows of 300/W s, where W is the number of windows and 300 s is the duration of a session. EEG and peripheral features were then computed from each window, and the label of the session was attributed to these features. By using this method, a database of physiological features was constructed for each window size ranging from 30 to 300 s.
For a database in which the features were computed from
W windows, the number of samples for each class is 20 × 2 ×
W (20 participants, 2 sessions per class, and W windows per
session). Thus, the number of samples per class increases
with W.
Since the number of samples can influence classification accuracy and the goal of this study is to analyze the performance of EEG and peripheral features at different time scales, it is important that this comparison be conducted with the same number of samples for each window’s length. To satisfy this constraint, one sample was chosen randomly from each session using a uniform distribution to have 20 × 2 = 40 samples per class. The classification algorithms were then applied on this reduced database. This was repeated 1000 times for each value of W to account for the different possible combinations of the windows (except for W = 1). Notice that it is not possible to perform classification for all window combinations since there are W40 of such combinations.
By using this method, the average accuracies over the 1000 iterations are displayed in Fig. 9. The small accuracy oscillations that can be observed for small time windows (less than 100 s) are likely due to the increase of the number of possible combinations of windows. As can be seen from Fig. 9, the accuracy obtained for the peripheral signals with the original duration of the sessions (300 s) is not significantly different from the one obtained with all of the 20 participants (see Section IV-B). Thus, having 13 or 19 participants for classifier training (because of participant cross validation) does not significantly change the classification performance. This suggests that adding more participants to the current database would not increase classification accuracies, and that, recording
Fig. 9. Classification accuracy as a function of the duration of a trial for EEG and peripheral features.
TABLE VII
CONFUSION MATRIX FOR THE “BAYES’ BELIEF INTEGRATION” FUSION
14 to 20 participants is enough to obtain reliable accuracy estimations.
For both modalities, decreasing the duration of the window on which the features are computed leads to a decrease of accuracy. However, this decrease is stronger for peripheral features than for EEG features. For the EEG features, the accuracy drops from 56% for windows of 300 s to around 51% for windows of 30–50 s. For the peripheral features, the accuracy is 57% for windows of 300 s and around 45% for windows of 30–50 s. Moreover, the EEG accuracy remains approximately the same for windows having duration inferior to 100 s, while the peripheral accuracy continues to decrease. All those results demonstrate that the EEG features are more robust on short-term assessment than the peripheral features. For our application, adapting the difficulty of the Tetris game based on the physiological signals gathered during precedent 5 min may be undesirable since there is a high probability that the difficulty of the game has changed during this laps of time due to usual game progress. Having modalities, like EEG, that are able to estimate the state of the user on shorter time periods is thus of great interest.
E. Fusion
As can be seen from the confusion matrices obtained from the classification based on the peripheral and EEG features (Tables V and VI), the errors made with these two feature sets are quite different. The Bayes’ belief integration is well suited for this type of problem and, thus, was employed for the fusion of the best classifiers found for each feature set (the LDA couples with ANOVA for EEG features and the QDA couples with FCBF for peripheral features). Another advantage of the Bayes’ belief integration is that the probabilities P(y|yˆq) as in (2) can be estimated independently for the two classifiers. It was thus possible to use the training data of 19 participants to compute probabilities for the peripheral features, while only 13 participants were used for the EEG features. The resulting accuracy and confusion matrices were obtained by using the participant cross validation applied on the 14 participants for whom both EEG and peripheral activity were recorded.
The accuracy obtained after fusion was 63% which corresponds to an increase of 5% compared to the best accuracy obtained with the peripheral features. Table VII
129
presents the confusion matrix obtained after fusion. By comparing this table to Tables V and VI, it can be observed that the detection accuracy of the easy and the hard classes was increased by 2% and 7%, respectively, compared to the accuracy obtained with the best feature set (peripheral features for the easy class and EEG features for the hard class). The accuracy obtained on the medium class with fusion (39%) is lower than the one obtained with EEG features (50%) but higher than with peripheral features (33%). When performing classification based either on EEG or peripheral features, many of the hard samples were classified as easy, while this problem was solved after fusion. All these results demonstrate the interest of peripheral and EEG fusion at the decision level for a more accurate detection of the three conditions.
The accuracy obtained in the present study is 15% lower than the one obtained in [3]. However, according to the confusion matrix presented in Table VII, the adjusted level of difficulty using the current method should oscillate around the true difficulty level where the participant experiences engagement. It is thus expected that our method will also improve a player’s experience. Moreover, as stressed before, the current method only requires a baseline recording of 1 min for each new player, compared to the recording of six 1-h training game sessions for each participant in [3].
V. CONCLUSION
This paper has investigated the possible use of emotion assessment from physiological signals to adapt the difficulty of a game. A protocol has been designed to record physiological activity and gather self-reports of 20 participants playing a Tetris game at three different levels of difficulty. The difficulty levels were determined according to the competence of the players on the task. Two types of analysis have been conducted on the data: First, a statistical analysis of self-reports and physiological data has been performed to control that different cognitive and emotional states were elicited by the protocol; second, classification has been conducted to determine whether it is possible to detect those states from physiological signals.
The results obtained from the analysis of self-reports and physiological data have showed that playing the Tetris game at different levels of difficulty gave rise to different emotional states. The easy difficulty was related to a state of low pleasure, low pressure, low arousal, and low motivation which was determined as boredom. The medium difficulty elicited higher arousal than the easy difficulty, as well as higher pleasure, higher motivation, and higher amusement. It was thus defined as engagement. Finally, the hard condition was associated to anxiety since it elicited high arousal, high pressure, and low pleasure. Moreover, the analysis of consecutive engaged trials has showed that the engagement of a player can decrease if the game difficulty
does not change. These results have demonstrated the importance of adapting the game difficulty according to the emotions of the player in order to maintain his/her engagement.
The classification accuracy of EEG and peripheral signals to recover the three states elicited by the gaming conditions has been analyzed for different classifiers, feature-selection methods, and durations on which the features have been computed. Without feature selection, the best classifiers obtained an accuracy around 55% for peripheral features and 48% for EEG features. The FCBF increased the best accuracy on the peripheral feature to 59%, while the ANOVA selection increased the accuracy to 56% for EEG features. The analysis of the classification accuracy for EEG and peripheral features computed on different duration demonstrated that the EEG features are more robust to a decrease in duration than the peripheral features, which confirms the importance of EEG features for short-term emotion assessment.
Future work will focus on the improvement of the detection accuracy. Fusion of physiological information with other modalities such as facial expressions, speech, and vocal signals would certainly improve the accuracy. Including game information such as the evolution of the score can also help to better detect the three states. Another question of interest is to determine the number of classes to be detected. Since boredom and anxiety are detected with higher confidence than engagement, it might be enough to use those two classes for adaptation to the game difficulty. Moreover, from the observation of Fig. 1, one can conclude that it is more interesting to adapt the difficulty of the game solely based on the increase of competence because it leads to a stronger change of state in the flow chart and stimulates learning. In this case, only the detection of boredom is of importance to modulate difficulty. This also implies to more clearly define the relations between emotions and competence changes. A future study would be to implement an adaptive Tetris game and verify that it is more fun and enjoyable than the standard one. Finally, analysis of physiological signals for different types of games is also required to see if the results of this study can be extended to other games.
ACKNOWLEDGMENT
The authors would like to thank Prof. K. Scherer and Dr. D. Grandjean from the Swiss Center for Affective Sciences as well as Dr. J. J.M. Kierkels and M. Soleymani for a number of helpful discussions.
REFERENCES
[1] M. Prensky, “Computer games and learning: Digital game-based learning,” in Handbook of Computer Games Studies, J. Raessens and
J. Goldstein, Eds. Cambridge, MA: MIT Press, 2005.
130
[2] R. W. Picard, Affective Computing. Cambridge, MA: MIT Press, 1997. [3] C. Liu, P. Agrawal, N. Sarkar, and S. Chen, “Dynamic difficulty ad-
justment in computer games through real-time anxiety-based affective feedback,” Int. J. Human-Comput. Interact., vol. 25, no. 6, pp. 506–529, Aug. 2009.
[4] K. R. Scherer, Appraisal Considered as a Process of Multi-Level Sequential Checking. Oxford, U.K.: Oxford Univ. Press, 2001.
[5] R. W. Picard, E. Vyzas, and J. Healey, “Toward machine emotional intelligence: Analysis of affective physiological state,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 23, no. 10, pp. 1175–1191, Oct. 2001.
[6] C. L. Lisetti and F. Nasoz, “Using noninvasive wearable computers to recognize human emotions from physiological signals,” J. Appl. Signal Process., no. 11, pp. 1672–1687, 2004.
[7] P. Rani, C. Liu, N. Sarkar, and E. Vanman, “An empirical study of machine learning techniques for affect recognition in human-robot interaction,” Pattern Anal. Appl., vol. 9, no. 1, pp. 58–69, May 2006.
[8] R. L. Mandryk and M. S. Atkins, “A fuzzy physiological ap- proach for continuously modeling emotion during interaction with play technologies,” Int. J. Human-Comput. Stud., vol. 65, no. 4, pp. 329–347, Apr. 2007.
[9] G. Chanel, C. Rebetez, M. Bétrancourt, and T. Pun, “Boredom, engage- ment and anxiety as indicators for adaptation to difficulty in games,” in Proc. 12th Int. MindTrek Conf.: Entertainment Media Ubiquitous Era, 2008, pp. 13–17.
[10] R. Cowie, E. Douglas-Cowie, N. Tsapatsoulis, G. Votsis, S. Kollias,
W. Fellenz, and J. G. Taylor, “Emotion recognition in human-computer interaction,” IEEE Signal Process. Mag., vol. 18, no. 1, pp. 32–80, Jan. 2001.
[11] D. Sander, D. Grandjean, and K. R. Scherer, “A systems approach to appraisal mechanisms in emotion,” Neural Netw., vol. 18, no. 4, pp. 317– 352, May 2005.
[12] R. J. Davidson, “Affective neuroscience and psychophysiology: Toward a synthesis,” Psychophysiology, vol. 40, no. 5, pp. 655–665, Sep. 2003.
[13] L. I. Aftanas, N. V. Reva, A. A. Varlamov, S. V. Pavlov, and V. P. Makhnev, “Analysis of evoked EEG synchronization and desynchronization in con- ditions of emotional activation in humans: Temporal and topographic characteristics,” Neurosci. Behav. Physiol., vol. 34, no. 8, pp. 859–867, Oct. 2004.
[14] A. P. R. Smith, K. E. Stephan, M. D. Rugg, and R. J. Dolan, “Task and content modulate amygdala-hippocampal connectivity in emotional retrieval,” Neuron, vol. 49, no. 4, pp. 631–638, Feb. 2006.
[15] K. Takahashi, “Remarks on emotion recognition from bio-potential signals,” in Proc. 2nd Int. Conf. Auton. Robots Agents, Palmerston North, New Zealand, 2004.
[16] G. Chanel, J. J. M. Kierkels, M. Soleymani, and T. Pun, “Short-term emotion assessment in a recall paradigm,” Int. J. Human-Comput. Stud., vol. 67, no. 8, pp. 607–627, Aug. 2009.
[17] F. G. Freeman, P. J. Mikulka, M. W. Scerbo, and L. Scott, “An evaluation of an adaptive automation system using a cognitive vigilance task,” Biol. Psychol., vol. 67, no. 3, pp. 283–297, Nov. 2004.
[18] A. T. Pope, E. H. Bogart, and D. S. Bartolome, “Biocybernetic system evaluates indexes of operator engagement in automated task,” Biol. Psychol., vol. 40, no. 1/2, pp. 187–195, May 1995.
[19] M. Besserve, M. Philippe, G. Florence, F. Laurent, L. Garnero, and
J. Martinerie, “Prediction of performance level during a cognitive task from ongoing EEG oscillatory activities,” Clin. Neurophysiol., vol. 119, no. 4, pp. 897–908, Apr. 2008.
[20] C. Berka, D. J. Levendowski, M. M. Cvetinovic, M. M. Petrovic,
G. Davis, M. N. Lumicao, V. T. Zivkovic, M. V. Popovic, and R. Olmstead, “Real-time analysis of EEG indexes of alertness, cognition, and memory acquired with a wireless EEG headset,” Int. J. Human-Comput. Interact., vol. 17, no. 2, pp. 151–170, Jun. 2004.
[21] G. F. Wilson and C. A. Russell, “Real-time assessment of mental workload using psychophysiological measures and artificial neural networks,” Hum. Factors, vol. 45, no. 4, pp. 635–643, Winter 2003.
[22] S. H. Fairclough, “Psychophysiological inference and physiological com- puter games,” in Proc. Brainplay: Brain-Comput. Interfaces Games, Workshop Int. Conf. Adv. Comput. Entertainment, 2007.
[23] P. Rani, N. Sarkar, and C. Liu, “Maintaining optimal challenge in com- puter games through real-time physiological feedback,” in Proc. 11th HCI Int., Las Vegas, NV, 2005, pp. 184–192.
[24] M. Csikszentmihalyi, Flow: The Psychology of Optimal Experience.
New York: Harper Collins, 1991.
[25] K. Salen and E. Zimmerman, Rules of Play: Game Design Fundamentals.
Cambridge, MA: MIT Press, 2004.
[26] R. Oostenveld and P. Praamstra, “The five percent electrode system for high-resolution EEG and ERP measurements,” Clin. Neurophysiol., vol. 112, no. 4, pp. 713–719, Apr. 2001.
[27] J. D. Morris, “SAM: The self-assessment manikin, an efficient cross- cultural measurement of emotional response,” J. Advertising Res., vol. 35, no. 6, pp. 63–68, Nov. 1995.
[28] G. Stemmler, M. Heldmann, C. A. Pauls, and T. Scherer, “Constraints for emotion specificity in fear and anger: The context counts,” Psychophysi- ology, vol. 38, no. 2, pp. 275–291, Mar. 2001.
[29] D. J. McFarland, L. M. McCane, S. V. David, and J. R. Wolpaw, “Spatial filter selection for EEG-based communication,” Electroencephalogr. Clin. Neurophysiol., vol. 103, no. 3, pp. 386–394, Sep. 1997.
[30] P. J. Lang, M. K. Greenwald, M. M. Bradley, and A. O. Hamm, “Looking at pictures: Affective, facial, visceral, and behavioral reactions,” Psy- chophysiology, vol. 30, no. 3, pp. 261–273, May 1993.
131
[31] J. A. Healey, “Wearable and automotive systems for affect recognition from physiology,” Ph.D. dissertation, Cambridge, MA, 2000.
[32] P. Rainville, A. Bechara, N. Naqvi, and A. R. Damasio, “Basic emotions are associated with distinct patterns of cardiorespiratory activity,” Int. J. Psychophysiol., vol. 61, no. 1, pp. 5–18, Jul. 2006.
[33] G. G. Berntson, J. T. Bigger, Jr., D. L. Eckberg, P. Grossman,
P. G. Kaufmann, M. Malik, H. N. Nagaraja, S. W. Porges, J. P. Saul,
P. H. Stone, and M. W. van der Molen, “Heart rate variability: Origins, methods, and interpretive caveats,” Psychophysiology, vol. 34, no. 6, pp. 623–648, Nov. 1997.
[34] J. Kim, “Emotion recognition from physiological measurement,” in Proc.
Humaine Eur. Netw. Excellence Workshop, 2004.
[35] P. Ekman, R. W. Levenson, and W. V. Friesen, “Autonomic nervous- system activity distinguishes among emotions,” Science, vol. 221, no. 4616, pp. 1208–1210, Sep. 1983.
[36] R. A. McFarland, “Relationship of skin temperature changes to the emo- tions accompanying music,” Appl. Psychophysiol. Biofeedback, vol. 10, pp. 255–267, Sep. 1985.
[37] C. M. Bishop, Pattern Recognition and Machine Learning. New York: Springer-Verlag, 2006.
[38] R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2nd ed.
New York: Wiley-Interscience, 2001.
[39] L. Yu and H. Liu, “Efficient feature selection via analysis of relevance and redundancy,” J. Mach. Learn. Res., vol. 5, pp. 1205–1224, 2004.
[40] G. Chanel, K. Ansari-Asl, and T. Pun, “Valence-arousal evaluation using physiological signals in an emotion recall paradigm,” in Proc. IEEE SMC Int. Conf. Syst., Man, Cybern., Smart Cooperative Syst. Cybern.: Adv. Knowl. Security Humanity, 2007, pp. 2662–2667.
[41] P. Pudil, F. J. Ferri, J. Novovicova, and J. Kittler, “Floating search methods for feature selection with nonmonotonic criterion functions,” in Proc. IEEE Int. Conf. Pattern Recog., 1994, vol. 2, pp. 279–283.
[42] C. Sanderson and K. K. Paliwal, “Identity verification using speech and face information,” Dig. Signal Process., vol. 14, no. 5, pp. 449–480, Sep. 2004.
[43] D. Ruta and B. Gabrys, “An overview of classifier fusion methods,”
Comput. Inf. Syst., vol. 7, no. 1, pp. 1–10, Feb. 2000.
[44] C. D. Katsis, N. Katertsidis, G. Ganiatsas, and D. I. Fotiadis, “Toward emotion recognition in car racing drivers: A biosignal processing ap- proach,” IEEE Trans. Syst., Man, Cybern. A, Syst., Humans, vol. 38, no. 3, pp. 502–512, May 2008.
Cyril Rebetez received the M.S. degree in learning and teaching technology and the Ph.D. degree in psychology, both from the University of Geneva, Switzerland, with a thesis about multimedia anima- tions for learning, in 2006 and 2009, respectively. The focus of the thesis was to investigate the cog- nitive processes involved in processing multimedia information and describe the ways to create more understandable and usable media.
At the time of this research, he was with the Tech- nologies de Formation et d’Apprentissage Labora-
tory, University of Geneva, Switzerland, as a Research and Teaching Assistant in the master of learning and teaching technologies from 2003 to 2009. Since 2010, he has been with Sony Worldwide Studios, London, U.K., as a User Expe- rience Specialist. He is a Researcher interested in human–computer interaction, user experience, video games, multimedia learning, and other related topics.
Mireille Bétrancourt received the M.S. degree in psychology from University of Aix-en-Provence, France, in 1991 and the Ph.D. degree in cognitive sciences from the French National Institute of Technology of Grenoble, France, in 1996.
She is the Head of the Technologies de Forma- tion et d’Apprentissage Laboratory, University of Geneva, Switzerland. She was a Doctoral and Post- doctoral Fellow with the language and Representa- tion Team, French National Institute for Computer Science and Automation. She spent one year as a
Postdoctoral Fellow with Stanford University, Stanford, CA. She joined the Faculty of Psychology and Educational Sciences, University of Geneva, in 2000, and was appointed as a Full Professor in information technologies and learning processes in 2003. For over ten years, she has been investigating multimedia learning with two aims: first, providing knowledge about the cog- nitive processes underlying the comprehension of multimedia and multimodal information; and second, on the basis of cognitive assumptions, investigating how design features affect learning outcomes. Her publication list includes over 60 journal and conference papers.
Guillaume Chanel received the Dipl.Ing. degree in computing from the Institut Méditerranéen d’Etude et de Recherche en Informatique et Robotique, Peripgnan, France, in 2002 and the M.Sc. degree in robotics from the University of Montpellier, France, in 2002. He received his Ph.D. degree in computer science from the University of Geneva, Switzerland, in 2009, where he worked on the automatic assess- ment of emotions based on electroencephalogram
and peripheral signals.
From 2009 to 2010, he was a Researcher with the Knowledge Media Laboratory, Aalto University, Helsinki, Finland. He is currently a Researcher with the Mutimodal Interaction group, Computer Vision and Multimedia Laboratory, Computer Science Department, University of Geneva. His research interests concern the use of physiological measures for improving man–machine interaction and analyzing the mediated social interactions taking place in digital games and serious games.
Thierry Pun (S’79–M’92) received the E.E. Eng. degree and the Ph.D. degree in image processing, for the development of a visual prosthesis for the blind, both from the Swiss Federal Institute of Tech- nology, Lausanne, Switzerland, in 1979 and 1982, respectively.
He is the Head of the Computer Vision and Mul- timedia Laboratory, Computer Science Department, University of Geneva, Geneva, Switzerland. He was a Visiting Fellow at the National Institutes of Health, Bethesda, MD, from 1982 to 1985. After being a
CERN Fellow from 1985 to 1986 in Geneva„ he was with the University of Geneva in 1986, where he is currently a Full Professor with the Computer Science Department. He has authored or coauthored about 300 full papers as well as eight patents. His current research interests, related to affective computing and multimodal interaction, concern the following: physiological signal analy- sis for emotion assessment and brain–computer interaction, multimodal inter- faces for blind users, data hiding, and multimedia information retrieval systems.