apprentissage profond pour la classification supervisée de...

2
Apprentissage profond pour la classification supervisée de documents Mots clefs : apprentissage profond (deep learning), apprentissage automatique (machine learning), classification, texte. Durée : 6 mois. Gratification : env. 550 euros/mois. Lieu : Laboratoire ERIC, Université Lumière Lyon 2. Candidature/contacts : CV + lettre de motivation à [email protected]. Profil recherché : le/la candidat(e) doit être inscrit(e) en deuxième année de master ou en dernière année d’école d’ingénieur (Bac+5) et avoir étudié l’apprentissage automatique au cours de son cursus. CONTEXTE Ce stage s’insère dans un projet en collaboration avec le laboratoire ERIC et la société DMsq (https://dmsq.io), qui édite une application à destination des régies publicitaires de grands médias en ligne. Parmi les utilisateurs de l’application on trouve notamment CNN, Eurosport, National Geographic, Euronews ou encore Bloomberg, qui s’en servent pour mieux comprendre la nature des contenus publirédactionnels (https://fr.wikipedia.org/wiki/Publireportage) qu’ils diusent. L’image ci-dessous illustre la page principale de l’application.

Upload: others

Post on 25-Apr-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage profond pour la classification supervisée de documentsmediamining.univ-lyon2.fr/people/guille/tmp/stage_2020.pdf · 2019-11-22 · les réseaux convolutionnels [Yao

Apprentissage profond pour la classification supervisée de documents • Mots clefs  : apprentissage profond (deep learning), apprentissage automatique (machine

learning), classification, texte.• Durée : 6 mois.• Gratification : env. 550 euros/mois.• Lieu : Laboratoire ERIC, Université Lumière Lyon 2.• Candidature/contacts : CV + lettre de motivation à [email protected].• Profil recherché  : le/la candidat(e) doit être inscrit(e) en deuxième année de master ou en

dernière année d’école d’ingénieur (Bac+5) et avoir étudié l’apprentissage automatique au cours de son cursus.

CONTEXTE

Ce stage s’insère dans un projet en collaboration avec le laboratoire ERIC et la société DMsq (https://dmsq.io), qui édite une application à destination des régies publicitaires de grands médias en ligne. Parmi les utilisateurs de l’application on trouve notamment CNN, Eurosport, National Geographic, Euronews ou encore Bloomberg, qui s’en servent pour mieux comprendre la nature des contenus publirédactionnels (https://fr.wikipedia.org/wiki/Publireportage) qu’ils diffusent. L’image ci-dessous illustre la page principale de l’application.

Page 2: Apprentissage profond pour la classification supervisée de documentsmediamining.univ-lyon2.fr/people/guille/tmp/stage_2020.pdf · 2019-11-22 · les réseaux convolutionnels [Yao

SUJET DU STAGE

Pour décrire les contenus, l’application présente divers indicateurs : archétype (e.g. contenu informatif, contenu divertissant), style d’écriture (e.g. émotionnel, rationnel), etc. Face au flot continu de contenus à intégrer dans l’application, ces indicateurs ne peuvent être déterminés manuellement et sont donc calculés par des techniques d’apprentissage automatique. L’entreprise DMsq dispose à cet effet de vastes corpus d’entraînement, en anglais et en français. L’objet du stage est d’étudier des méthodes récentes d’apprentissage profond, c’est-à-dire des architectures neurales (par exemple les réseaux avec mécanismes hiérarchiques d’attention [Yang et al. 2016], les réseaux avec mécanismes structurés d’attention [Liu & Lapata 2018], ou encore les réseaux convolutionnels [Yao et al. 2019]), pour la classification de documents, d’évaluer leurs performances sur les corpus DMsq, d’identifier la meilleure solution et de mettre en avant des pistes d’amélioration.

TÂCHES & LIVRABLES

La rédaction de différents documents (qui coincident avec des parties du mémoire de master / d’ingénieur) est attendue, concernant l’état de l’art, l’évaluation, la description de la meilleure solution et les pistes d’amélioration.Des rendus logiciels sont aussi attendus, concernant l’évaluation et la mise en place de la meilleure solution, de sorte à permettre son éventuelle mise en production par l’équipe technique à l’issue du stage.

POURSUITE EN THÈSE

Ce stage offre la préparation idéale en vue du recrutement d’un doctorant (basé au laboratoire ERIC) prévu par la société DMsq, à la rentrée 2020, via le dispositif CIFRE (http://www.anrt.asso.fr/fr/cifre-7843) financé par le ministère de l'enseignement supérieur, de la recherche et de l’innovation.

BIBLIOGRAPHIE

• Hierarchical Attention Networks for Document Classification. Yang et al., ACL Proceedings 2016.

• Learning Structured Text Representations. Liu & Lapata, ACL Transactions 2018.• Graph Convolutional Networks for Text Classification. Yao et al., AAAI Proceedings 2019.