agents intelligentslamontagne/ift17587/modules/... · connaissances et procédures pour choisir les...
TRANSCRIPT
![Page 1: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/1.jpg)
Tiré du matériel de S. Paquet 1
Agents intelligents
IFT-17587 Concepts avancés pour systèmes intelligents
Luc Lamontagne
![Page 2: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/2.jpg)
2
Plan
Qu’est-ce qu’un agent intelligent?
Comment les agents intelligents doivent agir?
Structure d’un agent intelligent
Types d’environnements
![Page 3: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/3.jpg)
3
Qu’est-ce qu’un agent intelligent?
Agent intelligent: tout ce qui perçoit son environnement
à l’aide de ses capteurset qui agit sur son environnement
à l’aide de ses effecteurs.
Environnement ?agent
effecteurs
capteurpercepts
actions
![Page 4: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/4.jpg)
4
Agents vs ObjetsAgent
entité autonome interagissant avec son environnementObjet
entité passive possédant un état et sur lequel on peut effectuer des opérations.
Un agent degré d’abstraction plus élevé qu’un objet.Un agent peut être constitué de plusieurs objets.Un agent logiciel peut être à la fois client et serveur
Paradigme de programmation mettant en évidence l’autonomie les interactions (par ex. la programmation orientée agent)
![Page 5: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/5.jpg)
5
Exemple très simple d’agent
Un agent aspirateur
![Page 6: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/6.jpg)
6
Tabulation de la fonction d’agent
Percepts Action
[A, Propre] Droite[A, Sale] Aspire[B, Propre] Gauche[B, Sale] Aspire[A, Propre] , [A, Propre] Aspire[A, Propre] , [A, Sale] Aspire…[A, Propre] , [A, Propre] , [A, Propre] Aspire[A, Propre] , [A, Propre] , [A, Sale] Aspire…
![Page 7: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/7.jpg)
7
Agent rationnel
Agent rationnel: doit exécuter l’action qui maximise sa mesure de performanceen fonction de sa perception du monde et de ses connaissances.
Mesure de performanceExterneFixée par le concepteurPropre à la tâcheCritère de succès du comportement de l’agent
![Page 8: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/8.jpg)
8
Choix de la mesure de performance
Il faut faire attention à ce qu’on choisitEx: Quantité de saleté ramassé en 8 heuresL’agent pourrait ramasser la saleté, la redéposer et ainsi de suite.
Une meilleure option:Récompenser l’agent pour un plancher propreEx: un point pour chaque carré propre à chaque intervalle de temps
Peut-être avec une pénalité pour l’électricité consommé.
![Page 9: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/9.jpg)
9
Agent rationnelRationnel distinct de l’omniscience
Tout savoir, connaissance infinieL’agent peut accomplir ses actions pour :
Accomplir ses butsModifier sa perception de l’environnement pour obtenir des informations utiles
Agent autonome Comportement déterminé par ses propres expériences Capacité d’adaptation et d’apprentissage
Notion d’agent Un outil d’analyse de systèmes non pas une caractérisation absolue qui divise le monde en deux: agents et non-agents.
![Page 10: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/10.jpg)
10
Environnement de la tâche
La première étape lors de la conception d’un agent est de spécifier l’environnement de la tâche (task environment) qui contient les quatre éléments suivants (PEAS):
Mesure de la performance (Performance measure)Environnement (Environment)Effecteurs (Actuators)Capteurs (Sensors)
![Page 11: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/11.jpg)
11
Exemple
Conducteur de taxi automatiqueMesure de performance: sécurité, vitesse, légalité, confort, profits, etc.Environnement: routes, autres autos, piétons, clients, etc.Effecteurs: volant, accélérateur, frein, clignotant, klaxon, etc.Capteurs: caméras, sonar, odomètre, indicateur de vitesse, capteurs du moteur, etc.
![Page 12: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/12.jpg)
12
Autre exemple
Système de diagnostic médicalMesure de performance: patient en santé, éviter les poursuites, minimiser les coûtsEnvironnement: patient, hôpital, personnelEffecteurs: l’écran du système
questions, tests, diagnostic, traitements, références
Capteurs: clavier saisie des symptômes, évidences, réponses du patient
![Page 13: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/13.jpg)
13
Propriétés de l’environnementComplètement observable vs partiellement observable
Déterministe vs stochastique
Épisodique vs séquentielle
Statique vs dynamique
Discret vs continu
Un agent vs plusieurs agents
![Page 14: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/14.jpg)
14
Propriétés de l’environnement
Complètement observable vs partiellement observable: Est-ce que les capteurs de l’agent lui donne accès à l’état complet de l’environnement à tout moment ?
Déterministe vs stochastique: Est-ce que le prochain état de l’environnement est complètement déterminé par son état courant et l’action de l’agent ?
Épisodique vs séquentielle: Un épisode est une séquence perception-action. Le prochain épisode ne dépend pas des actions effectuées dans les épisodes précédents.
![Page 15: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/15.jpg)
15
Propriétés de l’environnement
Statique vs dynamique: Est-ce que l’environnement change pendant que l’agent délibère?
Discret vs continu : La distinction entre discret et continu peut être appliquée
à l’état de l’environnement à la façon dont le temps est géréet aux perceptions et aux actions de l’agent.
Un agent vs multi-agents : Est-ce qu’il y a plus qu’un agent interagissant ensemble ?
![Page 16: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/16.jpg)
16
Propriétés de l’environnement
Situation la plus difficile:Partiellement observableStochastiqueSéquentielleDynamiqueContinueMultiagent
Exemple, conduite automatisée d’un taxi
![Page 17: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/17.jpg)
17
Exemple
MultiDiscretDynamiqueSéquentielStochastiquePartiellementEnseignant interactif
UnContinuDynamiqueSéquentielStochastiquePartiellementContrôleur de raffinerie
UnContinuDynamiqueÉpisodiqueStochastiquePartiellementRobot ramasseur de pièces
UnContinuSemiÉpisodiqueDéterministeComplètementAnalyse d’image
UnContinuDynamiqueSéquentielStochastiquePartiellementDiagnostique médical
MultiContinuDynamiqueSéquentielStochastiquePartiellementConduire un taxi
MultiDiscretStatiqueSéquentielStochastiqueComplètementBackgammon
MultiDiscretStatiqueSéquentielStratégiquePartiellementPoker
MultiDiscretSemiSéquentielStratégiqueComplètementÉchec avec une horloge
UnDiscretStatiqueSéquentielDéterministeComplètementMots-croisés
AgentsDiscretStatiqueÉpisodiqueDéterministeObservableEnvironnement
![Page 18: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/18.jpg)
18
Fonctions et programmes d’agent
Un agent est complétement spécifié par une fonction d’agent
Mise en correspondance des percepts et des actionsBut : trouver un moyen d’implanter cette fonction de manière conciseProblème des tables de fonction :
ImmensePrends un temps énorme à construireAucune autonomieMême avec apprentissage, nécessite un temps considérablepour apprendre les éléments du tableau
![Page 19: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/19.jpg)
19
Structure d’un agent
4 types de base en ordre de généralitégrandissante:
Agent simple réflexeAgent réflexe avec état interneAgent basé sur les butsAgent basé sur l’utilité
Tous ces types peuvent être transformés en agents apprenants.
![Page 20: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/20.jpg)
20
Agent simple réflexe
Ce type d’agent choisit ses actions en se basant uniquement sur le percept courant, en ignorant les percepts précédents.
![Page 21: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/21.jpg)
21
Agent simple réflexeCapteurs
Comment le monde est maintenant?
Quelle action dois-je faire maintenant?
Effecteurs
Règles condition-action
Agent
Environnement
![Page 22: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/22.jpg)
22
Agent réflexe avec état interneCapteurs
Comment le monde est maintenant?
Quelle action dois-je faire maintenant?
Effecteurs
Règles condition-action
Agent
Environnement
État
Comment le monde évolue?
Quel est l’impact de mes actions?
Model-based reflex agent
![Page 23: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/23.jpg)
23
Agent basé sur les butsCapteurs
Comment le monde est maintenant?
Quelle action dois-je faire maintenant?
Effecteurs
Agent
Environnement
État
Comment le monde évolue?
Quel est l’impact de mes actions? Comment sera le mondesi je fais l’action A?
Buts
Goal-based agent
![Page 24: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/24.jpg)
24
Agent basé sur l’utilité
Les buts ne font la distinction que entre un état « heureux » ou « pas heureux ».Fonction d’utilité: état valeurAide dans deux cas où les buts échouent:
Buts en conflits (ex: vitesse et sécurité)Lorsqu’il y a plusieurs buts
![Page 25: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/25.jpg)
25
Agent basé sur l’utilitéCapteurs
Comment le monde est maintenant?
Quelle action dois-je faire maintenant?
Effecteurs
Agent
Environnement
État
Comment le monde évolue?
Quel est l’impact de mes actions? Comment sera le mondesi je fais l’action A?
À quel point je vais êtresatisfait dans un tel état?Utilité
![Page 26: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/26.jpg)
26
Agent apprenant
Souvent, il est très fastidieux où même impossible de définir le comportement de l’agent à la conception.L’apprentissage permet:
De simplifier la conception À l’agent d’avoir plus de flexibilitéÀ l’agent d’agir dans des environnements inconnus et de devenir meilleur avec le temps.
![Page 27: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/27.jpg)
27
Agent apprenant
Capteurs
EffecteursAgent
Environnement
Module de performance
Module d’apprentissage
Générateur de problèmes
Critique
Changements
Standards de performance
ConnaissancesButs
d’apprentissage
Rétroaction
![Page 28: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/28.jpg)
28
Agent taxi apprenant
Module de performanceConnaissances et procédures pour choisir les actions.
CritiqueObserve l’agent et donne des informations au module d’apprentissage.
Module d’apprentissageModifie le module de performance.
Générateur de problèmesIdentifie les possibilités d’amélioration et suggère des expérimentations.
![Page 29: Agents intelligentslamontagne/ift17587/modules/... · Connaissances et procédures pour choisir les actions. Critique Observe l’agent et donne des informations au module d’apprentissage](https://reader034.vdocuments.pub/reader034/viewer/2022042709/5f547e296038811f315b52d7/html5/thumbnails/29.jpg)
29
ConclusionUn agent est un artefact (robot, logiciel…) qui perçoit et agit sur un environnementLa mesure de performance évalue le succès du comportement de l’agentL’environnement de tâches varie selon différentes dimensions. Le programme d’un agent est une implémentation de la fonction d’agent. 4 agents, aux fonctionnalités croissantes, basé sur les :
Réflexes, les modèles, les buts et l’utilitéChacun peut être amélioré par l’apprentissage.