introduction lÕapprentissage connexionnistebennani/tmpc/apn/an2.pdf · madaline = un ensemble...

Introduction à

l’Apprentissage Connexionniste

Younès BENNANI

Université Paris 13/Younès BennaniApprentissage Connexionniste 2

- Rappels

- limites d’Adaline

- Madaline : Multi-Adaptive Linear Element

- Perceptron

- Théorème de convergence du Perceptron

- Capacités d’un séparateur linéaire

- Limites du Perceptron

F(x j ,wij) f (ai)

y ="(x,w)

EN = x1,d1( ), x 2,d2( ),..., xN ,dN( ){ } / p(x,d) = p(x)p(d / x)

F = ! (x, w) /w "#{ }

R(w) = L d,"(x,w)[ ] dp(x,d)#

"(x,w*) = Argmin

"(x,w )

˜ R (w) =1

k,w)[ ]

w(t +1) = w(t) "1

N#(t) $

w(t +1) = w(t) "#(t)$w

˜ R k(w)

Apprentissage

Induction

Rappels

"(x,w+) = Argmin

"(x,w )

˜ R (w)

Rappels

y = wixii= 0

f (x) =

1 si x > 0

!1 si x < 0

˜ R Adaline

k(w) = d

˜ R Adaline

k(w) =

# ˜ R Adaline

#w= $2 d

k[ ] xk

w(t +1) = w(t) "#(t)$w

˜ R Adaline

Adaline

Fonction de Coût

Apprentissage

w0(t +1)

w1(t +1)

wn(t +1)

$ $ $ $

' ' ' '

$ $ $ $

' ' ' '

( 2 )(t) dk ( w0(t) w

1(t) K w

n(t)( )

$ $ $ $

' ' ' '

, , , ,

/ / / /

$ $ $ $

' ' ' '

Exercice à faire

0.4! x,w( )

' ' ' ,(1

' ' ' ;

' ' ' ,1

' ' ' ;

' ' ' ,1

' ' ' ;

' ' ' ,1

Représenter dans un repère orthogonal l’ensemble des échantillons.

Utiliser l ’algorithme Adaline pour adapter les poids du modèle (!=0.1).

Donner l ’équation de l ’hyperplan séparant les deux classes.

Représenter l ’hyperplan dans le même repère orthogonal

f (x) =

1 si x > 0

!1 si x < 0

0.4! x,w( )

Représentation graphique

' ' ' ,(1

' ' ' ;

' ' ' ,1

' ' ' ;

' ' ' ,1

' ' ' ;

' ' ' ,1

Adaptation des poids

w0(t +1)

w1(t +1)

w2(t +1)

' ' ' ( 2 ) 0.1) (1( 0.3 0.8 0.4( ) )

& & ,'1

& & ,1

w0(t +1)

w1(t +1)

wn(t +1)

$ $ $ $

' ' ' '

$ $ $ $

' ' ' '

( 2 )(t) dk ( w0(t) w

1(t) K w

n(t)( )

$ $ $ $

' ' ' '

, , , ,

/ / / /

$ $ $ $

' ' ' '

w0(t +1)

w1(t +1)

w2(t +1)

' ' ' (

w0(t +1)

w1(t +1)

w2(t +1)

0.4! x,w( )

Évolution de l’apprentissage

t = 10t = 15

*x1+ w

*x2+ w

t = 20

0.8 x1+ 0.4 x

2+ 0.3 = 0

Adaline : limites

! x,w( ) = x1" x

2= XOR(x

1, x2)

-1 1 11

-1 -1 -11

Séparabilité linéaire

Linéairement séparable Non-linéairement séparable

« Deux classes d’objets, décrits dans un espace de dimension n,

sont dits « linéairement séparables » s’ils se trouvent de part et

d’autre d’un hyperplan dans l’espace des descripteurs»

Madaline : Multi-Adaptive Linear Element

" x,w( ) = y = x1# x

Madaline = un ensemble d’Adalines parallèles

Adaline 1

Adaline 2

Adaline 1 Adaline 2

-1 1 11

-1 -1 11

Adaline 3

Adaline 1

Adaline 2

Adaline 1

Adaline 2

Adaline 3

" x,w( ) = y = x1# x

! x,w( ) = x1" x

Adaline avec pré-traitement polynomial

Adalinex2

w1x1+ w

3x1x2+ w

4x2+ w

Ellipse deséparation

Perceptron

PerceptronRosenblatt F., 1957, 1962*

* Rosenblatt F. (1957) : « The perceptron: a perceiving and recognizingautomaton », Reports 85-460-1, Cornell Aeronautical Lab., Ithaca, N.Y.* Rosenblatt F. (1962) : « Principles of Neurodynamics: perceptrons andtheory of brain mechanisms », Spartan Books, Washington.

1957, Frank Rosenblatt

Le perceptron ne désigne pas un seul modèlemais regroupe une importante familled ’algorithmes.

Le perceptron = machine adaptative employéepour résoudre des problèmes de classement(discrimination).

X! x,w( )

PerceptronRosenblatt F., 1957, 1962

! x,w( ) = f (wT")

f (x) =

1 si x ! 0

"1 si x < 0

la rétine

qui reçoit les informations

de l'extérieur

la cellule de décisionles cellules d'association

chaque cellule possède une fonction

de transition définie sur la rétine : ! x,w( ) = f w0

+ wi " i(x)i=1

( !ix( ) : R"#

= w0,w

1,K, w

! = 1,!1(x), !

2(x),K, !

n(x)( )

PerceptronCas de deux classes

"(x,w)=1"(x,w)= -1

! (x,w) = f w0

+ wi" i (x)i=1

1 si x )C1

*1 si x )C2

Un perceptron peut être vu comme un classificateur à 2 classes :

C1= x !R :" (x,w) =1{ }

C2= x !R :" (x,w) = #1{ }

> 0 pour xk "C

< 0 pour xk "C

" xk, w

T # kdk( ) > 0

D(w) =1

=1 si xk " C

= #1 si xk " C

Transformation

Dmax reflète la difficulté du problème :

Si Dmax grand alors le problème est facile

Si Dmax < 0 alors pas de solution.

= maxw

Si l ’on appelle la forme prise en compte à l’itération k,

On définit le carré de l’erreur instantanée associée à la forme par :

L’erreur quadratique globale ou (MSE) est :

˜ R Perceptron (w) =1

N˜ R Perceptron

" = # wT $ k

k : xk

mal classé{ }"

Il existe plusieurs algorithmes d’apprentissage.

k= 1,!

k),K,!

=1 si xk " C

= #1 si xk " C

> 0 pour xk "C

< 0 pour xk "C

" xk, w

T # kdk( ) > 0

˜ R Perceptron

k(w) = " w

T # kd

Critère d'arrêt = taux de classement satisfaisant.

Techniques de descente de gradient (la plus grande pente) :

supposons qu ’à l’instant , les poids du Perceptron soient

et qu ’on présente la forme , alors les poids seront

modifiés par :

"w˜ R Perceptron

k(w) =

# ˜ R Perceptron

#w= $% k

w(t +1) = w(t) "#(t)$w˜ R Perceptron

Le pas du gradientLe gradient instantané

w t( )

k= 1,!

k),K,!

Perceptron

1- A t=0, tirer au hasard

2- Présenter une forme

3- Calculer la sortie du perceptron et la comparer à

4- Si est bien classé :

Si est mal classé :

Où est le pas du gradient.

5- Répéter de 2 à 4 jusqu’à l’obtention d’une

valeur acceptable de l’erreur

w(0) = w

0(0), w

1(0),K, w

n(0)( )

! t( )

+ !i (x)i=1

' = f w

T ! k( )

w(t +1) = w(t)

w(t +1) = w(t) + "(t)# kdk

Algorithme d ’apprentissage : cas de 2 classes

k= 1,!

k),K,!

f wT " k( ) = dk

f wT " k( ) # dk

w0(t +1)

w1(t +1)

wn(t +1)

$ $ $ $

' ' ' '

$ $ $ $

' ' ' '

+ ((t) dk

$ $ $ $

' ' ' '

Exemple de Perceptron

-1 1 11

-1 -1 -11

= x1,d1( ), x 2,d2( ),..., xN ,dN( ){ }

! x,w( ) = x1" x

!1xk( ) = x1

!2xk( ) = x2

PerceptronCas de p classes : C1, C2, …, Cp

X wij! j

! x,w( )

wpj! j

w2 j! j

w1j! j

! x,w( ) = Ci si " j # i, wi

T$ > wj

T$ où$ = 1,$1x( ),$

2x( ),K,$n x( )( )

! x,w( ) = Ci si " j # i, wi k$k > wjk$ k

Perceptron

1- A t=0, tirer au hasard la matrice des poids

2- Présenter une forme

3- Calculer la sortie du perceptron et la comparer à

4- Si est bien classé :

Si est mal classé :

Où est le pas du gradient.

5- Répéter de 2 à 4 jusqu’à l’obtention d’une

valeur acceptable de l’erreur

! t( )

! xk,w( ) = Cj " j = Argmax

w(t +1) = w(t)

wi(t +1) = w

i(t) + !( t)"

Algorithme d ’apprentissage : cas de p classes

wj (t +1) = wj(t) ! "(t)#k

! xk,w( )

Cj = Ci

Cj ! Ci

wl( t +1) = wl(t) ! l " i et l " j

Perceptron et AdalineCas de 2 classes

Classe A

Classe B

Solution trouvée

Par l ’Adaline

Meilleure séparation robuste

entre les classes.

Solution trouvée

Par le Perceptron

Sépartion qui minimise

Le nombre d ’erreur.

ProfesseurSortie

calculée

Erreur

ProfesseurSortie

calculée

Erreur

Théorème de convergence du Perceptron

« Si un ensemble de formes est linéairement séparable, alors l’algorithme

d’apprentissage du Perceptron converge vers une solution correcte

en un nombre fini d’itération. »

Arbib M.A. (1987) : « Brains, Machines, and Mathematics »

Berlin, Springer-Verlag.

Rosenblatt F. (1962) : « Principles of Neurodynamics »

N.Y., Spartan.

Block H.D. (1962) : « The Perceptron: A Model for Brain Functioning »

Reviews of Modern Physics 34, 123-135.

Minsky M.L. & Papert S.A. (1969) : « Perceptrons »

Cambridge, MIT Press.

Diederich S. & Opper M. (1987) : « Learning of Correlated Patterns

Spin-Glass Networks by Local Learning Rules »

Physical Review letters 58, 949-952.

: une bonne solution

mk: nombre d' adaptation après les présentations de x

w = " mk# k

w(t +1) = w(t) + "(t)# kdk

= " mk# k

m = mk

w.w* " # m min

$ kdk.w

*( ) = # mD w*( ) w*

cos(")2 = # =w.w

la règle d ’adaptation est :

Hypothèse :

après ces itérations, devient :mk

D(w) =1

Le nombre total d’adaptation

produit scalaire normalisé :

w(t +1) 2= w(t)2

+ "2 # k2

dk( )2

+ 2"w(t)# kdk

$ w(t)2

+ "2 # k2

dk( )2

# $2 % k2

dk( )2

! m "2

1 ! " !mD w

w.w* " # m min

$ kdk.w

*( ) = # mD w*( ) w*

D(w) =1

= maxw

= n = 1

Après itérations on a donc :m

orAlors

Par conséquent :

Capacités d’un séparateur linéaire*

= le nombre maximum de séparations linéaires possibles

en 2 classes dans un ensemble de points en dimension .

C N ,d( )N d

• Si , on peut calculer par récurrence :C N ,d( )

C N ,1( ) = 2 N

C 1, d( ) = 2 d !1( )

* Cover T. (1965) : « Geometrical and statistical properties of linear inequalities with applications

in pattern recognition »

IEEE Transactions on Electronic Computers, 14:326-334.

C N ,d( ) =N !1

& k= 0

' C 1,d ! k( )

Pour un ensemble de points il y a dichotomies possibles.

- Pour les dichotomies sont linéairement séparables

- Pour seulement sont linéairement séparables.

C N ,d( )2N

N ! d +1N > d +1

" # $ % &

(p ' q)! q!

• Si alors N ! d +1 C N ,d( ) = 2N

N > d +1

Capacités d’un séparateur linéaire*

= la probabilité qu’une dichotomie aléatoire soit linéairement séparable

dans un ensemble de points en dimension .

F N ,d( )N d

* Cover T. (1965) : « Geometrical and statistical properties of linear inequalities with applications

in pattern recognition »

IEEE Transactions on Electronic Computers, 14:326-334.

F N ,d( ) =

1 si N ! d +1

' si N > d +1

d = 20

N /(d +1)

F(N ,d)

0 1 2 3 4

F(N ,d) = 0.5 pour N = 2(d +1)

Limites du Perceptron

Sur les fonctions booléennes à entrées, moins de

sont réalisables par un perceptron (linéairement séparables).

Une limitation importante, qui a justifié à l’époque l ’abandon

des recherches sur les perceptrons.

* Lewis P.M. & Coates C.L. (1967) : « Threshold Logic »

N.Y., John Wiley.

** Minsky M.L. & Papert S.A. (1969) : « Perceptrons »

Cambridge, MA : MIT Press.

1969, Minsky Marvin, Papert Seymour**

Un violent coup d’arrêt aux recherches dans le domaine

Architecture multi-couches

Le « credit assignment problem »

On se donne un réseau en couches, et un ensemble d ’exemples composés

de paires entrées-sorties.

L ’algorithme de rétro-propagation du gradient apporte une solution d ’une

simplicité déroutante à ce problème.

Perceptron

Appliquer l ’algorithme

d ’apprentissage pour

déterminer W2

On ne connaît pas les sorties

Désirées des unités cachées !

On ne peut pas appliquer

l ’algorithme d ’apprentissage

du Perceptron pour

déterminer W1

L’après pause connexionniste

Bryson A., Denham W., Dreyfuss S. (1963) : « Optimal Programming Problem With Ineduality Constraints. I: Necessary Conditions for Extremal Solutions »,

AIAA Journal, Vol. 1, pp. 25-44.

LeCun Y. (1986) : « Learning Processes in Asymmetric Threshold Network »

Disordered Systems and Biological Organizations, Les Houches, France, Springer, pp. 223-240.

Rumelhart D., Hinton G.E., Williams R. (1986) : « Learning Internal Representations by Error Propagation »

In Parallel Distributed Processing: exploring the microstructure of cognition, Vol I, Badford Books, Cambridge, MA, pp. 318-362, MIT Press.

Problèmes de contrôle

1963, Bryson A., Denham W., Dreyfuss S.,

“la rétro-propagation du gradient”

Les années 80, la portée exacte de l ’ouvrage de Minsky & Papert

sera correctement perçue.

La “redécouverte” de la “rétro-propagation du gradient”

1986, LeCun Y.

1986, Rumelhart D., Hinton G.E., Williams R.

introduction lÕapprentissage connexionnistebennani/tmpc/apn/an2.pdf · madaline = un ensemble...

Documents

inteligência artificial análise e desenvolvimento de...

pemrograman adaline dengan matlab

tmpc - introduao

teoretyczne podstawy...

nowości o filmie wiek adaline cda ktoryz to wytstepuje bez...

utp_sirn_sl5 la rna adaline

redes neuronales adaline

aplicación de la red adaline para predicción de datos...

b4-epl604 - adaline, madaline, perceptrons, mlp, lms, … -...

modulhandbuch master elektrotechnik und...

ilog 3 traitement informatique des - université...

c04 adaline

adaline madaline

as-prpp-012-procedimiento de preparacion de superficie y...

08 fdon 1 - lipnbennani/tmpc/fdon/08_fdon_1.pdf · trevor...

smartsmartuffici: nuova costruzione - risparmio...

penerapan algoritma adaline untuk menentukan …

red neuronal adaline

5. adaline

clase adaline