une stratégie expérimentale pour réseaux de neurones et ... 2011... · • depuis 2006,...
TRANSCRIPT
Une stratégie expérimentale pour réseaux de neurones et modèles non -linéaires
[email protected] : 09.53.45.07.38
LMCS – 7 avril 2011 – Chatou
A propos d’InModelia
• Editeur et distributeur de logiciels de réseaux de neuroneset de plans d’expériences pour modèles non-linéaire s
• Conseil et prestation de service en modélisation “bo ite noire”• Formation en entreprise et à l’université (ESPCI)• Formation en entreprise et à l’université (ESPCI)• Basé à Paris depuis 2009
• Pour en savoir plus => stand
Contexte - 1
• On souhaite développer un (méta)-modèle économique, rapide, simple à utiliser d’un phénomène physique décrit par un code numérique coûteux, lourd, complexe, etc…
• Un domaine expérimental de moyenne à grande dimension (5-22 dim) • Des expériences déjà disponibles ou à réaliser• Un (ou des) modèle (s) postulé (s) sous-jacent(s)• Si possible, les intervalles de confiance attendus pour ce modèle • Si possible, les intervalles de confiance attendus pour ce modèle
• Modèles candidats “boite noire” possibles :• Modèles polynomiaux (+ chaos polynomial) => modèles linéaires• Modèles de krigeage• Processus gaussiens => modèles non-linéaires• Réseaux de neurones
• Avec des réseaux de neurones, où et comment réalise r les expériences pour obtenir le modèle le plus précis possible au m eilleur coût ?
=> Quelle stratégie expérimentale ?
Contexte - 2
• Depuis 1959, on sait calculer des plans d’expérienc es pour modèles non-linéaires
• Gains spectaculaires sur le nombre d’expériences• Obtention de modèles (intervalles de confiance) très précis • Connaissance de l’emplacement des points (zones) critiques
• Rappel important !Avec des modèles non -linéaires, il faut avoir une idée raisonnable Avec des modèles non -linéaires, il faut avoir une idée raisonnable de la valeur des paramètres pour calculer le(s) pla ns d’expériences
=> démarche séquentielle
• En pratique, peu de gens le font, faute d’outils• Création du logiciel Neuro Pex en 2005 (Netral, CEA , IFP, PSA, Rhodia)
pour les modèles non-linéaires et les réseaux de ne urones• Depuis 2006, développement de stratégies PEX + RN
=> Présentation des dernières et meilleures stratég ies éprouvées
Modèle explicite à 2 entrées et 4 paramètres� Neuro Pex minimise le nombre et le coût des essais
(retourne le plan qui donnera le modèle le plus précis pour le coût plus faible)
X, Y, a, b,c, d),0(arctan2sin)( 2σNeavece
YbaXZ →+
+=
Plans d’expériences pour modèles explicites
X, Y, a, b,c, d
10 points localisés selon 441 points de validationun plan aléatoire ou un plan D-optimal
1,8
2
2,2
2,4
2,6
2,8
3
1,9 2,9 3,9 4,9 5,9 6,9 7,9
1,8
2
2,2
2,4
2,6
2,8
3
1,9 3,9 5,9 7,9
),0(arctan2sin)( 2σNeavecedcX
YbaXZ →+
++=
RN à 2 entrées et 9 paramètres
• Neuro Pex => D-optimalité (# G-optimalité) • Les points optimaux sont localisés en les points
Plans d’expériences pour réseaux de neurones
Surface de réponse du RN
)()( 2918732615421 XXthXXthY θθθθθθθθθ ++++++=
• Les points optimaux sont localisés en les points où le modèle est le plus incertain, la périphérie et dans les zones de grande inflexion
-3
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3
-2.5
0.0
2.5
X1
0.000
0.025
0.050
0.075
Delta
-2.5
0.0
2.5
X2
Points D- et G-optimaux du RN Surfac e d’incertitude du RNRappel : Plan D-optimal et
incertitudes du modèle linéaire
Plan LHS + D -optimalité sur le modèle de Friedmann
Etape 1 : Plan LHS à 50 calculs• Modèle neuronal (5 entrées, 4 neurones cachés, 1 so rtie, 29 paramètres)• Estimation de RN(50LHS)
Stratégie séquentielle 2006 (1)
( ) ( ){ }542
321 510502010251
xx.xxxsinY ++−+= π
• Estimation de RN(50LHS)
Etape 2 : Plan D-optimal à 29 calculs additionnels
• Réalisation des 29 expériences• Estimation de RN(50LHS + 29D-opt)
LHS Choix RN + Plan D( )-optimal1θ̂1θ̂ 2θ̂
Etape 3 : Plan LHS à 79 calculs• Estimation de RN(79LHS)
Test des modèles via 10 000 calculs aléatoires dans le domaine expérim.
• Comparaison Etape 1 – Etape 2• RN(50LHS) – RN(50LHS+29D-opt)
Stratégie séquentielle 2006 (2)
• Comparaison Etape 2 – Etape 3• RN(50LHS+29D-opt) – RN(79LHS) x5• Gain # 18 %
0
0,2
0,4
0,6
0,8
1
1,2
0 0,2 0,4 0,6 0,8 1 1,2
Simulateur
Emulateur
LHS 50
LHS 50 + D-opti 29
• Gain # 18 %• Ratio
0 0,005 0,01 0,015 0,02 0,025
LHS 50 + D-opti 29
LHS 50 + LHS 29 - 1
LHS 50 + LHS 29 - 2
LHS 50 + LHS 29 - 3
LHS 50 + LHS 29 - 4
LHS 50 + LHS 29 - 5
3≈esNbParamètr
cesNbExpérien
Calibration d’un moteur thermique – Modèle à 5 entré esPoints 1 – 30 optimaux pour un polynôme d’ordre 2
Points 31 – 100 aléatoires – 1er apprentissage d’un RNPoints 101 – 140 optimaux pour le RN – 2ème apprenti ssage du RN
Stratégie séquentielle 2007
Vue des 30, 100 puis 140 leviers Résidus - Levi ers Y - Ycalc
Nombre Plans Plans Plans Plans Séquencesd'entrées Factoriels Poly2 RN-2NC RN-3NC RN-4NC NOLH-1 NOLH-2 LHS Halton
Plus petit plans D-optimaux
Il n’y a pas de plans d’expériences initiaux parfai ts. Certains plans sont :• inexploitables en grande dimension• indépendants du modèle postulé• ou complètement dépendants du modèle postulé• inadaptés aux modèles non-linéaires, etc…
Le fléau de la dimension
d'entrées Factoriels Poly2 RN-2NC RN-3NC RN-4NC NOLH-1 NOLH-2 LHS Halton5 32 21 15 22 29 17 33 xx xx8 256 45 21 31 41 33 65 xx xx
11 2048 78 27 40 53 33 65 xx xx16 65536 153 37 55 73 65 129 xx xx22 4194304 276 49 73 97 129 257 xx xx29 536870912 465 63 94 125 257 xx xx
En moyenne / grande dimension, 4 approches initiale s sont possibles• Plans LHS • ou mieux plans NOLH de Cioppa (2002, 2007) nouveau• Plans LHS/NOLH combinés avec quelques sommets ou le milieu des faces• Encore plus récent, les plans/séquences de Halton
Taille des modèles (nombre de coefficients)
Plans NOLH (Cioppa, 2002 et 2007)
NOLH : PLANS HYPERCUBES LATINS QUASI-ORTHOGONAUXPlan factoriel complet Plan NOLH
PROPRIETES DE REMPLISSAGE DE L’ESPACE
nombre d'essais nb. max. de facteurs - NOLH 17 x 7 17 7 - NOLH 33 x 11 33 11 - NOLH 65 x 16 65 16 - NOLH 129 x 22 129 22 - NOLH 257 x 29 257 29
PROPRIETES DE REMPLISSAGE DE L’ESPACE
(Jean Leung, Renault – Etude des propriétés de 500 L HS et des plans NOLH – Expérimentique 2007)
Les plans NOLH sont économiques et ont d’excellentes propriétés de remplissage de l’espace.
De tous les plans hypercubes latins possibles,ils sont les meilleurs plans.
Mais, ils ne sont pas suffisants… (cf. infra)
RR
Dm
inC
L 2
Modélisation d’un ventilateur (hélice + module)
Modèle à 5 entrées (Valéo)CHAMPS AERODYNAMIQUES POUR 1 CONFIGURATION D’HELICE DONNEE
• Ecoulement, Aérodynamique • Pression, Couple, Rendement
Post-traitement: vecteur vitesse
Modélisation :Les grandeurs d’intérêt du calcul numérique sont en suite intégrées dans :
• Polynômes de degré 2 (21 paramètres)• Réseaux de neurones à 2 ou 3 neurones cachés (15 ou 22 paramètres)
Post-traitement: répartition de pression
Les plans NOLH seuls sont insuffisants
Les plans NOLH sont réputés de bons plans pour cara ctériser un polynôme.En pratique, ce n’est pas tout à fait vrai (condition nécessaire mais pas suffisante)
Réponse Couple - 5 entrées - Polynôme d’ordre 2 (21p)App. NOLH1+2 (33pts) Test 71pts Les plans NOLH sont excellents pour le
remplissage initial du domaineexpérimental, mais insuffisants pourcouvrir tout le domaine expérimental
Couple - 5 entrées - RN à 3 neurones cachés (22p)
App. NOLH1+2 (33pts) Test 83pts
couvrir tout le domaine expérimental
Les modèles construits seulement avec les plans NOLH extrapolent mal :
• Distance moyenne du centre ducube aux points du plan NOLH
Dmoy = ~ 0,63• Distance du centre du cube
aux sommets du cubeD = 1
Besoin en points supplémentaires(Neuro Pex) sur les sommetsdu domaine expérimental
Points extrapolés
Rendement : Stratégie séquentielle 2010 (1)
Le rendement est très mal décrit par un polynôme et bien décrit par un RN
Rendement - 5 entrées - Polynôme d’ordre 2 (21p)App. NOLH1+2 (33pts) Test 82pts
Stratégie séquentielle (étape 1) : • Apprentissage sur plan NOLH 1+2
(NOLH-1 complémentaire de NOLH- 2)
• Modèle polynomial
Rendement - 5 entrées - RN à 3 neurones cachés (22p)
App. NOLH1+2 (33pts) Test 82pts
• Modèle polynomial (en haut, très mauvais)
• Réseau de neurones à 3 neurones cachés (en bas, acceptable)
• Extrapolation seulement sur les minima (les maxima sont au milieu du domaine expérimental => modèle non monotone)
Besoin en points supplémentaires(Neuro Pex) sur les sommetsET à l’intérieur du domaine expéri.
Rendement : Stratégie séquentielle 2010 (2)
Le RN est satisfaisant dès la deuxième itération. R atio 47 exp. / 22 param.
Rendement - 5 entrées - RN à 3 neurones cachés (22p) – Etape 2App. NOLH1+2+PEX (33+2+12=47pts) Test 82pts
Stratégie séquentielle (étape 2) : • Neuro Pex => 12 pts D-optimaux• Apprentissage sur plan
NOLH 1+2 + PEX 12pts => 47points• Test du RN à 3 NC – Etape 2
sur tous les points, y compris
Rendement - Dérivées locales des RN à 3NC
AVANT : NOLH1+2 (33pts) APRES : NOLH1+2+PEX (33+2+12=47pts)
sur tous les points, y comprisle plan factoriel + autres points
• NeuroPex a vu les zones critiques=> 12 points à leviers (très) forts
• Modèle à forte courbure locale• Ratio 47exp. / 22 param. !!
Conclusion
• L’utilisation combinée de plans d’expériences et de réseaux de neurones a commencé en 2005 avec le développement du logiciel Neuro Pex.
• InModelia (et Netral) sont les pionners dans cette niche.
• InModelia apparait en n°1 et n°2 dans Google, Bing, Yahoo, Exalead pour les mots -clés (neurones, plans, experiences, NOLH) en frança is et en anglais !mots -clés (neurones, plans, experiences, NOLH) en frança is et en anglais !
• Par petites améliorations successives, on dispose a ujourd’hui (2011) de stratégies séquentielles performantes alternant pla nification et modélisation pour des problèmes de 5 à 22 dimensions :
• Plan initial de type NOLH• Réseau de neurones 1ère itération• Plan D-optimal pour réseau de neurones• Réseau de neurones 2ème itération
• Pour un problème à 5 entrées, 47 essais ont été suf fisants pour identifier un réseau de neurones à 22 paramètres, soit un ratio # 2,2 !!
Perspectives 2011
• Des travaux récents améliorent les plans NOLH (2007 , Cioppa) d’environ 15% => Plans NOLH-EA (2009, De Rainville)
• On peut envisager les “Séquences de Halton-EA” si l’o n veut s’affranchir du nombre d’essais imposé par les plans NOLH (mais on perd l’orthogonalité)
• Apprentissage par moindre -carrés avec fonction de pénalisation• Apprentissage par moindre -carrés avec fonction de pénalisation
• Travailler au delà de 17-22 entrées est un vrai cha llenge si on veut des modèles précis.
=> Réintroduire l’analyse de sensibilité et la séle ction de variables
• Remarque : les tangente hyperbolique des réseaux de neurones ont énormément de difficulté à apprendre une simple lig ne droite, un plan=> Ne pas utiliser les réseaux de neurones pour les problèmes trop simples
Merci pour votre attentionMerci pour votre attention
[email protected] : 09.53.45.07.38
LMCS – 7 avril 2011 – Chatou
Comment améliorer un plan Comment améliorer un plan d'expériences ?d'expériences ?
Choix des essais parPlan d'Expériences
Construction d’unRéseau de neuronesModèle non linéaire
Contact : patrice.kiener @netral.com ֠ 01.46.38.75.12
Contacts : annie. masson@ cea.fr ֠ 01.69.26.57.58nicolas.lecler @ cea.fr ֠ 01.69.26.67.92
Modèle insuffisamment représentatif des non-linéarités.
Objectif : modéliser la réponse en un minimum d’essais
� Modèle polynomial à 4 facteurs du 3ème degré,
� Plan D-Optimal en 24 essais.
Conservation des essais du plan d’expériences.
Détection des essais les plus influents sur le modèle.
Calcul des intervalles de
Plans d’expériences et réseaux de neurones coopèrent avantageusement !
Modèle non linéaire
Modèle représentatifdes non-linéarités
Calcul des intervalles de confiance en tout point du domaine d’étude.
Détermination d’essais supplémentaires
Exemple: le point 17-4,5-0,3-30 a un intervalle de confiance plus élevé que l’essai 17-4,5-0,1-30.
7 essais supplémentairesseront suffisants.
Nouvel apprentissageavec 24+7=31 essais