![Page 1: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/1.jpg)
Validation de modèles paramétriques
Atelier de formation A09Plateforme de recherche clinique et évaluative
Anne-Sophie Julien, M.Sc., biostatistique
![Page 2: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/2.jpg)
Objectifs d’apprentissage
1. Connaître les postulats et les sources de biaisdes principales analyses statistiquesparamétriques
2. Pouvoir vérifier si les résultats obtenus par un modèle d’ANOVA, de régression linéaire oulogistique sont fiables
1
![Page 3: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/3.jpg)
Plan de la présentation1. Définitions et concepts2. Postulats3. Sources de biais statistique4. Pouvoir prédictif5. Exemple de validation d’une ANOVA6. Exemple de validation d’une régression linéaire7. Exemple de validation d’une régression
logistique2
![Page 4: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/4.jpg)
Validation de modèles paramétriques– Postulats
• Hypothèses du modèle doivent être respectés– Sources de biais
• Sélection non aléatoire des sujets• Absence de randomisation• Hypothèses H0 & H1 mal spécifiées• Valeurs influentes• Multicolinéarité• Données manquantes• Sélection variables & observations
– Pouvoir prédictif du modèle• Pouvoir explicatif des variables explicatives• Validation des prédictions• Validation croisée
3
Sans validation, la conclusion d'uneanalyse pourraitêtre erronnée!
![Page 5: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/5.jpg)
Résidus
• Résidu ordinaire: 𝑒𝑒𝑖𝑖 = 𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖• Où 𝑌𝑌𝑖𝑖 = valeur observée et �𝑌𝑌𝑖𝑖 = valeur prédite• Bon modèle: Résidus tous près de 0
• Résidu studentisé: 𝑒𝑒𝑖𝑖 divisé par son écart-type• Ramène les résidus sur une échelle connue: scores Z
4
![Page 6: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/6.jpg)
Section 1: Postulats
![Page 7: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/7.jpg)
Postulats
Fréquemment rencontrés:• Normalité des résidus• Homoscédasticité des résidus (variances égales)• Linéarité• Indépendance (absence d’auto-corrélation)
6
![Page 8: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/8.jpg)
Normalité des résidus• Les modèles supposent que les résidus suivent une
distribution normale de moyenne 0 et de variance 𝜎𝜎2(homoscédasticité)
• Analyses robustes à une légère déviation de la normalité
• Résultats extrêmes moins affectés• Grand kurtosis → conservateur
• Test T, ANOVA, Régression linéaire, et plusieurs autres
• Validation graphique, par des statistiques ou des tests 7
![Page 9: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/9.jpg)
Normalité des résidus
Vérification graphique• Diagrammes à moustaches (symétrique, moyenne
= médiane, peu de valeurs influentes, moustaches plus longues que la boîte)
• Histogramme (cloche)• QQ Plot / Droite de Henry (points sur la diagonale)
8
![Page 10: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/10.jpg)
Normalité des résidusVérification graphique
9
![Page 11: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/11.jpg)
Normalité des résidusStatistiques et Tests
• Moyenne ≈ Médiane• Coefficient d’asymétrie (« Skewness »)• Coefficient d’aplatissement (« Kurtosis »)• Tests de normalité (Shapiro-Wilk, Kolmogorov-Smirnov)
• H0: Distribution normale• H1: Distribution pas normale• On ne veut pas rejeter l’hypothèse nulle• Si P ≥ 0.01, distribution normale
*Regarder plusieurs critères avant de prendre une décision* 10
Normalité respectée si valeurs entre
-1 et 1
![Page 12: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/12.jpg)
Normalité des résidusSources de non normalité• Données non continues, ordinales, qui manquent
de variabilité• Distribution asymétrique• Hétéroscédasticité• Concentrations logarithmiques
Impact• Estimation biaisée
11
![Page 13: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/13.jpg)
Normalité des résidusSolutions
• Transformation de Box-Cox pour Y• Exemple: concentrations -> log
• Éliminer des données aberrantes (lorsque kurtosisélevé)
• Analyses pour données ordinales (lorsque asymétrie et manque de variabilité)
• Valider les résultats avec une analyse non paramétrique (lorsque possible)
12
![Page 14: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/14.jpg)
Homogénéité des variances• Les modèles supposent que les résidus suivent une
distribution normale de moyenne 0 et de variance 𝜎𝜎2 (homoscédasticité)
• Lorsque la variance des résidus diffère selon les groupes ou la valeur de Y, il y a hétéroscédasticité
• Test T, ANOVA, Régression linéaire & logistique, et plusieurs autres
• Validation graphique ou par des tests13
![Page 15: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/15.jpg)
Homogénéité des variancesVérification graphique
• Graphique des résidus studentisés en fonction des valeurs prédites
• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires en forme de rectangle• Positifs et négatifs
• Problème si:• Variabilité des résidus diffère selon la valeur prédite• Forme d’entonnoir• Tous positifs ou négatifs
14
![Page 16: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/16.jpg)
Homogénéité des variances
1
ANOVA / Test T Régression linéaire
Homoscédasticité
Hétéroscédasticité
![Page 17: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/17.jpg)
Homogénéité des variances
Test de Levene
• H0: Les variances sont égales• H1: Les variances sont inégales• On ne veut pas rejeter l’hypothèse nulle• Si P > 0,01 -> Ok, variances égales• Si P <= 0,01 -> Les variances sont inégales• Utiliser 0,01 plutôt que 0,05: ne pas se casser la tête si
le problème n’est pas sévère16
![Page 18: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/18.jpg)
Homogénéité des variancesSources d’hétéroscédasticité• Groupe plus variable qu’un autre (anova + test T)• Données aberrantes• Non normalité• Précision varie selon le Y
Impact• Erreurs-type, intervalle de confiance, significativité
erronés 17
![Page 19: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/19.jpg)
Homogénéité des variancesSolutions à l’hétéroscédasticité• Transformation de Box Cox• Régression pondérée• Modèles mixtes
NB: L’analyse non paramétrique n’est pas unesolution (Wilcoxon et Kruskall-Wallis supposentaussi l’homogénéité)
18
![Page 20: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/20.jpg)
Linéarité• Le modèle de régression linéaire suppose qu’il existe une
relation linéaire entre VD et VI𝑉𝑉𝑉𝑉 = 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉
• Le modèle de régression logistique suppose une relation linéaire entre le logit de la probabilité de succès (π) et la VI
log𝜋𝜋
1 − 𝜋𝜋= 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉
• Si la relation n’est pas linéaire, le modèle ne sera pas un bon indicateur de la relation
• Vérification graphique ou par test d’ajout de termes de degrés supérieurs 19
![Page 21: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/21.jpg)
LinéaritéVérification graphique
• Graphique des résidus en fonction des valeursprédites
• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires dans le rectangle
• Problèmes si:• Valeurs situées sur une courbe
20
![Page 22: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/22.jpg)
Linéarité
21
Liné
aire
Non
Lin
éaire
![Page 23: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/23.jpg)
LinéaritéSources de non linéarité• Relation de degré supérieur (quadratique,
cubique, etc.)• Forme exponentielle ou logarithmique• Présence d’interactions
Impact• Mauvaise caractérisation de la relation, estimation
biaisée 22
![Page 24: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/24.jpg)
Linéarité
Solutions• Ajouter des termes de degrés supérieurs, des
interactions• Transformation de Box-Cox pour la VD• Autre famille de modèle
23
![Page 25: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/25.jpg)
Non corrélation des résidus
• Les modèles supposent que les résidus ne sont pas corrélés: 𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒𝑖𝑖 , 𝑒𝑒𝑗𝑗 = 0, 𝑖𝑖 ≠ 𝑗𝑗
• Lorsque ce n’est pas le cas, il y a auto-corrélation, oudépendance entre les observations
• Supposée par tous les modèles présentés dansl’atelier 2, sauf les analyses pour données pairées (Mc Nemar, T Pairé, Wilcoxon rangs signés)
• Vérification graphique ou par test 24
![Page 26: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/26.jpg)
Non corrélation des résidusVérification graphique
• Graphique des résidus en fonction des numérosd’observations
• Pas de problème si:• Résidus négatifs suivis par des résidus positifs
• Problème si:• Résidus négatifs succèdent à plusieurs résidus négatifs
et vice versa 25
![Page 27: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/27.jpg)
Non corrélation des résidus
26
Présence d’auto-corrélation
Absence d’auto-corrélation
![Page 28: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/28.jpg)
Auto-corrélation des résidus
Test de Durbin Watson• 0 <= D-W <= 4• ≈ 2 : Pas d’autocorrélation• Près de 0: Autocorrélation positive • Supérieur à 2: Autocorrélation négative
• Attention si D-W <1• Tests et tables disponibles pour obtenir une valeur p
27
![Page 29: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/29.jpg)
Non corrélation des résidusSources d’auto-corrélation• Dépendance spatielle ou temporelle entre les
observations• Facilement évitable en préparant adéquatement
la collecte
Impact• Mauvaise estimation de la variance, largeur de
l'intervalle de confiance, significativité erronée 28
![Page 30: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/30.jpg)
Auto-corrélation des résidus
Solutions• Ajouter une variable explicative pour expliquer la
dépendance• Modèle mixte• Modèle pour séries chronologiques
29
![Page 31: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/31.jpg)
Section 2: Sources de biais statistique
![Page 32: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/32.jpg)
Valeurs influentes
31
Valeur aberranteObservations ayantune combinaison de valeurs (VI, VD) trèsdifférente du restedes observations
-> impact léger
LevierObservation ayant
une valeur de VI loin de la moyenne des
VI
-> impact léger
Valeur influente Observation avec levier et valeur VD différente des
autres avec même VI
-> impact sur paramètres estimés et prédiction
![Page 33: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/33.jpg)
Valeurs influentesStatistiques
• Levier (LEV): Distance avec le centre des VI• Résidus studentisés supprimés (SDR): Résidu basé sur
l’échantillon sans la ie valeur• DFFITS (DFF): Influence sur la valeur prédite• Distance de Cook (COO) et DFBETAS (DFB_): Influence sur
l’estimation des coefficients de régression• COVRATIO (COV): Influence sur la variance des
estimateurs
32
![Page 34: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/34.jpg)
Valeurs influentesIdentification• LEV se démarquant des autres• SDR se démarquant ou en dehors de [-3, 3]. • DFF se démarquant ou en dehors de [-2,2]. • COO se démarquant ou supérieur à 4/n• DFB_ se démarquant ou supérieur à 2/racine(n) en valeur
absolue• COV près de 0 ou très élevés, entre autres ceux inférieurs à 1-
3p/n et ceux supérieurs à 1+3p/n, où p = # paramètres dans le modèle
*Regarder plusieurs critères avant de prendre une décision* 33
![Page 35: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/35.jpg)
Valeurs influentes
Solutions• Corriger la valeur s’il s’agit d’erreur de saisie• Supprimer l’observation si elle ne fait pas partie
de la population cible• Analyse de sensibilité (avec et sans l’observation)
si elle fait partie de la population cible
34
![Page 36: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/36.jpg)
Multicolinéarité
• Problème survenant lorsque des observations apportent de l’information redondante, lorsqu’une des VI est obtenue par unecombinaison linéaire des autres VI
• Impact sur les variances, la sélection de variables, les variables significatives
35
![Page 37: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/37.jpg)
Multicolinéarité
36
Z
Z Z
Z
![Page 38: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/38.jpg)
MulticolinéaritéVérification• Tolérance
• % de variation d’une VI qui n’est pas expliqué par les autres VI• Valeurs supérieures à 10% -> ok
• Facteur d’inflation de variance • VIF = 1/TOL = 1 / (1-𝑅𝑅2𝑗𝑗 )• Coefficient multipliant la variance de β• Valeurs inférieures à 10 -> ok
• Index de condition• Valeurs inférieures à 30 -> ok
• Proportion de variance• Proportion de variance de β expliqué par la dépendance linéaire• Les variables problématiques ont un PV > 60% sur la ligne de CI >30
37
![Page 39: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/39.jpg)
Multicolinéarité
Solutions• Supprimer une des variables problématiques• Combiner les variables problématiques• Transformation non-linéaire d’une des variables• Autre méthode d’estimation
38
![Page 40: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/40.jpg)
Données manquantes
Scénarios• MCAR: Missing completely at random• MAR: Missing at random -> attention!• MNAR: Missing not at random -> danger!
Solutions (lorsque conditions respectées)• Imputation (plusieurs méthodes existent)• Méthode d’estimation plus complexe
39
![Page 41: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/41.jpg)
Sélection des variables & observations• Variables confondantes• Omission de variables importantes• Observations non sélectionnées aléatoirement
ou absence de randomisation aléatoire• Taille d'échantillon insuffisante• Plan d'expérience (ou méthode de sélection)
non incorporé dans l'analyse• Mauvaises hypothèses H0 et H1
40
![Page 42: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/42.jpg)
Section 3: Pouvoir prédictif
![Page 43: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/43.jpg)
Pouvoir prédictif (Rég. Linéaire)
• Examiner résidus bruts: est-ce que les différences sontacceptables?
• R2 = Coefficient de détermination– % de la variabilité de VD expliqué par les VI– Près de 1: les VI sont des bons prédicteurs de VD
• Validation croisée, RMSE42
![Page 44: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/44.jpg)
Pouvoir prédictif (Rég. Logistique)• R2 généralisé = Équivalent du coefficient de détermination
– N’est pas un % de variabilité– Plusieurs formules: Cox & Snell, Nagelkerke, Tjur,
McFadden– Le maximum n’est pas toujours 1– Utile pour comparer des modèles
• Test d’ajustement de Hosmer & Lemeshow– H0: Le modèle s’ajuste bien aux données– H1: Le modèle s’ajuste mal aux données– Grande valeur p souhaitée– Mauvais ajustement: ajouter des interactions, degrés
supérieurs, etc. 43
![Page 45: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/45.jpg)
Pouvoir prédictif (Rég. Logistique)• Courbe ROC
– Variable quantitative = Probabilité prédite par le modèle– Variable d’état = VD– Impact de différents points de coupure sur la prédiction
de VD– Aire sous la courbe: 50% ->pas mieux que le hazard.
100% -> très bon modèle• Classification des prédictions
– Choisir un point de coupure pour classifier les observations selon la probabilité prédite
– Tableau croisé avec la VD– % d’observations correctement classées 44
![Page 46: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/46.jpg)
Section 4: Validation d’une ANOVA
![Page 47: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/47.jpg)
Exemple de données
Excel: DonnéesSPSS.xlsxContexte: Décès chez des patients atteints de cancer
46
Variable Valeurs
Décès 0: Vivant, 1: Mort
Sexe Femme, Homme
Fumeur 0: Non Fumeur, 1: Occasionnel, 2: Régulier
Diabète Oui, Non
IMC Nombre
Diamètre Nombre (mm)
Suivi Durée de suivi jusqu’au décès ou la fin de suivi (semaines)
Id Numéro d’identification
![Page 48: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/48.jpg)
Étapes SPSS
– Analyse -> Modèle linéaire général -> Univarié• Variable dépendante = VD continue• Facteur(s) fixe(s) = VI nominale• Enregistrer: Prévisions non standardisés et Résidus
De Student• Options: Tests d’homogénéité, Tracé résiduel
NB: Les étapes sont aussi valides pour un test T, qui est un cas particulier de l’ANOVA
47
![Page 49: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/49.jpg)
Étapes SPSS
– Graphiques-> Générateur de graphiques• Diagramme de dispersion superposé• Y = SRE, X = PRE, Couleur définie = Fumeur
– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = Résidu de Student pour IMC• Tracés-> Histogramme, Tracés de répartition gaussiens
avec tests
48
![Page 50: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/50.jpg)
Résultats
49
> 0,01Variances égales
![Page 51: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/51.jpg)
Résultats
50
![Page 52: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/52.jpg)
Résultats
51>1% : normal <1% : ≠ normal
Entre -1 et 1: normal
Presque égales: normal
![Page 53: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/53.jpg)
Section 5: Validation d’une régression linéaire
![Page 54: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/54.jpg)
Étapes SPSS• Analyse -> Régression -> Linéaire
• Dépendant -> Suivi• Variables indépendantes: IMC, Diamètre• Statistiques: Tests de colinéarité, Durbin-Watson,
Diagnostic des observations• Enregistrer: Prévisions non standardisés, Résidus non
standardisés, de Student et De Student supprimés, Distance de Cook, Valeurs influentes, DfBêta(s), Différence de prévision, Rapport de covariance
53
![Page 55: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/55.jpg)
Étapes SPSS– Graphiques -> Générateur de graphiques
• Diagramme de dispersion simple, libellé ID de point: Id• Y = SRE, X = PRE (homogénéité)• Y = RES, X = PRE (linéarité)• Y = RES, X = # d’observation (autocorrélation)
– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = SRE • Diagrammes -> Histogramme, Graphes de répartition gaussiens avec
tests (normalité)
– Graphiques -> Générateur de graphiques• Diagramme de dispersion simple, libellé ID de point: Id• Y = LEV / SDR / DFF / COO / DFB_ / COV, X = ID• Ajouter une ligne de référence aux seuils spécifiés
54
![Page 56: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/56.jpg)
Résultats
55
DW ≈ 2Pas d’autocorrélation
TOL > 10%VIF < 10Pas de multicolinéarité
Si le VIF était >10• Identifier ligne où IC > 30• Variables problématiques
auraient PV >0,60
![Page 57: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/57.jpg)
Résultats
56
→ Disposition aléatoire→ Pas d’entonnoir ni de courbe→ Pas de points en dehors des limites acceptables→ Pas de tendance visible
![Page 58: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/58.jpg)
Résultats
57
→ Normalité ok• Coefficients [-1,1]• Tests p > 0,01• Beaux graphiques
![Page 59: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/59.jpg)
Résultats
58
• LEV: #62, #64 se démarquent des autres• SDR: Aucune observation ne se démarque ou en dehors de [-3, 3]
![Page 60: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/60.jpg)
59
• DFF: #62, #64 supérieurs à 2; #92, #100, inférieurs à 2• COO: 7 valeurs supérieures à 4/n = 4/100 = 0,04
Résultats
![Page 61: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/61.jpg)
Résultats
60
• DFB: Toutes les observations sont dans l’intervalle [-2/√n, 2/√n] = [-0.20, 0.20]
• #62, #64, #66, #92, #100 se démarquent
![Page 62: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/62.jpg)
61
• COVRATIO #20, #62, #64, #85 en dehors de l’intervalle [1-3p/n, 1+3p/n] = [1-3*3/100, 1+3*3/100] = [0.91, 1.09]
Résultats
![Page 63: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/63.jpg)
62
• Observations identifiées par les statistiques sont aux limites ou endehors du nuage de point principal
• Présence de leviers, mais pas de valeur influente• Pourrait faire une analyse de sensibilité pour #64, #66, #92, #100
Résultats
![Page 64: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/64.jpg)
Section 6: Validation d’une régression logistique
![Page 65: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/65.jpg)
Étapes SPSSAnalyse -> Régression -> Logistique Binaire
– Dépendant -> Décès– Covariables: Diamètre– Enregistrer: Probabilités, Cook, Valeurs Influentes,
DfBêta(s), Résidus de Student– Options: Qualité d’ajustement d’Hosmer-Lemeshow, Liste
des résidus par observation
NB.: Validation de la multicolinéarité dans “Régression linéaire” s’il y a plusieurs variables explicatives
64
![Page 66: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/66.jpg)
Étapes SPSS• Analyse -> Courbe ROC
– Variable à tester: PRE (Probabilité prédite)– Variable d’état: Décès– Valeur de la variable d’état: 1– Affichage de: Courbe ROC, Avec diagonale de référence, Erreur
standard et int. de confiance, Coordonnées de la courbe ROC• Graphiques -> Générateur de graphiques
– Diag. de disp. simple, Libellé de point: ID, Couleur définie : Décès– Y = LEV (Valeurs influentes), X = ID – Y = SRE, X = PRE– Y = DFB (DFBeta), X = ID – Y = Absolu[SRE], X = LEV– Y = COO (Statistiques … Cook), X = ID 65
![Page 67: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/67.jpg)
Résultats (pouvoir prédictif)
66
R2 généraliséÉquivalents du R2 en régression linéaireInterprétation semblable
P > 0,05Le modèle s’ajuste bien aux données
Pourcentage d’observationscorrectement prédites par le modèle
![Page 68: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/68.jpg)
Résultats (pouvoir prédictif)
67
C = aire sous la courbe = 71%
![Page 69: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/69.jpg)
Résultats (résidus)
68
Cinq résidus supérieurs à 2, mais rien de catastrophique
![Page 70: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/70.jpg)
69
• Levier: #20, #62, #85, #100 se démarquent• Cook: #20, #92 se démarquent
Résultats
![Page 71: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/71.jpg)
70
• DFBETA: Aucune observation ne se démarque des autres
Résultats
![Page 72: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/72.jpg)
71
• ABS(SRE)*LEV: On ne veut pas de valeur élevée pour les 2 variables (#100?)
• SRE*PRE: Aucune observation ne se démarque• Pourrait faire une analyse de sensibilité, mais rien de majeur
Résultats
![Page 73: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/73.jpg)
Conclusion
• Importance de la validation• Validation parfois arbitraire• Plusieurs aspects à regarder• Analyses de sensibilité
• Ne pas interpréter les résultats d'un test statistique sans avoir procéder à cesvérifications! 72
![Page 74: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection](https://reader033.vdocuments.pub/reader033/viewer/2022060300/5f0821ce7e708231d4207f70/html5/thumbnails/74.jpg)
73
Références• Myers, R.H. (2000). Classical and Modern Regression With
Applications, 2nd Edition. Belmont, CA: Duxbury Press. • Hosmer, D.W. et Lemeshow, S. (2000). Applied Logistic
Regression. New York: John Wiley & Sons, Inc., 2nd edition.• Allison, Paul D. 2012. Logistic Regression Using SAS: Theory
and Application, 2nd edition. Cary, NC: SAS Institute Inc.• Rosner, Bernard (2010). Fundamentals of Biostatistics, 7th
edition. Cengage Learning. 888 pages.• http://rce.crchudequebec.ulaval.ca/nos-services/soutien-
méthodologique-et-biostatistique/documentation