tests dhypothèses. définir un cadre théorique qui permet d'évaluer de façon quantitative...

37
Tests d’hypothèses

Upload: grosvenor-rose

Post on 04-Apr-2015

110 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Tests d’hypothèses

Page 2: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses.

Objectif: comparaison d'une mesure effectuée sur un échantillon à une valeur théorique

Page 3: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Hypothèse nulle Ho: Si on suppose que l'hypothèse nulle

est vraie alors on peut calculer la probabilité d'obtenir la valeur observée pour l'échantillon considéré par le seul effet des fluctuations d'échantillonnage.

Si cette probabilité est très faible, on pourra rejeter l'hypothèse nulle avec un bon degré de confiance.

Page 4: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Exemple Sachant que la longueur des phrases du

roman Notre-Dame de Paris est de 18,6 mots, on se demande si la longueur moyenne des phrases du Roman, écrit à la fin de sa vie, de Victor Hugo Quatre-Vingt Treize est inférieure en moyenne à 18.6.

Supposons que l’on dispose pas de tout le livre sous informatique mais d’un échantillon d’une centaine de phrases tirées au hasard.

Page 5: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

On considère l’estimateur de l’écart-type de l’échantillon de 23,1 comme celui de la population.

La moyenne est de m =14,4 Cette valeur est plus courte mais peut-on affirmer

que les phrases sont plus courtes? Est-ce uniquement un effet de l’échantillonnage aléatoire

Z = (m – μ0)/(σ/ N) =  (14.4 -18.6)/ (23,1/10) 

= -1.81

Page 6: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

La probabilité d'obtenir une valeur au moins aussi faible, si l'hypothèse nulle H0 est vraie, correspond à la surface sous la queue de la loi Normale standard à gauche de la valeur -1.81, soit 0.035.

=> probabilité critique noté pc (certains parlent de degré de signification).

Cette valeur nous indique que nous avons 3.5% de chances de nous tromper en rejetant l'hypothèse nulle.

Plus pc est petit moins on prend de risque en rejetant Ho

Page 7: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Si l'hypothèse nulle est vraie (μ0 = 18.6), la probabilité de tirer un échantillon de moyenne aussi faible que 14.4 seulement sous l'effet du hasard est de 3.5%. Le hasard a peu

d’effet

Page 8: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Remarque: même calcul pour de petits échantillons sauf que la distribution est assimilée à une loi de Student à n-1 degré de liberté.

Dans notre exemple la valeur critique serait de 0,036

Page 9: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

seuils de rejet (appelés aussi seuils de signification )

0.05 ou 0.01 : correspondent respectivement à 95% ou 99% de chances de rejeter l'hypothèse nulle à tort et de se tromper en affirmant la présence d'un certain effet.

Dans l'exemple ci-dessus, on rejetterait l'hypothèse nulle au seuil 0.05, mais on devrait l'accepter au seuil 0.01.

Page 10: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Si pc < on rejette l’hypothèse Si pc > on ne prend pas le risque

jugé trop grand de rejeter Ho qui est considérée comme acceptable.

Page 11: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Tests unilatéraux ou bilatéraux Pour l'exemple précédent, nous avions une

idée de la direction dans laquelle devait se trouver l'effet s'il y en avait un, peut-être grâce à l'étude d'autres textes de Hugo, d'analyses stylistiques diverses, de témoignages de l'auteur lui-même sur sa façon d'écrire, etc. On dit que le test est un test unilatéral.

On n’a pas toujours d’hypothèse préalable sur la directionnalité de l'effet cherché

On cherche simplement à savoir si une différence existe, dans un sens ou dans l'autre.

Test bilatéral.

Page 12: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Exemple La proportion des phrases interrogatives

est de 6.53 % dans Notre-Dame de Paris. Nous pouvons nous demander si c'est une

constante dans les romans de Hugo, ou bien si son style change au fil de son oeuvre. Si oui pas d'hypothèse particulière sur la

direction de ce changement, vers l'usage d'un plus grand ou plus petit nombre d'interrogatives.

Page 13: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Pour le roman Quatre-Vingt Treize, Hypothèse nulle: la proportion

d'interrogatives est égale à la proportion théorique de 6.53 %,

les valeurs observées dans des échantillons tirées au sort correspondent à des fluctuations aléatoires autour de cette proportion, dues à l'échantillonnage.

Page 14: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Dans l'échantillon aléatoire prélevé précédemment, la proportion d'interrogatives observée est de 11.0%.

Plus élevée que la proportion théorique correspondant à l'hypothèse nulle. Mais peut-on pour autant rejeter l'hypothèse nulle ?

Page 15: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

p - π0 11.0 - 6.53 z = = = 1.43

Page 16: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Ici on considère les deux côtés de la distribution. Si l'hypothèse nulle est vraie (π = 6.53%), la probabilité de tirer un échantillon contenant 11.0% de phrases interrogatives sous l'effet du seul hasard est de 7.64% + 7.64% = 15.3%.

Page 17: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Au seuil de 5% est ce qu’on peut rejeter l’hypothèse nulle? Non car pc > 0.05

Et au seuil de 1%? Si on accepte H0 au risque 5 %, on

l’accepte aussi au risque 1 %

Page 18: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Erreurs de type I et II Intuitivement, on a intérêt à abaisser le seuil de

rejet de l'hypothèse nulle, de façon à n'avancer que des hypothèses très fiables. L'inconvénient est que, ce faisant, on augmente les chances de commettre une autre erreur, celle de ne pas rejeter l'hypothèse nulle alors qu'elle est fausse.

erreur de type I (ou de première espèce) = rejet de l'hypothèse nulle alors qu'elle est vraie ;

erreur de type II (ou de seconde espèce) = acceptation de l'hypothèse nulle alors qu'elle est fausse.

Page 19: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

deux erreurs antagonistes : abaisser l'une augmente immédiatement l'autre, et la décision que doit prendre le chercheur est un compromis adapté à la situation. Exemple erreur de type I = condamner un

innocent ; erreur de type II = laisser un coupable

en liberté.

Page 20: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Si l'on appelle α la probabilité de l'erreur de type I et β celle de l'erreur de type II, on peut dresser le tableau suivant :

H0 vraie H0 fausse

acceptation 1 - β β (erreur I I )

rejet α (erreur I ) 1 - α

Page 21: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

hypothèse alternative

Soit H1 l'hypothèse alternative, c'est-à-dire celle qui est vraie quand H0 est fausse. Dans le cas des longueurs de phrases dans Quatre-Vingt Treize :

H0 : μo = 18.6 H1 : μ1 < 18.6

Page 22: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Généralement on ne connaît pas la valeur vraie μ1 de la moyenne (ou de la proportion) dans le cas où H1 est vraie: on peut par exemple se donner une idée de

l'erreur de type II que l'on ferait si cette moyenne était justement celle prédite par l'échantillon.

Connaissant la moyenne et l'écart type, la loi normale permet facilement de calculer β. Au seuil de 1%, cette erreur est de 69,4%, ce qui est très élevé. Au seuil de 5% elle est encore de 43,1%.

Page 23: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure
Page 24: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Comme on ne connaît pas μ1 on peut calculer β pour toutes les valeurs possibles correspondant à H1 et reporter ces valeurs sur un graphique, appelé courbe caractéristique d'efficacité.

Page 25: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

courbe caractéristique d'efficacité

Page 26: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Remarque: ce graphique montre clairement que lorsque l'hypothèse alternative s'éloigne de l'hypothèse nulle la probabilité d'une erreur de type II décroît.

lorsque les moyennes μ0 et μ1 sont très clairement séparées, la probabilité β d'erreur de type II devient presque nulle.

Page 27: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Exemple Soit la longueur des 100 premières phrases

de Notre-Dame de Paris. La moyenne de cet échantillon (non-aléatoire !) est de 32,9 mots, avec un écart-type de 25,6.

probabilité critique est quasiment égale à 0 (en fait elle est si faible que les logiciels n'arrivent même pas à la calculer). D’où il faut rejeter l'hypothèse nulle, avec une

chance quasi nulle de se tromper... La possibilité d'une erreur de type II est également quasi nulle, même au seuil de 1%

Page 28: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure
Page 29: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Puissance d'un test Constat: plus la différence entre H1 et H0 est

grande, plus les conclusions qu'on peut tirer d'un test sont fiables, puisqu'à la fois les erreurs de type I et II diminuent.

On ne maîtrise pas ce paramètre, puisqu'il dépend des données que l'on examine.

On peut estimer la fiabilité d'un test avant de commencer une expérience, et le cas échéant, on peut décider de ne pas l'entreprendre si le test résultant s'annonce comme peu fiable.

On peut ainsi décider d'une taille d'échantillon plus grande

Page 30: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Puissance du test correspond à 1 - β.

Page 31: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Le problème est que généralement on ne connaît pas μ1.

On peut cependant se fixer avant le test une limite inférieure à la différence que l'on souhaite pouvoir observer.

Page 32: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Exemple une moyenne théorique de 18.6 une différence minimale de 3 (correspondant à

μ1 = 15.6) un écart-type de 17.6 pour la population

parente une taille d'échantillon de 100 un test unilatéral un seuil de 5% la puissance du test est de 0.52. C'est la

valeur qui correspond au pire des cas que nous acceptons d'envisager.

Page 33: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Remarque: Cette puissance est trop faible. Sauf exception, on considèrera qu'il

est inutile de monter un test si la puissance escomptée est inférieure à 0.80. Cette puissance correspond à une probabilité de 80% de ne pas rejeter l'hypothèse nulle à tort, ou, ce qui revient au même de 20% d'erreur de type II.

Page 34: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Tailles d'échantillons

En inversant la formule de calcul de la puissance, on peut, si l'on fixe la puissance souhaitée (par exemple 0.80), en déduire la taille minimale de l'échantillon qui sera nécessaire pour monter correctement le test.

Page 35: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

Exemple On voit que pour un seuil de 5% et

une puissance souhaitée de 0.80 : dans le cas des longueurs moyennes, il faut

un échantillon de 213 phrases ; Dans le cas de la proportion

d'interrogatives, il faut un échantillon de 1294 phrases.

D’où le test avec 100 phrases on est loin du compte!

Page 36: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

On refait l’expérience avec un test avec cette taille d'échantillon: Longueur moyenne des phrases = 13.6, avec

une probabilité critique de 0,0004 ; On peut rejeter sans hésitation l'hypothèse

nulle : Victor Hugo fait bien des phrases plus courtes comme pressenti moyenne théorique (18.6)

En réalité, les vraies valeurs dans Quatre-Vingt Treize sont de longueur moyenne des phrases = 13.9 mots;

Page 37: Tests dhypothèses. Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses. Objectif: comparaison d'une mesure

-> diminution de la zone de chevauchement