tests dhypothèses. définir un cadre théorique qui permet d'évaluer de façon quantitative...

Tests d’hypothèses

Définir un cadre théorique qui permet d'évaluer de façon quantitative la plausibilité des hypothèses.

Objectif: comparaison d'une mesure effectuée sur un échantillon à une valeur théorique

Hypothèse nulle Ho: Si on suppose que l'hypothèse nulle

est vraie alors on peut calculer la probabilité d'obtenir la valeur observée pour l'échantillon considéré par le seul effet des fluctuations d'échantillonnage.

Si cette probabilité est très faible, on pourra rejeter l'hypothèse nulle avec un bon degré de confiance.

Exemple Sachant que la longueur des phrases du

roman Notre-Dame de Paris est de 18,6 mots, on se demande si la longueur moyenne des phrases du Roman, écrit à la fin de sa vie, de Victor Hugo Quatre-Vingt Treize est inférieure en moyenne à 18.6.

Supposons que l’on dispose pas de tout le livre sous informatique mais d’un échantillon d’une centaine de phrases tirées au hasard.

On considère l’estimateur de l’écart-type de l’échantillon de 23,1 comme celui de la population.

La moyenne est de m =14,4 Cette valeur est plus courte mais peut-on affirmer

que les phrases sont plus courtes? Est-ce uniquement un effet de l’échantillonnage aléatoire

Z = (m – μ0)/(σ/ N) = (14.4 -18.6)/ (23,1/10)

= -1.81

La probabilité d'obtenir une valeur au moins aussi faible, si l'hypothèse nulle H0 est vraie, correspond à la surface sous la queue de la loi Normale standard à gauche de la valeur -1.81, soit 0.035.

=> probabilité critique noté pc (certains parlent de degré de signification).

Cette valeur nous indique que nous avons 3.5% de chances de nous tromper en rejetant l'hypothèse nulle.

Plus pc est petit moins on prend de risque en rejetant Ho

Si l'hypothèse nulle est vraie (μ0 = 18.6), la probabilité de tirer un échantillon de moyenne aussi faible que 14.4 seulement sous l'effet du hasard est de 3.5%. Le hasard a peu

d’effet

Remarque: même calcul pour de petits échantillons sauf que la distribution est assimilée à une loi de Student à n-1 degré de liberté.

Dans notre exemple la valeur critique serait de 0,036

seuils de rejet (appelés aussi seuils de signification )

0.05 ou 0.01 : correspondent respectivement à 95% ou 99% de chances de rejeter l'hypothèse nulle à tort et de se tromper en affirmant la présence d'un certain effet.

Dans l'exemple ci-dessus, on rejetterait l'hypothèse nulle au seuil 0.05, mais on devrait l'accepter au seuil 0.01.

Si pc < on rejette l’hypothèse Si pc > on ne prend pas le risque

jugé trop grand de rejeter Ho qui est considérée comme acceptable.

Tests unilatéraux ou bilatéraux Pour l'exemple précédent, nous avions une

idée de la direction dans laquelle devait se trouver l'effet s'il y en avait un, peut-être grâce à l'étude d'autres textes de Hugo, d'analyses stylistiques diverses, de témoignages de l'auteur lui-même sur sa façon d'écrire, etc. On dit que le test est un test unilatéral.

On n’a pas toujours d’hypothèse préalable sur la directionnalité de l'effet cherché

On cherche simplement à savoir si une différence existe, dans un sens ou dans l'autre.

Test bilatéral.

Exemple La proportion des phrases interrogatives

est de 6.53 % dans Notre-Dame de Paris. Nous pouvons nous demander si c'est une

constante dans les romans de Hugo, ou bien si son style change au fil de son oeuvre. Si oui pas d'hypothèse particulière sur la

direction de ce changement, vers l'usage d'un plus grand ou plus petit nombre d'interrogatives.

Pour le roman Quatre-Vingt Treize, Hypothèse nulle: la proportion

d'interrogatives est égale à la proportion théorique de 6.53 %,

les valeurs observées dans des échantillons tirées au sort correspondent à des fluctuations aléatoires autour de cette proportion, dues à l'échantillonnage.

Dans l'échantillon aléatoire prélevé précédemment, la proportion d'interrogatives observée est de 11.0%.

Plus élevée que la proportion théorique correspondant à l'hypothèse nulle. Mais peut-on pour autant rejeter l'hypothèse nulle ?

p - π0 11.0 - 6.53 z = = = 1.43

Ici on considère les deux côtés de la distribution. Si l'hypothèse nulle est vraie (π = 6.53%), la probabilité de tirer un échantillon contenant 11.0% de phrases interrogatives sous l'effet du seul hasard est de 7.64% + 7.64% = 15.3%.

Au seuil de 5% est ce qu’on peut rejeter l’hypothèse nulle? Non car pc > 0.05

Et au seuil de 1%? Si on accepte H0 au risque 5 %, on

l’accepte aussi au risque 1 %

Erreurs de type I et II Intuitivement, on a intérêt à abaisser le seuil de

rejet de l'hypothèse nulle, de façon à n'avancer que des hypothèses très fiables. L'inconvénient est que, ce faisant, on augmente les chances de commettre une autre erreur, celle de ne pas rejeter l'hypothèse nulle alors qu'elle est fausse.

erreur de type I (ou de première espèce) = rejet de l'hypothèse nulle alors qu'elle est vraie ;

erreur de type II (ou de seconde espèce) = acceptation de l'hypothèse nulle alors qu'elle est fausse.

deux erreurs antagonistes : abaisser l'une augmente immédiatement l'autre, et la décision que doit prendre le chercheur est un compromis adapté à la situation. Exemple erreur de type I = condamner un

innocent ; erreur de type II = laisser un coupable

en liberté.

Si l'on appelle α la probabilité de l'erreur de type I et β celle de l'erreur de type II, on peut dresser le tableau suivant :

H0 vraie H0 fausse

acceptation 1 - β β (erreur I I )

rejet α (erreur I ) 1 - α

hypothèse alternative

Soit H1 l'hypothèse alternative, c'est-à-dire celle qui est vraie quand H0 est fausse. Dans le cas des longueurs de phrases dans Quatre-Vingt Treize :

H0 : μo = 18.6 H1 : μ1 < 18.6

Généralement on ne connaît pas la valeur vraie μ1 de la moyenne (ou de la proportion) dans le cas où H1 est vraie: on peut par exemple se donner une idée de

l'erreur de type II que l'on ferait si cette moyenne était justement celle prédite par l'échantillon.

Connaissant la moyenne et l'écart type, la loi normale permet facilement de calculer β. Au seuil de 1%, cette erreur est de 69,4%, ce qui est très élevé. Au seuil de 5% elle est encore de 43,1%.

Comme on ne connaît pas μ1 on peut calculer β pour toutes les valeurs possibles correspondant à H1 et reporter ces valeurs sur un graphique, appelé courbe caractéristique d'efficacité.

courbe caractéristique d'efficacité

Remarque: ce graphique montre clairement que lorsque l'hypothèse alternative s'éloigne de l'hypothèse nulle la probabilité d'une erreur de type II décroît.

lorsque les moyennes μ0 et μ1 sont très clairement séparées, la probabilité β d'erreur de type II devient presque nulle.

Exemple Soit la longueur des 100 premières phrases

de Notre-Dame de Paris. La moyenne de cet échantillon (non-aléatoire !) est de 32,9 mots, avec un écart-type de 25,6.

probabilité critique est quasiment égale à 0 (en fait elle est si faible que les logiciels n'arrivent même pas à la calculer). D’où il faut rejeter l'hypothèse nulle, avec une

chance quasi nulle de se tromper... La possibilité d'une erreur de type II est également quasi nulle, même au seuil de 1%

Puissance d'un test Constat: plus la différence entre H1 et H0 est

grande, plus les conclusions qu'on peut tirer d'un test sont fiables, puisqu'à la fois les erreurs de type I et II diminuent.

On ne maîtrise pas ce paramètre, puisqu'il dépend des données que l'on examine.

On peut estimer la fiabilité d'un test avant de commencer une expérience, et le cas échéant, on peut décider de ne pas l'entreprendre si le test résultant s'annonce comme peu fiable.

On peut ainsi décider d'une taille d'échantillon plus grande

Puissance du test correspond à 1 - β.

Le problème est que généralement on ne connaît pas μ1.

On peut cependant se fixer avant le test une limite inférieure à la différence que l'on souhaite pouvoir observer.

Exemple une moyenne théorique de 18.6 une différence minimale de 3 (correspondant à

μ1 = 15.6) un écart-type de 17.6 pour la population

parente une taille d'échantillon de 100 un test unilatéral un seuil de 5% la puissance du test est de 0.52. C'est la

valeur qui correspond au pire des cas que nous acceptons d'envisager.

Remarque: Cette puissance est trop faible. Sauf exception, on considèrera qu'il

est inutile de monter un test si la puissance escomptée est inférieure à 0.80. Cette puissance correspond à une probabilité de 80% de ne pas rejeter l'hypothèse nulle à tort, ou, ce qui revient au même de 20% d'erreur de type II.

Tailles d'échantillons

En inversant la formule de calcul de la puissance, on peut, si l'on fixe la puissance souhaitée (par exemple 0.80), en déduire la taille minimale de l'échantillon qui sera nécessaire pour monter correctement le test.

Exemple On voit que pour un seuil de 5% et

une puissance souhaitée de 0.80 : dans le cas des longueurs moyennes, il faut

un échantillon de 213 phrases ; Dans le cas de la proportion

d'interrogatives, il faut un échantillon de 1294 phrases.

D’où le test avec 100 phrases on est loin du compte!

On refait l’expérience avec un test avec cette taille d'échantillon: Longueur moyenne des phrases = 13.6, avec

une probabilité critique de 0,0004 ; On peut rejeter sans hésitation l'hypothèse

nulle : Victor Hugo fait bien des phrases plus courtes comme pressenti moyenne théorique (18.6)

En réalité, les vraies valeurs dans Quatre-Vingt Treize sont de longueur moyenne des phrases = 13.9 mots;

-> diminution de la zone de chevauchement

tests dhypothèses. définir un cadre théorique qui permet d'évaluer de façon quantitative...

Documents