Download - régression abrégée
-
7/30/2019 rgression abrge
1/58
Opration et systmes de dcisionFacult des Sciences de lAdministration
MQT-21919Probabilits et statistique
-
7/30/2019 rgression abrge
2/58
Lectures
Volume du cours: Sections 12.1 12.6 inclusivement
Volume recommand: Statistique en Gestion et enconomie: sections 8.1 et 8.2
-
7/30/2019 rgression abrge
3/58
Mise en contexte
En statistiques, plusieurs problmes consistent dfinirla relation qui existe entre deux variables statistiques :
Le nombre dannes dexprience et le nombre derreurs
commises ;
Lge du conducteur et le nombre daccidents dauto ;
Le volume des ventes et les dpenses en publicit ; Le nombre dheures dtudes et les rsultats aux
examens ;
-
7/30/2019 rgression abrge
4/58
Mise en contexte
Dans ce genre de problmes, les principales questionsauxquelles nous voudrons rpondre sont les suivantes :
Existe-il une relation ou une dpendance entre les
variables statistiques?
Cette relation, si elle existe, est-elle linaire ou non ?
Si une dpendance linaire existe, de quelle faon peut-
on la traduire par une quation mathmatique ?
La relation, si elle existe, est-elle grande ou faible ?
Si lquation mathmatique de la relation entre les
variables existe, comment prvoir les valeurs dune
certaine variable partir de la connaissance de valeurs de
lautre variable ou des autres variables ?
-
7/30/2019 rgression abrge
5/58
Mise en contexte
Pour rpondre toutes ces questions, nous ferons appel une thorie statistique que nous appelons :
Lanalyse de la rgression
-
7/30/2019 rgression abrge
6/58
Lanalyse de la rgression
Lanalyse de la rgression est une mthode statistique
qui permet dtudier le type de relation pouvant exister
entre une certaine variable (dpendante) dont on veut
expliquer les valeurs et une ou plusieurs autres variablesqui servent cette explication (variables indpendantes)
Rgression linaire simple: une variable indpendante
En dautres termes, lanalyse de la rgression permet
dtudier les variations de la variable dpendante enfonction des variations connues des variablesindpendantes.
-
7/30/2019 rgression abrge
7/58
Le cot du loyer en fonction du nombre de pices, du niveaudtage dans limmeuble, des services offerts ...
),...,,,( 321 nXXXXfY
Cot du loyer Nombre de picesServices offerts
(piscine, stationnement intrieur, etc.)
Ltage dans limmeuble
-
7/30/2019 rgression abrge
8/58
Une analyse de rgression est :
dite simple si elle permet de prdire les valeurs dune
variable dite dpendante (explique (Y)) partir des
valeurs prises par une autre variable dite indpendante
(explicative (X)).
dite multiple si elle permet de prdire les valeurs
dune variable dite dpendante (explique (Y)) partir
des valeurs prises par plusieurs autres variables dites
indpendantes (explicatives (Xi)).
-
7/30/2019 rgression abrge
9/58
Cest la reprsentation graphique dans le plan cartsien de lensembledes paires de donnes (xi,yi). Ces donnes proviennent dune sriestatistique de deux variables obtenues partir dune tude mene sur
un chantillon ou sur une population.
Dfinition : Nuage de points ou
diagramme de dispersion
-
7/30/2019 rgression abrge
10/58
Exemple : Nuage de points ou diagramme de dispersion
Supposons que le nombre dheures dtudes ncessaires pourprparer lexamen final en statistiques et le nombre de bonnesrponses obtenues par chaque tudiant sont donns dans le
tableau suivant :
Tracer le nuage de points ou le diagramme de dispersion desdonnes prsentes ci-dessus.
-
7/30/2019 rgression abrge
11/58
Exemple : Nuage de points ou diagramme de dispersion
-
7/30/2019 rgression abrge
12/58
Objectif dune analyse de rgression simple
Une fois la reprsentation graphique effectue, il est facile de
souponner lexistence dune certaine relation entre les deuxvariables (caractres tudis). Il faut maintenant chercher exprimer cette relation laidedune quation mathmatique.
)(XfY On essaie de trouver la forme mathmatique de la fonction f
-
7/30/2019 rgression abrge
13/58
Objectif dune analyse de rgression simple
-
7/30/2019 rgression abrge
14/58
Dfinition : Nous appelons rgression linaire lajustement dunedroite au nuage statistique dune srie de couples de donnes.
Ainsi, une rgression linaire simple va permettre de rsumer,dinterprter et de prvoir les variations dun caractre ditdpendant (Y) en fonction dun autre dit indpendant (X) et ceen utilisant une droite.
-
7/30/2019 rgression abrge
15/58
Modle de rgression linaire simple
Modle de rgression linaire simple
y = 0 + 1x+
quation de la rgression linaire simple (commentl'esprance dey est lie x)
E(y) = 0 + 1x
quation estime de la rgression linaire simple
(droite de la rgression estime, modle empirique)y=Variable dpendante ou explique
= valeur estime de y pour une valeur x
x=Variable indpendante ou explicative
0et
1= Coefficients thoriques de rgression ( estimer laidedun chantillon) par b0et b1
= Erreur thorique alatoire (dautres facteurs influencent Y)
0 1y b b x
y
-
7/30/2019 rgression abrge
16/58
Modle de rgression linaire simple
L'quation estime de la rgression linaire simple(droite de la rgression estime, modle empirique)peut tre utilise pour une estimation ponctuelle de la
valeur moyenne de y pour une valeur particulire de xou pour prvoir la valeur ponctuelle de y associe unevaleur particulire de x
y=Variable dpendante ou explique= valeur de prvision de y pour une valeur x, ou moyenne de y estime pour une valeur de x
x=Variable indpendante ou explicative
0 1
y b b x
y
-
7/30/2019 rgression abrge
17/58
Les diffrentes tapes dune tude de rgression
-
7/30/2019 rgression abrge
18/58
Il existe plusieurs mthodes permettantdestimer le modle thorique
par le modle empirique
Mthode des moindres carrs Mthode de la vraisemblance
0 1 y x
0 1 y b b x
-
7/30/2019 rgression abrge
19/58
La mthode des moindres carrs
Critre des moindres carrs
o:yi = valeur observe de la variable dpendante pour
pour la ime observation
= valeur estime de la variabledpendante pour la ime observation
2min ( )i iy y
iy
-
7/30/2019 rgression abrge
20/58
La mthode des moindres carrs
Ide de base : cette mthode essaie de construire une droite dergression empirique qui minimise la somme des carrs desdistances verticales entre cette droite et chacun des pointsobservs.
-
7/30/2019 rgression abrge
21/58
La mthode des moindres carrs
Diagramme de dispersion
Heures d'tudes
0
123
45
67
89
10
0 2 4 6 8 10
),( ii yx
),( ii yx
Illustration graphique
-
7/30/2019 rgression abrge
22/58
La mthode des moindres carrs
Dfinition : On appelle rsidu ou erreur empirique
ou cart de prvision, la valeur , soit ladiffrence (lcart vertical) entre la valeurobserve yi de Y et la valeur estime obtenue partir de la droite de rgression, lorsque x= xi.
ei i iy y
iy
Lobjectif de la mthode des moindres carrs est de
dterminer la droite de rgression qui minimise2
1
n
i
i
e
-
7/30/2019 rgression abrge
23/58
La mthode des moindres carrs
2 2 2 2 2
1 2 3
1
2
1
20 1
1
n
...n i
in
i i
i
n
i i
i
SCres e e e e e
SCres y y
SCres y b b x
Cette mesure donne lordre degrandeur de la dispersion desobservations Yi autour de ladroite de rgression
Il sagit de trouver bo et b1 de sorteque la somme des carrs des rsidus SCres
soit la plus petite possible (minimale).
-
7/30/2019 rgression abrge
24/58
Principes de la mthode des moindres carrs
Comment calculer les coefficientsb0 et b1?Les estimations ponctuelles des paramtres de la droite dergression obtenues par la mthode des moindres carrs sont :
n
i
i
n
i
ii
xnx
yxnyx
b
xbyb
1
22
11
10
Taille de lchantillon
1 2
i i
i
( x x )( y y )
b ( x x )
Autre formule pour b1
-
7/30/2019 rgression abrge
25/58
partir des donnes ci-dessous, dterminez les estimationsponctuelles des paramtres de la droite de rgression selon lamthode des moindres carrs :
-
7/30/2019 rgression abrge
26/58
11 2
2 2
1
6670 5 30 400 67
5500 5 30,
( )
n
i ii
n
i
i
x y nxyb
x nx
0 1 40 0 67 30 19 9, ,b y b x
19 9 0 67 , ,y x
-
7/30/2019 rgression abrge
27/58
Remarque Importante
La droite de rgression dtermine laide de la mthode desmoindres carrs donne la plus faible somme de carrs rsiduels
parmi toutes les autres droites que lon pourrait ajuster cet ensemble dobservations. 2ie
-
7/30/2019 rgression abrge
28/58
Une entreprise veut mener une tude sur la relation entre les dpenseshebdomadaires en publicit et le volume de ventes quelle ralise. On arecueilli au cours des dix dernires semaines les donnes suivantes :
partir des donnes ci-dessus, dterminez les estimations ponctuellesdes paramtres de la droite de rgression selon la mthode desmoindres carrs.
-
7/30/2019 rgression abrge
29/58
partir de ces donnes, il est possible de tracer le diagramme dedispersion suivant :
-
7/30/2019 rgression abrge
30/58
Les rsultats intermdiaires suivants servent calculer lesestimations ponctuelles des paramtres de la droite dergression :
-
7/30/2019 rgression abrge
31/58
En appliquant les formules ci-dessous, nous obtenons les valeursnumriques de b0et b1
11 2
2 2
1
1605 10 3 3 46 353 95
128 10 3 3
, ,,
( , )
n
i ii
n
i
i
x y nxyb
x nx
0 1 46 35 3 95 3 3 33 31, , , ,b y b x
33 31 3 95 , ,y x
-
7/30/2019 rgression abrge
32/58
33 31 3 95 , ,y x
Dpenses en publicit
Cest laugmentation du volumedes ventes (Y) pour une augmentationunitaire du cot en publicit (X)
Ordonne lorigine(volume de vente moyensans dpenser un sous enpublicit)
La droite de rgression qui permet de dterminerle volume moyen des ventes pour un cotpublicitaire donn x.
-
7/30/2019 rgression abrge
33/58
Interprtation des rsultats et remarques
Rq1 : le point de cordonnes se trouve sur la droite de rgression.
Rq2 : cette relation linaire entre X et Y est valide pour lintervalle desvaleurs de X considre dans lnonc,cest--dire de 1 5,5.
La droite de rgression sapplique lintrieur de ltendue des valeursexprimentales qui ont t observes pour la variable explicative (X). Ondevra donc viter toute extrapolation en dehors de ce domaine moinsdtre certain que le phnomne se comporte de faon identique.
),( yx
-
7/30/2019 rgression abrge
34/58
Rq3 : Pour la valeur x = 3,5 (situe entre 1 et 5,5), on peut utiliser ladroite de rgression pour calculer la valeur moyenne correspondante deY
Exemple : Estimation du volume des ventes moyen pour un cot de 3,5millions de dollars en publicit hebdomadaire.
= 33,31 + 3,95 (3,5) = 47,14 millions de dollarsy
-
7/30/2019 rgression abrge
35/58
La pente de lquation de la rgression empirique (estime)
ou
Lordonne lorigine de lquation de la rgression empirique
(estime):
o:
xi = valeur de la variable indpendante pour la ime observation
yi = valeur de la variable dpendante pour la ime observation
= valeur moyenne de la variable dpendante
= valeur moyenne de la variable indpendante observe
n= nombre total dobservations
La mthode des moindres carrs - Rsum
1 2
2
i
i i
i i
i
x yx y
nb
xx n
0 1 b y b x
x
y
1 2
i i
i
( x x )( y y )b
( x x )
-
7/30/2019 rgression abrge
36/58
Il existe trois mesures possibles pour quantifierlintensit de la relation entre X et Y:
Le coefficient de dtermination de Y en fonction de X Le coefficient de corrlation entre X et Y La covariance entre X et Y
Relation entre X et Y
-
7/30/2019 rgression abrge
37/58
Coefficient de dtermination de Y en fonction de X
Le coefficient de dtermination thorique de Y en fonction de X, notmesure la proportion de la variation de Y qui est explique par la
rgression ou qui est explique par la variable X au niveau de toute lapopulation.
2
YX
10 2 YX
Le coefficient de dtermination
Le coefficient de dtermination indique
si le modle linaire dfini colle aux donnes
-
7/30/2019 rgression abrge
38/58
Coefficient de dtermination de Y en fonction de XEn pratique est inconnu, car on ne possde pas dinformationsur toute la population mais seulement sur un chantillon detaille n, alors on estimera partir de lchantillon :
2
YX
n
y
y
xxb
yy
yyrr
n
i
in
i
i
n
i
i
n
i
i
n
i
i
YX 2
1
1
2
1
221
1
2
1
2
22)(
)(
)(
totalevariation
expliquevariation
2
YX
fournit une indication de la force de la liaison possiblepouvant exister entre Y et X au niveau de la population. De plus,cest un indice de la qualit de lajustement de la droite auxpoints exprimentaux.
2
YXr
Le coefficient de dtermination
2
12 2
1 1
n
in ni
i i
i i
y
( y y ) y
n
Rappel:
-
7/30/2019 rgression abrge
39/58
Le coefficient de dtermination
Dans quelle mesure lquation estime de la rgression
sajuste-t-elle aux donnes?
Le coefficient de dtermination permet de mesurer le
degr dadquation
Formule pour le coefficient de dtermination
r2 = SCreg/SCTo: SCT = SCreg + SCres
=
SCT = Somme des carrs totale (variation totale)
SCreg= Somme des carrs de la rgression (variation explique)
SCres = Somme des carrs des rsidus
2( )
iy y2( )iy y 2( )i iy y
-
7/30/2019 rgression abrge
40/58
Le coefficient de dtermination
2 2 2
2 1 1 1
2 2
1 1
n n n
i i i
i i i
n n
i i
i i
( y y ) ( y y ) ( y y )SCreg SCT SCres
r SCT SCT ( y y ) ( y y )
n
ii
n
ii
yny
xnx
br
1
22
1
22
2
1
2
-
7/30/2019 rgression abrge
41/58
Calculez pour lexempledapplication des cots publicitaires etdes ventes:
2
2 1
2
1
SCreg
SCT
n
i
iYX n
i
i
y y
ry y
2
YXr
Puisque est proche de 1, on peut dire que la droite dergression sajuste trs bien au nuage de points.
2
YXr
Le coefficient de dtermination
2 298 0080 9692307 525
variation explique ,,variation totale ,
YXr
-
7/30/2019 rgression abrge
42/58
Diffrence entre rgression et corrlation ?
La rgression linaire simple se proccupeessentiellement de la forme de la relation linaire qui
existe entre X et Y
La corrlation essaye de mesurer lintensit ou la force de
la relation linaire qui existe entre X et Y.
Relation entre X et Y: rgression etcorrlation
-
7/30/2019 rgression abrge
43/58
Le coefficient de corrlation delchantillon
o:b1= la pente de lquation de rgression estime
(empirique)
Le coefficient de corrlation thorique (au niveau de la
population) est dnot yxou simplement
2b 1(signe de )yxr r
b 1(signe de ) coefficient de dterminationyxr
xbby10
-
7/30/2019 rgression abrge
44/58
Le coefficient de corrlation peut tre dtermin de la manire suivante (ouencore en prenant la racine carre du coefficient de dtermination):
On a toujours: Si alors il existe une relation linaire exacte entre X et Y Si alors soit que X et Y sont indpendantes, soit quil y a une
dpendance non linaire entre les deux variables Si ou alors il existe une relation linaire plus ou moins
forte entre X et Y
Le coefficient de corrlation permet de voir s'il est
facile d'approcher les donnes par une droite.
1
2 22 22 2
1 1
n
i ii i i ii
XY n n
i i i ii i
i i
( x x )( y y )n x y x y
rn x x n y y( x x ) . ( y y )
11 XYr
1XYr
0XYr
0XYr 1XYr
Le coefficient de corrlation delchantillon
-
7/30/2019 rgression abrge
45/58
Toujours en utilisant lexemple numrique de la publicit et lesventes d'autos, mesurez le degr de dpendance linaire entreX et Y.
10
1 1
10 102 2 2 2
1 1 1 1
3 3 46 3575 45
0 984519 10 307 533 3 46 35
( )( ) ( , )( , ),
,, * ,( ) . ( ) ( , ) . ( , )
n
i i i i
i i
XY n n
i i i i
i i i i
x x y y x y
rx x y y x y
Rponse
Les dpenses en publicit et les ventes varient dans le mme sens
Il existe une relation linaire trs forte entre
les dpenses en publicit et les ventes
Le coefficient de corrlation delchantillon
-
7/30/2019 rgression abrge
46/58
Coefficient de corrlation et nuage de
points
-
7/30/2019 rgression abrge
47/58
Validation de la droite de rgression empiriqueTest dhypothse sur
Pour vrifier si linfluence de la variable indpendante X estsignificative, on procde un test dhypothses sur
1
1
XY 10
Si 1 = 0 alors peu importe lesvaleurs de X, elles naurontpas dimpact sur Y
-
7/30/2019 rgression abrge
48/58
tapes contribuant la validation de la droite de rgressionempirique
Estimer la variance des erreurs thoriques
Estimer et par intervalle de confiance
Test dhypothses sur 1
0
1
2 2
(Parfois dnote )
-
7/30/2019 rgression abrge
49/58
Validation de la droite de rgression empirique
Estimation de la variance des erreurs thoriques2
La prcision des estimateurs b0 et b1 dpend de la valeur de la
variance des erreurs thoriques : plus sera petite, plus cesestimateurs sont prcis.
Puisque, en pratique, la variance est inconnue, on lestime par leterme suivant :
2 2
2 2 1 1
2 2
( )
n n
i i i
i ie
e y y
s sn n
2
2
-
7/30/2019 rgression abrge
50/58
Validation de la droite de rgression empirique
Estimation de et2
0b
En pratique, les variances et sont inconnues, alors on lesestime par les deux termes suivants :
0
22 2
2
1
1
( )b n
i
i
xs s
nx x
2
1b
20b
21b
1
22
2
1
( )b n
i
i
ss
x x
-
7/30/2019 rgression abrge
51/58
Exemple dapplication
Calculer pour lensemble des donnes ci-dessus.0 1
2 2 2, ,b b
s s s
Complter le tableau suivant :
0.49
1.69
49.11
41.21
33,31 + 3,95 x 2 = 41,2133 31 3 95 , ,Y X
0.39
- 0.21
0.1521
0.0441
7.6176
26.4196
0
1
2
2
2
1 1847
0 7939
0 062
,
,
,
b
b
s
s
s
-
7/30/2019 rgression abrge
52/58
Validation de la droite de rgression empirique
Estimation de 1 par intervalle de confiance
Lintervalle de confiance pour estimer 1, la pente du modle de
rgression thorique, au niveau de confiance (1 - ) est donn par:
11 2/ bb t s
a
Si n-2 < 30
11 2/ bb z sa
ldntt .)2(2/ a
Si n-2 30 )1,0(2/ Nz a
Si la valeur1=0 appartient lintervalle de confiance,
on ne rejette pas lhypothse nulle:1=0 au niveau de signification a et
on conclut quil nexiste pas de relation linaire significative entre Y et X
-
7/30/2019 rgression abrge
53/58
Daprs les donnes de lexemple numrique de la publicit et levolume de ventes d'autos, construisez un intervalle de confiance pourau niveau 95% :
11 2/ bb t sa
Puisque n-2 = 10 -2 = 8 < 30, alors
1
0 0253 95 0 062
,, ,t
3 95 2 306 0 062, , ,
Table de Student
3 3758 4 5242, ,
-
7/30/2019 rgression abrge
54/58
Tester la signification dune rgression
Pour tester la signification dune rgression, on peut
effectuer un test dhypothses afin de dterminer si la
valeur de 1 est zro.
Deux tests sont couramment utiliss Test tou z (selon la taille de l'chantillon)
Test F
Les deux tests ncessitent une estimation de 2, la
variance des erreurs du modle de rgression
-
7/30/2019 rgression abrge
55/58
Tester la signification dune rgression
Une estimation de 2
Rappel: la moyenne des carrs des rsiduss2 fournit uneestimation de 2
s2 = SCres/(n-2)
o:
2 2
0 1
SCres ( ) ( )i i i iy y y b b x
2
SCres
s
n
sest lerreur type de lestimation
-
7/30/2019 rgression abrge
56/58
Les tapes dun test z ou t dhypothses sur
1. noncer les hypothses H0et Ha.
2. Prciser les conditions du test La population des erreurs est normale La variance rsiduelle est inconnue Le niveau de signification a Si la taille de lchantillon n 2 30, on utilise z (Normale) Si la taille de lchantillon n 2 < 30, on utilise t (Student)
3. Calculer la statistique de test.
4. Trouver la rgion critique au niveau de signification
1
0 1
1
0
0a
H :
H :
2
1 1
1 1
1 1 1
1 1 1
2 30
2 30
b b
b b
b bz si n
s sb b
t si ns s
0 2 2 2 2/ ,( ) . / ,( ) .,
n d l n d lOn rejette H si t t ou si t ta a
0 2 2/ /,On rejette H si z z ou si z za a
-
7/30/2019 rgression abrge
57/58
Daprs les donnes de lexemple dapplication sur la publicit et levolume de ventes d'autos, vrifiez au niveau de signification a= 0,05si X explique Y, partir de la droite de rgression linaire obtenue
0 1
1
0
0a
H :
H :
tape 1 tape 2
n 2 = 8 < 30, population normale, inconnue2
tape 3
1
1 13 95 0
15 860 062
,,
,b
bt
s
tape 4
0 025 82 306, , . ,d lt
0 025 8 015 86 2 306
, , ., , ,
d lpuisque t t on rejette H
Cela implique que X explique les valeurs prises par Y au niveau = 0,05
-
7/30/2019 rgression abrge
58/58
Hypothses du modle
Hypothses concernant le terme derreurs
Lerreur est une variable alatoire desprance 0
La variance de , dnote 2 ou 2 , est la mme pour
toutes les valeurs de X
Les valeurs de sont indpendantes.
Lerreur est distribue selon une loi normale