biostatistiques descriptives dr marc cuggia 1ere annee univ rennes
Post on 03-Jan-2016
33 Views
Preview:
TRANSCRIPT
http://www.med.univ-rennes1.fr
BiostatistiquesDescriptives
Dr Marc CUGGIAPCEM 1 – Année 2006/2007
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Définitions
La population cible est l'ensemble de tous les objets que l'on étudie. Un individu ou une unité statistique est un objet de cette population. Un échantillon est une partie choisie d'une population. Le nombre d'objets composant une population ou un échantillon est appelé sa taille ou effectif.Caractère (variable) : caractéristique ou propriété susceptible d’être possédée ou non par les individus de la population étudiée (ex : taille, glycémie, rythme cardiaque, etc..)Modalité : valeur que peut prendre un caractère (on peut les ordonner)
http://www.med.univ-rennes1.fr
Effectif : nombre total « N » d’individus de la population ou de l’échantillon
n.b. : si ni = nombre d’individus correspondant à la modalité xi,
alors N= Σni
Fréquence d’un caractère : nombre d’individus possédant le caractère normalisé àl’effectif total
fi = ni / N
http://www.med.univ-rennes1.fr
Définitions
Lorsque l'on veut connaître certaines caractéristiques d'une population, on dit qu'on enquête sur la population.Une enquête peut être réalisée auprès de toute la population ou sur un échantillon.
Un recensement est une enquête réalisée auprès de toute la population.
Un sondage est une enquête réalisée sur un échantillon.
http://www.med.univ-rennes1.fr
Exemples
Étude portant sur la consommation de tabac chez les français la population est l'ensemble des françaiset la caractéristique est la consommation de tabac
Étude portant sur la durée des ampoules électriques produites dans l'usine X.
La population est constituée des ampoules électriques produites àl'usine Xet la caractéristique étudiée est la durée des ampoules.
Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie.
On administre ce produit à 50 patients atteints de la maladie. La population est formée de tous les gens atteints de la maladie,l'échantillon est formé des 50 patients à qui on a administré le médicament et la caractéristique étudiée est la réponse au médicament.
http://www.med.univ-rennes1.fr
Les coûts élevés et les délais trop longs, reliés à un recensement, sont les principales raisons qui nous amènent à utiliser un sondage puisque la taille d'un échantillon est beaucoup plus petite que celle de la population.
http://www.med.univ-rennes1.fr
Terminologie
Paramètre ou indicateur : définit une populationstatistique : estimés des paramètres d’une populationpar exemple: la moyenne de la population (μ)
versus la moyenne d’un échantillon ( )x
Population (μ)
xmoux
Échantillon
http://www.med.univ-rennes1.fr
Propriétés d’une statistique
Exactitude: une statistique est exacte si la valeur moyenne du paramètre calculée pour tous les échantillons s’approche de la valeur réelle de la population
X
XÉchantillonsPopulation
Statistiquemoins exacte
Statistiqueplus exacte
http://www.med.univ-rennes1.fr
Propriétés d’une statistique
Précision: une statistique précise variera peu parmi les échantillons pris d’une même population
ÉchantillonsPopulation
X
X
Statistiquepeu précise
Statistiqueplus précise
http://www.med.univ-rennes1.fr
Propriétés d’une statistique
Consistance: une statistique consistante approchera plus rapidement la valeur réelle de la population avec l’augmentation de la taille de l’échantillon.
ÉchantillonsPopulation
XMoins
consistante
Plusconsistante
X
Taille de l’échantillon (N)
http://www.med.univ-rennes1.fr
Variables
Définition :Caractéristique ou facteur susceptible de prendre une valeur différente selon les individus (ou les unités statistiques) étudiées
Couleur de cheveuxLa tailleLa durée d’incubation d’une maladie
Différents types de variables
QuantitativesQualitativesTemporelles
http://www.med.univ-rennes1.fr
Variables qualitatives
Non mesurablesLeurs valeurs sont des qualités réparties en classesOn dénombre les effectifs appartenant à chacune des classes3 types
Variables qualitatives ordinalesVariables qualitatives nominalesVariables qualitatives binaires
http://www.med.univ-rennes1.fr
Variables ordinalesClasses pouvant être ordonnées selon une échelle de valeur
Niveau d’étude : primaire, secondaire,supérieurScore de Glasgow : 1 à 15Complication d’une maladie : Modérée, Moyenne, Sévère
pas de manipulation arithmétiquePeu être considérées comme variables semi-quantitatives
http://www.med.univ-rennes1.fr
Variables qualitatives
Variables qualitatives nominalesVariables dont les classes ne peuvent être hiérarchiséesElles sont nommées mais pas ordonnéesL’ordre de présentation est arbitraire
Groupe sanguin A B O ABÉtat civil Célibataire,marié,divorcéeAccident Voie Publique, sport, jeux
http://www.med.univ-rennes1.fr
Variables binairesCas particulier de variable nominalesPrennent 2 valeursDichotomique, booléenes, bernouillies
Etat de santé malade, sainSurvie Vivant,décédé
http://www.med.univ-rennes1.fr
Variables quantitatives
Caractérisées par des valeurs numériquesExploitable arithmétiquement
Variables quantitatives continuesPrennent n’importe quelles valeurs numériques dans l’intervalle d’observationAppartient à l’ensemble des réels : toutes les valeurs sont possibles
Poids 56,3 kgTaille 1,72 mCholestérol 2,22 g/l
Attention au nombre de décimaleTrès utilisées en médecineLa précision est limitée par l’instrument de mesureEn fait variable pas vraiment continues : saut d’intervalles
TA : 12,5/82
http://www.med.univ-rennes1.fr
Variables quantitatives discrètesVariables numériques discontinues.En général valeurs entièresSouvent à un dénombrement
Rechute d’une maladie 3 rechute par anRappel de vaccin 4 injectionsDentition 32 dents
Variables temporellesVariables quantitatives particulières utilisant les unités de temps
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Variable continue à Variable discrètesDISCRETISATION
On peut passer facilement d’une variable quantitative à une variable qualitative.On utilise une échelle de dépendance.Ex : grade en fonction de la taille
[0-5] - grade 1[6-10] - grade 2[11-20] - grade 3
Perte d’information car on suppose que des individus différents on le même comportement dans un intervalle donné.
http://www.med.univ-rennes1.fr
Division en classes ou en intervallesLes classes sont contiguës et ne se chevauchent pas.
http://www.med.univ-rennes1.fr
Préciser le domaine de classe
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Organisation des données
Objectif : décrire l’ensemble des données recueillies de façon synthétique
Tri de donnéesRegroupement en classe
– Discrétisation d’une variable continue en variable discrète• Valeurs d’un test biologique : Titrage avec seuil : test positif ou négatif
– Transformation d’une variable quantitative discrète en variable qualitative ordinale
• Poids : Maigre – Normal - ObèseConstruction d’une échelle de classification en divisant la série en classesDéfinition des bornes entre lesquelles on compte les individus
Perte d’informationChoix des bornes (ex)
Par amplitudePar fréquencePar convenance
Créer des groupes exclusifs (en bornant correctement les intervalles)
http://www.med.univ-rennes1.fr
Effectif et fréquence
i modalité ou classeFemme, hommeMalade, sain
ni effectif de la classeEx : pop 1000, homme 450, femme 550Freq homme, femme
N : Le nombre total
Nnf i
i =
http://www.med.univ-rennes1.fr
Effectifs et fréquences cumulées
Utilisées lorsque une variable est ordonnéeAjout à l’effectif d’une classe le total des effectifs des classes inférieuresFréquence cumulées = effectif cumulé / total de la série
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Distribution
Constituée par l’ensemble des effectifs réparties dans les classes étudiéesPour étudier une distribution, on examine les fréquences des effectifs dans toutes les classesEn statistique on regarde si une distribution OBSERVEE ressemble à une distribution THEORIQUESi c’est le cas, on peut utiliser toutes les propriétés mathématique du modèle théorique pour étudier la distribution observée.
http://www.med.univ-rennes1.fr
Description des données
3 procédées pour décrire un ensemble de données statistique ou un distribution
Les tableauxLes diagrammesLe calcul de paramètre ou indicateurs
Tableaux brut de données
Individus en ligne les variables en colonnesAttention CNIL
http://www.med.univ-rennes1.fr
Tableaux de fréquences
Combinaison de variables dans un tableau
Pas plus de 2 variables par tableau
http://www.med.univ-rennes1.fr
Données manquantesTenter de récupérer le max de données manquantesEffectuer une double saisie par 2 opérateurs différentsPrévoir un code spécial pour les données manquantes ou aberrantesPrévoir une règle de décision sur les données manquantes. Les représenter dans les tableaux
Stade T tumoral
283 35,2 35,5 35,5115 14,3 14,4 49,9383 47,6 48,0 97,917 2,1 2,1 100,0
798 99,3 100,06 ,7
804 100,0
1,002,003,004,00Total
Valide
Système manquantManquanteTotal
Fréquence Pour centPourcentage
validePourcentage
cumulé
http://www.med.univ-rennes1.fr
Les graphiques
Les tableau représentent les données exactesLes graphique font ressortir une vision synthétiqueConseils:
Pas de 3 d ni de camembertPas de superposition de graphePas de colorisation abusiveSimpleLégendé (titre,axes,unités)Honnête
http://www.med.univ-rennes1.fr
Diagramme en barre
Utilisé pour représenter une variable qualitative nominale ou ordinaleHauteur de chaque colonne = nombre de sujet dans la catégorie correspondante
http://www.med.univ-rennes1.fr
Diagramme en barre
Si on divise chaque hauteur par le nombre de sujet total de la population ou de l’échantillon, on conserve la même allureLa hauteur proportion de sujet dans la catégorieL’histogramme représente alors graphiquement l’ensemble des probabilités des différentes catégories ou classe de la variable.
http://www.med.univ-rennes1.fr
Histogramme
Pour les variables quantitativesIl faut le plus souvent regrouper en classe
Intervalle : 5 ans
Intervalle : 10 ans
Intervalle : 1 ans
http://www.med.univ-rennes1.fr
Comment choisir les classes
En général : constituer des classes de largeurs égales en nombre assez grand pour représenter la répartition des sujetsMais pas trop pour qu’il y est suffisamment de sujet dans les classes.Plus le nombre de classe est grand, plus l’histogramme se rapproche d’une courbe continue
http://www.med.univ-rennes1.fr
Polygonne de fréquence
Pour les variables quantitatives continues
L'avantage de cette représentation est qu'on peut avoir plusieurs polygones des fréquences dans une même fenêtre. Cela fait mieux ressortir les comparaisons lorsque les variables sont nombreuses.
http://www.med.univ-rennes1.fr
Pyramide des ages
Utilisée pour montrer la distribution par age et par sexe d’une pop.Utilisé en démographie
http://www.med.univ-rennes1.fr
Mesures en statistiques
http://www.med.univ-rennes1.fr
Problème général
Pour décrire les données, on peut
Établir des tableauxRegrouper les données dans des classesDessiner des diagrammes
Pour résumer les données afin de les exprimer ou les comparer
On calcule des paramètres (ou indicateurs)
De POSITIONDe DISPERSION
Fréq
uenc
e
DISPERSION
POSITION
http://www.med.univ-rennes1.fr
Paramètres
2 types :Paramètres de POSITION
– Médiane– Quartiles, déciles, percentiles– Mode– Moyenne– Fréquences relatives
Paramètres de Dispersion– Extrêmes (Minimum, Maximum)– Entendue (Range)– Intervalle interquartile– Variance– Écart type– Coefficient de variation
http://www.med.univ-rennes1.fr
Mesures en statistiques
MédianeEst la valeur qui partage la série des individus en 2 groupes d’effectifs égaux.La moitié des sujets présentent une valeur inférieure à la médiane. L’autre moitié une valeur supérieure à la médiane.Calcul : nécessite de classer les sujets par ordre de valeur croissant.Si la série est impaire, la médiane = valeur observée chez le sujet médianSi la série est paire, médiane = moyenne des valeurs qui séparent en 2 la série
http://www.med.univ-rennes1.fr
Exemple : Calculez la médiane des deux échantillon suivants : 5 4 4 5 6 8 8 0 1
On ordonne les valeurs 0 1 4 4 5 5 6 8 8Série impaire
On cherche la valeur séparant 50% des effectifs supérieurs et inférieurs
0 1 4 4 5 5 6 8 8La médiane est 5
http://www.med.univ-rennes1.fr
12 5 7 18 11 15 9 5On ordonne les valeurs
5 5 7 9 11 12 15 18 Nombre pair de valeurs : on cherche la moyenne des 2 valeurs séparant 50% des effectifs
5 5 7 9 11 12 15 18(9+11)/2 = 10
La médiane est 10
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
• La classe médiane est la classe où est située la médiane.
X
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
•On cherche la classe pour laquelle les fréquences cumulées • avant celle-ci sont plus petites ou égales à 50% • et après celle-ci plus grandes ou égales à 50%.
• Avant la classe 100 - 110, il y a 38% de données et après, on en a accumulé 79%.
• Donc la classe médiane est la classe 100 - 110.
•Médiane = Borne inférieure de la classe médiane + longueur X
•Calculer X ?
X
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
Calculer X•38 % des valeurs sont inférieurs à un QI de 100
38 %
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
Calculer X•38 % des valeurs sont inférieurs à à un QI de 100•La médiane sépare 50% des valeurs. •La longueur X manquante à 12% des données
X 12%
38 %
50 % 50 %
http://www.med.univ-rennes1.fr
Cas où l’on ne dispose que d’un tableau de fréquence
Calculer X•38 % des valeurs sont inférieurs à à un QI de 100•La médiane sépare 50% des valeurs. La longueur X manquante à 12% des données•Or, La classe 100 -110
• est de longueur 10 (110 - 100) • et contient 41,4% des données.
•À quelle longueur X correspond 12% des données?
X 12%
41,4 %38 %
50 % 50 %
http://www.med.univ-rennes1.fr
•Il faut utiliser une règle de 3 pour faire le calcul :
Longueur %10 41,4%X 12 %
X = 12 x 10 / 41,4
X = 2,9
Médiane = classe médiane + XMédiane = 100 + 2,9 = 102,9
http://www.med.univ-rennes1.fr
Détermination graphiquede la médiane
http://www.med.univ-rennes1.fr
QuartilesSont les 3 valeurs qui partagent la distribution en 4
25%
25%
25% 25%
http://www.med.univ-rennes1.fr
1er quartile : sépare 25% des valeurs les plus faibles et 75% des valeurs les plus élevés
25% 75%
http://www.med.univ-rennes1.fr
3 ème quartile : sépare 75% des valeurs les plus faibles et 25% des valeurs les plus élevés
75% 25%
http://www.med.univ-rennes1.fr
Le deuxième quartile sépare 50 % des valeurs les plus faible de 50% des valeurs les plus élevées2ème quartile Médiane !
50 % 50 %
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
N/4 = 100/4 = 25Classe qui contient 1er quartile est celle immédiatement au dessus des 25% inférieurs cumulésICI c’est la classe [50-55]
http://www.med.univ-rennes1.fr
Q1= Borne inférieur de la classe Q1 + XX? Régle de 3 :Longueur de classe %
5 31%X (25%-17%)
D’où Q1 = 50 + (25-17).5/31= 51,29
http://www.med.univ-rennes1.fr
DécilesIdem : 9 valeurs qui partagent la distribution en 10 groupes de tailles égales.
Percentiles Sont les valeurs qui partagent la distribution en 100 groupes de tailles égalesLe percentile 10% au 1er décileLe percentile 25 % au 1er quartileLe percentile 50 % à la médiane
http://www.med.univ-rennes1.fr
MODE
ModesDans une distribution comportant de nombreuses données, le mode est la valeur qui revient le plus souvent
But uniquement descriptif
http://www.med.univ-rennes1.fr
Moyenne
MoyenneIndicateur de tendance centrale servant à résumer une série de données d’une variable quantitative
X
Fréq
uenc
e
M x
http://www.med.univ-rennes1.fr
Autre formule :
Age(Xi) fi
2 15 36 48 2
somme:10m=(1x2+5x3+6x4+8x2)/10m = 57/10 = 5,7 ans
∑
∑
=
== n
i
n
i
fi
fiXim
1
1
http://www.med.univ-rennes1.fr
La somme des écarts à la moyenne = 0
Age(Xi) fi m=5,72 15 36 48 2
somme : 10
(2-5,7)+3x(5-5,7)+4x(6-5,7)+2x(8-5,7)-3,7 – 3x0,7 + 4x0,3 + 2x2,3-3,7 – 2,1 + 1,2 + 4,6-5,8 + 5,8 = 0
0)(1
=−∑=
n
imXi
http://www.med.univ-rennes1.fr
Dispersion
http://www.med.univ-rennes1.fr
Dispersion
Paramètre centraux ne résument pas complètement une distribution.
Les paramètre mesurant la dispersion :Min MaxÉtendue (range)Espace interquartile (entre 1 et 3ème)
VARIANCEECART TYPE
http://www.med.univ-rennes1.fr
Dispersion
Min Max :Très sensible aux valeurs extrêmesPermet de détecter les erreurs
Étendue : Valeur Max – Valeur min
Espace interquartiles Qi = Q3 – Q1 contient 50% des valeurs de la série
http://www.med.univ-rennes1.fr
Variance
Variance :Caractériser l'écart de l'ensemble des valeurs
Pour une valeur xi, l'écart par rapport à la moyenne est :
les écarts étant de signe + ou -, on considère le carré des écarts
Est la moyenne de la somme des carrés des écarts à la moyenne
σ2 = variance de la population (N)
)( μ−=Δ x
2)( μ−x
Nx∑ −
=2
2 )( μσ
http://www.med.univ-rennes1.fr
Variance
Variance d’un échantillon :
Si on considère une population on calcule Si on considère un échantillon on calcule S2
2σ
1)( 2
2
−−
= ∑n
mxs x
http://www.med.univ-rennes1.fr
Nx∑ −
=2
2 )( μσ
http://www.med.univ-rennes1.fr
Autre formule de la variance :
1
)()(
22
2
−
−=∑ ∑
nnXi
Xs
i
http://www.med.univ-rennes1.fr
Écart type :D’une population
D’un échantillon
Écart type = même grandeur que la moyenne.
m±s
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
frel^
0 2 4 6 8 10 12
0.2
0.4
0.8
0.6
Y
A
B
C
Des changements pour les valeurs de la moyenne et la variance entraînent des changements dans la forme et la position de la distribution normale.A. μ = 4, σ = 1B. μ = 8, σ = 1C. μ = 8, σ = 0.5
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Variable qualitative à 2 classes : Pour la populationProportion d’une modalité Kmultipliée par 100 pour l’exprimer en pourcentage. N : taille de la population
Variance : Produit de la proportion par son complément à 1
Ecart type : racine carrée de la variance
)1(2 PP −=σ
NKP =
)1( PP −=σ
http://www.med.univ-rennes1.fr
Variable qualitative à 2 classes : Pour un échantillonProportion d’une modalité (k) .multipliée par 100 pour l’exprimer en pourcentage.n=taille de l’échantillon
Variance : Produit de la proportion par son complément à 1
Ecart type : racine carrée de la variance
)1(2 pps −=
nkp =
)1(2 ppss −==
http://www.med.univ-rennes1.fr
Exemple
On considère un échantillon de 60 sujets, il y a 20 malades, les autres sont sains.Calculer
les proportions de maladesde non malades
La variance S2
L’écart type SPmalades=20/60 = 0,33Pnon malades = (1-Pmalades) = 1- 0,33 = 0,67S2=Pmalades(1-Pmalades)= 0,33x0,67=0,221S=0,47
http://www.med.univ-rennes1.fr
BOXPLOT ou Boîte à moustache
http://www.med.univ-rennes1.fr
Représentation simple mais puissante d’un échantillon de données constituée
D’un rectangle (box) orienté selon un système de coordonnésL’échelle de l’axe est celle des donnéesLes limites inférieures et supérieures correspondent au respectivement au 1er et 3ème QUARTILE
0 1 3 42 5 6 7 8 9 10
Q1 Q3
http://www.med.univ-rennes1.fr
ainsi la boîte contient 50 % des valeurs.
0 1 3 42 5 6 7 8 9 10
50 %des
valeurs
Q1 Q3
http://www.med.univ-rennes1.fr
Le rectangle est partagé en 2 par un trait horizontal au niveau de la médiane
0 1 3 42 5 6 7 8 9 10
Q1 Q3
Q2 = médiane
http://www.med.univ-rennes1.fr
On définit un pas P=1,5xIQOn considère les données située entre le sommet + 1 P
0 1 3 42 5 6 7 8 9 10
Q1 Q3Q2
IQ : Espace interquartile
1xP
http://www.med.univ-rennes1.fr
On définit un pas P=1,5xIQOn considère les données située entre le sommet + 1 P
0 1 3 42 5 6 7 8 9 10
Q1 Q3Q2
IQ : Espace interquartile
1xP
http://www.med.univ-rennes1.fr
Un trait s’etend du milieu du sommet jusqu’à la limite supérieure
0 1 3 42 5 6 7 8 9 10
Q1 Q3Q2
http://www.med.univ-rennes1.fr
De manière symétrique on trouve la limite inférieure.
0 1 3 42 5 6 7 8 9 10
Q1 Q3Q21xP
http://www.med.univ-rennes1.fr
Les observations les plus éloignées qui dépassent les limites sont marquées individuellement « O » pour outliers
0 1 3 42 5 6 7 8 9 10
http://www.med.univ-rennes1.fr
Les observations les plus éloignées qui dépassent les limites sont marquées individuellement « O » pour outliersCellent qui dépasse de 2 pas sont considérées comme extrême et sont notés E ou x
x
0 1 3 42 5 6 7 8 9 10
http://www.med.univ-rennes1.fr
Intêret d’une boxplot
Cinq synthèses numériques (mediane, quartiles, limites) sont représentées de façon à visualiser les informations essentielles (position, dispersion, asymétrie) de l’échantillon.La position est celle du box, en particulier.La dispersion est visualisée par la longueur du box ainsi que par écart entre les limites.La position du trait transversal dans le box et la différence entre les moustaches nous renseignent sur le degré d’asymétrie.
x
0 1 3 42 5 6 7 8 9 10
http://www.med.univ-rennes1.fr
Enfin, la fréquence et la position des outliers indiquent si l’échantillon est particulièrement étaléLes outliers sont souvent très intéressantes (cas exceptionnels, erreurs de mesure ou de codage, etc.).
x
0 1 3 42 5 6 7 8 9 10
http://www.med.univ-rennes1.fr
Plusieurs échantillons peuvent être représentés simultanément et comparés par des box-plots les uns à côté des autres.
http://www.med.univ-rennes1.fr
Références
Statistiques Epidémiologique. T Ancelle (Maloine)Méthode Statistiques Médecine –Biologie. Jean Bouyer(ESTEM)
http://www.med.univ-rennes1.fr
Accéder au réseau pédagogique
http://www.med.univ-rennes1.fr
http://www.fac.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
top related