daattaa imminniinngg ssuuppeerrvvisséé

50
1 DARRAS Magali Master 2 Ingénierie Statistique et Financière SPANU Laetitia Data Mining Supervisé Jeux Olympiques d’Athènes 2004 Professeur : M. DIDAY Année 2007

Upload: others

Post on 24-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Daattaa iMMinniinngg SSuuppeerrvvisséé

1

DARRAS Magali Master 2 Ingénierie Statistique et Financière

SPANU Laetitia

DDaattaa MMiinniinngg SSuuppeerrvviisséé

Jeux Olympiques d’Athènes 2004

Professeur : M. DIDAY Année 2007

Page 2: Daattaa iMMinniinngg SSuuppeerrvvisséé

2

Sommaire

I Introduction .............................................................................................................................. 3

A. Le Data Mining.................................................................................................................. 3

1 – Définition...................................................................................................................... 3 2 – Différences avec la Statistique « classique »................................................................ 3

3 – Exemples d’utilisation du Data Mining ........................................................................ 4 4 – Les différents algorithmes utilisés en Data Mining : 3 types de méthodes .................. 4

5 – Les logiciels de Data Mining........................................................................................ 6 6 – Le logiciel SODAS et son positionnement................................................................... 6

B. Présentation des données de notre étude............................................................................ 9

II Réalisation de l’étude sous SODAS ..................................................................................... 13 A. Importation dans DB2SO : .............................................................................................. 13

B. Utilisation des méthodes de SODAS ............................................................................... 17

1. Méthode View ............................................................................................................ 17

2. SCLUST ..................................................................................................................... 27 3. HIPYR ........................................................................................................................ 32

4. DIV ............................................................................................................................. 37 5. Résumé de tous ces résultats ...................................................................................... 41

Annexe : Etude de la requête PAYS......................................................................................... 42

Page 3: Daattaa iMMinniinngg SSuuppeerrvvisséé

3

I Introduction

A. Le Data Mining

1 – Définition

Le Data Mining, ou Extraction de Connaissances, est un processus d'extraction de

connaissances valides et exploitables à partir de grands volumes de données.

Le Data Mining se propose donc de transformer en connaissance de grands volumes de données qui peuvent être stockées de manière diverse, dans des bases de données

relationnelles, dans un (ou plusieurs !) entrepôt de données (datawarehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (appel à un call center, retrait d'argent dans un distributeur à billets...).

Lorsque la source n’est pas directement un entrepôt de données, il s'agira très souvent de

construire une base de données ou un entrepôt de données dédié à l'analyse et aux analystes. Cela suppose bien entendu d'avoir à sa disposition une palette d'outils de gestion de données (data management).

A retenir : (G.Saporta)

Le Data Mining est une discipline née en dehors de la statistique, dans la communauté des bases de données et de l’IA dans le but de valoriser les bases de données. Le Data Mining offre des perspectives nouvelles pour la statistique et répond au défi du

traitement des gigabases de données. Le Data Mining est la branche de la statistique exploratoire qui cherche à découvrir des

structures inconnues et utiles.

2 – Différences avec la Statistique « classique »

Le Data Mining est un processus d'analyse dont l'approche est différente de celle utilisée

en statistique. Cette dernière présuppose en général que l'on se fixe une hypothèse que les données vont nous permettre ou non de confirmer. Au contraire, le Data Mining adopte une

démarche beaucoup plus empirique et essaye ainsi de faire émerger, à partir des données brutes, des hypothèses que l'expérimentateur peut ne pas soupçonner, et dont il aura à valider

la pertinence. Le Data Mining tente alors de réaliser un arbitrage entre validité scientifique, interprétabilité

des résultats et facilité d'utilisation, dans un environnement professionnel où le temps d'étude joue un rôle majeur et où les analystes ne sont pas toujours des statisticiens...

Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de données et de la statistique par les points suivants :

Page 4: Daattaa iMMinniinngg SSuuppeerrvvisséé

4

les techniques utilisées vont au-delà des techniques classiquement utilisées en

statistiques : le Data Mining se situe à la croisée des statistiques, de l'intelligence artificielle, des bases de données.

les connaissances extraites par la Data Mining ont vocation à être intégrées dans le schéma organisationnel de l'entreprise ou de l'entité considérée. Le Data Mining impose donc d'être capable d'utiliser de manière opérationnelle les résultats des analyses effectuées, souvent

dans des délais très courts. Le processus d'analyse doit permettre à l'organisation une réactivité (très) importante.

les données traitées sont issues des systèmes de stockage en place dans l'organisation et sont ainsi hétérogènes, multiples, plus ou moins structurées... bref dont la raison d'être n'est a priori pas l'analyse. Cela impose de disposer de systèmes performants de préparation ou de

manipulation de données.

Le Data Mining se propose alors d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données, c'est-à-dire trouver des schémas « intéressants » (des patterns)

selon des critères fixés au départ, et extraire de ces données un maximum de connaissances utiles à l'entreprise.

3 – Exemples d’utilisation du Data Mining On peut relever parmi les utilisations du data mining les exemples suivants :

analyser les comportements des consommateurs : ventes croisées, similarités de comportements, cartes de fidélité, ...

prédire la réponse à un mailing ou à une opération de marketing direct (par exemple pour

en optimiser les coûts) prédire l'attrition (ou churn) des clients : quels sont les indices de comportement

permettant de détecter la probabilité qu'un client a de quitter son fournisseur (sa banque, son opérateur de téléphonie mobile, ...)

détecter des comportements anormaux ou frauduleux (transactions financières,

escroquerie aux assurances, distribution d'énergie, ...) rechercher des critères qui permettront d'établir ensuite un scoring pour repérer les

« bons » clients sans facteur de risque et leur proposer peut-être une tarification adaptée (par exemple pour une banque ou une compagnie d'assurance).

suggérer lors d'un appel à un call center, en temps réel, une réponse de l'opérateur qui

soit adaptée

4 – Les différents algorithmes utilisés en Data Mining : 3 types de

méthodes Résoudre une problématique avec un processus de Data Mining impose généralement l'utilisation

d'un grand nombre de méthodes et algorithmes différents. On peut distinguer 3 grandes familles d'algorithmes :

Les méthodes non-supervisées

Elles permettent de travailler sur un ensemble de données dans lequel aucune des données ou

des variables à disposition n'a d'importance particulière par rapport aux autres , c'est-à-dire

Page 5: Daattaa iMMinniinngg SSuuppeerrvvisséé

5

un ensemble de données dans lequel aucune variable n'est considérée individuellement comme la

cible, l'objectif de l'analyse.

On les utilise par exemple pour dégager d'un ensemble d'individus des groupes homogènes (typologie), pour construire des normes de comportements et donc des déviations par rapport à ces normes (détection de fraudes nouvelles ou inconnues à la carte bancaire, à l'assurance

maladie...), pour réaliser de la compression d'informations (compression d'image)...

Voici une liste non exhaustive des techniques disponibles : Techniques à base de Réseau de neurones : réseau de Kohonen (Carte Auto Adaptative),

les réseaux Hebbienx...

Techniques utilisées classiquement dans le monde des statistiques : classification ascendante hiérarchique, k-means et les nuées dynamiques (Recherche des plus proches voisins),

les classification mixtes (Birch...), les classifications relationnelles... Les techniques dites de recherche d'associations (elles sont à l'origine utilisées pour faire

de l'analyse dite de panier d'achats ou de séquences, c'est-à-dire pour essayer de savoir parmi un

ensemble d'achats effectués par un très grand nombre de clients et de produits possibles, quels sont les produits qui sont achetés simultanément. Ces techniques peuvent donc être utilisées de

manière supervisées) : algorithmes a priori, GRI, Carma, méthode ARD...

Analyses de liens

Les méthodes supervisées

Leur raison d'être est d'expliquer et/ou de prévoir un ou plusieurs phénomènes observables

et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs variables de

la base de données définies comme étant les cibles de l'analyse. Par exemple, on utilisera ce type de méthode lorsque l'on cherchera à comprendre pourquoi un

individu a acheté un produit plutôt qu'un autre, pourquoi un individu à répondu favorablement à une opération de marketing direct, pourquoi un individu a contracté une maladie particulière,

pourquoi un individu a visité une page d'un site web de manière répétée, pourquoi la durée de vie après la contraction d'une maladie varie selon les malades...

Voici une liste non exhaustive des techniques disponibles : Techniques à base d'arbres de décision (Arbre de décision) : CART, CHAID, ECHAID,

QUEST, C5, C4.5, les forêts d'arbres... Techniques statistiques de régressions linéaires et non linéaires au sens large : Régression

linéaire, Régression linéaire multiple, Régression logistique binaire ou multinomiale, Analyse

discriminante linéaire ou quadratique, modèle linéaire généralisé, régression PLS, régressions non paramétrique...

Techniques à base de Réseaux de neurones : perceptron mono ou multicouches avec ou sans rétro propagation des erreurs, les réseaux à fonction radiale de base...

Techniques à base d'algorithme génétique.

Techniques à base d'Inférence bayésienne (Réseau bayésien). Le Raisonnement par cas

Le Filtrage collaboratif

Page 6: Daattaa iMMinniinngg SSuuppeerrvvisséé

6

Les méthodes de réduction de données

Elles permettent de réduire un ensemble de données volumineux à un ensemble de taille plus

réduite, épuré de ce que l'on considérera comme de l'information non pertinente ou non

signifiante, comme du bruit. Elles sont ainsi très souvent, mais pas systématiquement, utilisées

en amont des techniques supervisées ou non supervisées. Elles sont notamment très complémentaires des techniques non supervisées classiquement utilisées dans le domaine de la

statistique. Techniques d'Analyse factorielle : Analyse en composantes principales, analyse

factorielle des correspondances, analyse des correspondances multiples, analyses factorielles

(maximum de vraisemblance, moindres carrés non pondérés, avec ou sans rotation orthogonale ou oblique)...

Techniques de positionnement : positionnement multidimensionnel...

Pourquoi tant d'algorithmes ?

Parce que nous venons de voir qu'ils n'ont pas tous le même objet, parce qu'aucun n'est optimal dans tous les cas, parce qu'ils s'avèrent en pratique complémentaires les uns des autres et parce

qu'en les combinant intelligemment (en construisant ce que l'on appelle des méta modèles - des modèles de modèles) il est possible d'obtenir des gains de performance très signifiants, si l'on prend bien garde d'éviter des problèmes de sur-ajustement des modèles ainsi obtenus. Encore

faut-il être en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels

l'opération est beaucoup plus délicate en pratique.

5 – Les logiciels de Data Mining

Il existe aujourd’hui de nombreux logiciels de Data Mining. On peut par exemple citer Sodas, que nous allons utiliser dans ce projet, Weka, qui est un logiciel libre, Tanagra, qui est destiné à l’enseignement et la recherche, Clémentine, utilisé par de nombreuses entreprises, ou encore des

logiciels plus connus dans le monde des Statistiques, tels que SAS, SPAD ou SPSS. La liste est longue, et l’on peut encore nommer Alice, BayesiaLab, Netral, Corico, SmartMiner,

Orange, Statistica, Yale, Kxen…..

6 – Le logiciel SODAS et son positionnement

Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte à analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est

issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Onze laboratoires (dont le CEREMADE de l’université Paris Dauphine) dans 6 pays contribuent à son développement.

Son idée générale est la suivante : à partir d'une base de données, construire un tableau de

données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques.

Page 7: Daattaa iMMinniinngg SSuuppeerrvvisséé

7

Afin de bien comprendre le fonctionnement de SODAS, nous allons définir plusieurs notions fondamentales.

Individus : C’est l’unité de base sur laquelle des mesures vont être réalisées. Le terme « individu » peut désigner un client d’un magasin, un animal, une ville, un sport, un pays…. Ce sont des

entités. L’ensemble des individus observés peut être un échantillon d’une population (sondage) ou la population entière (l’ensemble des départements français)

Concept : Un concept est une unité de second ordre, alors qu’un individu est une unité de premier ordre (Exemple : cet oiseau est un individu, ‘les oiseaux’ est un concept). Un concept est

défini par une intension (ses propriétés et caractéristiques) et une extension (l’ensemble des individus qui satisfont ces caractéristiques)

Données : Ce sont des grandeurs ou des qualités décrivant des individus. Les données que traitent SODAS sont dites symboliques car elles sont plus complexes que celles

habituellement rencontrées en statistique. Elles expriment la variation interne inéluctable des concepts et sont structurées.

L’Analyse de Données Symboliques : Elle s'applique à des données complexes. En entrée, elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution

de probabilité, de possibilité, capacité etc.) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets

Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas

seulement par un point.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

Partir d'une base de données relationnelle (Oracle, Access, ...).

Définir ensuite un contexte par : - des unités statistiques de premier niveau (habitants, familles, entreprises, accidents, ...),

- les variables qui les décrivent - des concepts (villes, groupes socio-économiques, scénario d'accident,...) Chaque unité statistique de premier niveau est associée à un concept (par exemple,

chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. On construit alors un tableau de données symboliques dont les nouvelles unités

statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des

histogrammes, des intervalles, des valeurs uniques etc., selon le type de variables et le choix de l'utilisateur.

On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS

(histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...).

Page 8: Daattaa iMMinniinngg SSuuppeerrvvisséé

8

Dans le principe, le graphique suivant résume les étapes d’une analyse de Données Symboliques

sous SODAS :

Page 9: Daattaa iMMinniinngg SSuuppeerrvvisséé

9

B. Présentation des données de notre étude

L’étude que nous avons choisi de réaliser ici porte sur les Jeux Olympiques d’Athènes en 2004.

Nous avons créé notre propre base Access principalement à partir du site Wikipedia.org

(Encyclopédie en ligne) pour tout ce qui concerne les données relatives aux Jeux Olympiques eux-mêmes, et à partir du site http://www.studentsoftheworld.info/menu_geo_fr.html pour les données notamment économiques concernant les pays participants.

Voici comment s’organise nos données :

Pour chacun des 202 Pays qui ont participé à ces JO, nous avons recueilli les informations suivantes :

o La Région du Monde dont il fait partie Asie de l’Ouest, Asie de l’Est, Afrique, Amérique du Nord, Amérique centrale, Amérique du

Sud, Europe de l’Est, Europe de l’Ouest, Océanie. o Le Régime politique

Co principauté Parlementaire, Dictature Militaire, Monarchie absolue, Monarchie

Constitutionnelle, République Islamique Socialiste, République Islamique, République Parlementaire, République Présidentielle, République Semi-Présidentielle, République

Socialiste, République Fédérale Parlementaire, République Fédérale Présidentielle, République Fédérale Semi-Présidentielle, République Fédérale Transitoire, Territoire Non Incorporé des Etats-Unis d’Amérique, Territoire d’Outre-mer du Royaume-Uni.

o Le PNB par Habitants o Le Nombre d’Habitants

o Le Nombre de Participations aux Jeux Olympiques A noter que ce nombre donne le nombre de participations totales à tous les JO (hiver et été) depuis la création dudit pays. Par exemple, pour les Pays de l’Est, nous n’avons tenu compte de

leur participation que depuis l’éclatement du bloc soviétique, et n’avons pas comptabilisé leur participation lorsqu’ils faisaient partie de l’URSS.

o Le Nombre de Médailles d’OR o Le Nombre de Médailles d’ARGENT o Le Nombre de Médailles de BRONZE

o Le Nombre total de Médailles obtenues o Le Rang au classement

o Si OUI ou NON le pays avait Plus de 25 participants à ces JO o Si OUI ou NON le pays A participé à 9 sports ou plus dans toute la compétition.

Pour chacun des 28 Sports, nous avons précisé : o Le Type de Sport dont il s’agit

Sport d’Adresse, Sport Aquatique, Sport de Combats, Sport d’Equipe, Sport Individuel, Sport Multi-Disciplines, Sport de Raquettes.

o Le Nombre de Catégories associées à ce sport

Exemple : Pour le cyclisme, il y en a 3 (le Vélo Tout Terrain, le Cyclisme sur Piste, et le Cyclisme sur Route)

Dans une autre table, nous avons explicité chacune des catégories, avec le sport auquel elles sont associées, ainsi que le nombre de sous-catégories associées à chacune des catégories. Exemple : Pour le Vélo Tout Terrain (rattaché au Cyclisme) il y a 2 sous-catégories (Course

Hommes, et Course Femmes).

Page 10: Daattaa iMMinniinngg SSuuppeerrvvisséé

10

Pour chacune des 301 Sous-Catégories, nous avons détaillé :

o La Catégorie à laquelle elle est rattachée o Le 1er Pays pour cette sous-catégorie (Pays qui a obtenu la Médaille d’Or)

o Le 2ème Pays (Médaille d’Argent) o Le 3ème Pays (Médaille de Bronze) o Le 4ème Pays (Médaille de Bronze ex-æquo)

o Si cette sous-catégorie s’est pratiquée en Individuel ou par Equipe o Si cette sous-catégorie a été pratiquée par des Femmes, des Hommes ou en Mixte.

Sous ACCESS :

But de notre étude sous SODAS : Individus et Concepts Nous allons chercher à extraire des informations pertinentes à partir de l’ensemble de ces

données. Nous avons décidé de prendre pour concept les Régions du Monde. Autrement dit, nous allons essayer de voir ce qui rassemble/différencie/caractérise chacune des Régions du Monde lors de ces Jeux Olympiques.

Pour ce qui est des individus, nous allons majoritairement utiliser les Sous-Catégories de Sport comme individus.

Nous présenterons également en Annexe des résultats obtenus lorsque l’on grade les mêmes concepts, mais que l’on prend pour individus les Pays.

Nous avons créé deux requêtes :

Requête Sports : étude des régions du Monde selon les pays ayant remporté une médaille

d’or parmi toutes les catégories de sport. Individu = Catégories de sports (il y a 301 individus)

Requête Pays (Annexe) : étude des régions du Monde en fonction des pays ayant participé aux Jeux Olympiques d’Athènes 2004 et de leurs caractéristiques.

Page 11: Daattaa iMMinniinngg SSuuppeerrvvisséé

11

Notre base Access :

La requête Sport :

Note : Pour notre étude avec les Sports (en fait, les Sous-Catégories) comme individus, ne vont apparaître que les Pays qui ont été médaillés d’OR au moins une fois. C’est pourquoi nous avons

décidé de considérer les Pays eux-mêmes comme individus, afin que les concepts puissent être décrits par des informations portant sur l’ensemble des 202 pays qui ont participé aux JO.

Page 12: Daattaa iMMinniinngg SSuuppeerrvvisséé

12

La requête Pays :

La requête Concept :

Page 13: Daattaa iMMinniinngg SSuuppeerrvvisséé

13

II Réalisation de l’étude sous SODAS

A. Importation dans DB2SO :

Exécution des requêtes sous DB2SO

Voici les différentes étapes d’importation de notre base de données issue d’Access sous le logiciel SODAS :

Le module DB2SO est accessible via le menu SODAS file > import... > importation (DB2SO) :

Une fois sous DB2SO : File > New...

Page 14: Daattaa iMMinniinngg SSuuppeerrvvisséé

14

Il faut alors sélectionner la source de données. Nos données se trouvent sous Access. Il

faut donc cliquer sur ‘Source de données machine’ puis ‘MS Access Database’ :

On sélectionne le fichier dans lequel se trouvent les données

que l’on cherche à étudier :

Page 15: Daattaa iMMinniinngg SSuuppeerrvvisséé

15

Importation des individus : Sélection de la requête préparée

sous Access :

Une fois la requête sélectionnée, DB2SO nous confirme la réussite de cette extraction et liste les types des variables ainsi que leur nombre :

Ajout des variables conceptuelles : Sélection de la requête préparée sous Access :

Modify > Add single-valued variables...

Sélection de la requête :

Page 16: Daattaa iMMinniinngg SSuuppeerrvvisséé

16

Extraction réussie, la variable ajoutée est ‘Région du Monde’.

Enregistrement et exportation : File > Export...

Et enfin, on appelle notre fichier sous SODAS : Chaining > Select Base :

Page 17: Daattaa iMMinniinngg SSuuppeerrvvisséé

17

B. Utilisation des méthodes de SODAS

SODAS est un logiciel user friendly dans le sens où il suffit de glisser la méthode que l’on souhaite appliquer vers la base disponible sur la partie droite de l’interface :

1. Méthode View

a) Présentation de la méthode

La méthode VIEW permet à un utilisateur de visionner facilement dans un tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d’opérer quelques changements sur ces données.

Ces changements sont par exemple la modification des libellés des objets, des modalités, des variables …

Cette méthode va nous permettre de visualiser de façon graphique nos concepts. C’est une manière intuitive de présenter le profil des régions. Nous avons retenu ici toutes nos régions du Monde, afin de pouvoir déterminer ce qui les différencie le plus.

Il s’agit dans un premier temps de sélectionner les variables. Nous avons décidé de toutes les

prendre, aussi bien les intervalles que les modales.

La sélection se fait comme suit :

Page 18: Daattaa iMMinniinngg SSuuppeerrvvisséé

18

Une fois les variables sélectionnées, il s’agit de faire tourner la méthode. Pour cela, il suffit de cliquer sur ‘Run method’.

Page 19: Daattaa iMMinniinngg SSuuppeerrvvisséé

19

b) Mise en œuvre de la méthode View

Nous avons décidé d’utiliser les graphiques 2D pour représenter les variables modales

et les graphiques 3D pour les autres variables. Ainsi, le graphique 2D représente les variables modales sous forme d’histogramme et

les variables intervalles sous forme d’intervalle.

Le tableau ci-dessous résume toutes nos variables en fonction de nos concepts :

Les variables qualitatives seront représentées par des histogrammes, (par exemple, pour la variable 1er_pays, la région Amérique du Nord n’a que 2 pays : Etats-Unis

avec une fréquence de 89% et Canada avec 11%)

Les variables Intervalles sont naturellement représentées par un intervalle où les

extrémités sont le minimum et le maximum des valeurs prises par le concept pour la variable considérée.

Page 20: Daattaa iMMinniinngg SSuuppeerrvvisséé

20

Sorties de la méthode View :

L’histogramme de droite représente les pays de la Région du Monde considérée avec leur

fréquence d’avoir été médaillés d’Or au Jeux Olympiques d’Athènes 2004.

Page 21: Daattaa iMMinniinngg SSuuppeerrvvisséé

21

L’Asie de l’Ouest se caractérise par :

8 pays : le Kazakhstan, Israël, les Emirats Arabes, l’Azerbaïdjan, l’Ouzbékistan, l’Iran, la Géorgie et la Turquie ; i.e. que ce sont les seuls pays de l’Asie de l’Ouest à

avoir remporté une médailles d’Or.

Un nombre d’Habitants par pays très faible,

Un PNB/Habitant faible,

Un nombre de participations au Jeux Olympiques très varié (allant de 1 à 39

participations),

De plus grandes réussites dans les sports individuels et masculins,

Réussites dans seulement 2 catégories de sport : sport individuel et sports de combats.

Pays classés premier :

L’Amérique du Sud se caractérise par :

Seulement 3 pays : le Chili, l’Argentine, mais surtout par le Brésil,

Un nombre d’habitant et un PNB/Habitants très faibles,

Des rangs moyens,

Des pays qui participent aux Jeux Olympiques depuis de très nombreuses années,

Des réussites dans seulement 4 types de sport (Individuel, Aquatique, Raquette et Equipe), réussite surtout dans des catégories masculines.

Page 22: Daattaa iMMinniinngg SSuuppeerrvvisséé

22

L’Océanie se caractérise par :

Seulement 2 pays (Nouvelle-Zélande, mais surtout l’Australie) qui sont très bien

classés (4ème et 24ème)

Les PNB/Habitants sont assez élevés pour un nombre d’habitants très faible,

Mixité dans les sports,

Réussite dans 5 sports parmi les 7.

Page 23: Daattaa iMMinniinngg SSuuppeerrvvisséé

23

L’Afrique se caractérise par :

5 pays (l’Egypte, le Cameroun, le Kenya, l’Ethiopie et le Maroc), dont nombre d’habitants et PNB/Habitants extrêmement faibles.

Des rangs pas bons (pas en-dessous de 28ème),

Nombre de participations moyen,

Réussite dans les sports individuels et en majeur partie masculins et seulement 2 catégories de sports.

L’Europe de l’Est se caractérise par :

De très nombreux pays de cette région ont remporté une médaille d’Or, la Russie se démarque tout de même.

PNB/Habitant assez faible, Nombre d’habitants très faible,

Rang très dispersé, ainsi que les nombres de participations,

Bonne mixité Homme/Femme

Sport en général individuel

Nombreuses catégories de sport.

Page 24: Daattaa iMMinniinngg SSuuppeerrvvisséé

24

L’Asie de l’Est se caractérise par :

6 pays, mais la Chine représente 53%,

Nombre d’habitants très varié, mais avec un pic extrêmement élevé,

PNB également très dispersé, allant de faible à assez élevé,

Réussite dans toutes les catégories des sports que ce soit féminin ou masculin, mais

tout de même une majorité de sport individuel.

Page 25: Daattaa iMMinniinngg SSuuppeerrvvisséé

25

L’Europe de l’Ouest se caractérise par :

12 pays, région du Monde ayant le plus de pays victorieux,

Nombre d’Habitants très faible, alors que PNB/Habitant extrêmement élevé,

Nombre de participations élevé,

Réussite dans beaucoup de sports.

L’Amérique du Nord se caractérise par :

Seulement 2 pays : Etats-Unis (89%) et Canada (11%),

Nombre d’habitants faible, PNB assez élevé.

Rang très bon (1er et 21ème),

Réussite dans tous les sports.

Page 26: Daattaa iMMinniinngg SSuuppeerrvvisséé

26

L’Amérique Centrale se caractérise par :

4 pays, surtout Cuba (69%),

Nombre d’habitants très faible ainsi qu’un PNB très faible,

Nombre de participations moyennes,

Réussite dans les sports de combat et Individuel, i.e. surtout les sports individuels (et non d’équipe), catégories en majorité masculines mais avec tout de même des

féminines.

Résumé de tous ses résultats :

Dans un premier temps, le fait que la Chine fasse partie des pays ayant remporté au moins une médaille d’or fausse quelque peu les résultats pour la variable Nombre d’habitants ! En effet,

le nombre d’habitants en Chine est tellement élevé que la comparaison des autres pays pour cette variable n’apporte rien.

On peut distinguer 2 groupes :

Les régions ayant un PNB/Habitant élevé ou dispersé,

Les régions ayant un PNB/Habitant faible. En effet, celles de la 1ère catégorie auront une tendance à réussir dans toutes les catégories de

sport alors que celles de la 2nde réussiront que dans des catégories bien définies. La seule Région ne validant pas ces suppositions est l’Europe de l’Est. En effet, son PNB est

faible alors que la réussite concerne tous les sports. Ceci s’explique par le fait que la Russie fasse partie de cette région.

L’Asie de l’ouest fait partie du 1er groupe (PNB/Hab élevé et ayant remporté des médailles dans quasiment toutes les catégories de sport). En fait, c’est la Chine qui a surtout remporté

beaucoup de médailles, mais celle-ci a un petit PNB/Hab, mais comme le Japon, qui fait aussi partie de l’Asie de l’ouest et ayant remporté au moins une médaille d’or, a lui un gros PNB/Hab, on se retrouve avec l’Asie de l’Ouest appartenant à ce premier groupe, alors que ce

n’est pas forcément significatif.

Page 27: Daattaa iMMinniinngg SSuuppeerrvvisséé

27

2. SCLUST

a) Présentation de la méthode

Choix des variables : Nous avons choisi les variables modales : Type de sport, individuel ou équipe, et

homme_femme_mixte.

Page 28: Daattaa iMMinniinngg SSuuppeerrvvisséé

28

b) Mise en œuvre de la méthode SClust

Etude du listing :

Inertie totale de la population :

Le Critérion, c’est-à-dire le critère, est la somme des distances du noyau à la classe associée. On veut minimiser le critère. L’édition optimal partition, ci-dessous, donne l’ensemble des individus qui sont dans

chacune des classes avec leur distance au centre. Plus la distance est petite, plus il sera dans la classe.

Résumé des catégories :

La méthode SClust a regroupé nos régions en 4 classes :

Classe 1 : Amérique du Sud,

Classe 2 : Amérique du Nord, Europe de l’Ouest et Océanie,

Classe 3 : Amérique Centrale, Afrique et Asie de l’Ouest,

Classe 4 : Asie de l’Est et Europe de l’Est.

Le tableau ci-dessous, Edition Prototypes by Variables , donne pour chaque individu la classe où il est tombé. On peut remarquer que la variable Equipe est dans la classe 1 i.e. Amérique du Sud alors que

Individuel est dans les classes 2, 3 et 4, i.e. toutes les autres régions du monde. L’Amérique du Sud est donc la seule région du monde à ne réussir que dans les sports d’équipes

contrairement aux autres régions. La classe 3 (Amérique Centrale, Afrique et Asie de l’Ouest) n’a quasiment jamais gagné de sport en équipe (0.05 Equipe).

La classe 4 (Asie de l’Est et Europe de l’Est) semble la classe où il y a la plus grande parité Homme/Femme, (en effet 0.53 Homme et 0.47 Femme).

Page 29: Daattaa iMMinniinngg SSuuppeerrvvisséé

29

Concernant les Types_de_Sport, la classe 2 et 4 sont dans quasiment toutes les catégories, alors que les régions : Amérique du Sud, Amérique Centrale, Afrique et Asie de l’Ouest n’ont

gagné que dans 3 voire 4 types de sport. Catégorie 3 : Types de sport individuel (0.57) et Combats (0.36). La catégorie 4 se diversifie vraiment dans toutes les catégories, pas plus de 28% de réussite

par type de sport.

Vérifions la qualité de nos paramètres et de nos variables : Critère par ordre

croissant

Nombre de fois où

l'on a ce critère

4,676474 3

4,908480 3

5,030508 1

5,253889 1

6,066790 1

6,405373 1

Ce tableau confirme que nos critères sont bons. Il y a bien une décroissance avec

l’augmentation du critère.

Page 30: Daattaa iMMinniinngg SSuuppeerrvvisséé

30

Etude des sorties graphiques :

Le prototype 1/1 représente sous forme d’histogrammes tous les individus en fonction des 3

variables que l’on étudie.

Cet histogramme nous montre les catégories où il y avait le plus d’épreuves. Il s’agit de sports masculins individuels et types de sport individuels qui regroupent 39% des sports (

l’athlétisme en fait parti), ensuite viennent les sports de combat avec 19%. Il y a 74% de sports individuels contre 26% en équipe. Et enfin, 64% sont masculins, contre 34% féminins

et seulement 2% mixte. Les graphiques qui suivent représentent chacune des classes analysées précédemment.

Le prototype 1/4 est donc la classe 1, i.e. : Amérique du Sud.

L’Amérique du Sud est représentée par des sports masculins (78%), d’équipe (67%) et généralement d’équipe (44%). Cette région est plus douée pour les sports d’équipes

masculines. Elle est de plus caractérisée par les sports mixtes (11%), ce qui élevé en comparaison des 2% de sports mixtes étant aux Jeux Olympiques.

Page 31: Daattaa iMMinniinngg SSuuppeerrvvisséé

31

Classe 2 : Amérique du Nord, Europe de l’Ouest et Océanie :

Ces 3 régions se caractérisent par les sports individuels et aquatiques, ayant une parité relative Homme/Femme (60% et 37%).

Classe 3 : Amérique Centrale, Afrique et Asie de l’Ouest :

Ces 3 régions sont celles qui se démarquent le plus. En effet, elles ont une réussite de 95% pour les sports individuels contre 5% pour ceux en équipe. Concernant las types de sport : 57% et 36% pour individuels et de combat. De plus, les ¾ sont des sports masculins.

Classe 4 : Asie de l’Est et Europe de l’Est :

Ces 2 régions se distinguent par le fait qu’elles ont plus réussi dans les sports féminins (53%),

et par la diversité des sports.

Page 32: Daattaa iMMinniinngg SSuuppeerrvvisséé

32

3. HIPYR

Paramètres/Variables sélectionnés pour cette étude :

Variables :

Paramètres :

Page 33: Daattaa iMMinniinngg SSuuppeerrvvisséé

33

Dans un premier temps, nous construisons une Hiérarchie. On fera par la suite une

construction en Pyramide.

Sortie de HIPYR Hiérarchie :

Avec : AA00 : Amérique Centrale

AA01 : Amérique du Nord AA02 : Europe de l’Ouest

AA03 : Asie de l’Est AA04 : Europe de l’Est AA05 : Afrique

AA06 : Océanie

Page 34: Daattaa iMMinniinngg SSuuppeerrvvisséé

34

AA07 : Amérique du Sud

AA08 : Asie de l’Ouest

Les classes de ‘regroupement’ se font dans cet ordre : " Class_1/8 " puis "Class2/8", etc., jusqu’à "Class_8/8" qui regroupent toutes les classes. Nous pouvons déduire de la méthode Hypir que les régions du Monde qui se ‘ressemblent’ le

plus, d’après nos paramètres, sont dans un premier temps : Amérique Centrale, Afrique et Asie de l’Ouest.

Ensuite : Amérique du Nord et Océanie. Nous avons 3 groupes qui se distinguent à la vue des résultats de la méthode HIPYR :

Amérique Centrale, Afrique, Asie de l’Ouest, Europe de l’Est et Amérique Centrale;

Amérique du Nord, Océanie et Europe de l’Ouest ;

Asie de l’Est.

Construction en PYRAMIDE :

Nous allons utiliser la méthode PYR de SODAS qui permet de caractériser les classes en les organisant sous forme de paliers. La pyramide est un outil puissant pour représenter les classes empiétantes et situer les régions les unes par rapport aux autres en fonction de critères

définis.

Dans un échantillonnage pyramidal, chaque classe formée est définie non seulement par son extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur par son

successeur, ce qui établit une structure d’héritage dans la pyramide.

La structure pyramidale permet d’identifier des concepts intermédiaires, concepts palliant à un vide entre les classes déjà bien identifiées.

Pour obtenir la méthode Pyramide, il suffit de faire le même procédé que pour Hipyr Hierarchy en replaçant Hierarchy par Pyramid :

Page 35: Daattaa iMMinniinngg SSuuppeerrvvisséé

35

En utilisant les mêmes variables qu’avec Hypir Hierarchy, nous obtenons :

On peut voir tout de suite que l’étude sera plus complexe qu’avec Hierarchy. En effet, la

méthode Pyramide est beaucoup plus précise, et met toutes les relations qu’il peut y avoir entre les régions en fonction des variables explicatives que l’on a choisies.

Rappel des classes : AA00 : Amérique Centrale

AA01 : Amérique du Nord AA02 : Europe de l’Ouest

AA03 : Asie de l’Est AA04 : Europe de l’Est AA05 : Afrique

AA06 : Océanie AA07 : Amérique du Sud

AA08 : Asie de l’Ouest

Page 36: Daattaa iMMinniinngg SSuuppeerrvvisséé

36

Jusqu’ici, on a toujours eu le regroupement suivant : Amérique du Nord, Océanie et Europe de l’Ouest . Or ici, il semble que l’Europe de l’Ouest (AA02) soit beaucoup plus éloignée des

2 autres (AA01 et AA06). Voici l’ordre des liaisons créées :

1 :Amérique Centrale et Afrique,

2 :Océanie et Amérique du Nord,

3 :Océanie et Amérique Centrale (association encore pas vue jusqu’ici),

4 :Afrique et Amérique du Sud,

5 :Amérique Centrale, Afrique et Océanie (association nouvelle),

6 :Amérique Centrale, Afrique et Amérique du Sud,

7 : Amérique du Sud et Europe de l’Est,

...

12 : Asie de l’Ouest et Europe de l’Ouest,

...

22 : Océanie, Amérique Centrale, Afrique, Amérique du Sud, Europe de l’Est, Asie de

l’Ouest et Europe de l’Ouest,

l’Amérique du Nord y est associée qu’à l’étape 28,

et l’Asie de l’Est ne sera associée à une région qu’à l’étape 29 et ce, avec l’Amérique du Nord.

Cette étude nous fait remarquer que les régions Amérique du Nord et Asie de l’Est se

démarquent des autres régions du Monde. Aucune de ces informations ne semble corroborer (mais ne sont pas non plus contraires à) nos

conclusions précédentes, si ce n’est qu’on retrouve encore une fois l’Asie de l’Est à part des autres Régions du monde.

Page 37: Daattaa iMMinniinngg SSuuppeerrvvisséé

37

4. DIV

La méthode DIV est une méthode d’échantillonnage hiérarchique qui permet de faire un partitionnement en un nombre de classes fixé au choix. On peut choisir des variables

d’échantillonnage soit quantitatives soit qualitatives, mais jamais un mélange des deux. A chaque étape, une classe est subdivisée en deux classes suivant une question binaire, ce qui permet d’obtenir un partitionnement optimal en deux sous-classes, conformément à

l’extension du critère d’inertie (maximisation de la variance interclasse et minimisation de la variance intra-classe).

L’algorithme de positionnement s’arrête au bout de k-1 subdivisions avec k le nombre de classes fixé dès le départ.

La méthode DIV ne tourne que sur un seul type de variables à la fois, soit modale soit intervalle. Nous choisissons d’étudier les variables modales. En effet, nous allons chercher ici des relations parmi les catégories de sports alors que les

variables Intervalles (Nombre de participations aux JO, Rang, PNB/Habitant et Nombre d’habitants) ont tendance à ne nous informer que sur les pays.

Variables sélectionnées :

A partir des variables que l’on a sélectionnées, cette méthode nous fournira des groupes

(clusters) regroupant nos concepts selon un arbre de décision.

Page 38: Daattaa iMMinniinngg SSuuppeerrvvisséé

38

Listing de DIV

THE SELECTED SPLIT-VARIABLES ARE :

-------------------------- ( 2) :Type_de_sport 1- Individuel

2- Aquatique 3- Raquettes

4- Equipe 5- Combats 6- Adresse

7- Multi-disciplines ( 7) :individuel_ou_équipe

2- Individuel ( 8) :homme,_femme_ou_mixte

1- Femme 2- Homme

3- Mixte THE SELECTED CRITERION-VARIABLES ARE :

-------------------------- ( 2) :Type_de_sport

( 7) :individuel_ou_équipe ( 8) :homme,_femme_ou_mixte

Partition en 2 groupes :

Cluster 1 (n=1) :

Amérique du Sud Cluster 2 (n=8) :

Amérique centrale Amérique du Nord Europe de l'Ouest Asie de l'Est Europe de l'Est Afrique Océanie Asie de l'Ouest

Explicated inertia : 41.954807

DESCRIPTION OF THE CLUSTERS :

-------------------------- Cluster 1 : IF

1- [individuel_ou_équipe = Equipe

] Cluster 2 : IF

1- [individuel_ou_équipe = Individuel

Page 39: Daattaa iMMinniinngg SSuuppeerrvvisséé

39

Cette partition est un peu ‘simpliste’. Si il s’agit d’un sport en équipe, alors la région gagnante sera l’Amérique du Sud ; alors que si il s’agit d’un sport individuel, l’une des régions (hors

Amérique du Sud) sera gagnante.

Partition en 3 groupes :

Cluster 1 (n=1) :

Amérique du Sud

Cluster 2 (n=4) : Amérique du Nord Europe de l'Ouest Afrique Océanie

Cluster 3 (n=4) : Amérique centrale Asie de l'Est Europe de l'Est Asie de l'Ouest

Explicated inertia : 55.935640 DESCRIPTION OF THE CLUSTERS :

-------------------------- Cluster 1 :

IF 1- [individuel_ou_équipe = Equipe

] Cluster 2 :

IF 2- [Type_de_sport = Aquatique

] AND

1- [individuel_ou_équipe = Individuel ]

Cluster 3 : IF

2- [Type_de_sport = Multi-disciplines OR Adresse

OR Combats OR Equipe

OR Raquettes OR Individuel ]

AND 1- [individuel_ou_équipe =

Individuel ]

Page 40: Daattaa iMMinniinngg SSuuppeerrvvisséé

40

L’Amérique du Sud est toujours caractérisée par les sports en équipe et est seule dans sa

partition. Le nœud 2 (Amérique du Nord, Europe de l'Ouest, Afrique et Océanie) est telle que si une

région pratique sport individuel et de type aquatique, alors cette région appartient au nœud. Cette association est étrange puisque l’Afrique n’a jamais gagné en sport aquatique ! Le nœud (Amérique centrale, Asie de l'Est, Europe de l'Est et Asie de l'Ouest) regroupe les

régions ayant remporté des sports individuels dans l’une des catégories de sports (sauf la catégorie aquatique).

L’arbre :

THE CLUSTERING TREE : ---------------------

- the number noted at each node indicates the order of the division

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=1) !

!----1- [individuel_ou_équipe = 01] ! ! +---- Classe 2 (Ng=4)

! ! !----2- [Type_de_sport = 0000010]

! +---- Classe 3 (Nd=4)

Si la région a plus remporté dans des sports d’équipe, alors elle sera associée à la classe 1.

Si la région a plus remporté dans des sports individuels (en opposition aux sports d’équipe), et de type aquatiques alors elle sera associée à la classe 2. S’il ne s’agit pas de sports aquatiques,

elle sera dans la classe 3.

Page 41: Daattaa iMMinniinngg SSuuppeerrvvisséé

41

5. Résumé de tous ces résultats Nous allons essayer de rassembler l’ensemble des informations apportées par les différentes

méthodes.

- Le PNB/Hab est l’une des variables influentes. On a pu voir par exemple grâce à la méthode View, que la tendance générale est la suivante : si une région a un fort PNB/Hab, alors on observe une réussite dans tous les types de sports.

Cependant ce n’est qu’une tendance globale, et l’on a pu voir que certaines valeurs extrêmes dans nos données (le nombre d’Habitants pour la Chine par exemple) peuvent rendre d’autres

variables potentiellement explicatives non significatives. Il peut aussi y avoir des exceptions, exemple : l’Europe de l’Est.

- Lorsque l’on ne tient compte que des critères sportifs, et non économiques (uniquement variables modales) on voit avec la méthode Sclust que :

L’Amérique du Sud est caractérisée par les Sports d’équipe (variable Eq/Ind) et par la mixité de ces équipes. Les trois régions Amérique du Nord, Europe de l’Ouest et Océanie forment un groupe dont

les caractéristiques sont des Sports pratiqués individuellement, et aquatiques. Les trois régions Amérique centrale, Asie de l’Ouest et Asie de l’Ouest forment un groupe qui

se caractérise par un très fort taux de sports individuels pratiqués par des hommes, et la réussite que dans deux types de sports (Individuels et Combats). Ces deux dernières remarques laisse penser que le PNB/Hab est bien une variable influente.

Pour finir, nous avons 2 régions typiques (Europe de l’Est et Asie de l’Est) qui se rassemble dans un troisième groupe, et sont caractérisés par un très fort taux de réussit dans les sports

féminins (55%) et par la diversité des sports. - Avec la méthode Hipyr, en tenant compte de l’ensemble de nos variables, on obtient

globalement les mêmes regroupements que par la méthode Sclust, excepté pour l’Europe de l’Est qui sera cette fois regroupé avec les pays à faible PNB/hab.

- La méthode DIV nous confirme encore une fois ces résultats. En ne tenant pas compte du PNB/Habitants, si l’on devait rajouter une Région du monde et que l’on devait la classer,

voici la méthode à utiliser : Groupe 1 si Sports par équipe, Groupe 2 si Individuel et Sports aquatiques, et Groupe 3 si Individuel et Sports non aquatiques. A noter tout de même une

curiosité dans notre cas, puisque il y a mauvais classement de l’Afrique….

CONCLUSION :

Le logiciel SODAS a permis d’extraire certaines informations a priori invisibles à partir des données brutes. La notion de concept nous a permis d’avoir une approche différente de celle donnée par les méthodes statistiques classiques.

Page 42: Daattaa iMMinniinngg SSuuppeerrvvisséé

42

Annexe : Etude de la requête PAYS

A- STAT (Elementary Statistics on Symbolic Objects) La méthode STAT de SODAS nous permet d’utiliser des statistiques classiques étendues aux variables symboliques. Cette application de statistiques évoluées doit nous permettre de

continuer notre apprentissage à partir de la base de données. STAT est donc un ensemble de méthodes permettant de voir sous forme de document texte ou

de graphe les statistiques élémentaires relatives à nos données symboliques.

On choisit de prendre pour cette méthode uniquement les variables Interval :

Page 43: Daattaa iMMinniinngg SSuuppeerrvvisséé

43

Choix des paramètres

Résultats (Graphe)

On rappelle qu’avec ces nouveaux individus, on ne considère plus seulement les Pays qui ont

remporté au moins une médaille d’Or, mais tous les pays ayant participé aux JO d’Athènes 2004.

Page 44: Daattaa iMMinniinngg SSuuppeerrvvisséé

44

On remarque immédiatement sur ce graphique que l’Amérique du Sud et l’Afrique sont isolés

(faible PNB et très peu de médailles). De même l’Asie de l’Ouest a une amplitude de PNB un peu plus élevé, mais également peu de médailles. On distingue clairement l’Europe de l’Est, qui avec des PNB relativement faibles a obtenu un

très grand nombre de médailles. L’Amérique du Nord a également obtenu énormément de médailles, mais son PNB est bien plus élevé.

A noter qu’on remarque bien la grande amplitude des PNB pour l’Europe de l’Ouest.

Et si pour les mêmes variables, on prend pour paramètre le suivant :

Page 45: Daattaa iMMinniinngg SSuuppeerrvvisséé

45

On peut par exemple voir la corrélation entre deux variables Interval :

Page 46: Daattaa iMMinniinngg SSuuppeerrvvisséé

46

B - SCLUST

Choix des variables : Le meilleur résultat est donné lorsque l’on sélectionne uniquement des variables modales :

Choix des paramètres : Le meilleur résultat est donné lorsque l’on prend uniquement 2 classes :

Page 47: Daattaa iMMinniinngg SSuuppeerrvvisséé

47

On obtient dans le listing le découpage suivant :

EDITION OPTIMAL PARTITION

=========================

Classe : 1 Cardinal : 3

===============================

( 0) Amérique du Nord [1.2] ( 2) Europe de l'Est [1.2] ( 4)

Europe de l'Ouest [0.6]

Classe : 2 Cardinal : 6

===============================

( 1) Asie de l'Est [1.1] ( 3) Océanie [1.3] ( 5)

Amérique centrale [0.6]

( 6) Amérique du Sud [1.4] ( 7) Asie de l'Ouest [0.5] ( 8)

Afrique [1.1]

Regardons les caractéristiques de ces 2 classes:

(Le prototype 1/1 représente l’ensemble de la population)

Page 48: Daattaa iMMinniinngg SSuuppeerrvvisséé

48

La classe 1/2 formée de l’Amérique du Nord, l’Europe de l’Est et l’Europe de l’Ouest

Ces trois régions sont caractérisées par le fait que les pays ont majoritairement fait participer plus de 25 athlètes, dans plus de 9 sports différents. Les deux régimes prédominants dans ces régions sont la République Parlementaire et la

Monarchie Constitutionnelle ( 62% à eux deux).

Page 49: Daattaa iMMinniinngg SSuuppeerrvvisséé

49

Pour la classe 2/2, formée de l’Amérique centrale, l’Amérique du Sud, l’Océanie, l’Afrique, l’Asie de l’Est et l’Asie de l’Ouest :

Ces autres régions sont caractérisées par le fait que les pays n’ont quasiment jamais fait

participer plus de 25 athlètes, et presque toujours dans moins de 9 sports différents. Les deux régimes prédominants dans ces régions sont la République Présidentielle et la

Monarchie Constitutionnelle (55% à eux deux).

Page 50: Daattaa iMMinniinngg SSuuppeerrvvisséé

50

Le critérion dans le Listing : CRITERION

=========

Run Iteration Class Criterion

1 2 2 9.191151

2 2 2 11.104389

3 2 2 9.191151

4 2 2 12.989418

5 3 2 9.191151

6 2 2 11.104389

7 2 2 9.191151

8 3 2 9.191151

9 3 2 9.191151

10 3 2 11.104389

Evolution de la Fréquence du Criterion :

6

3

1 9.1911 11.1043 12.9894

Ce qui indique que l’on a bien un bon modèle.