Groupement de données continues

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


A titre d’exemple, considérons une suite de 100 tailles d’écoliers. Afin d’avoir une vue d’ensemble des la répartition de ces tailles, il peut être utile de les regrouper en classes, chaque classe rassemblant des mesures plus ou moins proches. On perd ainsi en précision mais on gagne en signification, c’est-à-dire qu’on dispose d’une représentation globale de nos données. Plus généralement, une suite de valeurs prises par une variable continue ou quasi-continue peut toujours être condensée en partitionnant l’espace des échantillons en classes mutuellement exclusives. Le dénombrement des observations appartenant aux différentes classes est un moyen de fournir un résumé descriptif des données. Le regroupement des données en classes peut grandement améliorer notre aptitude à “voir” la structure des données, et donc la répartition ( ou la fr’equence) des différentes valeurs dans l’espace des échantillons. Les classes sont des intervalles ne se recouvrant pas définis par leurs bornes supérieures et inférieures, appelées extrémités des classes. La perte d’information provient du fait qu’on remplace des valeurs effectives par la localisation et la taille des classes auxquelles elles appartiennent. C’est pourquoi il est désirable de construire des clases comprenant des données approximativement uniformément réparties au sein de chacune d’elles, afin que le regroupement en classes ne cache pas artificiellement les écarts de nos données par rapport à l’uniformité. Il convient aussi de noter qu’un trop grand nombre de classes nuit à la simplification souhaitée. Extrémités de Classes Les bornes supérieures et inférieures des classes sont appelées extrémité de classe. Chaque classe est pleinement spécifiée par sa borne inférieure et sa borne supérieure , avec les restrictions , c’est-à-dire que la borne supérieure dela ème classe et la borne inférieure de la -ème classe coïncident. Il est possible de définir les classes comme les ensembles de valeurs telles que ou , autrement chaque extrémité de classe peut être attribuée à l’une des classes quélle sépare. Il s’agit d’un choix à faire lors du partitionnement. Exemple

strictement inférieur à 10 inférieur ou égal à 10
strictement compris entre 10 et 12 strictement supérieur à 10 et inférieur ou égal à 12
strictement compris entre 12 et 15 strictement supérieur à 12 et inférieur ou égal à 15
supérieur ou égal à 15 strictement supérieur à 15

Lorsque des valeurs prises par une variable non bornée (théoriquement) sont regroupées en classes , les classes les plus à gauche et les plus à droite ont pour extrêmités respectives et . Largeur (amplitude) des classes La largeur ou amplitude d’une classe est définie comme l’écart entre les extrêmités de celle-ci : Les différentes classes ne sont, en général, pas de même largeur. Milieu de classe Le milieu de la -ème classe, , est défini par : Il peut être interprété comme une valeur représentative de la classe lorsque les valeurs qu’elle regroupe sont uniformément distribuées, c’est-à-dire lorsqu’elle se répartissent approximativement selon une distribution uniforme dans la classe. Pour qu’une telle interprétation soit valide, il faut au minimum que la distribution des données autour du milieu de la classe soit symétrique. Les hommes politiques et les politologues s’intéressent de près à la distribution du revenu dans la population. En Allemagne, il y a plusieurs millions de personnes redevables d’un impôt sur le revenu. Les données de 1986, compilées à partir de diverses sources officielles, se caractérisent par une concentration des personnes imposables dans les tranches de revenu moyennes et basses. Peu d’individus gagnaient plus d’un million de marks. Des largeurs de classes plus grandes ont donc été choisies pour les fourchettes de revenus les plus élevées par souci de compacité de l’exposé, et en dépit de la dissymétrie ainsi induite.

Source : Datenreport 1992, p. 255; Statistisches Jahrbuch der Bundesrepublik Deutschland 1993, S. 566
Nombre de personnes impôsables Impôt recouvert
(1000) revenu brut
(mio. marks)
1 4000 1445.2 2611.3
4000 8000 1455.5 8889.2
8000 12000 1240.5 12310.9
12000 16000 1110.7 15492.7
15000 25000 2762.9 57218.5
25000 30000 1915.1 52755.4
30000 50000 6923.7 270182.7
50000 75000 3876.9 234493.1
75000 100000 1239.7 105452.9
100000 250000 791.6 108065.7
250000 500000 93.7 31433.8
500000 1 Mio. 26.6 17893.3
1 Mio. 2 Mio. 8.6 11769.9
2 Mio. 5 Mio. 3.7 10950.8
5 Mio. 10 Mio. 0.9 6041.8
0.5 10749.8