Stratificeren

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Beschouw de lengte van 100 schooljongens. Om een overzicht te verkrijgen van de verdeling van de lengtes, kan men de ruwe data beginnen lezen. Maar men zal al vaak tot de vaststelling komen dat het weinig zin heeft meer dan, bij voorbeeld, 10 waarnemingen zinvol te proberen interpreteren zonder vereenvoudiging. Een eenvoudige methode is het hergroeperen van personen in groepen met ongeveer dezelfde lengte. Door de grootte van deze groepen onderling te vergelijken, in plaats van de ruwe gegevens, bekomt men een overzicht van de data. Hoewel men zo de gedetailleerde informatie over de exacte lengtes verlies, krijgt men een duidelijker beeld van de verdeling. Gegevens van continue of quasi-continue stochastische variabele kunnen samengevat worden door de steekproefruimte in elkaar wederzijds uitsluitende klassen te verdelen. Door het aantal waarnemingen dat in elke klasse valt te tellen, geven we een eerste eenvoudige beschrijving van de dataset. Het indelen van gegevens in klassen kan ons helpen structuren in de gegevens te herkennen, zoals de verdeling van de waarnemingen over de steekproefruimte. Klassen zijn niet-overlappende intervallen die door hun boven- en ondergrens worden bepaald (klassegrenzen). Men verliest informatie wanneer de oorspronkelijke waarden vervangt door de grootte en plaats van de klassen waarin ze vallen. Indien men te weinig klassen gebruikt bestaat de kans dat men belangrijke patronen verbergt. Te veel klassen doen dan weer het samenvattend aspect van het stratificeren verloren gaan. Klassegrenzen De boven- en ondergrens van een klasse noemt men de klassegrenzen. Een klasse wordt volledig bepaald door zijn onder en bovengrens , waar , de bovengrens van de de klasse en de ondergrens van de de klasse dezelfde zijn. of : De klassegrens kan tot elk van de klassen die ze scheidt gerekend worden. Voorbeeld

minder dan 10 minder dan of gelijk aan 10
10 tot minder dan 12 meer dan 10 tot minder dan of gelijk aan 12
12 tot minder dan 15 meer dan 12 tot minder dan of gelijk aan 15
15 of meer meer dan 15

Wanneer metingen van (theoretisch) onbegrensde variabelen worden gestratificeerd, moeten de uiterste onder- en bovenste klassengrenzen respectievelijk , , zijn. De hoogste en laagste klasse zijn een halfopen interval. Klassebreedte Door het verschil tussen beide klassengrenzen van een klasse te nemen verkrijgen we de klassebreedte (soms ook klassegrootte genoemt): Klassen moeten niet even breed zijn. Class midpoint Het Klassemidden kan men interpreteren als de representatieve waarde voor de klasse, als de metingen in elke klasse gelijk of symmetrisch verdeeld zijn. Politici en politologen interesseren zich in de inkomensverdeling. In Duitsland heeft een groot deel van de bevolking een belastbaar inkomen. Uit gegevens van 1986 zien we dat er een concentratie bestaat van lage en gemiddelde inkomensklassen. Relatief weinig personen verdienen meer dan 1 miljoen mark. Voor hogere inkomensklassen werden grotere klassebreedten gekozen, om een duidelijk beeld te behouden, ondanks de scheve inkomensverdeling.

Bron: Datenreport 1992, p. 255; Statistisches Jahrbuch der Bundesrepublik Deutschland 1993, S. 566
Personen Aangegeven
(1000) bruto inkomen
(miljoenen mark)
1 4000 1445.2 2611.3
4000 8000 1455.5 8889.2
8000 12000 1240.5 12310.9
12000 16000 1110.7 15492.7
15000 25000 2762.9 57218.5
25000 30000 1915.1 52755.4
30000 50000 6923.7 270182.7
50000 75000 3876.9 234493.1
75000 100000 1239.7 105452.9
100000 250000 791.6 108065.7
250000 500000 93.7 31433.8
500000 1 Mio. 26.6 17893.3
1 Mio. 2 Mio. 8.6 11769.9
2 Mio. 5 Mio. 3.7 10950.8
5 Mio. 10 Mio. 0.9 6041.8
0.5 10749.8