Frequentieverdeling voor Continue Gegevens

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Gegeven een steekproef van een continue variabele kunnen we de gegevens hergroeperen in klassen met klassegrenzen en klassebreedten . Merk op dat de bovengrens van elke klasse gelijk is aan de ondergrens van de daaropvolgende klasse. Een waarneming behoort tot klasse , indien . Aangezien in elke klasse een aantal verschillende waarden kan voorkomen kunnen we het klassemidden bekijken. (Vergelijk met discrete gegevens, waar voor de waarde van de categorie staat.) Ook hier gebruiken we de indices voor categorieën en indices voor waarnemingen .

Frequentietabel

Een frequentietabel voor continue gegevens toont de verdeling van de frequenties over de verschillende klassen.

Klasse # Klassen Absolute Frequenties Relatieve Frequenties
Totaal

Grafische Weergave

Histogram

In een histogram, worden gegroepeerde continue gegevens weergegeven door rechthoeken. Klassegrenzen worden op de horizontale as weergegeven. Omdat ze verschillende breedtes kunnen hebben, kunnen we frequenties niet gewoon door de hoogte van de staven weergeven, zoals bij het staafdiagram: we moeten de klassebreedte in rekening brengen. Elke rechthoek wordt zo geconstrueerd dat de oppervlakte gelijk is aan de overeenkomstige absolute of relatieve frequenties. of Indien de klassebreedtes gelijk zijn dan zijn de frequenties ook proportioneel aan de lengte van de rechthoeken. De rechthoeken worden doorlopend naast elkaar getekend, om het overeenkomen van de klassengrenzen weer te geven:. Voorbeeld: histogram met 716 waarnemingen van maandelijks inkomen (DM):

En fe 22 1.gif

Stam-Blad Diagram

In stam-blad diagrammen worden de gegevens niet weergegeven door geometrische objecten. De waargenomen waarden worden op een welbepaalde manier geordend om zo een overzicht te krijgen over de structuur in de gegevens. Het principe is te vergelijken met een staafdiagram, maar de waarden die tot een bepaalde klasse behoren worden horizontaal opgenomen. Klassen worden opgesteld door de numerieke waarnemingen in twee te delen: een of meerdere ‘leidende’ cijfers vormen de stam, de overige ‘rest’ cijfers vormen de bladeren. Alle waarnemingen met dezelfde leidende cijfers (stam) behoren tot dezelfde klasse. Meestal worden klassefrequenties weergegeven door een lijn met een proportionele lengte. Het principe is eenvoudig te begrijpen aan de hand van een voorbeeld: Neem aan dat we over volgende waarnemingen beschikken: De ‘stammen’ bestaan uit de volgende ‘leidende cijfers’: . Deze komen overeen met het geheel aantal keer dat men de getallen door tien kan delen. Het overeenkomstig stam-blad diagram ziet er als volgt uit: r|r|l Frequentie & Stam & Bladeren
& &
& &
& &
& &
Door gegevens grafisch (of zoals hier, quasi-grafisch) weer te geven kunnen we gemakkelijker relevante informatie terugvinden. Het menselijk brein is relatief goed in het opslaan en vergelijken van visuele patronen. Het bovenstaand stam-blad diagram lijkt redelijk eenvoudig. We kunnen proberen het te verfijnen door de lijnen die tot een bepaalde stam behoren in twee te delen, een eerste deel voor de restgetallen van tot , een tweede deel voor tot . We noemen de eerste groep (laag) en de tweede (hoog). In het volgend stam-blad diagram lijken de waarnemingen ongeveer gelijk verdeeld: r|rc|l Frequentie & & Bladeren
& & l &
& & h &
& & l &
& & h &
& & l &
& & h &
& & l &
& & h &
Er bestaat een duidelijke kloof tussen de stammen en . Een stam-blad diagram kan ons inderdaad helpen een overzicht te krijgen van de verdeling van de waarnemingen en zo concentraties, of extreme waarnemingen op te merken. Door en als extreme waarnemingen te merken verkrijgen we een handige variant van het stam-blad diagram:

Frequentie Bladeren
l
h
l
h
l
h

Bekijk voor een voorbeeld met een rijkere structuur en een meer gedetailleerde stamstructuur

Dotplots

Puntenwolken worden gebruikt om kleinere datasets grafisch weer te geven. Voor elke waarneming tekenen we een ‘punt’ (een punt, cirkel of ander symbool). Bij sommige gegevens komen dezelfde waarnemingen vaker voor. Zulke overlappingen gaan verloren in een puntenwolk en verstoren de weergave van frequenties. De punten kunnen daarom willekeurig verticaal worden verstrooid. De -as bevat dan uniform verdeelde willekeurige getallen uit het interval. Wanneer men de grootte van de symbolen dan klein genoeg kiest voor de gegeven dataset zullen de punten minder waarschijnlijk overlappen. Voorbeeld: De dataset bestaat uit 150 waarnemingen voor het studentenloon in de VS. In het bovenste deel zien we een puntenwolk voor alle 150 waarnemingen. Lager geven we door middel van kleur het geslacht van de persoon weer. Doordat de willekeurige verstrooiing in de verticale richting verschilt voor de twee figuren, staan de punten op een lichtjes afwijkende plaats.

En folimg49.gif

In dit interactief voorbeeld werden waarnemingen voor een enkele variabele samengevat in een histogram. Je kan uit drie variabelen kiezen en ook de klassegrootten bepalen.

En folnode3 b k 1 2.gif

Het benzineverbruik van 74 wagens werd gemeten in mijl per gallon (MPG). De metingen staan in volgende frequentie tabel:

: benzineverbruik (MPG) Absolute Frequenties Relatieve Frequenties
(Totaal)

Het volgend histogram toont de frequentieverdeling voor dezelfde constante klassebreedte van 3 MPG.

En folnode3 b k 1.gif

Zoals men in de frequentietabel en het histogram kan zien, behoren de meeste wagens tot de categorie 18-21 MPG.

Gegevens

Statistische elementen: Duitsers, wonachtig in een privaat huishouden, minimum leeftijd 18
Statistische variabele: maandelijks netto inkomen
steekproefgrootte 716

Histogram

In het volgend histogram hebben de inkomensklassen een gelijke grootte:

Binwidth: 800 DM Binwidth: 500 DM

En fe 22 2.gif

Binwidth: 250 DM Binwidth: 100 DM

En fe 22 4.gif

Door de gemeenschappelijke klassebreedte te verminderen (en daardoor het aantal klassen te verhogen) krijgen we een meer gedetailleerd beeld van de inkomensverdeling. Merk op dat de absolute frequenties afnemen naarmate de klassebreedten afnemen. Verder maakt de toename van het aantal klassen de grafiek ‘gladder’. Meer en meer gaten in de verdeling worden zichtbaar naarmate meer informatie over de individuele waarnemingen wordt getoond. Door een klassebreedte te kiezen sluiten we een compromis tussen twee criteria: de belangrijkste informatie over de populatie, die duidelijker is in een gladdere grafiek, en de grotere hoeveelheid details die we terugvinden in een histogram met een groter aantal klassen. We kunnen verschillende histogrammen maken per geslacht, met een klassegrootte van 500 DM:

Man, n=451 Vrouw, n=265

En fe 22 6.gif

Stam-blad Diagram

Het volgend stam-blad diagram toont alle 716 waarnemingen over het inkomen: lr@c@l Frequentie & Stem & and & Leaf
2 & 0 & * & 1
21 & 0 & t & 2233333333
35 & 0 & f & 44444444555555555
47 & 0 & s & 66666666666666667777777
41 & 0 & . & 88888888888899999999
45 & 1 & * & 0000000000000000111111
38 & 1 & t & 2222222222222233333
63 & 1 & f & 4444444444455555555555555555555
45 & 1 & s & 6666666666667777777777
72 & 1 & . & 88888888888888888888888889999999999
78 & 2 & * & 00000000000000000000000000000001111111
46 & 2 & t & 22222222222222333333333
32 & 2 & f & 444555555555555
28 & 2 & s & 66666667777777
23 & 2 & . & 88888889999
28 & 3 & * & 00000000000011
10 & 3 & t & 2233
16 & 3 & f & 44555555
8 & 3 & s & 6677
5 & 3 & . & 88
12 & 4 & * & 00000&
4 & 4 & t & 2&
14 &
3 &

Dit stam-blad diagram is duidelijk gedetailleerder dan diegene de we voordien bekeken. De stammen (hier het eerste leidende cijfer) zijn onderverdeeld in vijf subklassen naargelang de verschillende waarde van het eerste restcijfer; het eerste bladcijfer: De eerste lijn van elke stam (aangeduid met een *) toont alle bladeren met een 0 of 1. Het tweede (t) diegene die met een 2 of 3 beginnen en zo verder. Aangezien we de stambreedte 1000 kozen telt het eerste bladcijfer de honderdtallen. Om de tekening overzichtelijk te houden werd slecht ��n per twee waarnemingen per klasse getekend (��n blad) Zo verdienen bij voorbeeld zes van 716 ondervraagde personen tussen 2400 en 2500 DM, aangeduid met ‘444’ op de ‘2 f’ lijn. Met de ampersand (&) geven we een paar waarnemingen aan die voor twee bladeren staan die door ��n lijn worden weergegeven. Zo verdienen b.v. 4 personen een inkomen tussen 4200 en 4400 DM. Omdat we slechts ��n blad voor twee waarnemingen tekenen zijn er dus twee personen met een netto inkomen in het interval . De andere twee personen worden weergegeven met & en zouden worden getoond met ‘23‘, indien ��n blad ��n waarneming zou betekenen. Een persoon behoort dus tot de inkomensklasse , de andere tot de -klasse. Merk op dat de 17 extreme waarnemingen apart worden weergegeven om hun afstand tot de ‘populairdere’ klassen te benadrukken.