Numerieke Beschrijving van Een-Dimensionale Frequentieverdelingen

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Kengetallen vatten bepaalde eigenschappen van de gegevens samen. Formeel gezien is een kengetal een functie van de waarnemingen. Men kan ze gebruiken om bepaalde eigenschappen te kwantificeren, zoals de locatie van de waarnemingen (een locatie -of plaatsmaat), de spreiding ervan (kengetal van schaal of verdeling), de correlatie, etc. Nu zullen we verschillende kengetallen van locatie en verdeling bespreken. Deze kengetallen worden gebruikt om verschillende datasets te vergelijken.

Plaatsmaten

Naast het indiceren van waar de waarnemingen zich concentreren geeft een plaatsmaat ook een referentiepunt waarmee de individuele waarnemen kunnen vergeleken worden.

Modus

De waarde die het vaakst voorkomt noemt men de modus. modus of de modale waarde. Als de variabele discreet, is de modus eenvoudigweg de waarde met de grootste frequentie. frequentie. Voor continue gegevens die voldoende nauwkeurig worden gemeten is het zeer waarschijnlijk dat elke waarneming uniek is, wat maakt dat dit concept niet zou werken. Door het groeperen van de gegevens kan men echter modale klasse bepalen; de klasse met de grootste frequentie. De modus voor kwalitatieve of discrete gegevens is De modus voor gegroepeerde continue gegevens De modale klasse is de klasse met de grootste klassefrequentie. Aangezien elk klasseinterval uit oneindig veel getallen bestaat moeten we afspreken welk punt binnen de klasse we als modus kiezen. Men kan eenvoudigweg het midden van de klasse kiezen, of alternatief (meer technisch) een punt dichter bij de nabijgelegen klasse met de grootste klassefrequentie. Meer formeel:

, onder/bovengrens van de modale klasse
frequentieverdeling van de modale klasse
frequentieverdeling van de klasse voor de modale klasse
frequentieverdeling van de klasse na de modale klasse

Voorbeeld: de levensduur van 100 gloeilampen:

: Levensduur (uur)
Total

Modale klasse: benadering van de modus door het middenpunt van de modale klasse: uur.Met de bovenstaande formule bewegen we het middenpunt in de richting van de nabijgelegen cel met de grotere frequentie. Zo verkrijgen we:

Kwantielen

Wanneer we de waarnemingen in stijgende volgorde ordenen, zodat we de geordende reeks bekomen, noemen we de elementen van deze reeks de ordestatistieken van de waarnemingen. In deze ordestatistieken kunnen we bij voorbeeld onmiddellijk de derde grootste waarde aflezen. Laat een getal tussen nul en ��n zijn, een bepaalde proportie van de waarnemingen. Een waarde die de reeks ordestatistieken in twee gelijke reeksen deelt met de eerste en de laatste waarnemingen, noemt men het -de kwantiel., aangeduid met . Men kan als de waarde zien zodat van de waarnemingen eronder en erboven liggen. Kwantielen voor niet gegroepeerde gegevens

  • Indien geen geheel getal is en het kleinste geheel getal is waarvoor , kunnen we definiëren. Het kwantiel is dus de waarnemingen met de rang , .
  • Wanneer een geheel getal is, nemen we als middenpunt tussen en .

Quantiles for gegroepeerde gegevens Voor gegevens die gegroepeerd zijn in klassen interpoleren we tussen de klassengrenzen om het -kwantiel te verkrijgen: Hier zijn , en respectievelijk de onder -en bovengrens en de relatieve frequentie van de klasse die het -de kwantiel bevat. De cumulatieve frequentie tot en met de klasse voor de kwantielklasse is . Het kwantiel kan men definiëren door interpolatie. Het principe van interpolatie voor wordt verduidelijkt in volgende figuur:

En folimg85.gif En folimg86.gif

Enkele bijzondere kwantielen:

  • deciles (tenths) – De geordende waarnemingen worden verdeeld in tien gelijke delen.
  • quintiles – de geordende waarnemingen worden verdeeld in vijf gelijke delen equal parts.
  • quartiles – de geordende waarnemingen worden verdeeld in vier gelijke delen.

Mediaan(centrale waarde) De waarde die de geordende waarnemingen in twee gelijke delen deelt, noemt men de mediaan . De mediaan is veel minder gevoelig voor extreme waarnemingen dan andere kengetallen zoals het gemiddelde dat we later zullen bespreken. or extreme observations than other measures such as the mean which we study below. De mediaan komt overeen met het tweede kwartiel . (1) niet gegroepeerde gegevens

  • voor n oneven :
  • voor n even : Dit is gewoon het middenpunt van de twee meest centrale waarnemingen.

(2) gegroepeerde De mediaan voor gegroepeerde gegevens is gedefinieerd als het middenpunt van de klasse die het centrale deel van de waarnemingen bevat. Formeel; Noem en de onder -en bovengrens van de klasse waarvoor .  Dan is De mediaan kan gemakkelijk worden bepaald uit de grafiek van de verdelingsfunctie, aangezien :

En folimg94.gif En folimg95.gif

Eigenschappen van de mediaan (voor numerieke gegevens):

  • optimaliteit

    De mediaan kan optimaal genoemd worden omdat ze de som van de absolute afwijkingen van de waarnemingen tegenover middenpunt van de gegevens minimeert.

  • lineaire transformatie

    Wanneer de gegevens lineair worden getransformeerd, schuift de mediaan volgens dezelfde lineaire transformatie mee op.

Example: Maandelijks inkomen voor 1988, in de BRD (tot 25 000 DM):

Inkomensklasse Proportie van de huishoudens: Empirische verdelingsfunctie:
(DM)
1 - 800 0.044 0.044
800 - 1400 0.166 0.210
1400 - 3000 0.471 0.681
3000 - 5000 0.243 0.924
5000 - 25000 0.076 1.000

Grafiek van de empirische verdelingsfunctie en de kwartielen:

En folimg99.gif

Berekening van de kwartielen: De empirische verdelingsfunctie (derde kolom in de tabel) laat zien dat het eerste kwartiel en het tweede kwartiel tot de derde groep behoren (3000-5000 DM).  Door te interpoleren bekomen we het volgende: De interpretatie: Eerste kwartiel: 25% van de huishoudens heeft een netto maandelijks inkomen dat lager is dan 1535.88 DM en 75 % van de huishoudens heeft een inkomen hoger dan 1535.88 DM. Tweede kwartiel: 50% van de huishoudens heeft een inkomen lager dan 2385.15 DM en 50% van de huishoudens heeft een inkomen hoger dan 2385.14 DM. Derde kwartiel: 75% van de huishoudens heeft een inkomen lager dan 3567.90 DM en 25% van de huishoudens heeft een inkomen hoger dan 3567.90 DM. We weten ook dat 50% van de inkomens een inkomen heeft tussen 1535.88 DM en 3567.90 DM.

rekenkundig gemiddelde

Notatie: Het rekenkundig gemiddelde of gewoon gemiddelde verkrijgt men door alle waarnemingen op te tellen en te delen door Het rekenkundig gemiddelde is gevoelig voor extreme waarden. Deze hebben de neiging het rekenkundig gemiddelde in hun richting te ‘trekken’. Het gemiddelde kan men op verschillende manieren berekenen; door middel van de oorspronkelijke gegevens, de frequentieverdeling of de relatieve frequentieverdeling. Voor discrete gegevens levert elk van deze methoden hetzelfde resultaat op. Berekening met de originele gegevens: Met de frequentie en relatieve frequentieverdeling. Eigenschappen van het rekenkundig gemiddelde:

  • zwaartepunt:  De som van de afwijkingen van de gegevens tegenover het rekenkundig gemiddelde is gelijk aan nul.
  • kleinste kwadraten:   De som van de gekwadrateerde afwijkingen van de waarnemingen van het rekenkundig gemiddelde is kleiner dan de som van de gekwadrateerde afwijkingen van elke andere constante c.
  • samengevoegde gegevens:   Nemen we aan dat de waarnemingen in wederzijds uitsluitende verzamelingen voorkomen en dat het rekenkundig gemiddelde voor elk van de verzamelingen bekend is. Het rekenkundig gemiddelde van alle waarnemingen kan men dan met volgende formule berekenen: waar voor het aantal waarnemingen in de -de groep staat. ().
  • lineaire transformatie:
  • som:

Voorbeeld 1: Maandelijks inkomen van huishoudens (MIH) in 1998 in de BRD:

MIH in DM Proportie van huishoudens f(x) F(x)
1 - 800 0.044 0.044
800 - 1400 0.166 0.210
1400 - 3000 0.471 0.681
3000 - 5000 0.243 0.924
5000 - 25000 0.076 1.000

De berekening van het rekenkundig gemiddelde door middel van de middenpunten van de groepen: Het rekenkundig gemiddelde 3348.4 DM is hoger dan de mediaan die we vroeger berekenden (2385.14 DM). Dit komt omdat het rekenkundig gemiddelde gevoeliger is voor het relatief kleine aantal grote inkomens. De hogere waarden doen het rekenkundig gemiddelde opschuiven, maar niet de mediaan. Voorbeeld 2: Maandelijks inkomen van 716 mensen.

1881.40 DM
1092.50 DM
1800.DM
2400.DM
’modus’ 2000.DM

Het volgend interactief voorbeeld laat zien hoe we een ��n-dimensionale frequentie verdeling als een puntenwolk voor verschillende variabelen kunnen weergeven. Mogelijke waarden worden weergeven op de horizontale as. Om de weergave te vergemakkelijken, werden de waarnemingen willekeurig gespreid in de verticale richting. De mediaan (rood) en het rekenkundig gemiddelde (magenta) worden grafisch en numeriek weergegeven. VS misdaadcijfers. De volgende gegevens over misdaad in de VS in 1985 werden verzameld:

En folnode4 b k 1 3.gif

- oppervlakte
- bevolking
- moord
- verkrachting
- overval
- aanval
- inbraak
- diefstal
- autodiefstal
- VS-staat regionummer
- VS-staat divisienummer

De waarden van de variabelen en zijn:

regionummers divisienummers
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Autogegevens

De volgende gegevens werden verzameld over 74 automodellen:

- prijs
- mpg (mijl per gallon)
- hoofdruimte (in inches)
- plaats achterbank (afstand van de voorste zitplaats tot de achterbank, in inch)
- kofferruimte(in kubieke voet)
- gewicht (in pond)
- lente (in inch)
- draaicirkel (in voet)
- cilindervolume (in inch)

En folnode3 d k 1 2.gif

Deze dataset bevat prijzen (in USD) van 74 wagens. De verdeling van prijzen is weergegeven in onderstaande puntenwolk.  De prijsvariabele staat op de horizontale as.  De waarnemingen werden willekeurig gespreid in de verticale richting. De mediaan is in het rood weergegeven en het rekenkundig gemiddelde in magenta. Het is duidelijk dat de twee bijna gelijk zijn.

En folnode3 d k 1.gif

Voor symmetrische verdelingen zijn de mediaan en het gemiddelde identiek. Dit lijkt het geval in ons voorbeeld.

En folnode3 d k 2.gif

De mediaan veranderde niet (omdat ze robust is). Het gemiddelde daarentegen nam significant toe (omdat het gevoelig is voor extreme waarden). De fout gecodeerde waarneming neemt een waarde aan die erg verschilt van het grootste deel van de waarnemingen: De meting werd een tijd later herhaald:

En folnode3 d k 3.gif

Nu zien we dat er een aantal relatief duurdere wagens bestaat.  De verdelingen van de prijzen is meer rechtsscheef. De meer extreme waarnemingen trekken het gemiddelde veel meer naar rechts dan de mediaan.  Voor rechtsscheve verdelingen is het gemiddelde groter dan de mediaan.