Kengetallen van Schaal of Variatie

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


De verschillende kengetallen van plaats (of plaatsmaten) die we hierboven bespraken volstaan niet om ��n-dimensionale gegevens te beschrijven. Dit duidelijk in volgend voorbeeld: Maandelijkse uitgaven voor vrije tijd en vakanties (in DM):

  • gegevens van 10 tweepersoonshuishoudens: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630 weergegeven op de as:

    En folimg133.gif

  • gegevens van 10 vierpersoonshuishoudens: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490 weergegeven op de as:

    En folimg134.gif

Het rekenkundig gemiddelde is in beide gevallen gelijk aan 404 DM, maar de grafieken Laten een duidelijk verschil in de twee verdelingen zien. De waarden voor de vierpersoonshuishoudens zijn duidelijk meer geconcentreerd rond het gemiddelde dan de waarden van de tweepersoonshuishoudens: de spreiding of variatie is kleiner. spreidingsmaten meten de variatie in de waarnemingen. Samen met locatiematen (zoals het gemiddelde, de mediaan en modus) geven ze een redelijke beschrijving van ��n-dimensionale gegevens. Intuïtief zou men willen dat spreidingsmaten niet veranderen indien men een constante bij elke waarneming telt. Een tweede wenselijke eigenschap is dat hoe meer de waarnemingen gespreik zijn -bij voorbeeld door het vermenigvuldigen met een constante groter dan ��n- de maat zou toeneemen.

Bereik

Het bereik is de eenvoudigste spreidingsmaat: (1) niet-gegroepeerde gegevens: Het bereik (R) is gedefinieerd als het verschil tussen de grootste en de kleinste waarneming: waar de geordende waarnemingen zijn. (2) Gegroepeerde Gegevens: Voor gegroepeerde gegevens, is het bereik (R) gedefinieerd als het verschil tussen de bovengrens van de laatste (hoogste) klasse en de ondergrens van de eerste (laagste) klasse : Eigenschappen:

  • voor een lineaire transformatie krijgen we:

    Merk op dat het optellen van een constante , wat de waarnemingen slechts opschuift, de spreidingsmaat niet beïnvloedt.

Interkwartiel bereik

Het interkwartiel bereik is het verschil van het derde en het eerste kwartiel : Het interkwartiel bereik is de breedte van het centrale gebied waarbinnen 50% van de gegevens vallen. Het interkwartiel bereik relatief tot de mediaan is dan . Eigenschappen:

  • robuust voor extreme waarden (uitschieters)

  • lineaire transformatie:

    Opnieuw zien we dat het optellen van een constante de spreidingsmaat niet verandert.

Gemiddelde Absolute Afwijking (GAA)

Het gemiddelde van de absolute afwijkingen van de waarnemingen tot een vast punt noemt men de gemiddelde absolute afwijking en noteert men als . Het vaste punt kan elke waarde zijn. Meestal neemt men een locatiemaat, het gemiddelde of de mediaan . Zoals bij het bereik en het interkwartiel bereik, maakt het optellen van een constante bij alle waarnemingen niet uit. Vermenigvuldiging met een constante herschaalt de maalt met de absolute waarde van die constante. Elk van de onderstaande formules kan gebruikt worden voor niet-gegroepeerde gegevens. Indien het om gegroepeerde gegevens gaat, kan men de tweede formule gebruiken waar de klassemiddens zijn en en de absolute en relatieve frequenties. Eigenschappen:

  • Een optimaliteitscriterium van de mediaan bestaat erin dat de mediaan de waarde is waarvoor de gemiddelde absolute afwijking minimaal is. Elke andere waarde voor in bovenstaande formules leveren een grotere gemiddelde absolute afwijking op.
  • Voorbeeld: Waarnemingen: 2, 5, 9, 20, 22, 23, 29
  • Voor een lineaire transformatie van de gegevens:

De Variantie en de Standaardafwijking

Het gemiddelde van de gekwadrateerde afwijkingen van de waarnemingen tegenover een vast punt noemt men de (GKA). Het punt kan men ad libidum kiezen. De Variantie Als we voor het punt het gemiddelde kiezen, noemt men de GKA de variantie. De variantie noteert men als en wordt als volgt berekend: standaardafwijking De standaardafwijking () is gedefinieerd als de vierkantswortel van de variantie. De variantie (en daarom ook de standaardafwijking ) is steeds groter dan of gelijk aan . Een variantie van impliceert dat de waarnemingen allemaal gelijk zijn en er daarom geen spreiding bestaat. Eigenschappen:

  • De gemiddelde gekwadrateerde fout tegenover (de variantie) is kleiner dan de gemiddelde gekwadrateerde fout tegenover elk ander punt .

    Dit kan men als volgt bewijzen:

    De middelste term van de middelste lijn verdwijnt, omdat . Deze formules laten zien dat de altijd groter is dan de variantie. De gelijkheid bestaat enkel indien .

    Voorbeeld:Waarnemingen: 2, 5, 9, 20, 22, 23, 29

  • Voor lineaire transformaties krijgen we:

  • standaardiseren: Door het aftrekken van het gemiddelde en het delen door de standaardafwijking verkrijgt men een nieuwe dataset waarvoor het gemiddelde nul, en de variantie ��n is. Laat: waar dan

Theorema: (samenvoegen) Nemen we aan dat de waarnemingen in groepen verdeeld zijn met waarnemingen. Nemen we aan dat het gemiddelde en de variantie voor elke groep gekend is. Om de variantie van de samengevoegde gegevens te kennen berekenen we: zijn rekenkundig gemiddelden in de groepen , de variantie in elke groep, het aantal waarnemingen in elke groep. Variantie Decompositie bovenstaande formule illustreert dat de variantie als een som van twee delen kan worden beschreven:Totale variantie = variantie binnen de groepen + variantie tussen de groepen. Variatiecoëfficiënt: Om standaardafwijkingen voor verschillende verdelingen te vergelijken, gebruiken we een relatieve schaalmaat (relatief t.o.v. het gemiddelde), het zogenaamd Variatiecoëfficiënt. Het Variatiecoëfficiënt drukt een variatie als een percent van het gemiddelde uit: Voorbeeld: Het gemiddelde en de standaardafwijking van twee groepen zijn: Door het vergelijken van de standaardafwijking concluderen we dat de variatie in de eerste groep drie keer hoger ligt. Maar in dit geval zou het beter zijn de variatiecoëfficiënten te vergelijken omdat het gemiddelde in de twee groepen erg verschilt: Het relatief bereik van de twee groepen is gelijk. In dit interactief voorbeeld kan je een ��n-dimensionale verdeling van een gekozen variabele weergeven (je kan kiezen uit twee datasets) in de vorm van een puntenwolk. In de bovenste puntenwolk kunnen de volgende statistieken worden weergegeven: het bereik (groen), het rekenkundig gemiddelde (zwart) en de standaardafwijking (rood). De onderste puntenwolk toont het bereik (groen), de mediaan (zwart) en het interkwartiel bereik (magenta).

Misdaadcijfers VS

Misdaadcijfers voor de VS in het jaar 1985 werden verzameld:

En folnode4 b k 1 3.gif

- oppervlakte
- bevolking
- moord
- verkrachting
- overval
- aanval
- inbraak
- diefstal
- autodiefstal
- VS-staat regionummer
- VS-staat divisienummer

De waarden van de variabelen en zijn:

- prijs
- mpg (mijl per gallon)
- hoofdruimte (in inches)
- plaats achterbank (afstand van de voorste zitplaats tot de achterbank, in inch)
- kofferruimte(in kubieke voet)
- gewicht (in pond)
- lente (in inch)
- draaicirkel (in voet)
- cilindervolume (in inch)

Automobile data

Volgende gegevens werden verzameld over 74 automodellen:

- prijs
- mpg (mijl per gallon)
- hoofdruimte (in inches)
- plaats achterbank (afstand van de voorste zitplaats tot de achterbank, in inch)
- kofferruimte(in kubieke voet)
- gewicht (in pond)
- lente (in inch)
- draaicirkel (in voet)
- cilindervolume (in inch)

En folnode3 d k 1 2.gif

De prijs van 74 automodellen wordt in onderstaande puntenwolken geïllustreerd: In de bovenste puntenwolk kunnen de volgende statistieken worden weergegeven: het bereik (groen), het rekenkundig gemiddelde (zwart) en de standaardafwijking (rood). De onderste puntenwolk toont het bereik (groen), de mediaan (zwart) en het interkwartiel bereik (magenta).

En folnode3 f lev1 1.gif

rekenkundig gemiddelde: 4618.38
mediaan: 4618
bereik 2690
interkwartiel bereik 795.5
standaardafwijking 614.04

Bij een controle van de gegevens werd ontdekt dat een fout gebeurt was bij het invoeren. De juiste waarde van 15962 USD werd foutief als 5962 USD ingegeven. De volgende grafiek toont het verbeterd resultaat:

En folnode3 f lev1 2.gif

rekenkundig gemiddelde: 4753.51
mediaan: 4618
bereik 12690
interkwartiel bereik 795.5
standaardafwijking 1447.93

Het is duidelijk dat het bereik toenam omdat het een functie is van de extreme waarden. De waarde van het interkwartiel bereik veranderde niet aangezien geen prijzen binnen dit bereik veranderden. De standaardafwijking nam significant toe. Dit komt omdat de standaardafwijking wordt berekend uit alle waargenomen prijzen en gekwadrateerde afwijkingen bevat. Daarom is de standaardafwijking buitengewoon gevoelig voor extreme waarnemingen. Na een bepaalde tijd werd het onderzoek herhaalt. De resultaten staan in volgende grafiek:

En folnode3 f lev1 3.gif

rekenkundig gemiddelde: 6192.28
mediaan: 5091.50
bereik 12615
interkwartiel bereik 2077
standaardafwijking 2938.06

Nu bestaan er een aantal bijzonder dure voertuigen. De prijzen zijn rechtsscheef verdeeld. Voor scheve verdelingen is de standaardafwijking typisch hoger dan het interkwartiel bereik. Deze eigenschap werd duidelijk geïllustreerd in bovenstaand voorbeeld. De prijs van Dr. Oetker pizza werd genoteerd in 20 Berlijnse supermarkten. 3.99; 4.50; 4.99; 4.79; 5.29; 5.00; 4.19; 4.90; 4.99; 4.79; 4.90; 4.69; 4.89; 4.49; 5.09; 4.89; 4.99; 4.29; 4.49; 4.19

  • De gemiddelde prijs voor een pizza in deze 20 supermarkten is 4.27 DM (= gemiddelde)

  • De mediaanprijs is 4.84 DM (= mediaan)

  • Het bereik is 1.30 DM (= bereik)

  • De GAA, berekend rond het gemiddelde is 0.29 DM (= GAA) en rond de mediaan is dit 0.28 DM (= GAA).

  • 50 % van alle prijzen vallen binnen het bereik 4.49 DM (kwartiel ) and 4.99 DM (kwartiel ),

    Dit interval heeft een breedte van 0.50 DM (= interkwartiel bereik).

  • De gemiddelde gekwadrateerde afwijking rond het gemiddelde is 0.12241 DM (= variantie), de vierkantswortel van de variantie is 0.34987 DM (= standaardafwijking).

En folnode3 f k 1.gif