Empirische Verdelingsfunctie

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Empirische verdelingsfuncties kunnen opgesteld worden voor gegevens die een natuurlijk ordening bevatten. Indien de absolute frequentie van de waarnemingen van een discrete variabele is, noemt men de absolute frequentie (of aantal) waarnemingen dat niet groter is dan die waarde de absolute cumulatieve frequentie: De relatieve cumulatieve frequentie berekend men als volgt: Indien de variabele continu is en de gegevens gegroepeerd werden in klassen, dan zijn bovenstaande definities van toepassing, behalve het feit dat we interpreteren als de frequentie van waarnemingen die niet groter zijn dan de bovengrens van de klasse.

Empirische Verdelingsfunctie voor Discrete Gegevens

voor de relatieve cumulatieve frequentie krijgen we De empirische verdelingsfunctie is een monotoon stijgende trapfunctie, de trapgrootte komt overeen met de relatieve frequentie op de ’sprongpunten’ . Voorbeeld: het aantal personen per huishouden in 1990

# personen per huishouden

En folimg58.gif

Door empirische verdelingsfuncties op te stellen, verliezen we geen informatie over de relatieve frequenties van de waarnemingen: we kunnen het proces steeds omdraaien. Veronderstel dat twee waarden zijn die een discrete variabele kan aannemen. Het aantal of de frequentie (van de) waarnemingen dat waarden aanneemt tussen en wordt dan als volgt berekend:

Empirische Verdelingsfunctie voor Continue gegroepeerde Gegevens

Voor discrete gegevens is de empirische verdelingsfunctie voor gegroepeerde continue gegevens een functie van de relatieve cumulatieve frequenties.  Maar in dit geval tekent men de cumulatieve frequenties als functie van de bovengrenzen van elke klasse, eerder dan de trapfunctie te gebruiken. Men verbindt dan de punten onderling. Wiskundig kan men de empirische verdelingsfunctie als volgt omschrijven: De rechtvaardiging voor het interpoleren met rechte lijnen is dat men kan aannemen dat de punten binnen de klassen ongeveer uniform verdeeld zijn binnen de klassen. Voorbeeld: Gebruik van 100 Gloeilampen

Statistische elementen: gloeilampen
Statistische variabele: leeftijd in uren, een metrische variabele
steekproefgrootte : 100
: Leeftijd (hours)
Totaal

De overeenkomstige verdelingsfunctie:

En folimg65.gif

Zoals vroeger reeds vermeld nemen we aan dat de waarnemingen ongeveer gelijk verdeeld zijn binnen de klassen, wanneer we lineair interpoleren. We zullen dit illustreren door het variabele deel van de verdelingsfunctie te tekenen voor , , voor een bepaalde klasse . Dit neemt de volgende waarde aan, aan de ondergrens . We substitueren voor in de formule voor de verdelingsfunctie en bekomen zo: De volgende grafiek laat het lineair intra-klasse segment zien:

En folimg67.gif


En folnode3 b k 1 2.gif

Het benzineverbruik van 74 wagens werd gemeten in mijl per gallon (MPG) De metingen worden weergegeven in een uitgebreide frequentie tabel:

: Benzineverbruik Absolute frequentie Relatieve frequentie Relatieve cumulatieve frequentie
(MPG)

De overeenkomstige empirische verdelingsfunctie:

En folnode3 c k 2.gif

De lineaire interpolatie van de lagere klassengrenzen gebeurt onder de aanname van een gelijke verdeling van de waarnemingen binnen de klassen. De klassebreedten -en grenzen worden op hun beurt zo opgesteld dat deze aanname zo goed mogelijk vervuld is. Dit laat toe zoveel mogelijk informatie te behouden over de vorm van de verdeling. Men kan verschillende uitspraken doen aan de hand van bovenstaande tabel; bij voorbeeld dat 68.9 percent van de wagens niet meer dan 24 mijl per gallon kunnen rijden.

En folnode3 c k 1 2.gif

Dit zijn de resultaten van 20 studenten voor het vak statistiek: Een frequentietabel geeft informatie over de verdeling van de gegevens:

: Resultaat Absolute Frequentie Relatieve Frequentie Relatieve Cumulatieve Frequentie

De grafiek van de relatieve cumulatieve frequentie ziet er als volgt uit:

En folnode3 c k 1.gif

Merk op dat de grafiek rechtscontinu is. De dikkere punten staan voor de waarde van de verdelingsfunctie aan het sprongpunt. In bovenstaande grafiek bestrijkt de -as alle reële getallen binnen het bereik van de resultaten, hoewel de toevallige veranderlijke slechts de waarden kan aannemen. Om theoretische redenen neemt de verdelingsfunctie ook waarden (respectievelijk nul en ��n) aan buiten het bereik . Men kan verschillende vaststellingen doen aan de hand van de frequentietabel:

  • 65 percent van de studenten behaalden minstens 3
  • 15 percent () van de studenten haalde 5.