Chi-Quadrat-Anpassungstest: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „{{Testtheorie}} ==Grundbegriffe== ===Anpassungstest, Verteilungstest oder Goodness-of-fit-Test=== Bei diesem Test wird eine Hypoth…“)
 
Keine Bearbeitungszusammenfassung
 
(5 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
{{Testtheorie}}
{{Testtheorie}}
{{SubpageToc|Zusatzinformationen|Beispiel: Würfel|Beispiel: Produktnachfrage (1.Version)|Beispiel: Produktnachfrage (2.Version)}}


==Grundbegriffe==
==Grundbegriffe==
Zeile 205: Zeile 206:


: Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}| H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist.
: Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}| H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist.
=={{Vorlage:Überschrift_2}}==
===Notwendigkeit der Klassierung bei stetigen Zufallsvariablen===
Das dem Chi-Quadrat-Anpassungstest zugrundeliegende [[Hypothese]]npaar enthält die [[Wahrscheinlichkeit]]en <math>p_{j}\left(j=1,\ldots ,k\right)</math>, die aus der hypothetischen [[Verteilung (stochastisch)|Verteilung]] zu bestimmen sind.
Ist <math>X\;</math> eine [[diskrete Zufallsvariable]], erhält man <math>p_{j}=P\left(X=x_{j}|H_{0}\right)</math> aus der vorgegebenen [[Wahrscheinlichkeitsfunktion]].
Für eine [[stetige Zufallsvariable]] <math>X\,</math> ist die [[Wahrscheinlichkeit]], dass <math>X\;</math> einen bestimmten Wert <math>x</math> annimmt, jedoch stets Null.
Daraus folgt die Notwendigkeit einer [[Klassierung]] der beobachteten Werte. Die [[Wahrscheinlichkeit]] <math>p_{j}=P\left(x_{j-1}^*<X\leq x_{j}^*|H_{0}\right)</math>, dass die [[stetige Zufallsvariable]] <math>X\;</math> einen Wert aus der [[Klasse]] <math>\left(x_{j-1}^*,x_{j}^*\right)</math> annimmt, kann dann mittels der vorgegebenen [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] bestimmt werden.
Es sei jedoch angemerkt, dass auch für eine [[diskrete Zufallsvariable]] eine [[Klassierung]] vorgenommen werden kann, falls es die Problemstellung erfordert.
===Herleitung der Teststatistik des Chi-Quadrat-Anpassungstests===
Die Tatsache, dass die beobachteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{j}</math> [[Zufallsvariable]]n <math>H_{j}</math> sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob <math>X\;</math> [[diskrete Zufallsvariable|diskret]] oder [[stetige Zufallsvariable|stetig]] ist, so dass nur auf eine [[diskrete Zufallsvariable]] <math>X\;</math> Bezug genommen wird.
Aus der [[Grundgesamtheit]] wird ein [[Statistisches Element|Element]] zufällig gezogen und festgestellt, ob der Wert <math>x_{j}</math> aufgetreten ist, d.h. ob das [[Ereignis]] <math>\{X = x_{j}\}</math> eingetreten ist oder nicht.
Es gibt somit nur zwei mögliche Ergebnisse des [[Zufallsexperiment]]es. Die [[Wahrscheinlichkeit]] für das Eintreten des [[Ereignis]]ses <math>\{X =x_{j}\}</math> beträgt bei Gültigkeit der [[Nullhypothese]] <math>p_{j}</math> und die [[Wahrscheinlichkeit]] für das Nichteintreten <math>1 - p_{j}</math>.
Das [[Zufallsexperiment]] wird <math>n</math>-mal wiederholt, wobei die einzelnen Versuche [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander (da eine [[einfache Zufallsstichprobe]] vorausgesetzt wird) und die [[Wahrscheinlichkeit]]en konstant sind. Es liegt somit ein [[Bernoulli-Experiment]] vor.
Bei <math>n</math>-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens von <math>{\left\{X=x_{j}\right\}}</math>, d.h. die [[absolute Häufigkeit]] von <math>x_{j}</math> in der [[Stichprobe]].
Diese [[absolute Häufigkeit|Häufigkeit]] kann von [[Stichprobe]] zu [[Stichprobe]] unterschiedlich sein, so dass <math>H_{j}: = \{</math>Anzahl des Auftretens von <math>X=x_{j}</math> in einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n \} </math> eine [[diskrete Zufallsvariable]] ist, die die Werte <math>0,\ldots ,n</math> annehmen kann.
Die [[Zufallsvariable]] <math>H_{j}\;</math> ist [[Binomialverteilung|binomialverteilt]] und zwar bei Gültigkeit von <math>H_{0}</math> mit den [[Parameter]]n <math>n</math> und <math>p_j : H_j \sim B(n;p_j)\;</math>.
Der [[Erwartungswert]] von <math>H_{j}\;</math> ist <math>E\left[H_{j}\right]=n\cdot p_{j}</math> und damit die bei Gültigkeit der <math>H_{0}</math> erwartete [[absolute Häufigkeit]] des Wertes <math>\left\{X=x_{j}\right\}</math> in der [[Stichprobe]].
Die [[Variation (Streuung)|Variation]] der [[Absolute Häufigkeit|absoluten Häufigkeiten]] für <math>\left\{X=x_{j}\right\}</math> wird durch die [[Varianz (stochastisch)|Varianz]] <math>Var\left( H_{j}\right)=np_{j}\left( 1-p_{j}\right)</math> erfasst.
Für die Konstruktion der [[Teststatistik]] wird die Abweichung der [[Zufallsvariable]]n von ihrem [[Erwartungswert]] gebildet: <math>H_{j}-n\cdot p_{j}</math>.
Zur Vermeidung, dass sich positive und negative Abweichungen aufheben, erfolgt eine Quadrierung: <math>\left(H_{j}-n\cdot p_{j}\right)^{2}</math>.
Mit der Division durch die erwartete Häufigkeit <math>n\cdot p_j</math> wird der Einfluss des [[Stichprobenumfang]]es <math>n</math> und der
[[Wahrscheinlichkeit]] <math>p_{j}</math> berücksichtigt und der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen.
Eine Differenz <math>h_{j}-n\cdot p_{j}=5</math> fällt bei <math>n\cdot p_{j}=10</math> stärker ins Gewicht als bei <math>n\cdot p_{j}=100</math>.
Diese Herleitung gilt für alle <math>j=1,\ldots ,k</math> gleichermaßen
<math>V=\sum_{j=1}^{k}\frac{\left(H_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
Da die <math>H_{j}\;</math> [[Zufallsvariable]]n sind, ist auch <math>V\;</math> eine [[Zufallsvariable]]. Bei Gültigkeit der [[Nullhypothese]], hinreichend großem [[Stichprobenumfang]] <math>n</math> und Einhaltung der [[Approximation]]sbedingungen ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = k - m - 1</math> [[Freiheitsgrad]]en.
Dies gilt unabhängig davon, welche [[Verteilung (stochastisch)|Verteilung]] unter <math>H_{0}</math> angenommen wurde.
Sind die [[Approximation]]sbedingungen nicht erfüllt, müssen vor der Anwendung des [[Statistischer Test|Tests]] benachbarte Werte bzw. [[Klasse]]n zusammengefasst werden, was dann auch im [[diskrete Zufallsvariable|diskreten]] Fall mit einer [[Klassierung]] verbunden ist.
Bei der Ermittlung der [[Freiheitsgrad]]e ist zu berücksichtigen, dass ein [[Freiheitsgrad]] grundsätzlich verloren geht, weil die beobachteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] nicht [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander sind.
Für vorgegebenen [[Stichprobenumfang]] <math>n</math> und aufgrund der Bedingung <math>\sum\nolimits_{j}h_{j}=n</math> folgt, dass jede [[absolute Häufigkeit|Häufigkeit]] <math>h_{j}</math> durch die anderen <math>k - 1</math> [[absolute Häufigkeit|Häufigkeiten]] bestimmt ist.
Weitere [[Freiheitsgrad]]e gehen verloren, wenn die hypothetische [[Verteilung (stochastisch)|Verteilung]] <math>F_{0}\left( x\right)</math> nicht mit allen ihren [[Parameter]]n bekannt ist, sondern diese [[Parameter]] aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden müssen.
Mit <math>m</math> als Anzahl der zu [[Schätzung|schätzen]]den [[Parameter]] ergibt sich die Anzahl der [[Freiheitsgrad]]e zu: <math>f = k - m - 1</math>.
=={{Vorlage:Beispiele}}==
===Würfel===
Von einem gegebenen Würfel wird behauptet, dass es sich um einen fairen Würfel handelt.
Um diese Behauptung zu überprüfen, wird ein Chi-Quadrat-Anpassungstest auf dem [[Signifikanzniveau]] von <math>\alpha =0,1</math> durchgeführt. Der [[Stichprobenumfang|Umfang der Stichprobe]] sei <math>n=240</math>.
Die interessierende [[Zufallsvariable]] ist <math>X\;</math>: "Geworfene Augenzahl des Würfels" mit den möglichen [[Realisation]]en <math>x_{1}=1,\; x_{2}=2,\;x_{3}=3,\;x_{4}=4,\;x_{5}=5</math> und <math>x_{6}=6</math>. <math>X\;</math> ist eine [[diskrete Zufallsvariable]].
Die [[Verteilung (stochastisch)|Verteilung]] <math>F(x)</math> ist unbekannt, da nichts über den vorliegenden Würfel bekannt ist. Die Behauptung, dass es sich um einen fairen Würfel handelt, impliziert jedoch, dass die sechs möglichen [[Realisation]]en alle die gleiche [[Wahrscheinlichkeit]] des Eintretens aufweisen.
Es ist somit die [[Hypothese]] zu prüfen, dass die [[Zufallsvariable]] <math>X\;</math> eine [[diskrete Gleichverteilung]] aufweist, woraus
sich das [[Hypothese]]npaar
<math>H_{0}:\; X</math> ist [[Diskrete Gleichverteilung|diskret gleichverteilt]]
<math>H_1:\; X</math> ist nicht [[Diskrete Gleichverteilung|diskret gleichverteilt]]
ergibt.
Bei Gültigkeit der [[Nullhypothese]] folgt aufgrund der [[Wahrscheinlichkeit nach Laplace|klassischen Definition der Wahrscheinlichkeit]] <math>P(X = x_{j}) = p_{j} = \frac{1}{6}</math>  für alle <math>j = 1,\ldots, 6</math>, so dass die [[Hypothese]]n konkretisiert werden können:
<math>H_{0}:\;P\left(X=x_{j}\right)=p_{j}=\frac{1}{6},\quad\forall j=1,\ldots ,6</math>
<math>H_{1}:\;P\left(X=x_{j}\right) \neq \frac{1}{6}, \quad</math>  für mindestens ein  <math>j</math>
====Teststatistik und Entscheidungsbereiche====
Es wird die [[Teststatistik]] des Chi-Quadrat-Anpassungstests
<math>V=\sum_{j=1}^{k}\frac{\left(H_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
verwendet.
Sie ist bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]], da wegen <math>n\cdot p_{j}=40>5</math> für alle <math>j=1,\ldots ,6</math> die [[Approximation]]sbedingungen erfüllt sind.
Die [[diskrete Gleichverteilung]] ist eine vollständig spezifizierte [[Verteilung (stochastisch)|Verteilung]], d.h. es ist kein [[Parameter]] aus der [[Stichprobe]] zu [[Schätzung|schätzen]], womit <math>m = 0</math> ist.
Die Anzahl der Werte ist <math>k = 6</math>. Damit resultiert für die Anzahl der [[Freiheitsgrad]]e: <math>f = k - m - 1 = 5</math>.
Für <math>P\left( V\leq c\right) =1-\alpha =0,9</math> und <math>f = 5</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;k-m -1}^{2}=\chi_{0,90;5}^{2}=9,24</math>.
Die [[Entscheidungsbereiche]] sind damit:
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}: \left\{v|v>9,24\right\}</math>
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq 9,24\right\}</math>.
====Prüfwert und Testentscheidung====
Der Würfel wird 240 mal geworfen. Dabei handelt es sich um eine [[einfache Zufallsstichprobe]], denn die Voraussetzung der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der Würfe ist gegeben.
Spalte 2 der folgenden Tabelle enthält die beobachtete Anzahl der Augenzahlen <math>h_{j}</math>
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|Augenzahl <math>x_{j}</math>
|align="center"|beobachtete Anzahl <math>h_{j}</math>
|align="center"|unter <math>H_{0}</math> erwartete Anzahl <math>n\cdot p_{j}</math>
|align="center"|<math>h_{j}-n\cdot p_{j}</math>
|align="center"|<math>\left( h_{j}-n\cdot p_{j}\right)^{2}</math>
|align="center"|<math>\frac{\left( h_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
|-
|align="center"|1
|align="center"|52
|align="center"|40
|align="center"|12
|align="center"|144
|align="center"|3,6
|-
|align="center"|2
|align="center"|50
|align="center"|40
|align="center"|10
|align="center"|100
|align="center"|2,5
|-
|align="center"|3
|align="center"|32
|align="center"|40
|align="center"|-8
|align="center"|64
|align="center"|1,6
|-
|align="center"|4
|align="center"|36
|align="center"|40
|align="center"|-4
|align="center"|16
|align="center"|0,4
|-
|align="center"|5
|align="center"|32
|align="center"|40
|align="center"|-8
|align="center"|64
|align="center"|1,6
|-
|align="center"|6
|align="center"|38
|align="center"|40
|align="center"|-2
|align="center"|4
|align="center"|0,2
|}
Abweichungen zwischen den beobachteten Anzahlen und den unter <math>H_{0}</math> erwarteten Anzahlen sind gegeben.
Können diese Abweichungen noch als zufällig angesehen werden, wenn es sich um einen fairen Würfel handeln soll?
Der [[Prüfwert]] ergibt sich als Summe der Werte in der letzten Spalte: <math>v = 9,8</math>
Da <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]]
abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>.
Auf einem [[Signifikanzniveau]] von <math>\alpha=0,1</math> und basierend auf einer [[Stichprobenumfang|Zufallsstichprobe vom Umfang]] <math>n = 240</math> konnte [[Statistik|statistisch]] bewiesen werden, dass die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>X\;</math>: "Geworfene Augenzahl des Würfels" keiner [[Diskrete Gleichverteilung|diskreten Gleichverteilung]] entspricht, d.h. der vorliegende Würfel kein fairer Würfel ist.
Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}|H_{0})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist.
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = 0,1</math>.
===Produktnachfrage (1. Version)===
Eine Vertriebsgesellschaft führt eine umfassende Analyse ihrer Geschäftsaktivitäten durch, worunter auch die tägliche Nachfrage nach einem ihrer Spezialprodukte fällt.
In diesem Zusammenhang ist von besonderem Interesse, welche [[Verteilung (stochastisch)|Verteilung]] die Anzahl der täglich nachgefragten Produkte aufweist.
Bei der Nachfrage nach dem Produkt handelt es sich um ein [[Ereignis]], dass wiederholt, jedoch zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander in einem Kontinuum (hier: Zeit) vorgegebenen Umfangs (hier: Tag) auftreten kann.
Die [[Zufallsvariable]] <math>X\;</math> bezeichne die Anzahl der täglich nachgefragten Produkte und ist [[diskrete Zufallsvariable|diskret]].
Es wird somit vermutet (vgl. Abschnitt "[[Poisson-Verteilung]]"), dass die [[Poisson-Verteilung]] ein adäquates Verteilungsmodell ist: <math>X \sim PO(\lambda)\;</math>.
Der Test soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt werden. Eine [[einfache Zufallsstichprobe]] von <math>n = 50</math> Tagen lieferte die beobachteten [[Daten]], die in den Spalten 2 und 3 der Tabelle 1 enthalten sind.
Ein langjähriger Mitarbeiter der Firma vermutet aufgrund seiner Erfahrung, dass im Mittel neun Produkte an den 5 Werktagen einer Woche nachgefragt werden.
Da für den [[Erwartungswert]] der [[Poisson-Verteilung]] <math>E[X] = \lambda</math> gilt und als Zeitintervall ein Tag betrachtet wird, ist
<math>\lambda = 1,8</math> und es wird folgendes [[Hypothese]]npaar formuliert:
<math>H_{0}:X\;</math> ist [[Poisson-Verteilung|Poisson-verteilt]] mit dem [[Parameter]] <math>\lambda =1,8</math>, d.h. <math>X\sim PO\left( 1,8\right)</math>
<math>H_{1}:X\;</math> ist nicht <math>PO\left( 1,8\right)</math>-[[Verteilung (stochastisch)|verteilt]].
In den Spalten 4 und 5 der Tabelle 1 sind die unter <math>H_{0}</math> erwarteten [[Wahrscheinlichkeit]]en <math>P(X = x_{j}|H_{0})=p_{j}</math> (die aus der Tabelle der <math>PO(1,8)</math> entnommen wurden) sowie die erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>n\cdot p_{j}</math> enthalten.
Tabelle 1
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>j\;</math>
|align="center"|Anzahl nachgefragter
Produkte (<math>x_{j})</math>
|align="center"|Anzahl der Tage mit <math>x_{j}</math>
nachgefragten Produkten <math>(h_{j})</math>
|align="center"|<math>p_{j}=P\left(X=x_{j}|H_{0}\right)</math>
|align="center"|<math>n\cdot p_{j}|H_{0}</math>
|-
|align="center"|1
|align="center"|0
|align="center"|3
|align="center"|0,1653
|align="center"|8,265
|-
|align="center"|2
|align="center"|1
|align="center"|9
|align="center"|0,2975
|align="center"|14,875
|-
|align="center"|3
|align="center"|2
|align="center"|14
|align="center"|0,2678
|align="center"|13,390
|-
|align="center"|4
|align="center"|3
|align="center"|13
|align="center"|0,1607
|align="center"|8,035
|-
|align="center"|5
|align="center"|4
|align="center"|6
|align="center"|0,0723
|align="center"|3,615
|-
|align="center"|6
|align="center"|5
|align="center"|5
|align="center"|0,0260
|align="center"|1,300
|-
|align="center"|7
|align="center"|6 und mehr
|align="center"|0
|align="center"|0,0104
|align="center"|0,520
|}
====Teststatistik und Entscheidungsbereiche====
Es wird die [[Teststatistik (Chi-Quadrat-Anpassungstest)|Teststatistik des Chi-Quadrat-Anpassungstests]]
<math>V=\sum_{j=1}^{k}\frac{\left(H_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
verwendet. Sie ist bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = k - m - 1</math> [[Freiheitsgrad]]en.
Überprüfung der [[Approximation]]sbedingungen:
Wie aus der Spalte 5 der Tabelle 1 ersichtlich, ist für die [[Realisation]]en <math>x_{5} = 4</math> und <math>x_{6} = 5</math> die [[Approximation]]sbedingung <math>n\cdot p_{j} \geq 5</math> und für die [[Realisation]] <math>x_{7} = 6</math> und mehr sogar die Bedingung <math>n\cdot p_{j} \geq 1</math> nicht erfüllt, so dass diese 3 [[Realisation]]en zusammengefasst werden.
Bestimmung der Anzahl der [[Freiheitsgrad]]e:
Nach der Zusammenfassung verbleiben noch <math>k = 5</math> [[Klasse]]n. Die [[Poisson-Verteilung]] wurde als eine vollständig spezifizierte [[Verteilung (stochastisch)|Verteilung]] vorgeben, d.h. es ist kein [[Parameter]] aus der [[Stichprobe]] zu schätzen, womit <math>m = 0</math> ist. Damit ist <math>f = 5 - 1 = 4</math>.
Unter <math>H_{0}</math> ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = 4</math> [[Freiheitsgrad]]en.
Für <math>P(V \leq c) = 0,95</math> und <math>f = 4</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha;k-m-1}^{2}=\chi_{0,95;4}^{2}=9,49</math>.
Die [[Entscheidungsbereiche]] sind damit:
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v>9,49\right\}</math>
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{v|v\leq 9,49\right\}</math>.
====Prüfwert und Testentscheidung====
Die Tabelle 2 enthält alle notwendigen Zwischenergebnisse für die Berechnung des [[Prüfwert]]es.
Tabelle 2
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>x_{j}\;</math>
|align="center"|<math>h{j}\;</math>
|align="center"|<math>n\cdot p_{j}</math>
|align="center"|<math>h_{j}-n\cdot p_{j}</math>
|align="center"|<math>\left(h_{j}-n\cdot p_{j}\right)^{2}</math>
|align="center"|<math>\frac{\left(h_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
|-
|align="center"|0
|align="center"|3
|align="center"|8,265
|align="center"|-5,265
|align="center"|27,7202
|align="center"|3,3539
|-
|align="center"|1
|align="center"|9
|align="center"|14,875
|align="center"|-5,875
|align="center"|34,5156
|align="center"|2,3204
|-
|align="center"|2
|align="center"|14
|align="center"|13,390
|align="center"|0,610
|align="center"|0,3721
|align="center"|0,0278
|-
|align="center"|3
|align="center"|13
|align="center"|8,035
|align="center"|4,965
|align="center"|24,6512
|align="center"|3,0680
|-
|align="center"|4 und mehr
|align="center"|11
|align="center"|5,435
|align="center"|5,565
|align="center"|30,9692
|align="center"|5,6981
|}
Der [[Prüfwert]] ergibt sich als Summe der Werte in der letzten Spalte: <math>v=14,4682</math>.
Da <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>.
Auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> und basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 50</math> konnte [[Statistik|statistisch]] bewiesen werden, dass die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>X\;</math>: "Anzahl der täglich nachgefragten Produkte" nicht eine <math>PO(1,8)</math> ist.
Das bedeutet jedoch nicht, dass das Verteilungsmodell der [[Poisson-Verteilung]] damit grundsätzlich verworfen wird, sondern nur dass die spezielle [[Poisson-Verteilung]] <math>PO(1,8)</math> nicht als die geeignete [[Verteilung (stochastisch)|Verteilung]] anzusehen ist.
Bei dieser Entscheidung für <math>H_{1}</math> besteht die Möglichkeit, einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}| H_{0})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist.
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = 0,05</math>.
===Produktnachfrage (2. Version)===
Eine Vertriebsgesellschaft führt eine umfassende Analyse ihrer Geschäftsaktivitäten durch, worunter auch die tägliche Nachfrage nach einem ihrer Spezialprodukte fällt.
In diesem Zusammenhang ist von besonderem Interesse, welche [[Verteilung (stochastisch)|Verteilung]] die Anzahl der täglich nachgefragten Produkte aufweist.
Bei der Nachfrage nach dem Produkt handelt es sich um ein [[Ereignis]], dass wiederholt, jedoch zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander in einem Kontinuum (hier: Zeit) vorgegebenen Umfangs (hier: Tag) auftreten kann.
Die [[Zufallsvariable]] <math>X\;</math> bezeichne die Anzahl der täglich nachgefragten Produkte und ist [[diskrete Zufallsvariable|diskret]].
Es wird somit vermutet (vgl. Abschnitt "[[Poisson-Verteilung]]"), dass die [[Poisson-Verteilung]] ein adäquates Verteilungsmodell ist: <math>X \sim PO(\lambda)\;</math>.
Der Test soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt werden. Eine [[einfache Zufallsstichprobe]] von <math>n = 50</math> Tagen lieferte die beobachteten [[Daten]], die in den Spalten 2 und 3 der Tabelle 1 enthalten sind.
Es wird auch bei dieser Version vermutet, dass die [[Poisson-Verteilung]] ein adäquates Verteilungsmodell ist: <math>X \sim PO(\lambda)</math>.
Es liegen jedoch keine Erkenntnisse bzw. Erfahrungen über den [[Parameter]] <math>\lambda</math> vor. Der unbekannte [[Parameter]] <math>\lambda</math> muss aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden.
Es wird die [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 50</math> aus der 1. Version verwendet. Wegen <math>E[X] = \lambda</math> ist der [[Stichprobenmittelwert]]
<math>\bar{X}=\frac{1}{n}\cdot\sum_{i=1}^{n}X_{i}</math>
eine geeignete [[Schätzfunktion]]. Als gewogenes [[arithmetisches Mittel]] aus der [[Stichprobe]] resultiert: <math>\bar{x} = 125/50 = 2,5</math>.
Das [[Hypothese]]npaar lautet damit:
<math>H_{0}:X\;</math> ist [[Poisson-Verteilung|Poisson-verteilt]] mit dem [[Parameter]] <math>\lambda =2,5</math>, d.h. <math>X\sim PO\left( 2,5\right)</math>
<math>H_{1}:X\;</math> ist nicht <math>PO\left( 2,5\right)</math>-[[Verteilung (stochastisch)|verteilt]].
In den Spalten 4 und 5 der Tabelle 3 sind die unter <math>H_{0}</math> [[Schätzung|geschätzten]] hypothetischen [[Wahrscheinlichkeit]]en <math>P(X = x_{j}|H_{0})=p_{j}</math> (die aus der Tabelle der <math>PO(2,5)</math> entnommen wurden) und [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>n\cdot p_{j}</math> enthalten.
Tabelle 3
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>j\;</math>
|align="center"|Anzahl nachgefragter <math>x_{j}</math>
Produkte <math>(x_{j})</math>
|align="center"|Anzahl der Tage mit <math>x_{j}</math>
nachgefragten Produkten <math>h{j}</math>
|align="center"|<math>p_{j}=P\left(X=x_{j}|H_{0}\right)</math>
|align="center"|<math>n\cdot p_{j}|H_{0}</math>
|-
|align="center"|1
|align="center"|0
|align="center"|3
|align="center"|0,0821
|align="center"|4,105
|-
|align="center"|2
|align="center"|1
|align="center"|9
|align="center"|0,2052
|align="center"|10,260
|-
|align="center"|3
|align="center"|2
|align="center"|14
|align="center"|0,2565
|align="center"|12,825
|-
|align="center"|4
|align="center"|3
|align="center"|13
|align="center"|0,2138
|align="center"|10,690
|-
|align="center"|5
|align="center"|4
|align="center"|6
|align="center"|0,1336
|align="center"|6,680
|-
|align="center"|6
|align="center"|5
|align="center"|5
|align="center"|0,0668
|align="center"|3,340
|-
|align="center"|7
|align="center"|6 und mehr
|align="center"|0
|align="center"|0,0420
|align="center"|2,100
|}
====Teststatistik und Entscheidungsbereiche====
Es wird wieder die [[Teststatistik]]
<math>V=\sum_{j=1}^{k}\frac{\left( H_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
verwendet, die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f=k -m-1</math> [[Freiheitsgrad]]en ist.
Überprüfung der [[Approximation]]sbedingungen:
Wie aus der Spalte 5 der Tabelle 3 ersichtlich, ist für die [[Realisation]] <math>x_{1}=0</math> die [[Approximation]]sbedingung <math>n\cdot p_{j}\geq 5</math> nicht erfüllt, so dass sie mit <math>x_{2}</math> zusammengefasst wird.
Weiterhin ist für die [[Realisation]]en <math>x_{6} = 5</math> und <math>x_{7} = 6</math> und mehr die [[Approximation]]sbedingung <math>n\cdot p_{j}\geq 5</math> nicht erfüllt, so dass diese beiden [[Realisation]]en zusammengefasst werden.
Bestimmung der Anzahl der [[Freiheitsgrad]]e:
Nach der Zusammenfassung verbleiben noch <math>k = 5</math> [[Klasse]]n. Da der [[Parameter]] <math>\lambda</math> aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden musste, ist <math>m=1 </math> und somit <math>f=5-1-1=3</math>.
Unter <math>H_{0}</math> ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = 3</math> [[Freiheitsgrad]]en.
Für <math>P(V \leq c) = 0,95</math> und <math>f = 3</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;f}^{2}=\chi_{0,95;3}^{2}=7,81</math>.
Die [[Entscheidungsbereiche]] sind damit:
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v>7,81\right\}</math>
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq 7,81\right\}</math>.
====Prüfwert und Testentscheidung====
Die Tabelle 4 enthält alle notwendigen Zwischenergebnisse für die Berechnung des [[Prüfwert]]es
Tabelle 4
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>x_{j}\;</math>
|align="center"|<math>h{j}\;</math>
|align="center"|<math>n\cdot p_{j}</math>
|align="center"|<math>h_{j}-n\cdot p_{j}</math>
|align="center"|<math>\left(h_{j}-n\cdot p_{j}\right)^{2}</math>
|align="center"|<math>\frac{\left(h_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}</math>
|-
|align="center"|0-1
|align="center"|12
|align="center"|14,365
|align="center"|-2,365
|align="center"|5,5932
|align="center"|0,3894
|-
|align="center"|2
|align="center"|14
|align="center"|12,825
|align="center"|1,175
|align="center"|1,3806
|align="center"|0,1076
|-
|align="center"|3
|align="center"|13
|align="center"|10,690
|align="center"|2,310
|align="center"|5,3361
|align="center"|0,4992
|-
|align="center"|4
|align="center"|6
|align="center"|6,680
|align="center"|-0,680
|align="center"|0,4624
|align="center"|0,0692
|-
|align="center"|5 und mehr
|align="center"|5
|align="center"|5,440
|align="center"|-0,440
|align="center"|0,1936
|align="center"|0,0356
|}
Der [[Prüfwert]] ergibt sich als Summe der Werte in der letzten Spalte: <math>v=1,101</math>.
Da <math>v</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]] nicht verworfen <math>(\mbox{''}H_{0}\mbox{''})</math>.
Basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 50</math> konnte [[Statistik|statistisch]] nicht bewiesen werden, dass die [[Zufallsvariable]] <math>X:\;</math> "Anzahl der täglich nachgefragten Produkte" nicht einer <math>PO(2,5)</math> folgt.
Bei dieser Entscheidung für <math>H_{0}</math> besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist.
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] <math>P(\mbox{''}H_{0}\mbox{''}| H_{1}) = \beta</math> ist jedoch unbekannt.

Aktuelle Version vom 23. Januar 2019, 16:26 Uhr

Testtheorie

Grundbegriffe der Testtheorie • Entscheidungsbereiche • Entscheidungssituationen • Zweiseitiger Test • Einseitiger Test • Gütefunktion • Test auf Mittelwert • Gauß-Test • Gütefunktion des Gauß-Tests • Einstichproben-t-Test • Test auf Anteilswert • Test auf Differenz zweier Mittelwerte • Zweistichproben-Gauß-Test • Zweistichproben-t-Test • Chi-Quadrat-Anpassungstest • Chi-Quadrat-Unabhängigkeitstest • Multiple Choice • Video • Aufgaben • Lösungen
Ablehnungsbereich der Nullhypothese • alpha-Fehler • Alternativhypothese • Anpassungstest • beta-Fehler • Entscheidungsbereiche (Chi-Quadrat-Anpassungstest) • Entscheidungsbereiche (Chi-Quadrat-Unabhängigkeitstest) • Entscheidungsbereiche (Einstichproben-t-Test) • Entscheidungsbereiche (Gauß-Test) • Entscheidungsbereiche (Test auf Anteilswert) • Entscheidungsbereiche (Zweistichproben-Gauß-Test) • Entscheidungsbereiche (Zweistichproben-t-Test) • Entscheidungssituationen (Chi-Quadrat-Anpassungstest) • Entscheidungssituationen (Chi-Quadrat-Unabhängigkeitstest) • Entscheidungssituationen (Einstichproben-t-Test) • Entscheidungssituationen (Gauß-Test) • Entscheidungssituationen (Test auf Anteilswert) • Entscheidungssituationen (Zweistichproben-Gauß-Test) • Entscheidungssituationen (Zweistichproben-t-Test) • Fehler 1. Art • Fehler 2. Art • Goodness-of-fit-Test • Gütefunktion des Tests auf Anteilswert • Hypothese • Kritischer Wert • Linksseitiger Test • Macht eines Tests • Nichtablehnungsbereich der Nullhypothese • Nullhypothese • OC-Kurve • Operationscharakteristik • Parametertest • Prüfgröße • Prüfwert • Prüfwert (Chi-Quadrat-Anpassungstest) • Prüfwert (Chi-Quadrat-Unabhängigkeitstest) • Prüfwert (Einstichproben-t-Test) • Prüfwert (Gauß-Test) • Prüfwert (Test auf Anteilswert) • Prüfwert (Zweistichproben-Gauß-Test) • Prüfwert (Zweistichproben-t-Test) • Rechtsseitiger Test • Signifikanzniveau • Statistischer Test • Testgröße • Teststatistik • Teststatistik (Chi-Quadrat-Anpassungstest) • Teststatistik (Chi-Quadrat-Unabhängigkeitstest) • Teststatistik (Einstichproben-t-Test) • Teststatistik (Gauß-Test) • Teststatistik (Test auf Anteilswert) • Teststatistik (Zweistichproben-Gauß-Test) • Teststatistik (Zweistichproben-t-Test) • Verteilungstest • Zweistichprobentest

Grundbegriffe

Anpassungstest, Verteilungstest oder Goodness-of-fit-Test

Bei diesem Test wird eine Hypothese über die unbekannte Verteilung der Zufallsvariablen in der Grundgesamtheit geprüft, woraus sich der Name Anpassungstest, Verteilungstest oder Goodness-of-fit-Test ergibt.

Anpassungstests gehören zu den nichtparametrischen Tests.

Es gibt eine ganze Reihe von Anpassungstests, von denen hier nur der Chi-Quadrat-Anpassungstest behandelt wird.

Die generelle Vorgehensweise bei Anpassungstests ist im Prinzip wie bei den Parametertests.

Es wird eine Teststatistik konstruiert, die die Information über die hypothetische Verteilung sowie die Verteilung in der Zufallsstichprobe enthält und auf deren Basis eine Aussage über die Nullhypothese möglich ist.

Die Verteilung der Teststatistik muss unter der Nullhypothese (zumindest approximativ) bekannt sein.

Auch bei Anpassungstests wird stets die Nullhypothese statistisch geprüft und in Abhängigkeit von der Testentscheidung besteht die Möglichkeit, einen Fehler 1. Art mit der Wahrscheinlichkeit bzw. einen Fehler 2. Art mit der Wahrscheinlichkeit zu begehen.

Mit dem vorgegebenen Signifikanzniveau kann die Wahrscheinlichkeit eines Fehlers 1. Art niedrig gehalten werden; die Wahrscheinlichkeit eines Fehlers 2. Art ist dagegen in der Regel nicht bekannt.

Man wird deshalb bestrebt sein, die Nullhypothese abzulehnen, da dann die statistische Sicherheit einer Fehlentscheidung bekannt ist.

Wenn die hypothetische Verteilung die wahre Verteilung in der Grundgesamtheit ist, dann ist zu erwarten, dass diese Verteilung im Prinzip auch in der Stichprobe zu beobachten ist.

Im Prinzip bedeutet dabei, dass Abweichungen zwischen der beobachteten Verteilung in der Stichprobe und der unter der Verteilungsannahme erwarteten Verteilung in der Stichprobe in der Regel immer auftreten werden.

Zu entscheiden ist, ob die Abweichungen noch zufallsbedingt sind oder ob es sich um signifikante Abweichungen handelt.

Um die erwartete Verteilung in der Stichprobe ermitteln zu können, muss unter der Nullhypothese angenommen werden, dass genau die hypothetische Verteilung die wahre Verteilung in der Grundgesamtheit ist.

Damit lautet das Hypothesenpaar stets:

Die Zufallsvariable in der Grundgesamtheit weist die hypothetische Verteilung auf.

Die Zufallsvariable in der Grundgesamtheit weist eine andere als die hypothetische Verteilung auf.

Große Abweichungen zwischen der beobachteten Verteilung und der erwarteten Verteilung in der Stichprobe deuten tendenziell auf eine falsche Verteilungsannahme hin, d.h. man wird die Nullhypothese ablehnen.

Chi-Quadrat-Anpassungstest

Der Chi-Quadrat-Anpassungstest basiert auf einer einfachen Zufallsstichprobe vom vorgegebenen Umfang . Das Signifikanzniveau ist vor der Testdurchführung festzulegen.

Gegeben ist eine Zufallsvariable in der Grundgesamtheit mit der Verteilung , wobei an das Skalenniveau von keine Voraussetzungen gestellt werden.

Die Verteilung ist unbekannt. Es existiert jedoch eine Annahme, dass die hypothetische Verteilung besitzt.

Ist eine diskrete Zufallsvariable (darunter werden im weiteren summarisch nominalskalierte, ordinalskalierte sowie diskrete Zufallsvariablen mit sehr wenigen Ausprägungen verstanden), kann sie die Werte annehmen.

Es bezeichne:

  • die Wahrscheinlichkeit, dass die Zufallsvariable den Wert annimmt, .

Ist eine stetige Zufallsvariable (darunter werden im weiteren auch die diskreten Zufallsvariablen mit sehr vielen bzw. unendlich vielen Ausprägungen, d.h. die genannten quasi-stetigen Zufallsvariablen, gefasst), muss eine Intervallbildung der beobachteten Werte in disjunkte, aneinander angrenzende Klassen erfolgen.

Mit als Anzahl der Klassen können die Klassen allgemein wie folgt geschrieben werden:

, für .

Es bezeichne im stetigen Fall:

  • die beobachtete absolute Häufigkeit der j-ten Klasse in der Stichprobe, ,
  • die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert aus der Klasse annimmt .

Die Nullhypothese lautet beim Anpassungstest immer, dass die Zufallsvariable in der Grundgesamtheit die hypothetische Verteilung aufweist. Die Alternativhypothese enthält das logische Pendant.

Das dem Chi-Quadrat-Anpassungstest zugrundeliegende Hypothesenpaar lautet speziell:

  • wenn diskret ist
für mindestens ein
  • wenn stetig ist
für mindestens ein

Dabei bezeichnet sowohl im diskreten als auch im stetigen Fall die Wahrscheinlichkeit, dass die Zufallsvariable den Wert annimmt bzw. in die j-te Klasse fällt, wenn die hypothetische Verteilung zugrundegelegt wird, d.h. wenn die Nullhypothese gilt:

Die können bestimmt werden durch die Vorgabe

Beispiel: Die Annahme besagt, dass die Zufallsvariable eine Poisson-Verteilung mit vorgegebenem Parameter besitzt.
Beispiel: Die Annahme besagt, dass die Zufallsvariable eine Normalverteilung mit unbekanntem Erwartungswert und unbekannter Standardabweichung aufweist, so dass diese beiden Parameter erst aus der Stichprobe zu schätzen sind.
Beispiel: Die Zufallsvariable habe vier mögliche Realisationen. Es wird angenommen, dass diese mit den fest vorgegebenen Wahrscheinlichkeiten bzw. relativen Häufigkeiten , , und auftreten.

Teststatistik des Chi-Quadrat-Anpassungstests

Der Chi-Quadrat-Anpassungstests basiert auf dem Vergleich der in der Stichprobe beobachteten Verteilung und der bei Gültigkeit der Nullhypothese in der Stichprobe erwarteten Verteilung.

Für die Bestimmung der Teststatistik des Chi-Quadrat-Anpassungstests wird von den absoluten Häufigkeiten ausgegangen.

Für die konkrete Stichprobe wird die Anzahl festgestellt, dass das Ereignis bzw. eingetreten ist.

Mit den absoluten Häufigkeiten für alle ist die in der Stichprobe beobachtete Verteilung gegeben. Da die absoluten Häufigkeiten Ergebnis eines Zufallsexperimentes sind, können sie von Stichprobe zu Stichprobe unterschiedliche Werte annehmen, d.h. sie sind Realisationen von Zufallsvariablen .

Wenn die Nullhypothese gilt, sind die in der Stichprobe erwarteten relativen Häufigkeiten durch die Wahrscheinlichkeiten gegeben.

Für die erwarteten absoluten Häufigkeiten folgt: .

Der Vergleich zwischen beobachteter und erwarteter Verteilung baut auf den Differenzen auf. Große Differenzen sprechen tendenziell gegen die Nullhypothese und deuten auf eine falsche Verteilungsannahme hin.

Eine summarische Größe, die die Abweichung von der Nullhypothese bewertet, ist die Teststatistik

Bei Gültigkeit der Nullhypothese ist die Teststatistik approximativ Chi-Quadrat-verteilt mit Freiheitsgraden. Dies gilt unabhängig davon, welche Verteilung unter angenommen wurde.

Approximationsvoraussetzungen:

Die Approximation an die Chi-Quadrat-Verteilung ist hinreichend, wenn

  • für alle und

gilt.

Sind diese Bedingungen nicht erfüllt, müssen vor der Anwendung des Tests benachbarte Werte bzw. Klassen zusammengefasst werden.

Da die unter vorgegeben sind, folgt außerdem aus den Approximationsvoraussetzungen, dass die Approximation um so besser ist, je größer der Stichprobenumfang ist.

Bei der Bestimmung der Anzahl der Freiheitsgrade ist zu berücksichtigen, dass:

  • die Anzahl der verbliebenen Werte bzw. Klassen nach einer eventuell notwendigen Zusammenfassung ist,
  • die Anzahl der unbekannten und aus der Stichprobe zu schätzenden Parameter der hypothetischen Verteilung bezeichnet (wenn unter eine vollständig spezifizierte Verteilung vorgegeben wurde, ist ).

Da in der Teststatistik die Terme nur positive Werte annehmen können, nimmt die Teststatistik ebenfalls nur positive Werte an.

Große Abweichungen zwischen beobachteter und erwarteter Verteilung führen zu großen Werten von .

Somit führen nur große Werte von zur Ablehnung der , während kleine Werte von nicht gegen die Nullhypothese sprechen, sondern auf eine gute Übereinstimmung hindeuten.

Der Chi-Quadrat-Anpassungstest ist somit ein rechtsseitiger Test.

Der kritische Wert wird für und die Anzahl der Freiheitsgrade aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung entnommen.

Entscheidungsbereiche des Chi-Quadrat-Anpassungstests

Die Entscheidungsbereiche des Chi-Quadrat-Anpassungstests sind:

  • Ablehnungsbereich der .

Die Wahrscheinlichkeit, dass die Teststatistik eine Realisation aus dem Ablehnungsbereich der annimmt, entspricht dem vorgegebenen Signifikanzniveau .

Die Wahrscheinlichkeit, dass die Teststatistik eine Realisation aus dem Nichtablehnungsbereich der annimmt, ist .

<R output="display">

pdf(rpdf,width=7,height=7)

curve(from=0, to=35, dchisq(x, df=10), xaxt="n", ylab="f(v)", xlab="", col="red", ylim=c(0.0,0.12), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l") abline(v=20, col="black", lwd=3, lty=1) text(21, 0.003, expression(alpha), col = "black", cex=2) text(9, 0.04, expression(paste("1-", alpha)), col = "black", cex=2) text(20, -0.0014, , col = "black", cex=1.7) axis( side=1, at=c(20, 35), labels=c(expression(paste(chi^2, ""[1-alpha], ""[";"], ""[f])), "v"), tick=FALSE, cex.axis=1.5)

</R>

Nichtablehnungsbereich der | Ablehnungsbereich der

Prüfwert des Chi-Quadrat-Anpassungstests

Wenn die Zufallsstichprobe vom Umfang gezogen wurde, können die absoluten Häufigkeiten ermittelt, gegebenenfalls unbekannte Parameter der hypothetischen Verteilung geschätzt und die erwarteten Häufigkeiten berechnet werden.

Einsetzen in die Teststatistik führt zu einem Prüfwert des Chi-Quadrat-Anpassungstests .

Entscheidungssituationen des Chi-Quadrat-Anpassungstests

Es konnte statistisch gezeigt werden, dass die Verteilung der Zufallsvariablen in der Grundgesamtheit nicht der hypothetischen Verteilung entspricht.
Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 1. Art () zu begehen, wenn in Wirklichkeit die Nullhypothese richtig ist.
Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem vorgegebenen Signifikanzniveau .
Es konnte statistisch nicht gezeigt werden, dass die wahre Verteilung in der Grundgesamtheit von der hypothetischen Verteilung abweicht.
Das bedeutet jedoch nicht, dass die wahre Verteilung tatsächlich die hypothetische Verteilung ist. Das Stichprobenergebnis gibt nur keine Veranlassung, zu verwerfen.
Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 2. Art zu begehen, wenn in Wirklichkeit die Alternativhypothese richtig ist.