Grundbegriffe der Testtheorie
Aus MM*Stat
Grundbegriffe der Testtheorie
Statistische Tests und Hypothesen
Statistische Tests dienen in der Statistik zur Überprüfung von Hypothesen (Annahmen) über
- die unbekannte Verteilung oder
- unbekannte Parameter (siehe: Parametertest)
in der Grundgesamtheit unter Verwendung der Ergebnisse einer Zufallsstichprobe.
Sie bilden neben den statistischen Schätzverfahren einen weiteren wichtigen Teil der induktiven Statistik, da von den Ergebnissen einer Stichprobe auf die Grundgesamtheit geschlossen wird.
Bei statistischen Tests wird in der Regel ein Paar von zusammengehörigen Hypothesen formuliert: die Nullhypothese (symbolisiert mit ) und die Alternativhypothese (symbolisiert mit ).
Nullhypothese und Alternativhypothese
Die Nullhypothese ist die statistische Formulierung der zu prüfenden Annahme, d.h. sie ist so zu formulieren, dass sie mittels des statistischen Tests sinnvoll geprüft werden kann.
Manchmal kann die Formulierung der Annahme bereits als Nullhypothese verwendet werden. In vielen Fällen erweist es sich jedoch als notwendig, die aus der konkreten Problemstellung heraus gegebene Annahme in eine statistische Nullhypothese umzuwandeln, wobei auch die Negation der Annahme als Nullhypothese formuliert werden kann.
Die Alternativhypothese ist die der Nullhypothese entgegengestellte Hypothese.
Parametertest
Der Parametertest ist ein Verfahren zur Überprüfung von Annahmen (Hypothesen) über den unbekannten Parameter der Grundgesamtheit.
Die Formulierung der Hypothesen beinhaltet die Angabe einer Relation zwischen dem wahren Parameterwert und dem hypothetischen Wert .
Die Angabe der Relation erfolgt derart, dass mit der Null- und Alternativhypothese alle zulässigen Werte des Parameters erfasst werden.
Man unterscheidet die folgenden Versionen:
- Einseitige Tests (siehe: Einseitiger Test)
rechtsseitiger Test linksseitiger Test Nullhypothese Alternativhypothese
- Bei einseitigen Tests ist die Nullhypothese eine Bereichshypothese (zusammengesetzte Hypothese), da sie mit allen zulässigen Werten des Parameters vereinbar ist, die höchstens bzw. mindestens sind.
- Für die Beurteilung der Gültigkeit der Nullhypothese sind Abweichungen vom hypothetischen Wert nur in eine Richtung von Bedeutung. Man bezeichnet deshalb diese Tests als einseitig.
- Es wird dabei zwischen dem rechtsseitigen und dem linksseitigen Test unterschieden, je nachdem ob Parameterwerte größer bzw. kleiner als gegen die Nullhypothese und für die Alternativhypothese sprechen.
- Zweiseitige Tests (siehe: Zweiseitiger Test)
- Bei zweiseitigen Tests ist die Nullhypothese eine sogenannte Punkthypothese (einfache Hypothese), da sie sich nur auf einen einzigen zulässigen Wert des Parameters bezieht.
- Für die Beurteilung der Gültigkeit der Nullhypothese sind Abweichungen vom hypothetischen Wert in beide Richtungen von Bedeutung, was in der Alternativhypothese seinen Niederschlag findet. Man spricht deshalb von einem zweiseitigen Test.
Welcher dieser möglichen Tests verwendet wird, hängt von der gegebenen Problemstellung ab.
Weitere Kennzeichen der Hypothesenformulierung bei Parametertests sind:
- Bei statistischen Tests wird stets die Nullhypothese geprüft.
- Null- und Alternativhypothese sind stets disjunkt.
- Das Gleichheitszeichen ist immer in der Nullhypothese enthalten.
- Als Ergebnis der Testdurchführung kann sich nur eine der beiden Hypothesen als gültig erweisen, d.h. der Test führt entweder zur Beibehaltung der Nullhypothese (Ablehnung der Alternativhypothese) oder zur Ablehnung der Nullhypothese (Annahme der Alternativhypothese).
Teststatistik, Test- bzw. Prüfgröße und Prüfwert
Es wird nunmehr eine Größe benötigt, aufgrund der eine Entscheidung über die Beibehaltung bzw. Ablehnung der Nullhypothese getroffen werden kann.
Da jeder Test auf einer Zufallsstichprobe basiert, muss diese Größe auch die Informationen aus der Stichprobe enthalten.
Es bietet sich deshalb an, eine geeignete Stichprobenfunktion als eine derartige Größe zu verwenden.
Eine Stichprobenfunktion, die für die Überprüfung der Nullhypothese im Rahmen eines statistischen Tests verwendet wird, wird als Teststatistik (Test- bzw. Prüfgröße) bezeichnet und mit
symbolisiert.
Die Teststatistik ist eine Funktion von Zufallsvariablen (den Stichprobenvariablen ) und deshalb selbst wieder eine Zufallsvariable.
Als Zufallsvariable besitzt die Teststatistik eine Verteilung . Um eine Testentscheidung fällen zu können, muss die Verteilung von unter der Annahme der Gültigkeit der Nullhypothese (zumindest approximativ) bekannt sein, so dass man schreibt: .
Im Fall eines Parametertests bedeutet dies, dass die Verteilung von von dem Parameter abhängt: .
Um die Verteilung von konkret angeben zu können, muss der Parameter numerisch spezifiziert werden.
Die einzige verfügbare Information über den Parameter ist jedoch der hypothetische Wert . Es wird nun unterstellt, dass der wahre Parameterwert in der Grundgesamtheit ist, d.h. gilt.
Dies entspricht bei einem zweiseitigen Test exakt der Nullhypothese . Bei einem einseitigen Test muss als Grenzwert der Bereichshypothese unter enthalten sein, um konkret angeben zu können (womit begründet wurde, warum das Gleichheitszeichen stets in der Nullhypothese enthalten sein muss).
Es gilt somit die Aussage:
Bei Gültigkeit der Nullhypothese weist die Teststatistik eine Verteilung mit dem Parameter auf: .
Wurde eine Stichprobe vom Umfang gezogen, liegen die Stichprobenwerte vor.
Einsetzen der Stichprobenwerte in die Teststatistik führt zu einer Realisation , die als Prüfwert bezeichnet wird.
Beispiele
Statistische Tests
Um die Problemstellung statistischer Tests zu verdeutlichen, werden einige Beispiele angeführt.
Software-Unternehmen
Ein großes Software-Unternehmen ist durch einen langwierigen Prozess in die Schlagzeilen geraten.
Die Unternehmensleitung will feststellen, ob durch diesen Umstand der Umsatz des Unternehmens zurückgegangen ist.
Der mittlere monatliche Umsatz aus der Zeit vor dem Prozess ist bekannt und damit der hypothetische Wert. Für zufällig ausgewählte Monate in der Zeit des Prozesses wird der mittlere monatliche Umsatz berechnet.
Die zu prüfende Hypothese ist:
Der mittlere monatliche Umsatz ist kleiner als der mittlere monatliche Umsatz aus der Zeit vor dem Prozess.
Die Zufallsvariable ist der monatliche Umsatz. Mit dem statistischen Test wird eine Annahme über den Erwartungswert der Verteilung der Zufallsvariablen geprüft.
Umweltorganisation
Eine Umweltorganisation behauptet, dass der Anteil der Bundesbürger, die sich gegen die Atomkraft aussprechen, 60% beträgt.
Die Betreiber der Kernkraftwerke weisen diesen Anteil als übertrieben zurück und lassen dies mittels eines statistischen Tests auf der Basis einer Zufallsstichprobe (Befragung von zufällig ausgewählten Bundesbürgern) prüfen.
Gegeben ist bei dieser Problemstellung ein dichotomes Merkmal "Einstellung zur Atomkraft" mit den beiden Ausprägungen "Atomkraftgegner" und "Atomkraftbefürworter".
Geprüft werden soll, ob der wahre Anteilswert der Grundgesamtheit dem von der Umweltorganisation behaupteten (hypothetischen) Wert von 0,6 entspricht.
Handy-Produzenten
Zwei Handy-Produzenten behaupten in der Werbung jeweils von ihrem Handy-Gerät, dasjenige mit der längsten Stand-by-Zeit auf dem Markt zu haben.
Eine Verbraucherorganisation will feststellen, ob es tatsächlich Unterschiede in der Stand-by-Zeit beider Handy-Typen gibt.
Das kann natürlich nicht auf dem Vergleich der Stand-by-Zeit einzelner Handys, sondern nur über die durchschnittliche Stand-by-Zeit erfolgen.
Mit dem Test wird die Hypothese geprüft, ob die Erwartungswerte der beiden Grundgesamtheiten übereinstimmen oder sich unterscheiden.
Dazu werden aus beiden Grundgesamtheiten unabhängig voneinander Zufallsstichproben gezogen.
Würfel
Von einem gegebenen Würfel wird behauptet, dass es sich um einen fairen Würfel handelt.
Diese Behauptung impliziert, dass die sechs möglichen Realisationen der Zufallsvariable "Augenzahl eines Würfels" alle die gleiche Wahrscheinlichkeit des Eintretens aufweisen.
Es ist somit die Hypothese zu prüfen, dass die Zufallsvariable eine diskrete Gleichverteilung aufweist.