https://wikis.hu-berlin.de/mmstat/w/api.php?action=feedcontributions&user=Jacobdan&feedformat=atomMM*Stat - Benutzerbeiträge [de-formal]2024-03-28T17:07:01ZBenutzerbeiträgeMediaWiki 1.39.6https://wikis.hu-berlin.de/mmstat/w/index.php?title=Quantil&diff=1273Quantil2018-06-03T16:24:34Z<p>Jacobdan: </p>
<hr />
<div>{{Univariate Statistik}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===p-Quantil===<br />
<br />
Gegeben sei eine Folge von [[Merkmalsausprägung]]en eines mindestens [[Ordinalskala|ordinalskalierten]] [[Merkmal]]s <math>X</math>. <br />
<br />
Der Punkt auf der Merkmalsachse, der eine der Größe nach in aufsteigender Folge geordnete Reihe von <math>n</math> [[Merkmalswert]]en <math>(x_{n})_{n \in \mathbb{N}}</math> der Anzahl nach ungefähr oder genau im Verhältnis <math>p:(1-p)</math> mit <math> 0\leq p\leq 1 </math> teilt, wird als ''p-Quantil'' <math>x_p</math> bezeichnet.<br />
<br />
====p-Quantil, unklassierte Variablen====<br />
<br />
Sei <math> n \cdot p</math> keine natürliche Zahl und <math>k \in \mathbb{N}</math> die auf <math> n \cdot p</math> folgende (nächst größere) natürliche Zahl, so ist das [[p-Quantil]] <math> x_{p} = (x_{k})_{k \in \mathbb{N}}</math>.<br />
<br />
Sei <math> n \cdot p</math> eine natürliche Zahl und <math>k = n \cdot p </math>, so könnte jeder Wert zwischen <math> (x_{k})_{k \in \mathbb{N}} </math> und <math> ( x_{k+1} )_{k \in \mathbb{N}} </math> als [[p-Quantil]] definiert werden. Vereinbarungsgemäß verwendet man jedoch<br />
<br />
:<math> x_{p} = \frac{(x_{k}) + (x_{k+1})}{2} </math><br />
<br />
====p-Quantil, klassierte Variablen====<br />
<br />
Liegen [[Klassierung|klassierte]] [[Merkmal]]e vor, ergibt sich das [[p-Quantil]] <math>x_p</math> wie<br />
folgt:<br />
<br />
<math> x_{p}=x_{j}^{u}+\frac{p-F\left( x_{j}^{u}\right) }{f\left(x_{j}\right) }\cdot\left( x_{j}^{o}-x_{j}^{u}\right) </math><br />
<br />
Darin ist <math> x_{j}^{u} </math> die untere [[Klassengrenze]], <math> x_{j}^{o} </math> die obere [[Klassengrenze]], <math> f( x_{j} ) </math> die [[relative Häufigkeit]] der Quantilsklasse und <math> F( x_{j}^{u} ) </math> die [[Verteilungsfunktion (empirisch)|empirische Verteilungsfunktion]] der Quantilsklasse vorausgehenden [[Klasse]].<br />
<br />
Das [[p-Quantil]] <math> x_{p} </math> wird durch [[Interpolation]] ermittelt. Wegen <math> p = F( x_{p}) </math> lassen sich die [[p-Quantil]]e leicht aus der Grafik der [[Verteilungsfunktion (empirisch)|empirischen Verteilungsfunktion]] entnehmen, wie die folgende Abbildung verdeutlicht.<br />
<br />
<iframe k="wiwi" p="examples/stat_Quantil_Lampen_R00480004800000000000000_plot.html" /><br />
<br />
===Median bzw. Zentralwert===<br />
<br />
Gegeben sei die in aufsteigender Folge geordnete Reihe der [[Merkmalsausprägung]]en eines mindestens [[Ordinalskala|ordinalskalierten]] [[Merkmal]]s <math>X</math>. <br />
<br />
Diejenige [[Merkmalsausprägung]], die die Reihe in zwei gleiche Teile zerlegt, sich also an zentraler Stelle befindet, wird als ''Median'' oder ''Zentralwert'' <math> x_{z} = x_{0.5} </math> bezeichnet. Der Median <math> x_{z} </math> ist somit ein spezielles [[p-Quantil]] an der Stelle <math>p=0.5</math>, also <math> x_{0,5} </math>. <br />
<br />
Er ist relativ unempfindlich gegenüber [[Ausreißer]]n, also [[Merkmalswert]]en, die übermäßig stark von den anderen [[Merkmalswert|Werten]] abweichen.<br />
<br />
====Median für nicht-klassierte Merkmale====<br />
<br />
* Falls <math>n</math> ungerade ist: <math> x_{0.5} = x_{(\frac{n+1}{2})} </math><br />
* Falls <math>n</math> gerade ist: <math> x_{0.5}=\left(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}\right)/2 </math>.<br />
<br />
====Median für klassierte Merkmale====<br />
<br />
Liegen [[Klassierung|klassierte]] [[Merkmal]]e vor, ergibt sich der [[Median]] <math> x_{0,5} </math> wie folgt:<br />
<br />
<math> x_{0.5}=x_{j}^{u}+\frac{0.5-F(x_{j}^{u})}{f(x_{j})}\cdot(x_{j}^{o}-x_{j}^{u}) </math><br />
<br />
Dabei ist <math> x_{j}^{u} </math> die untere [[Klassengrenze]], <math> x_{j}^{o} </math> die obere [[Klassengrenze]], <math> f( x_{j} ) </math> die [[relative Häufigkeit]] der Medianklasse und <math> F( x_{j}^{u} ) </math> die [[Verteilungsfunktion (empirisch)|empirische Verteilungsfunktion]] der Medianklasse vorausgehenden [[Klasse]].<br />
<br />
Der [[Median]] <math> x_{0,5} </math> wird durch [[Interpolation]] ermittelt. Wegen <math> F(x_{ 0,5 }) = 0.5 </math> lässt sich der [[Median]] leicht aus der Grafik der [[Verteilungsfunktion (empirisch)|empirischen Verteilungsfunktion]] entnehmen, wie die folgende Abbildung verdeutlicht.<br />
<br />
<iframe k="wiwi" p="examples/stat_Quantil_Lampen2_R00480004800000000000000_plot.html" /><br />
<br />
===Quartil===<br />
<br />
Als ''Quartil'' bezeichnen wir jene [[p-Quantil]]e, die die geordnete Reihe der [[Merkmalsausprägung]]en in 4 gleichgroße Teile zerlegt. Es gibt also 3 Quartile:<br />
<br />
<math> x_{0.25},x_{0.5},x_{0.75}</math><br />
<br />
===Quintil===<br />
<br />
Als ''Quintil'' bezeichnen wir jene [[p-Quantil]]e, die die geordnete Reihe der [[Merkmalsausprägung]]en in 5 gleichgroße Teile zerlegt. Es gibt also 4 Quintile:<br />
<br />
<math> x_{0.2},x_{0.4},x_{0.6},x_{0.8}</math><br />
<br />
===Dezil===<br />
<br />
Als ''Dezil'' bezeichnen wir jene [[p-Quantil]]e, die die geordnete Reihe der [[Merkmalsausprägung]]en in 10 gleichgroße Teile zerlegt. Es gibt also 9 Dezile:<br />
<br />
<math> x_{0.1},x_{0.2},\dots,x_{0.9} </math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Eigenschaften des Median für metrisch skalierte Merkmale===<br />
<br />
====Lineare Minimumeigenschaft====<br />
<br />
<math> \sum\limits_{j=1}^{k}|x_{j}-x_{0.5}|\cdot f(x_{j})\rightarrow min. </math><br />
<br />
Die Summe der absoluten Abweichungen der [[Merkmalswert]]e vom [[Median]] ist ein Minimum im Vergleich zur Summe der absoluten Abweichungen der [[Merkmalswert]]e von jedem anderen beliebigen [[Merkmalswert|Wert]].<br />
<br />
====Lineare Transformation====<br />
<br />
<math> y_{i}=a+bx_{i}\longrightarrow y_{0.5}=a+bx_{0.5} </math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Haushaltsnettoeinkommen===<br />
<br />
{{:Mmstat3:Statistik_I&II/MHNE98}}<br />
<br />
====Grafische Darstellung der Quartile====<br />
<br />
<iframe k="wiwi" p="examples/stat_Quantil_Quantile_DM_R00480004800000000000000_plot.html" /><br />
<br />
====Berechnung der Quartile====<br />
<br />
Aus der [[Verteilungsfunktion (empirisch)|empirischen Verteilungsfunktion]] (3. Spalte der Tabelle) ist erkennbar, dass das erste [[Quartil]] <math> x_{0,25} </math> mit <math> p = 0,25</math> und das zweite [[Quartil]] <math> x_{0,5} </math> mit <math>p = 0,50</math> in die dritte [[Klasse]] 1400 - 3000 DM<br />
fallen. <br />
<br />
Diese [[Klasse]] weist eine [[Klassenbreite]] von 1600 DM auf. Das dritte [[Quartil]] <math> x_{0,75} </math> mit <math>p = 0,75</math> liegt in der vierten [[Klasse]] 3000 - 5000 DM mit einer [[Klassenbreite]] von 2000 DM.<br />
<br />
<br />
<math> x_{0,25} = 1400 +1600\cdot\frac{0,25-0,21}{0.471}=1535,88 \ DM </math><br />
<br />
<math> x_{0.50} = 1400 + 1600 \cdot\frac{0,50 - 0,21}{0,471} = 2385,14 \ DM </math> <br />
<br />
<math> x_{0.75} = 3000 + 2000 \cdot\frac{0,75 - 0,681}{0,243} = 3567,90 \ DM </math><br />
<br />
====Interpretationen====<br />
<br />
1. [[Quartil]]: 25% der betrachteten Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 1535,88 DM und 75% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 1535,88 DM.<br />
<br />
2. Quartil: 50% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 2385,14 DM und 50% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 2385,14 DM.<br />
<br />
3. Quartil: 75% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 3567,90 DM und 25% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 3567,90 DM.<br />
<br />
Aus der Berechnung der [[Quartil]]e folgt unmittelbar, dass 50% der Haushalte ein monatliches Haushaltsnettoeinkommen zwischen 1535,88 DM und 3567,90 DM haben.<br />
<br />
Dieser Abstand wird auch als [[Interquartilsabstand]] bezeichnet und in einem der folgenden Kapitel genauer erläutert.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Verteilungsfunktion_(empirisch)&diff=1272Verteilungsfunktion (empirisch)2018-06-03T16:18:05Z<p>Jacobdan: </p>
<hr />
<div>{{Univariate Statistik}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Empirische Verteilungsfunktion===<br />
<br />
Die Ermittlung von ''empirischen Verteilungsfunktionen'' setzt [[Skalierung|skalierte]] [[Merkmalsausprägung]]en voraus, d.h. mindestens [[Ordinalskala|ordinal-]] oder [[Kardinalskala|kardinalskalierte]] [[Merkmal]]e.<br />
<br />
====Empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals====<br />
<br />
Für die ''empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals'' gilt:<br />
<br />
<math><br />
F(x)=\begin{cases} 0 & \mbox{, falls }x<x_{1} \\ \sum_{i=1}^{j}f\left( x_{i}\right) & \mbox{, falls }x_{j}\leq x<x_{j+1} \\ 1 & \mbox{, falls }x_{k}\leq x \end{cases}</math><br />
<br />
Die grafische Darstellung der empirischen Verteilungsfunktion ergibt bei [[Diskretes Merkmal|diskreten]] (nicht [[Klassierung|klassierten]]) [[Merkmal]]en eine<br />
monoton wachsende Treppenfunktion. Sie "springt" um die zu jeder [[Merkmalsausprägung]] dazugehörige [[Relative Häufigkeit|relative Häufigkeit]].<br />
<br />
====Empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals====<br />
<br />
Für die ''empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals'' gilt: <br />
<br />
<math> F(x) = \begin{cases} 0 & \mbox{, falls }x<x_{1}^{u} \\<br />
\sum_{i=1}^{j-1}f\left( x_{i}\right) + \frac{x-x_{j}^{u}}{x_{j}^{o}-x_{j}^{u}} \cdot f\left( x_{j}\right) & \mbox{, falls }<br />
x_{j}^{u}\leq x<x_{j}^{o} \\<br />
1 & \mbox{, falls }x_{k}\leq x \end{cases} </math><br />
<br />
<br />
Die empirische Verteilungsfunktion bei [[Klassierung|klassierten]] [[Merkmal]]en gibt an, wie viele [[Merkmalsausprägung|Ausprägungen]] insgesamt unterhalb der jeweiligen oberen [[Klassengrenze]] liegen. <br />
<br />
In der grafischen Darstellung der empirischen Verteilungsfunktion werden die sich ergebenden einzelnen Punkte geradlinig zu einer stückweise linearen Kurve (Polygonzug) verbunden.<br />
<br />
===Interpolation===<br />
<br />
Mittels einer ''Interpolation'' der empirischen Verteilungsfunktion <math>F(x)</math> eines [[Kardinalskala|kardinalskalierten]] [[Klassierung|klassierten]] [[Merkmal]]s kann der Wert der Verteilungsfunktion für jedes <math>x</math> im beobachteten Bereich des [[Merkmal]]s <math>X</math> approximativ bestimmt werden.<br />
<br />
<math> F\left( x\right) = F\left( x_{j}^{u}\right) + \frac{x-x_{j}^{u}}{x_{j}^{o}-x_{j}^{u}}\cdot f(x_{j}) </math><br />
<br />
Grafische Veranschaulichung der Interpolation:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_empirisch_Verteilungsfunktion_empirisch1_R00480004800000000000000_plot.html" /><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Statistik-Prüfung===<br />
<br />
In der Statistik-Prüfung haben 20 Studenten folgende Noten erzielt: <br />
<br />
2, 2, 4, 1, 3, 2, 5, 4, 2, 4, 3, 2, 5, 1, 3, 2, 2, 3, 5, 4<br />
<br />
Die [[Häufigkeitsverteilung|Verteilung]] der Noten lässt sich übersichtlich in Form einer [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] darstellen:<br />
<br />
{| class="wikitable"<br />
!Note<br />
<math> X </math> <br />
![[absolute Häufigkeit]]<br />
<math> h\left( x_{j}\right) </math><br />
![[relative Häufigkeit]]<br />
<math> f\left( x_{j}\right) </math><br />
!Empirische Verteilungsfunktion<br />
<math> F\left(x_{j}\right) </math><br />
|- align="right"<br />
|align="left" |1<br />
|2<br />
|0,10<br />
|0,10<br />
|- align="right"<br />
|align="left" |2<br />
|7<br />
|0,35<br />
|0,45<br />
|- align="right"<br />
|align="left" |3<br />
|4<br />
|0,20<br />
|0,65<br />
|- align="right"<br />
|align="left" |4<br />
|4<br />
|0,20<br />
|0,85<br />
|- align="right"<br />
|align="left" |5<br />
|3<br />
|0,15<br />
|1,00<br />
|}<br />
<br />
Die Verteilungsfunktion lässt sich grafisch darstellen:<br />
<br />
[[Bild:STAT-Summenhäufigkeitsverteilung.gif]]<br />
<br />
Die Tabelle bzw. die Grafik lässt beispielsweise folgende Interpretationsmöglichkeiten zu:<br />
<br />
* 65% der 20 Studenten (= 13) haben die Note 3 oder besser erreicht.<br />
* 15% (100% - 85%) der 20 Studenten (= 3) haben die Prüfung nicht bestanden.<br />
<br />
===Haushaltsgröße (empirische Verteilungsfunktion, diskret, nicht klassiert)===<br />
<br />
Empirische Verteilungsfunktion der Haushaltsgröße 1990:<br />
<br />
{| class="wikitable"<br />
|Haushaltsgröße<br />
|<math> f\left(x_{j}\right) </math><br />
|<math> F\left( x_{j}\right) </math><br />
|- align="right"<br />
|align="left" |1<br />
|0,350<br />
|0,350<br />
|- align="right"<br />
|align="left" |2<br />
|0,302<br />
|0,652<br />
|- align="right"<br />
|align="left" |3<br />
|0,167<br />
|0,819<br />
|- align="right"<br />
|align="left" |4<br />
|0,128<br />
|0,947<br />
|- align="right"<br />
|align="left" |5 und mehr<br />
|0,053<br />
|1,000<br />
|}<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_empirisch_Verteilungsfunktion_empirisch_1990_R00480004800000000000000_plot.html" /><br />
<br />
Mittels der empirischen Verteilungsfunktion lässt sich die [[relative Häufigkeit]] berechnen:<br />
<br />
<math> f\left( x_{j}\right) = F\left( x_{j}\right) -F\left( x_{j-1}\right) </math> für <math> j=1,\ldots,k </math> mit <math> F\left( x_{0}\right) =0 </math>.<br />
<br />
Es gilt:<br />
<br />
<math>f( x_{j}<X<x_{h})=f(x_{j}<X\leq x_{h-1})=f(X\leq x_{h-1})-f(X\leq x_{j})=F(x_{h-1})-F(x_{j})</math><br />
<br />
===Lebensdauer von Glühlampen (empirische Verteilungsfunktion, kardinalskaliert, klassiert)===<br />
<br />
[[Statistische Untersuchung|Untersuchung]] der Lebensdauer (in Stunden) von 100 Glühlampen:<br />
<br />
{|<br />
|[[statistische Einheit]]:<br />
|Glühlampe<br />
|-<br />
|statistisches [[Merkmal]]:<br />
|Lebensdauer <br />
|-<br />
|<br />
|[[Kardinalskala|kardinalskaliert]], stetig<br />
|}<br />
<br />
{| class="wikitable"<br />
!<math> x_{j}^{u}\leq X<x_{j}^{o} </math><br />
!<math> h\left( x_{j}\right) </math><br />
!<math> f\left( x_{j}\right) </math><br />
!<math> F\left( x_{j}\right) </math><br />
|- align="right"<br />
|align="left" |0-100 <br />
|1 <br />
|0,01 <br />
|0,01 <br />
|- align="right"<br />
|align="left" |100-500 <br />
|24 <br />
|0,24 <br />
|0,25 <br />
|- align="right"<br />
|align="left" |500-1000 <br />
|45 <br />
|0,45 <br />
|0,70 <br />
|- align="right"<br />
|align="left" |1000-2000 <br />
|30 <br />
|0,30 <br />
|1,00 <br />
|- align="right"<br />
|align="left" |Summe<br />
|100 <br />
|1.00 <br />
|<br />
|}<br />
<br />
Die empirische Verteilungsfunktion der Lebensdauer von Glühlampen hat die folgende Form:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_empirisch_Verteilungsfunktion_empirisch_Lampen_R00480004800000000000000_plot.html" /><br />
<br />
Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen [[Häufigkeitsverteilung|Verteilung]] der [[Merkmalsausprägung|Ausprägungen]] innerhalb einer [[Klasse]].<br />
<br />
===Benzinverbrauch (empirische Verteilungsfunktion, kardinalskaliert, klassiert)===<br />
<br />
Von 74 verschiedenen Autotypen wurde der Benzinverbrauch in "miles per gallon" (mpg) gemessen - Umrechnung in l/100km: <math> (3,785\cdot100)/(x \cdot1,61). </math><br />
<br />
Das Ergebnis der [[Statistische Untersuchung|Untersuchung]] lässt sich übersichtlich in Form einer [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] darstellen:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
!Benzinverbrauch(MPG)<br />
<math> x_{j}^{u}\leq X < x_{j}^{o} </math><br />
![[absolute Häufigkeit]]<br />
<math>h\left( x_{j}\right) </math><br />
![[relative Häufigkeit]]<br />
<math> f\left( x_{j}\right) </math><br />
!Empirische Verteilungsfunktion<br />
<math> F( x_j) </math><br />
|- align="right"<br />
|align="left" | 12 bis < 15 <br />
|8<br />
|0,108<br />
|0,108<br />
|- align="right"<br />
|align="left" | 15 bis < 18<br />
|10<br />
|0,135<br />
|0,243<br />
|- align="right"<br />
|align="left" | 18 bis < 21<br />
|20<br />
|0,270<br />
|0,513<br />
|- align="right"<br />
|align="left" | 21 bis < 24<br />
|13 <br />
|0,176<br />
|0,689<br />
|- align="right"<br />
|align="left" | 24 bis < 27<br />
|12<br />
|0,162<br />
|0,851<br />
|- align="right"<br />
|align="left" | 27 bis < 30<br />
|4<br />
|0,054<br />
|0,905<br />
|- align="right"<br />
|align="left" | 30 bis < 33<br />
|3<br />
|0,041<br />
|0,946<br />
|- align="right"<br />
| align="left" | 33 bis < 36<br />
|3<br />
|0,041<br />
|0,987<br />
|- align="right"<br />
| align="left" | 36 bis < 39<br />
|0<br />
|0,000<br />
|0,987<br />
|- align="right"<br />
| align="left" | 39 bis < 41 <br />
|1<br />
|0,013<br />
|1,000<br />
|- align="right"<br />
! align="left" |Summe<br />
! 74<br />
! 1,000<br />
|<br />
|}<br />
<br />
Die empirische Verteilungsfunktion lässt sich in Form eines [[Histogramm]]s mit der gleichen [[Klassenbreite]] wie in der [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] (3 Meilen) grafisch veranschaulichen. Auf der Ordinatenachse werden die [[Häufigkeitsdichte]]n abgetragen.<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_empirisch_Verteilungsfunktion_empirisch_Miles_R00480004800000000000000_plot.html" /><br />
<br />
Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen [[Häufigkeitsverteilung|Verteilung]] der [[Merkmalsausprägung|Ausprägungen]] innerhalb einer [[Klasse]].<br />
<br />
Aus der empirischen Verteilungsfunktion lässt sich beispielsweise ablesen, dass 68,9 Prozent der untersuchten Autotypen weniger als 24 Meilen mit einer Gallone fahren können, das heißt, einen Benzinverbrauch von mehr als 9,8 Litern aufweisen.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Verteilungsfunktion_(stochastisch)&diff=1271Verteilungsfunktion (stochastisch)2018-06-03T16:14:58Z<p>Jacobdan: </p>
<hr />
<div>{{Zufallsvariable}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Verteilungsfunktion eindimensionaler Zufallsvariablen===<br />
<br />
Als ''Verteilungsfunktion'' <math>F(x)</math> einer [[Zufallsvariable|Zufallsvariablen]] <math>X</math> bezeichnet man die Funktion, die die [[Wahrscheinlichkeit|Wahrscheinlichkeit]] dafür angibt, dass die [[Zufallsvariable]] <math>X</math> höchstens den Wert <math>x</math> annimmt.<br />
<br />
====Diskrete Verteilungsfunktion von eindimensionalen Zufallsvariablen====<br />
<br />
Sei <math>X</math> eine [[diskrete Zufallsvariable]]. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math> F(x)=P(X\leq x)=\sum\nolimits_{x_{i}\leq x}f(x_{i})</math><br />
<br />
Grafisch kann die Verteilungsfunktion der [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] <math>X</math> als eine Treppenfunktion dargestellt werden,<br />
bei der sich die Funktion jeweils in den [[Realisation]]en <math>x_{i}</math> um den Betrag <math>f(x_{i})</math> erhöht und zwischen den einzelnen möglichen [[Realisation]]en konstant verläuft.<br />
<br />
Mittels der Verteilungsfunktion lassen sich andere [[Wahrscheinlichkeit]]en gemäß <br />
<br />
<math> P(a<X\leq b)=F(b)-F(a) </math> <br />
<br />
bzw. <br />
<br />
<math>\,P(X>a)=1-F(a)</math><br />
<br />
berechnen.<br />
<br />
====Stetige Verteilungsfunktion von eindimensionalen Zufallsvariablen====<br />
<br />
Sei <math>X</math> eine [[stetige Zufallsvariable]]. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>\, F(x) \, = P(-\infty <X\leq x) \, = \int\nolimits_{-\infty }^{x}f(t)\,dt </math><br />
<br />
Der Wert der Verteilungsfunktion <math>F(x)</math> entspricht der Fläche unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] <math>f(t)</math> für <math>-\infty <X\leq x</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Dichte_Verteilung_R00480004800000000000000_plot.html" /><br />
<br />
[[Dichtefunktion (eindimensional)|Dichtefunktion]] und Verteilungsfunktion einer [[stetige Zufallsvariable|stetigen Zufallsvariablen]] hängen mathematisch in der folgenden Weise zusammen: Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist die erste Ableitung der Verteilungsfunktion, also<br />
<br />
<math>\frac{\partial F(x)}{\partial x}=F^{\prime }(x)=f(x)\mbox{.}</math><br />
<br />
===Verteilungsfunktion zweidimensionaler Zufallsvariablen===<br />
<br />
Die ''Verteilungsfunktion zweidimensionaler Zufallsvariablen'' gibt an, mit welcher [[Wahrscheinlichkeit]] die [[Zufallsvariable]] <math>X</math> höchstens den Wert <math>x</math> und gleichzeitig die [[Zufallsvariable]] <math>Y</math> höchstens den Wert <math>y</math> annimmt.<br />
<br />
====Diskrete Verteilungsfunktion von zweidimensionalen Zufallsvariablen====<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[diskrete Zufallsvariable]]n. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>F(x,y)=P(X\leq x,\,Y\leq y)=\sum\nolimits_{x_{i}\leq x}\sum\nolimits_{y_{j}\leq y}f(x_{i},y_{j})</math><br />
<br />
====Stetige Verteilungsfunktion von zweidimensionalen Zufallsvariablen====<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[stetige Zufallsvariable]]n. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>F(x,y)=\int\nolimits_{-\infty }^{y}\int\nolimits_{-\infty }^{x}f(u,v)\,du\,dv</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Münzwurf===<br />
<br />
Beim dreimaligen Werfen einer idealen Münze ist das Interesse auf die Anzahl des Auftretens der [[Ausprägung]] "Zahl (Z)" gerichtet.<br />
<br />
Die zugehörige [[Zufallsvariable]] <math> X</math> ist: <br />
<br />
<math>X = \{ \mbox{Anzahl von 'Zahl' beim dreimaligen Werfen einer idealen Münze} \}</math> mit den [[Realisation]]en <math>x_{1}=0;\; x_{2}=1;\; x_{3}=2;</math> und <math>\,x_{4}=3</math>.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|[[Elementarereignis|Elementarereignis]] <br />
<math>\,E_{j}</math><br />
|align="center"|[[Wahrscheinlichkeit]] <br />
<math>\,P(E_{j})</math><br />
|align="center"|[[Zufallsvariable]] <math>X</math><br />
[[Realisation]]en <math>x_{i}\,</math><br />
|align="center"|[[Wahrscheinlichkeitsfunktion]] <br />
<math>\,P(X=x_{i})=f(x_{i})</math><br />
|-<br />
|align="center"|<math>\, E_{1}=\{hhh\}</math><br />
|align="center"|<math>\, P(E_{1})=0,125 </math><br />
|align="center"|<math>\, x_{1}=0</math><br />
|align="center"|<math>\, f(x_{1})=0,125 </math><br />
|-<br />
|align="center"|<math>\,E_{2}=\{hho\}</math><br />
|align="center"|<math>\,P(E_{2})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{3}=\{hoh\}</math><br />
|align="center"|<math>\,P(E_{3})=0,125</math><br />
|align="center"|<math>\,x_{2}=1</math><br />
|align="center"|<math>\,f(x_{2})=0,375</math><br />
|-<br />
|align="center"|<math>\,E_{4}=\{ohh\}</math><br />
|align="center"|<math>\,P(E_{4})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{5}=\{hoo\}</math><br />
|align="center"|<math>\,P(E_{5})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{6}=\{oho\}</math><br />
|align="center"|<math>\,P(E_{6})=0,125</math><br />
|align="center"|<math>\,x_{3}=2 </math><br />
|align="center"|<math>\,f(x_{3})=0,375</math><br />
|-<br />
|align="center"|<math>\,E_{7}=\{ooh\}</math><br />
|align="center"|<math>\,P(E_{7})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{8}=\{ooo\}</math><br />
|align="center"|<math>\,P(E_{8})=0,125</math><br />
|align="center"|<math>\,x_{4}=3</math><br />
|align="center"|<math>\,f(x_{4})=0,125</math><br />
|}<br />
<br />
Die Berechnung der Eintritts[[wahrscheinlichkeit]]en <math>P(E_{j})</math> beruht auf dem [[Multiplikationssatz]] für [[unabhängige Ereignisse]].<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ergibt sich als sukzessives Aufsummieren der [[Wahrscheinlichkeit]]en der einzelnen [[Realisation]]en der [[Zufallsvariable]]n <math>X</math>. <br />
<br />
Zum Beispiel:<br />
<br />
<math>F(1)=f(0)+f(1)=0,125+0,375=0,5</math><br />
<br />
Insgesamt erhält man:<br />
<br />
<math>F(x)=\begin{cases}0\, & \mbox{, wenn } x<0 \\<br />
0,125\, & \mbox{, wenn } 0\leq x<1 \\<br />
0,500\, & \mbox{, wenn } 1\leq x<2 \\<br />
0,875\, & \mbox{, wenn } 2\leq x<3 \\<br />
1,000\, & \mbox{, wenn } 3\leq x<br />
\end{cases}</math><br />
<br />
Folglich kann die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] auch grafisch dargestellt werden:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Verteilungsfunktion_diskret_R00480004800000000000000_plot.html" /><br />
<br />
===Haushaltsgröße===<br />
<br />
Aus "Statistisches Jahrbuch 1998", herausgegeben vom Statistischen Landesamt Berlin, Kulturbuch-Verlag Berlin, S. 61, können nachstehende Angaben über die Größe von Privathaushalten in Berlin für April 1998 entnommen werden:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Anzahl der im Haushalt lebenden Personen<br />
|align="center"|Anzahl der Privathaushalte (in 1000)<br />
|-<br />
|align="center"|1<br />
|align="center"|820,7<br />
|-<br />
|align="center"|2<br />
|align="center"|564,7<br />
|-<br />
|align="center"|3<br />
|align="center"|222,9<br />
|-<br />
|align="center"|4 und mehr<br />
|align="center"|195,8<br />
|-<br />
|align="center"|Summe<br />
|align="center"|1804.1<br />
|}<br />
<br />
Wenn <math>X</math> die Anzahl der im Haushalt lebenden Personen eines zufällig ausgewählten Berliner Privathaushaltes im April 1998 (kurz: Haushaltsgröße) ist, dann bedeuten::<br />
<br />
{|style="width:35%"<br />
|<math> x_{1}=1 </math><br />
|Einpersonenhaushalt<br />
|-<br />
|<math>x_{2}=2</math><br />
|Zweipersonenhaushalt<br />
|-<br />
|<math>x_{3}=3</math><br />
|Dreipersonenhaushalt<br />
|-<br />
|<math>x_{4}=4</math><br />
|Vier- und Mehrpersonenhaushalt.<br />
|}<br />
<br />
Vor der zufälligen Auswahl des Privathaushaltes liegt die Haushaltsgröße noch nicht konkret vor; sie kann jedoch die angegebenen möglichen [[Realisation]]en annehmen. <br />
<br />
<math> X = \{ \mbox{Haushaltsgröße} \}</math> ist somit eine [[Zufallsvariable]]. Sie ist [[diskrete Zufallsvariable|diskret]], da der zulässige Wertebereich nur die ganzzahligen Werte <math>1,2,3,4</math> umfasst. <br />
<br />
Die [[relative Häufigkeit|relativen Häufigkeiten]] für die Gesamtheit der Privathaushalte in Berlin ergeben die theoretischen [[Wahrscheinlichkeit]]en der möglichen [[Realisation]]en von <math> X </math>, wobei hier auf die statistische Definition der<br />
[[Wahrscheinlichkeit]] zurückgegriffen wird. <br />
<br />
Die gemeinsame Auflistung der [[Realisation]]en von <math> X </math> und den zugehörigen [[Wahrscheinlichkeit]]en ergibt die [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]]:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Haushaltsgröße <math>x_{j}</math><br />
|<math>f(x_{j})</math><br />
|-<br />
|align="center"|1<br />
|align="center"|0,4549<br />
|-<br />
|align="center"|2<br />
|align="center"|0,3130 <br />
|-<br />
|align="center"|3<br />
|align="center"|0,1236<br />
|-<br />
|align="center"|4<br />
|align="center"|0,1085<br />
|-<br />
|align="center"|Summe<br />
|align="center"|1,0000<br />
|}<br />
<br />
Als [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] mit <math>F(x) = P(X \leq x)</math> folgt:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Verteilungsfunktion_diskret2_R00480004800000000000000_plot.html" /><br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Haushaltsgröße <math>x_{j}</math><br />
|align="center"|<math>F(x)</math><br />
|-<br />
|align="center"|1<br />
|align="center"|0,4549<br />
|-<br />
|align="center"|2<br />
|align="center"|0,7679<br />
|-<br />
|align="center"|3 <br />
|align="center"|0,8915<br />
|-<br />
|align="center"|4<br />
|align="center"|1,0000<br />
|}<br />
<br />
Aus der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] kann z.B. abgelesen werden:<br />
<br />
Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt höchstens 2 Personen leben <math>(X \leq 2)</math>, beträgt 0,7679.<br />
<br />
Mittels der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] lassen sich weitere [[Wahrscheinlichkeit]]en ermitteln, z.B.<br />
<br />
* Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt mehr als 2 Personen <math>(X > 2)</math> leben, ist:<br />
<br />
: <math>P(X>2)=1-F(2)=1-0,7679=0,2321</math><br />
<br />
: oder<br />
<br />
: <math>P(X>2)=f(3)+f(4)=0,1236+0,1085=0,2321</math>.<br />
<br />
* Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt mehr als 1 Person, jedoch höchstens 3 Personen leben, ist:<br />
<br />
: <math>P(1<X\leq 3)=F(3)-F(1)=0,8915-0,4549=0,4366</math><br />
<br />
: oder<br />
<br />
: <math>P(1<X\leq 3)=f(2)+f(3)=0,3130+0,1236=0,4366</math>.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Verteilungsfunktion_(stochastisch)&diff=1270Verteilungsfunktion (stochastisch)2018-06-03T16:07:31Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Verteilungsfunktion eindimensionaler Zufallsvariablen===<br />
<br />
Als ''Verteilungsfunktion'' <math>F(x)</math> einer [[Zufallsvariable|Zufallsvariablen]] <math>X</math> bezeichnet man die Funktion, die die [[Wahrscheinlichkeit|Wahrscheinlichkeit]] dafür angibt, dass die [[Zufallsvariable]] <math>X</math> höchstens den Wert <math>x</math> annimmt.<br />
<br />
====Diskrete Verteilungsfunktion von eindimensionalen Zufallsvariablen====<br />
<br />
Sei <math>X</math> eine [[diskrete Zufallsvariable]]. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math> F(x)=P(X\leq x)=\sum\nolimits_{x_{i}\leq x}f(x_{i})</math><br />
<br />
Grafisch kann die Verteilungsfunktion der [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] <math>X</math> als eine Treppenfunktion dargestellt werden,<br />
bei der sich die Funktion jeweils in den [[Realisation]]en <math>x_{i}</math> um den Betrag <math>f(x_{i})</math> erhöht und zwischen den einzelnen möglichen [[Realisation]]en konstant verläuft.<br />
<br />
Mittels der Verteilungsfunktion lassen sich andere [[Wahrscheinlichkeit]]en gemäß <br />
<br />
<math> P(a<X\leq b)=F(b)-F(a) </math> <br />
<br />
bzw. <br />
<br />
<math>\,P(X>a)=1-F(a)</math><br />
<br />
berechnen.<br />
<br />
====Stetige Verteilungsfunktion von eindimensionalen Zufallsvariablen====<br />
<br />
Sei <math>X</math> eine [[stetige Zufallsvariable]]. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>\, F(x) \, = P(-\infty <X\leq x) \, = \int\nolimits_{-\infty }^{x}f(t)\,dt </math><br />
<br />
Der Wert der Verteilungsfunktion <math>F(x)</math> entspricht der Fläche unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] <math>f(t)</math> für <math>-\infty <X\leq x</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Dichte_Verteilung_R00480004800000000000000_plot.html" /><br />
<br />
[[Dichtefunktion (eindimensional)|Dichtefunktion]] und Verteilungsfunktion einer [[stetige Zufallsvariable|stetigen Zufallsvariablen]] hängen mathematisch in der folgenden Weise zusammen: Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist die erste Ableitung der Verteilungsfunktion, also<br />
<br />
<math>\frac{\partial F(x)}{\partial x}=F^{\prime }(x)=f(x)\mbox{.}</math><br />
<br />
===Verteilungsfunktion zweidimensionaler Zufallsvariablen===<br />
<br />
Die ''Verteilungsfunktion zweidimensionaler Zufallsvariablen'' gibt an, mit welcher [[Wahrscheinlichkeit]] die [[Zufallsvariable]] <math>X</math> höchstens den Wert <math>x</math> und gleichzeitig die [[Zufallsvariable]] <math>Y</math> höchstens den Wert <math>y</math> annimmt.<br />
<br />
====Diskrete Verteilungsfunktion von zweidimensionalen Zufallsvariablen====<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[diskrete Zufallsvariable]]n. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>F(x,y)=P(X\leq x,\,Y\leq y)=\sum\nolimits_{x_{i}\leq x}\sum\nolimits_{y_{j}\leq y}f(x_{i},y_{j})</math><br />
<br />
====Stetige Verteilungsfunktion von zweidimensionalen Zufallsvariablen====<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[stetige Zufallsvariable]]n. Dann ist die Verteilungsfunktion definiert durch:<br />
<br />
<math>F(x,y)=\int\nolimits_{-\infty }^{y}\int\nolimits_{-\infty }^{x}f(u,v)\,du\,dv</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Münzwurf===<br />
<br />
Beim dreimaligen Werfen einer idealen Münze ist das Interesse auf die Anzahl des Auftretens der [[Ausprägung]] "Zahl (Z)" gerichtet.<br />
<br />
Die zugehörige [[Zufallsvariable]] <math> X</math> ist: <br />
<br />
<math>X = \{ \mbox{Anzahl von 'Zahl' beim dreimaligen Werfen einer idealen Münze} \}</math> mit den [[Realisation]]en <math>x_{1}=0;\; x_{2}=1;\; x_{3}=2;</math> und <math>\,x_{4}=3</math>.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|[[Elementarereignis|Elementarereignis]] <br />
<math>\,E_{j}</math><br />
|align="center"|[[Wahrscheinlichkeit]] <br />
<math>\,P(E_{j})</math><br />
|align="center"|[[Zufallsvariable]] <math>X</math><br />
[[Realisation]]en <math>x_{i}\,</math><br />
|align="center"|[[Wahrscheinlichkeitsfunktion]] <br />
<math>\,P(X=x_{i})=f(x_{i})</math><br />
|-<br />
|align="center"|<math>\, E_{1}=\{hhh\}</math><br />
|align="center"|<math>\, P(E_{1})=0,125 </math><br />
|align="center"|<math>\, x_{1}=0</math><br />
|align="center"|<math>\, f(x_{1})=0,125 </math><br />
|-<br />
|align="center"|<math>\,E_{2}=\{hho\}</math><br />
|align="center"|<math>\,P(E_{2})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{3}=\{hoh\}</math><br />
|align="center"|<math>\,P(E_{3})=0,125</math><br />
|align="center"|<math>\,x_{2}=1</math><br />
|align="center"|<math>\,f(x_{2})=0,375</math><br />
|-<br />
|align="center"|<math>\,E_{4}=\{ohh\}</math><br />
|align="center"|<math>\,P(E_{4})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{5}=\{hoo\}</math><br />
|align="center"|<math>\,P(E_{5})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{6}=\{oho\}</math><br />
|align="center"|<math>\,P(E_{6})=0,125</math><br />
|align="center"|<math>\,x_{3}=2 </math><br />
|align="center"|<math>\,f(x_{3})=0,375</math><br />
|-<br />
|align="center"|<math>\,E_{7}=\{ooh\}</math><br />
|align="center"|<math>\,P(E_{7})=0,125</math><br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|<math>\,E_{8}=\{ooo\}</math><br />
|align="center"|<math>\,P(E_{8})=0,125</math><br />
|align="center"|<math>\,x_{4}=3</math><br />
|align="center"|<math>\,f(x_{4})=0,125</math><br />
|}<br />
<br />
Die Berechnung der Eintritts[[wahrscheinlichkeit]]en <math>P(E_{j})</math> beruht auf dem [[Multiplikationssatz]] für [[unabhängige Ereignisse]].<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ergibt sich als sukzessives Aufsummieren der [[Wahrscheinlichkeit]]en der einzelnen [[Realisation]]en der [[Zufallsvariable]]n <math>X</math>. <br />
<br />
Zum Beispiel:<br />
<br />
<math>F(1)=f(0)+f(1)=0,125+0,375=0,5</math><br />
<br />
Insgesamt erhält man:<br />
<br />
<math>F(x)=\begin{cases}0\, & \mbox{, wenn } x<0 \\<br />
0,125\, & \mbox{, wenn } 0\leq x<1 \\<br />
0,500\, & \mbox{, wenn } 1\leq x<2 \\<br />
0,875\, & \mbox{, wenn } 2\leq x<3 \\<br />
1,000\, & \mbox{, wenn } 3\leq x<br />
\end{cases}</math><br />
<br />
Folglich kann die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] auch grafisch dargestellt werden:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Verteilungsfunktion_diskret_R00480004800000000000000_plot.html" /><br />
<br />
===Haushaltsgröße===<br />
<br />
Aus "Statistisches Jahrbuch 1998", herausgegeben vom Statistischen Landesamt Berlin, Kulturbuch-Verlag Berlin, S. 61, können nachstehende Angaben über die Größe von Privathaushalten in Berlin für April 1998 entnommen werden:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Anzahl der im Haushalt lebenden Personen<br />
|align="center"|Anzahl der Privathaushalte (in 1000)<br />
|-<br />
|align="center"|1<br />
|align="center"|820,7<br />
|-<br />
|align="center"|2<br />
|align="center"|564,7<br />
|-<br />
|align="center"|3<br />
|align="center"|222,9<br />
|-<br />
|align="center"|4 und mehr<br />
|align="center"|195,8<br />
|-<br />
|align="center"|Summe<br />
|align="center"|1804.1<br />
|}<br />
<br />
Wenn <math>X</math> die Anzahl der im Haushalt lebenden Personen eines zufällig ausgewählten Berliner Privathaushaltes im April 1998 (kurz: Haushaltsgröße) ist, dann bedeuten::<br />
<br />
{|style="width:35%"<br />
|<math> x_{1}=1 </math><br />
|Einpersonenhaushalt<br />
|-<br />
|<math>x_{2}=2</math><br />
|Zweipersonenhaushalt<br />
|-<br />
|<math>x_{3}=3</math><br />
|Dreipersonenhaushalt<br />
|-<br />
|<math>x_{4}=4</math><br />
|Vier- und Mehrpersonenhaushalt.<br />
|}<br />
<br />
Vor der zufälligen Auswahl des Privathaushaltes liegt die Haushaltsgröße noch nicht konkret vor; sie kann jedoch die angegebenen möglichen [[Realisation]]en annehmen. <br />
<br />
<math> X = \{ \mbox{Haushaltsgröße} \}</math> ist somit eine [[Zufallsvariable]]. Sie ist [[diskrete Zufallsvariable|diskret]], da der zulässige Wertebereich nur die ganzzahligen Werte <math>1,2,3,4</math> umfasst. <br />
<br />
Die [[relative Häufigkeit|relativen Häufigkeiten]] für die Gesamtheit der Privathaushalte in Berlin ergeben die theoretischen [[Wahrscheinlichkeit]]en der möglichen [[Realisation]]en von <math> X </math>, wobei hier auf die statistische Definition der<br />
[[Wahrscheinlichkeit]] zurückgegriffen wird. <br />
<br />
Die gemeinsame Auflistung der [[Realisation]]en von <math> X </math> und den zugehörigen [[Wahrscheinlichkeit]]en ergibt die [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]]:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Haushaltsgröße <math>x_{j}</math><br />
|<math>f(x_{j})</math><br />
|-<br />
|align="center"|1<br />
|align="center"|0,4549<br />
|-<br />
|align="center"|2<br />
|align="center"|0,3130 <br />
|-<br />
|align="center"|3<br />
|align="center"|0,1236<br />
|-<br />
|align="center"|4<br />
|align="center"|0,1085<br />
|-<br />
|align="center"|Summe<br />
|align="center"|1,0000<br />
|}<br />
<br />
Als [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] mit <math>F(x) = P(X \leq x)</math> folgt:<br />
<br />
<iframe k="wiwi" p="examples/stat_Verteilungsfunktion_stochastisch_Verteilungsfunktion_diskret2_R00480004800000000000000_plot.html" /><br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Haushaltsgröße <math>x_{j}</math><br />
|align="center"|<math>F(x)</math><br />
|-<br />
|align="center"|1<br />
|align="center"|0,4549<br />
|-<br />
|align="center"|2<br />
|align="center"|0,7679<br />
|-<br />
|align="center"|3 <br />
|align="center"|0,8915<br />
|-<br />
|align="center"|4<br />
|align="center"|1,0000<br />
|}<br />
<br />
Aus der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] kann z.B. abgelesen werden:<br />
<br />
Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt höchstens 2 Personen leben <math>(X \leq 2)</math>, beträgt 0,7679.<br />
<br />
Mittels der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] lassen sich weitere [[Wahrscheinlichkeit]]en ermitteln, z.B.<br />
<br />
* Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt mehr als 2 Personen <math>(X > 2)</math> leben, ist:<br />
<br />
: <math>P(X>2)=1-F(2)=1-0,7679=0,2321</math><br />
<br />
: oder<br />
<br />
: <math>P(X>2)=f(3)+f(4)=0,1236+0,1085=0,2321</math>.<br />
<br />
* Die [[Wahrscheinlichkeit]], dass in einem im April 1998 in Berlin zufällig ausgewählten Privathaushalt mehr als 1 Person, jedoch höchstens 3 Personen leben, ist:<br />
<br />
: <math>P(1<X\leq 3)=F(3)-F(1)=0,8915-0,4549=0,4366</math><br />
<br />
: oder<br />
<br />
: <math>P(1<X\leq 3)=f(2)+f(3)=0,3130+0,1236=0,4366</math>.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Zweiseitiger_Test&diff=1269Zweiseitiger Test2018-05-30T16:00:33Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Zweiseitiger Test===<br />
<br />
* [[Nullhypothese|Null-]] und [[Alternativhypothese]]:<br />
<br />
: <math>H_{0}: \theta = \theta_{0} \qquad H_{1}:\theta \neq \theta_{0}</math><br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Bei einem ''zweiseitigen Test'' zerfällt der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] in zwei Teile, da zu große Abweichungen der [[Teststatistik]] <math>V\;</math> vom hypothetischen Wert <math>\vartheta_{0}</math> in beide Richtungen gegen die [[Nullhypothese]] sprechen. <br />
<br />
: Es gibt somit zwei [[Kritischer Wert|kritische Werte]], die mit <math>c_{u}</math> und <math>c_{o}</math> symbolisiert werden.<br />
<br />
: Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die kleiner als der untere [[Kritischer Wert|kritische Wert]] <math>c_{u}</math> oder größer als der obere [[Kritischer Wert|kritische Wert]] <math>c_{o}</math> sind:<br />
<br />
: <math>\left\{v|v<c_{u}\; \mbox{oder }\;v>c_{o}\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] zu erhalten, ist gleich dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
: <math>P\left(V<c_{u}|\vartheta _{0}\right)+P\left(V>c_{o}|\vartheta _{0}\right)=\frac{\alpha}{2}+\frac{\alpha}{2}=\alpha</math><br />
<br />
* [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die mindestens dem unteren [[Kritischer Wert|kritischen Wert]] <math>c_{u}</math>, jedoch höchstens dem oberen [[Kritischer Wert|kritischen Wert]] <math>c_{o}</math> sind:<br />
<br />
: <math>\left\{v| c_{u}\leq v\leq c_{o}\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] zu erhalten, ist gleich <math>1-\alpha </math>:<br />
<br />
: <math>P\left\{c_{u}\leq V\leq c_{o}\;|\;\theta _{0}\right\}= 1-\alpha </math><br />
<br />
{{iframewiwi<br />
<iframe k="wiwi" p="examples/stat_ZweiseitigerTest_ZweiseitigerTest_R00480004800000000000000_plot.html" /><br />
| Abb. 1: Verteilung der Teststatistik <math>V</math> unter <math>H_0</math> und Entscheidungsbereiche (zweiseitiger Test)<br />
}}</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Graphische_Darstellung_zweidimensionaler_Verteilungen&diff=1268Graphische Darstellung zweidimensionaler Verteilungen2018-05-30T15:58:50Z<p>Jacobdan: </p>
<hr />
<div>{{Bivariate Statistik}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Grafische Darstellung nominal- und ordinalskalierter Merkmale===<br />
<br />
Eine grafische Darstellung [[zweidimensionale Häufigkeitsverteilung|zweidimensionaler Häufigkeitsverteilungen]] für [[Nominalskala|nominalskalierte]] [[Merkmal]]e, [[Ordinalskala|ordinalskalierte]] [[Merkmal]]e und [[Metrische Skala|metrisch skalierte]] Merkmale mit nur wenigen [[Ausprägung]]en gestaltet sich insoweit schwierig, da neben den beiden [[Merkmal]]sdimensionen eine dritte Dimension für die [[zweidimensionale Häufigkeitsverteilung|gemeinsame Häufigkeitsverteilung]] benötigt wird.<br />
<br />
Grundsätzlich bieten sich zwei verschiedene Darstellungsformen an - das [[gruppiertes Balkendiagramm|gruppierte Balkendiagramm]] und das [[3D-Balkendiagramm]].<br />
<br />
====Gruppiertes Balkendiagramm====<br />
<br />
Dieses Diagramm erzeugt für jede [[Ausprägung]] der einen [[Variable]]n eine [[Gruppe]] von Balken entsprechend den [[Ausprägung]]en der zweiten "Gruppierungs"-[[Variable]]n<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Barplot_Sportler_R00480004800000000000000_plot.html" /><br />
<br />
====3D-Balkendiagramm====<br />
<br />
Eine plastische Darstellung der [[Zweidimensionale Häufigkeitsverteilung|zweidimensionalen Häufigkeitsverteilung]] lässt sich unter Verwendung eines [[3D-Balkendiagramm]]s erreichen. <br />
<br />
Diese Darstellungsform kann jedoch den Nachteil der Unübersichtlichkeit (Balken verdecken einander) oder erschwerter Interpretierbarkeit (Ablesen der [[zweidimensionale Häufigkeitsverteilung|gemeinsamen Häufigkeitsverteilung]]) mit sich bringen.<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_3D_Balkendiagramm_R00480004800000000000000_plot.html" /><br />
<br />
===Grafische Darstellung metrisch skalierter Merkmale===<br />
<br />
Die [[Beobachtungswert]]e zweier [[metrische Skala|metrisch skalierter]] [[Merkmal]]e lassen sich sehr anschaulich als Punkte in einem kartesischen Koordinatensystem - [[Streuungsdiagramm]] oder auch [[Scatterplot]] genannt - darstellen.<br />
<br />
====Streuungsdiagramm (engl. Scatterplot)====<br />
<br />
''Streuungsdiagramme bzw. Scatterplots'' sind besonders dazu geeignet, eventuell bestehende Zusammenhänge zwischen zwei<br />
[[Metrische Skala|metrischen]] [[Merkmal]]en sichtbar zu machen (Beispiel: Erhöhung von [[Merkmal]] <math>X\;</math> führt zu einer sichtbaren Erhöhung von [[Merkmal]] <math>Y\;</math>).<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Streuungsdiagramm_R00480004800000000000000_plot.html" /><br />
<br />
====3D-Scatterplot====<br />
<br />
In einem ''3D-Scatterplot'' lassen sich drei [[Metrische Skala|metrisch skalierte]] [[Merkmal]]e gleichzeitig darstellen. Verschiedene statistische Software bietet darüberhinaus auch die Möglichkeit, den 3D-Scatterplot zu rotieren, was das Erkennen möglicher Zusammenhänge unterstützt.<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Streuungsdiagramm3D_R00480004800000000000000_plot.html" /><br />
<br />
====Scatterplot-Matrix====<br />
<br />
Sollen mehr als zwei [[Metrische Skala|metrisch skalierte]] [[Merkmal]]e untersucht werden, kann zur grafischen Darstellung die Scatterplot-Matrix verwendet werden. <br />
<br />
Hierbei werden die [[Scatterplot]]s aller möglichen Paare zweier [[Merkmal]]e erzeugt und in Form einer Matrix zusammengefügt. <br />
<br />
Zu beachten ist jedoch, dass mit steigender Anzahl der zu untersuchenden [[Merkmal]]e die Übersichtlichkeit und damit auch die Interpretierbarkeit abnimmt.<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Streuungsdiagramm-Matrix_R00480004800000000000000_plot.html" /><br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Kriminalitätsraten===<br />
<br />
In den U.S.A. wurden 1985 unter anderem verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|land area<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|population<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|murder<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rape<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|robbery<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|assault<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|burglary<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|larceny<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|auto theft<br />
|-<br />
|<math>X_{10}\;</math><br />
| -<br />
|US states region number<br />
|-<br />
|<math>X_{11}\;</math><br />
| -<br />
|US states division number<br />
|}<br />
<br />
Der Zusammenhang zwischen der "Mordrate" <math>(X_3)\;</math> und der Größe der "Bevölkerung" <math>(X_2)\;</math> lässt sich grafisch in Form eines [[Scatterplot]]s veranschaulichen. <br />
<br />
Jeder Bundesstaat wird in dem [[Scatterplot]] durch einen Punkt <math>(x_2,x_3)</math> dargestellt.<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Streuungsdiagramm_Mordrate_R00480004800000000000000_plot.html" /><br />
<br />
In dem [[Scatterplot]] ist in der Tendenz ein Anstieg der Morde bei steigender Bevölkerungszahl zu erkennen.<br />
<br />
Die Darstellung der drei [[Variable]]n "population" <math>(X_2)\;</math>, "murder" <math>(X_3)\;</math> und "robbery" <math>(X_5)\;</math> ergibt den foldenden [[3D-Scatterplot]]:<br />
<br />
<iframe k="wiwi" p="examples/stat_ZweidimensionaleHaeufigkeit_Streuungsdiagramm_Mordrate-3D_R00480004800000000000000_plot.html" /><br />
<br />
<br />
<br />
<!--==Interaktives Beispiel==<br />
<br />
'''Hinweis:''' Mit Hilfe des interaktiven Beispiels lassen sich auch die Zusammenhänge der anderen Variablen grafisch veranschaulichen.<br />
<br />
[[Bild:STAT-Flaggenknarre.gif|right]]<br />
In den U.S.A. wurden 1985 unter anderem verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|land area<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|population<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|murder<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rape<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|robbery<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|assault<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|burglary<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|larceny<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|auto theft<br />
|-<br />
|<math>X_{10}\;</math><br />
| -<br />
|US states region number<br />
|-<br />
|<math>X_{11}\;</math><br />
| -<br />
|US states division number<br />
|}<br />
<br />
<br />
<br />
Die Variablen <math>X10</math> und <math>X11</math> haben die nachstehenden Ausprägungen:<br />
<br />
{|style="width:50%"<br />
|colspan="2"|'''<math>X_{10}</math> - region numbers'''<br />
|<br />
|colspan="2"|'''<math>X_{11}</math> - division numbers'''<br />
|-<br />
|1<br />
|Northeast<br />
|<br />
|1<br />
|New England<br />
|-<br />
|2<br />
|Midwest<br />
|<br />
|2<br />
|Mid Atlantic<br />
|-<br />
|3<br />
|South<br />
|<br />
|3<br />
|E N Central<br />
|-<br />
|4<br />
|West<br />
|<br />
|4<br />
|W N Central<br />
|-<br />
|<br />
|<br />
|<br />
|5<br />
|S Atlantic<br />
|-<br />
|<br />
|<br />
|<br />
|6<br />
|E S Central<br />
|-<br />
|<br />
|<br />
|<br />
|7<br />
|W S Central<br />
|-<br />
|<br />
|<br />
|<br />
|8<br />
|Mountain<br />
|-<br />
|<br />
|<br />
|<br />
|9<br />
|Pacific<br />
|}<br />
<br />
<br />
Dieses interaktive Beispiel erlaubt zu Beginn die Wahl zwischen einem:<br />
<br />
- [[STAT-Glossar#Scatterplot|Scatterplot]] zweier beliebiger Variablen<br />
<br />
- [[STAT-Glossar#Scatterplot|Scatterplot]] dreier beliebiger Variablen<br />
<br />
- [[STAT-Glossar#Scatterplot|Scatterplot]]-Matrix zwischen allen Variablen<br />
<br />
<br />
Im nächsten Schritt werden die gewünschten Variablen ausgewählt und der entsprechende<br />
[[STAT-Glossar#Scatterplot|Scatterplot]] nach Freigabe erstellt<br />
--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=T-Verteilung&diff=1267T-Verteilung2018-05-30T15:51:31Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Student'sche t-Verteilung===<br />
<br />
Ist <math>Z\,</math> eine [[Standardnormalverteilung|standardnormalverteilte]] [[Zufallsvariable]], <math>Z\sim N(0,1)\,</math> und <math>Y\,</math> eine von <math>Z\,</math> [[Unabhängigkeit (empirisch)|unabhängig]]e [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilte]] [[Zufallsvariable]] <math>Y\sim\chi^{2}(f)\,</math> mit dem [[Parameter]] <math>f</math>, dann heißt die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n<br />
<br />
<math>T=\cfrac{Z}{\sqrt{\cfrac{Y}{f}}}</math><br />
<br />
''Student'sche t-Verteilung'' oder ''t-Verteilung'' mit dem [[Parameter]] <math>f</math>, oder kurz <math>t(f)\,</math>. <br />
<br />
Der [[Parameter]] <math>f</math> ist die Anzahl der [[Freiheitsgrad]]e der [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilten]] [[Zufallsvariable]] <math>Y\,</math>.<br />
<br />
Die [[Zufallsvariable]] <math>T</math> hat den Wertebereich: <math>-\infty \leq T\leq +\infty</math>.<br />
<br />
Für [[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] gilt:<br />
<br />
<math>E[T]=0\; \mbox{, wenn } f>1</math><br />
<br />
<math>Var(T)=f/(f-2)\; \mbox{, wenn }f>2</math><br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der t-Verteilung liegt für ausgewählte Werte des [[Parameter]]s <math>f</math> und ausgewählte [[Wahrscheinlichkeit]]en tabelliert vor.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Graphische Darstellung der t-Verteilung===<br />
<br />
Die folgende Abbildung zeigt die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der t-Verteilung für verschiedene [[Freiheitsgrad]]e <math>f</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_t-Verteilung_Dichtefunktion_R00480004800000000000000_plot.html" /><br />
===Beziehung zur Standardnormalverteilung===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der t-Verteilung ist eine symmetrische Glockenkurve zum [[Erwartungswert]] <math>E(T) = 0</math> (wie die [[Standardnormalverteilung]]). <br />
<br />
Jedoch ist die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der t-Verteilung flacher als die der [[Standardnormalverteilung]]. <br />
<br />
Mit anderen Worten: Die Kurve der t-Verteilung weist eine geringere Höhe und eine größere [[Streuung]] auf. <br />
<br />
Die [[Varianz (stochastisch)|Varianz]] der [[Standardnormalverteilung]] ist 1, während die [[Varianz (stochastisch)|Varianz]] der t-Verteilung <math>Var(T) = \frac{f}{f-2}</math> größer als Eins ist (für <math>f\geq 3</math>).<br />
<br />
Für <math>f\rightarrow \infty </math> konvergiert die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der t-Verteilung gegen die<br />
[[Dichtefunktion (eindimensional)|Dichtefunktion]] der [[Standardnormalverteilung]]. <br />
<br />
Ab <math>f\geq 30</math> kann die t-Verteilung in guter Näherung durch die [[Standardnormalverteilung]] [[Approximation|approximiert]] werden.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Trend&diff=1266Trend2018-05-30T15:49:15Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Trend einer Zeitreihe===<br />
<br />
Die Zerlegung einer [[Zeitreihe]] beginnt mit der Extraktion der langfristigen Tendenz (''Trend'') aus den [[Beobachtung]]en. <br />
<br />
Dazu stehen verschiedene Methoden, die jeweils zu unterschiedlichen Trendlinien für ein und diesselbe Reihe führen, zur Verfügung. <br />
<br />
Die Auswahl einer dieser Methoden erfordert generell ein Abwägen zwischen Vor- und Nachteilen.<br />
<br />
In diesem Abschnitt werden die [[Methode der gleitenden Durchschnitte]] und die [[Methode der kleinsten Quadrate (Zeitreihe)|Methode der kleinsten Quadrate]] vorgestellt.<br />
<br />
===Methode der gleitenden Durchschnitte===<br />
<br />
====Filter====<br />
<br />
Der geschätzte Trend ist bei diesem Verfahren zu jedem Zeitpunkt ein gewichtetes [[Mittelwert|Mittel]] aus den Originaldaten mehrerer Perioden:<br />
<br />
<math>T(t)=\sum\limits_{i=-a}^{b}\lambda _{i}\cdot x_{t+i}</math><br />
<br />
mit<br />
<br />
<math>\sum\limits_{i=-a}^{b}\lambda _{i}=1</math><br />
<br />
Die Gesamtheit der Gewichte <math>\lambda_{i}</math> nennt man ''Filter''. <br />
<br />
Die Wahl des Filters hängt von der Art [[Saisonschwankung|saisonaler Schwankungen]] und der gewünschten Glättung ab. Meist werden symmetrische Filter, die (ausgehend von Periode <math>t</math>) Vergangenheit und Zukunft gleichgewichten, verwendet.<br />
<br />
Filter, deren Gewichte <math>\lambda_{i}</math> für alle <math>i</math> gleich sind, bilden sogenannte einfache gleitende Durchschnitte, alle anderen führen zu gewichteten gleitenden Durchschnitten.<br />
<br />
====Stützbereich====<br />
<br />
Der Bereich aus den Originaldaten, über den der gewichtete Durchschnitt gebildet wird, heisst ''Stützbereich''.<br />
<br />
Aus Prinzip kann die [[Zeitreihe|Reihe]] des geschätzten Trends höchstens so lang sein wie die Original[[Zeitreihe|reihe]] (Gleichheit, wenn <math>a = b</math>). <br />
<br />
Je größer man den Stützbereich wählt, umso weniger Trendwerte können berechnet werden und umso glatter wird die resultierende Trend[[Zeitreihe|reihe]].<br />
<br />
===Symmetrischer Filter===<br />
<br />
''Symmetrische Filter'' (<math>a = b</math>) werden meist so angegeben, dass die <math>2a + 1</math> einzelnen Gewichte nebeneinander in eckigen Klammern stehen.<br />
<br />
Die folgenden [[Filter]] finden bei der Glättung von saisonalen [[Zeitreihe]]n Anwendung, weil sie für die Trendberechnung die<br />
[[Periodische Schwankungen|periodischen Schwankungen]] aus den Originaldaten "herausfiltern".<br />
<br />
* Halbjahresdaten<br />
<br />
: <math>\left[ \frac{1}{4},\; \frac{1}{2},\; \frac{1}{4}\right]\quad (a=1)</math><br />
<br />
: <math>\left[ \frac{1}{8},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{8}\right] \quad (a=2)</math><br />
<br />
* Quartalsdaten<br />
<br />
: <math>\left[ \frac{1}{8},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{8}\right]\quad (a=2)</math><br />
<br />
: <math>\left[ \frac{1}{16},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{8},\; \frac{1}{16}\right]\quad (a=4)</math><br />
<br />
* Monatsdaten<br />
<br />
: <math>\left[ \frac{1}{24},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{12},\; \frac{1}{24}\right]\quad (a=6)</math><br />
<br />
===Methode der kleinsten Quadrate===<br />
<br />
Eine zweite Möglichkeit den Trend einer Zeitreihe zu ermitteln, bietet die ''Methode der kleinsten Quadrate'', wie sie im Kapitel "[[Schätzung der Regressionsparameter]]" vorgestellt wurde. <br />
<br />
Man wählt eine Familie von Funktionen, durch die der Trend in Abhängigkeit von der Zeit <math>t</math> beschrieben werden soll und schätzt dann deren [[Parameter]]. <br />
<br />
Diese [[Parameterschätzung|Parameterschätzer]] minimieren die Summe der quadratischen Abweichungen des Trends von den Originaldaten:<br />
<br />
<math>\sum\limits_{t=1}^{T}(x_{t}-\widehat{x}_{t})^{2}\rightarrow \mbox{ min.}</math><br />
<br />
Exemplarisch werden im folgenden die [[Schätzer]] für eine einfache [[lineare Trendfunktion]] und für einen [[Exponentialtrend]] hergeleitet.<br />
<br />
====Lineare Trendfunktion====<br />
<br />
Unterstellt sei eine lineare Abhängigkeit der [[Variable]]n <math>X\;</math> von der Zeit <math>t</math> in der Form<br />
<br />
<math>\widehat{x}_{t}=a+b\cdot t</math><br />
<br />
Die Summe der [[Residuum|Residuen]]quadrate in Abhängigkeit von den [[Parameter]]n <math>a</math> und <math>b</math> ist<br />
<br />
<math>S(a,b)=\sum\limits_{t=1}^{T}(x_{t}-\widehat{x}_{t})^{2}=\sum\limits_{t=1}^{T}(x_{t}-a-b\cdot t)^{2}\rightarrow \mbox{ min.}</math><br />
<br />
Die Minimierung ergibt die [[Parameterschätzung|Parameterschätzer]]<br />
<br />
<math>a=\frac{\sum\limits_{t=1}^{T}x_{t}\cdot \sum\limits_{t=1}^{T}t^{2}-\sum\limits_{t=1}^{T}t\cdot \sum\limits_{t=1}^{T}x_{t}\cdot t}{T\cdot \sum\limits_{t=1}^{T}t^{2}-\left( \sum\limits_{t=1}^{T}t\right)^{2}}</math><br />
<br />
<math>b=\frac{T\cdot \sum\limits_{t=1}^{T}x_{t}\cdot t-\sum\limits_{t=1}^{T}x_{t}\cdot \sum\limits_{t=1}^{T}t}{T\cdot \sum\limits_{t=1}^{T}t^{2}-\left(\sum\limits_{t=1}^{T}t\right)^{2}}</math><br />
<br />
====Exponentialtrend====<br />
<br />
Unterstellt sei eine exponentielle Abhängigkeit der [[Variable]]n <math>X\;</math> von der Zeit <math>t</math> in der Form<br />
<br />
<math>\widehat{x}_{t}=a\cdot b^{t}</math><br />
<br />
bzw. in logarithmierter Form<br />
<br />
<math>\log \widehat{x}_{t}=(\log a)+ t\cdot \log b</math><br />
<br />
Die Minimierung ergibt die [[Parameterschätzung|Parameterschätzer]]<br />
<br />
<math>\log a=\frac{\sum\limits_{t=1}^{T}\log x_{t}\cdot \sum\limits_{t=1}^{T}t^{2}-\sum\limits_{t=1}^{T}t\cdot \sum\limits_{t=1}^{T}t \log x_{t}}{T\cdot \sum\limits_{t=1}^{T}t^{2}-\left( \sum\limits_{t=1}^{T}t\right)^{2}}</math><br />
<br />
<math>\log b=\frac{T\cdot \sum\limits_{t=1}^{T}t\cdot \log x_{t}-\sum\limits_{t=1}^{T}\log x_{t}\cdot \sum\limits_{t=1}^{T}t}{T\cdot \sum\limits_{t=1}^{T}t^{2}-\left(\sum\limits_{t=1}^{T}t\right)^{2}}</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Informationen zur Ordnung des gleitenden Durchschnitts===<br />
<br />
[[Stützbereich]]: Anzahl <math>k</math> der Werte, die in die [[Mittelwert]]berechnung eingehen.<br />
<br />
* Ungerade Ordnung <math>2k+1:</math><br />
<br />
: <math>X_t^* = \frac{1}{2k + 1}\cdot \sum_{i=t-k}^{t+k} X_i \qquad t= k+1, \ldots,T-k</math><br />
<br />
* Gerade Ordnung <math>2k:</math><br />
<br />
: <math>X_{t}^{*}=\frac{1}{2k}\cdot \left[ \frac{1}{2}\cdot X_{t-k}+\frac{1}{2}\cdot X_{t+k}+\sum_{i=t-(k-1)}^{t+(k-1)}X_{i}\right] \qquad t=k+1,\ldots ,T-k</math><br />
<br />
* Beispiel für ungerade Ordnung:<br />
<br />
:{|style="width:85%"<br />
|<math>\,k</math><br />
|<math>\,1</math><br />
|<math>\,2</math><br />
|-<br />
|<math>\mbox{Ordnung}</math><br />
|<math>2k+1=3</math><br />
|<math>2k+1=5</math><br />
|-<br />
|<math>\,x_{1}</math><br />
|<math>\,x_{1}^{*}</math> ---<br />
|<math>\,x_{1}^{*}</math> ---<br />
|-<br />
|<math>\,x_{2}</math><br />
|<math>\,x_{2}^{*}=\frac{1}{3}\cdot\sum_{i=1}^{3}x_{i}</math><br />
|<math>\,x_{2}^{*}</math> ---<br />
|-<br />
|<math>\,x_{3}</math><br />
|<math>\,x_{3}^{*}=\frac{1}{3}\cdot \sum_{i=2}^{4}x_{i}</math><br />
|<math>\,x_{3}^{*}=\frac{1}{5}\cdot \sum_{i=1}^{5}x_{i}</math><br />
|-<br />
|<math>\,x_{4}</math><br />
|<math>\,x_{4}^{*}=\frac{1}{3}\cdot \sum_{i=3}^{5}x_{i}</math><br />
|<math>\,x_{4}^{*}=\frac{1}{5}\cdot \sum_{i=2}^{6}x_{i}</math><br />
|-<br />
|<math>\vdots</math><br />
|<math>\vdots</math><br />
|<math>\vdots</math><br />
|-<br />
|<math>\,x_{T-2}</math><br />
|<math>\,x_{T-2}^{*}=\frac{1}{3}\cdot \sum_{i=T-3}^{T-1}x_{i}</math><br />
|<math>\,x_{T-2}^{*}=\frac{1}{5}\cdot \sum_{i=T-4}^{T}x_{i}</math><br />
|-<br />
|<math>\,x_{T-1}</math><br />
|<math>\,x_{T-1}^{*}=\frac{1}{3}\cdot \sum_{i=T-2}^{T}x_{i}</math><br />
|<math>\,x_{4}^{*}</math> ---<br />
|-<br />
|<math>\,x_{T}</math><br />
|<math>\,x_{T}^{*}</math> ---<br />
|<math>\,x_{T}^{*}</math> ---<br />
|}<br />
<br />
* Beispiel für gerade Ordnung:<br />
<br />
:{|style="width:95%"<br />
|<math>\,k</math><br />
|<math>\,1</math><br />
|<math>\,2</math><br />
|-<br />
|<math>\mbox{Ordnung}</math><br />
|<math>\,2k=2</math><br />
|<math>\,2k=4</math><br />
|-<br />
|<math>\,x_{1}</math><br />
|<math>\,x_{1}^{*}</math> ---<br />
|<math>\,x_{1}^{*}</math> ---<br />
|-<br />
|<math>\,x_{2}</math><br />
|<math>\,x_{2}^{*}=\frac{1}{2}\cdot \left[\frac{1}{2}\cdot x_{1}+\frac{1}{2}\cdot x_{3}+x_{2}\right]</math><br />
|<math>\,x_{2}^{*}</math> ---<br />
|-<br />
|<math>\,x_{3}</math><br />
|<math>\,x_{3}^{*}=\frac{1}{2}\cdot \left[ \frac{1}{2}\cdot x_{2}+\frac{1}{2}\cdot x_{4}+x_{3}\right]</math><br />
|<math>\,x_{3}^{*}=\frac{1}{4}\cdot \left[ \frac{1}{2}\cdot x_{1}+\frac{1}{2}\cdot x_{5}+\sum_{i=2}^{4}x_{i}\right]</math><br />
|-<br />
|<math>\,x_{4}</math><br />
|<math>\,x_{4}^{*}=\frac{1}{2}\cdot \left[\frac{1}{2}\cdot x_{3}+\frac{1}{2}\cdot x_{5}+x_{4}\right]</math><br />
|<math>\,x_{3}^{*}=\frac{1}{4}\cdot \left[ \frac{1}{2}\cdot x_{2}+\frac{1}{2}\cdot x_{6}+\sum_{i=3}^{5}x_{i}\right] </math><br />
|-<br />
|<math>\vdots</math><br />
|<math>\vdots</math><br />
|<math>\vdots</math><br />
|-<br />
|<math>\,x_{T-2}</math><br />
|<math>\,x_{T-2}^{*}=\frac{1}{2}\cdot \left[ \frac{1}{2}\cdot x_{T-3}+\frac{1}{2}\cdot x_{T-1}+x_{T-2}\right]</math><br />
|<math>\,x_{T-2}^{*}=\frac{1}{4}\cdot \left[ \frac{1}{2}\cdot x_{T-4}+\frac{1}{2}\cdot x_{T}+\sum_{i=T-3}^{T-1}x_{i}\right]</math><br />
|-<br />
|<math>\,x_{T-1}</math><br />
|<math>\,x_{T-1}^{*}=\frac{1}{2}\cdot \left[ \frac{1}{2}\cdot x_{T-2}+\frac{1}{2}\cdot x_{T}+x_{T-1}\right]</math><br />
|<math>\,x_{T-1}^{*}</math> ---<br />
|-<br />
|<math>\,x_{T}</math><br />
|<math>\,x_{T}^{*}</math> ---<br />
|<math>\,x_{T}^{*}</math> ---<br />
|}<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Preisindex (Lineare Trendfunktion)===<br />
<br />
Preisindex für fremde Reparaturen und sonstige Dienstleistungen<br />
Berlin, 1. Quartal 1977 - 4. Quartal 1989<br />
<br />
<math>\widehat{x}_{t}=99,12+1,701\cdot t\qquad R^{2}=0,9923</math><br />
<br />
<math>t = 0</math> entspricht dem 4. Quartal 1976.<br />
<br />
[[Bild:STAT-Zeitreihe7.gif]]<br />
<br />
===Anzahl der Telefone (Exponentialtrend)===<br />
<br />
Anzahl der Telefone in den USA (in 1000) 1900-1970<br />
<br />
<math>\log \widehat{x}_{t}=3,553645+0,021448\cdot t</math><br />
<br />
<math>R^{2}=0,9923</math><br />
<br />
<math>t = 0</math> entspricht 1899.<br />
<br />
<math>\widehat{x}_{t}=3578,04\cdot (1,051)^{t}</math><br />
<br />
<iframe k="wiwi" p="examples/stat_Trend_Anzahl_Telefone_R00480004800000000000000_plot.html" /><br />
<br />
===PKW (Symmetrischer Filter)===<br />
<br />
Zulassungszahl neuer PKW in Berlin 1. Quartal 1977 - 4. Quartal 1989 (Quartalsdaten)<br />
<br />
[[Filter]]: <math>\left[\frac{1}{8},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{4},\; \frac{1}{8}\right]</math><br />
<br />
rot: Originalzeitreihe<br />
<br />
schwarz: geglättete Reihe (Trend)<br />
<br />
<iframe k="wiwi" p="examples/stat_Trend_Zulassung_PKW_R00480004800000000000000_plot.html" /><br />
<br />
===Leistungsbilanzsalden===<br />
<br />
Die folgende [[Zeitreihe]] beschreibt die Entwicklung der Leistungsbilanzsalden (in Mio Mark) der Bundesrepublik Deutschland in den Jahren 1977 - 1995:<br />
<br />
Der Trend dieser [[Zeitreihe]] soll mit der [[Methode der gleitenden Durchschnitte]] [[Schätzung|geschätzt]] werden. Hierzu verwendet man die Formel<br />
<br />
<math>T(t)=\sum_{i=-a}^{b}\lambda_{i}\cdot x_{t+i},\; \mbox{ mit }\sum_{i=-a}^{b}\lambda _{i}=1</math><br />
<br />
Da ausgehend von einem Zeitpunkt <math>t</math> Vergangenheits- und Zukunftswerte gleichgewichtet in die Trend[[schätzung]] eingehen sollen, wird <math>a = b</math> gewählt. <br />
<br />
Zur Glättung von Jahresdaten verwendet man einen einfachen gleitenden Durchschnitt, bei dem die Gewichte <math>\lambda_{i}</math> für alle <math>i</math> identisch sind. <br />
<br />
Die Gewichte müssen sich über den gesamten [[Stützbereich]] zu 1 aufaddieren. Also gilt:<br />
<br />
<math>\lambda_i = \frac{1}{2a + 1}</math> für alle <math>i</math><br />
<br />
In der folgenden Tabelle wurde der gleitende Durchschnitt <math>T(t)</math> jeweils für <math>a=1,\; a=2</math> und <math>a=3\;</math> berechnet.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" rowspan="2"|Jahr<br />
|align="center" rowspan="2"|<math>t</math><br />
|align="center" rowspan="2"|Leistungsbilanz<br />
|align="center"|<math>T(t)</math><br />
|align="center"|<math>T(t)</math><br />
|align="center"|<math>T(t)</math><br />
|-<br />
|align="center"|<math>a=1</math><br />
|align="center"|<math>a=2</math><br />
|align="center"|<math>a=3</math><br />
|-<br />
|align="center"|1977<br />
|align="center"|1<br />
|align="center"|9478<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1978<br />
|align="center"|2<br />
|align="center"|18003<br />
|align="center"|5483,3<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1979<br />
|align="center"|3<br />
|align="center"|-11031<br />
|align="center"|-7169,3<br />
|align="center"|-4754,2<br />
|<br />
|-<br />
|align="center"|1980<br />
|align="center"|4<br />
|align="center"|-28480<br />
|align="center"|-17084<br />
|align="center"|-4676,6<br />
|align="center"|-476<br />
|-<br />
|align="center"|1981<br />
|align="center"|5<br />
|align="center"|-11741<br />
|align="center"|-10118,3<br />
|align="center"|-6162,6<br />
|align="center"|2161,4<br />
|-<br />
|align="center"|1982<br />
|align="center"|6<br />
|align="center"|9866<br />
|align="center"|2899,3<br />
|align="center"|1631,6<br />
|align="center"|6493,4<br />
|-<br />
|align="center"|1983<br />
|align="center"|7<br />
|align="center"|10573<br />
|align="center"|16126,3<br />
|align="center"|16993<br />
|align="center"|20325,4<br />
|-<br />
|align="center"|1984<br />
|align="center"|8<br />
|align="center"|27940<br />
|align="center"|28946,7<br />
|align="center"|36499,8<br />
|align="center"|36122,1<br />
|-<br />
|align="center"|1985<br />
|align="center"|9<br />
|align="center"|48327<br />
|align="center"|54020<br />
|align="center"|50946<br />
|align="center"|50418,9<br />
|-<br />
|align="center"|1986<br />
|align="center"|10<br />
|align="center"|85793<br />
|align="center"|72072,3<br />
|align="center"|66498,6<br />
|align="center"|63874,7<br />
|-<br />
|align="center"|1987<br />
|align="center"|11<br />
|align="center"|82097<br />
|align="center"|85408,7<br />
|align="center"|81722<br />
|align="center"|64551,3<br />
|-<br />
|align="center"|1988<br />
|align="center"|12<br />
|align="center"|88336<br />
|align="center"|91496,7<br />
|align="center"|75118,4<br />
|align="center"|56000,4<br />
|-<br />
|align="center"|1989<br />
|align="center"|13<br />
|align="center"|104057<br />
|align="center"|69234<br />
|align="center"|51576,6<br />
|align="center"|44779,3<br />
|-<br />
|align="center"|1990<br />
|align="center"|14<br />
|align="center"|15309<br />
|align="center"|29150<br />
|align="center"|29113<br />
|align="center"|29186<br />
|-<br />
|align="center"|1991<br />
|align="center"|15<br />
|align="center"|-31916<br />
|align="center"|-15609,3<br />
|align="center"|6774,4<br />
|align="center"|12573,9<br />
|-<br />
|align="center"|1992<br />
|align="center"|16<br />
|align="center"|-30221<br />
|align="center"|-28498<br />
|align="center"|-20875,2<br />
|align="center"|-4876,7<br />
|-<br />
|align="center"|1993<br />
|align="center"|17<br />
|align="center"|-23357<br />
|align="center"|-29256,3<br />
|align="center"|-30700,6<br />
|align="center"|<br />
|-<br />
|align="center"|1994<br />
|align="center"|18<br />
|align="center"|-34191<br />
|align="center"|-30455,3<br />
|<br />
|<br />
|-<br />
|align="center"|1995<br />
|align="center"|19<br />
|align="center"|-33818<br />
|<br />
|<br />
|<br />
|}<br />
<br />
Wenn <math>a = 1</math> ist, kann man für die Periode <math>t = 1</math> keinen Trend [[Schätzung|schätzen]], weil der Wert der [[Zeitreihe]] in <math>t = 0</math> unbekannt ist.<br />
<br />
Für <math>t = 2</math> ist der [[Schätzung|geschätzt]]e Trend dann <math>\frac{9478}{3} + \frac{18003}{3} + \frac{-11031}{3} = 5483,3</math><br />
<br />
In der folgenden Grafik werden die drei [[Schätzung]]en und die Originalreihe miteinander verglichen:<br />
<br />
<iframe k="wiwi" p="examples/stat_Trend_Leistungsbilanzsalden_R00480004800000000000000_plot.html" /><br />
Man erkennt zwei wichtige Eigenschaften des Verfahrens:<br />
<br />
* Je größer der [[Stützbereich]], über den der Trend [[Schätzung|geschätzt]] wurde (also je größer <math>a</math>), umso mehr Trendwerte konnten nicht [[Schätzung|geschätzt]] werden.<br />
<br />
* Der [[Schätzung|geschätzt]]e Trend wird bei vergrößertem [[Stützbereich]] glatter.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Test_auf_Anteilswert&diff=1265Test auf Anteilswert2018-05-30T15:45:09Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Test auf Anteilswert===<br />
<br />
Vorausgesetzt wird eine [[dichotomes Merkmal|dichotome]] [[Grundgesamtheit]], in der ein unbekannter Anteil <math>\pi</math> von<br />
[[Statistisches Element|Elementen]] eine interessierende Eigenschaft aufweist und ein Anteil <math>1 - \pi</math> diese Eigenschaft nicht besitzt. <br />
<br />
Über <math>\pi</math> existiert eine Annahme (hypothetischer Wert) <math>\pi_{0}</math>. Diese Annahme soll mittels eines [[Statistischer Test|statistischen Tests]] geprüft werden, wobei es sich um einen [[Parametertest]] handelt.<br />
<br />
Es wird im Weiteren vorausgesetzt, dass der [[Statistischer Test|Test]] auf einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] vom vorgegebenen [[Stichprobenumfang|Umfang]] <math>n</math> basiert, womit die [[Stichprobenvariable]]n <math>X_{1},\ldots ,X_{n}</math>, die nur die Werte 0 oder 1 annehmen können, [[Unabhängigkeit (stochastisch)|unabhängig]] und identisch [[Bernoulli-Experiment|Bernoulli-verteilt]] sind. <br />
<br />
Geprüft wird auf dem [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
Je nach Problemstellung können die Tests als [[zweiseitiger Test|zwei-]] oder [[Einseitiger Test|einseitige Tests]] formuliert werden.<br />
<br />
* Zweiseitiger Test<br />
<br />
: <math>H_{0}:\;\pi =\pi_{0},\quad H_{1}:\;\pi \neq \pi_{0}</math><br />
<br />
* Rechtsseitiger Test<br />
<br />
: <math>H_{0}:\;\pi \leq \pi_{0},\quad H_{1}:\pi >\pi_{0}</math><br />
<br />
* Linksseitiger Test<br />
<br />
: <math>H_{0}:\pi \geq \pi_{0},\quad H_{1}:\pi <\pi_{0}</math><br />
<br />
Für die Wahl der [[Hypothese]]nformulierung gelten die Ausführungen zum "[[Test auf Mittelwert]]" in analoger Weise.<br />
<br />
===Teststatistik des Tests auf Anteilswert===<br />
<br />
Der [[Stichprobenanteilswert]]<br />
<br />
<math>\widehat{\pi}=\frac{X}{n}=\frac{1}{n}\cdot\sum_{i=1}^{n}X_{i}</math><br />
<br />
ist eine geeignete [[Schätzfunktion]] für <math>\pi</math>. <br />
<br />
Eine gleichwertige [[Stichprobenfunktion]] ist die [[Zufallsvariable]] <math>X\;</math><br />
<br />
<math>X=\sum_{i=1}^{n}X_{i}</math><br />
<br />
als Anzahl der [[Statistisches Element|Elemente]] mit der interessierenden Eigenschaft in der [[Zufallsstichprobe]], denn sie unterscheidet sich nur durch den konstanten Faktor <math>\frac{1}{n}</math> vom [[Stichprobenanteilswert]]. <br />
<br />
Wie bereits gezeigt (siehe Abschnitt "[[Verteilung des Stichprobenanteilswertes]]" und "[[Binomialverteilung]]"), ist <math>X\;</math> [[Binomialverteilung|binomialverteilt]] mit den [[Parameter]]n <math>n</math> und <math>\pi:\; X \sim B(n;\pi)</math>. <br />
<br />
Da der [[Stichprobenumfang]] <math>n</math> vorgegeben ist, muss zur konkreten Angabe der [[Binomialverteilung]] noch <math>\pi</math> festgelegt werden. <br />
<br />
Die einzige verfügbare Information über <math>\pi</math> ist der hypothetische Wert <math>\pi_{0}</math>. <br />
<br />
Es wird nun unterstellt, dass <math>\pi_{0}</math> der wahre [[Anteilswert der Grundgesamtheit|Anteilswert in der Grundgesamtheit]] ist, d.h. <math>\pi = \pi_{0}</math> gilt. <br />
<br />
Damit folgt:<br />
<br />
Die [[Schätzfunktion]] <math>X\;</math> kann unmittelbar als [[Teststatistik]] verwendet werden, die bei Gültigkeit der [[Nullhypothese]] <math>H_{0}</math> [[Binomialverteilung|binomialverteilt]] ist mit den [[Parameter]]n <math>n</math> und <math>\pi_{0}</math>.<br />
<br />
<math>V=X \mbox{ ist unter }H_{0}\sim B(n;\;\pi_{0})\mbox{-verteilt}</math><br />
<br />
===Entscheidungsbereiche des Tests auf Anteilswert===<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese]] beinhaltet alle [[Realisation]]en der [[Teststatistik]] <math>V\;</math>, deren aufsummierte [[Wahrscheinlichkeit]]en maximal <math>\alpha</math> betragen. <br />
<br />
Die [[Kritischer Wert|kritischen Werte]] findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] <math>F_{B}</math> der <math>B(n; \pi_{0})</math> wie folgt:<br />
<br />
====Zweiseitiger Test====<br />
<br />
Der untere [[Kritischer Wert|kritische Wert]] <math>x_{u}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}(x)</math> den Wert <math>\frac{\alpha}{2}</math> gerade überschreitet, so dass gilt: <br />
<br />
<math>F_{B}(x_{u} - 1)\leq \frac{\alpha}{2}</math> und <math>F_{B}(x_{u})>\frac{\alpha}{2}</math>.<br />
<br />
Der obere [[Kritischer Wert|kritische Wert]] <math>x_{o}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}(x)</math> den Wert <math>1 - \frac{\alpha}{2}</math> gerade erreicht oder überschreitet, so dass gilt:<br />
<br />
<math>F_{B}(x_{o} - 1) < 1 -\frac{\alpha}{2}</math> und <math>F_{B}(x_{o})\geq 1 - \frac{\alpha}{2}</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v<x_{u}\mbox{ oder }v>x_{o}\right\}</math> mit <math>P\left(V<x_{u}|\pi_{0}\right)+P\left(V>x_{o}|\pi_{0}\right) \leq \alpha</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|x_{u}\leq v\leq x_{o}\right\}</math> mit <math>P\left(x_{u}\leq V\leq x_{o}|\pi_{0}\right) \geq 1-\alpha</math>.<br />
<br />
====Rechtsseitiger Test====<br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>x_{c}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}(x)</math> den Wert <math>1-\alpha</math> gerade erreicht oder überschreitet, so dass gilt: <br />
<br />
<math>F_{B}\left(x_{c}-1\right)<1-\alpha</math> und <math>F_{B}\left(x_{c} \right) \geq 1-\alpha</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v>x_{c}\right\}</math> mit <math>P\left(V>x_{c}|\pi_{0}\right)\leq\alpha</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|v\leq x_{c}\right\}</math> mit <math>P\left(V\leq x_{c}|\pi_{0}\right) \geq 1-\alpha</math>.<br />
<br />
====Linksseitiger Test====<br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>x_{c}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}(x)</math> den Wert <math>\alpha</math> gerade überschreitet, so dass gilt: <br />
<br />
<math>F_{B}\left(x_{c}-1\right) \leq \alpha</math> und <math>F_{B}\left(x_{c}\right)>\alpha</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v<x_{c}\right\}</math> mit <math>P\left(V<x_{c}|\pi_{0}\right)\leq\alpha</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|v\geq x_{c}\right\}</math> mit <math>P\left(V\geq x_{c}|\pi_{0}\right) \geq 1-\alpha</math>.<br />
<br />
===Prüfwert des Tests auf Anteilswert===<br />
<br />
Wenn die [[einfache Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> gezogen wurde, liegen die konkreten [[Stichprobenwerte]] <math>x_{1},\ldots ,x_{n}</math> vor und der [[Prüfwert]] <math>v</math> der entsprechenden Teststatistik <math>V\;</math> kann ermittelt werden.<br />
<br />
===Entscheidungssituationen des Tests auf Anteilswert===<br />
<br />
Testentscheidung und Interpretation erfolgen in gleicher Weise wie beim "[[Test auf Mittelwert]]".<br />
<br />
===Gütefunktion des Tests auf Anteilswert===<br />
<br />
Für die [[Teststatistik]] <math>V</math> bei genügend großem [[Stichprobenumfang]] ([[Approximation]] durch die [[Normalverteilung]] - siehe unten)<br />
<br />
<math>V=\cfrac{\widehat{\pi }-\pi_{0}}{\sigma_{0}\left( \widehat{\pi }\right) }=\cfrac{\widehat{\pi }-\pi_{0}}{\sqrt{\cfrac{\pi_{0}\left( 1-\pi_{0}\right) }{n}}}</math><br />
<br />
lassen sich für die verschiedenen [[Statistischer Test|Test]]varianten die Formeln für die Berechnung der [[Gütefunktion]] in ähnlicher Weise wie beim [[Test auf Mittelwert]] herleiten, worauf an dieser Stelle verzichtet wird.<br />
<br />
Wenn <math>V = X\;</math> die [[Teststatistik]] ist, muss auch zur Berechnung der [[Gütefunktion]] <math>G(\pi)</math> die [[Binomialverteilung]] verwendet werden, d.h. <math>B(n;\pi)</math> für alle zulässigen Werte <math>0 = \pi = 1</math> und festes <math>n</math>.<br />
<br />
Für<br />
<br />
<math>G\left(\pi \right)=P\left( V=X\in \mbox{ Ablehnungsbereich der }H_{0}|\pi \right)</math><br />
<br />
folgt<br />
<br />
* beim [[zweiseitiger Test|zweiseitigen Test]]<br />
<br />
: <math>G\left(\pi\right)=P\left(V<x_{u}|\pi \right)+P\left(V>x_{o}|\pi \right)=P\left(V\leq x_{u}-1|\pi \right)+\left[1-P\left(V\leq x_{o}|\pi \right)\right]</math><br />
<br />
* beim [[Rechtsseitiger Test|rechtsseitigen Test]]<br />
<br />
: <math>G\left(\pi\right)=P\left(V>x_{c}|\pi \right)=1-P\left(V\leq x_{c}|\pi\right)</math>,<br />
<br />
* beim [[Linksseitiger Test|linksseitigen Test]]<br />
<br />
: <math>G\left(\pi\right)=P\left(V<x_{c}|\pi \right)=P\left(V\leq x_{c}-1|\pi \right)</math>.<br />
<br />
Die [[Wahrscheinlichkeit]]en sind aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(n;\pi)</math> zu entnehmen.<br />
<br />
Die [[Gütefunktion]] an der Stelle <math>\pi =\pi_{0}</math> entspricht stets dem exakten [[Signifikanzniveau]] <math>\alpha_{exakt}</math>.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Approximation durch die Normalverteilung===<br />
<br />
Da <math>V = X\;</math> eine [[diskrete Zufallsvariable]] ist, gilt für alle [[Statistischer Test|Test]]varianten, dass das vorgegebene [[Signifikanzniveau]] <math>\alpha</math> nicht notwendig ausgeschöpft und somit nur mit dem sich ergebenden exakten [[Signifikanzniveau]] <math>\alpha_{exakt}</math> getestet wird.<br />
<br />
Für genügend großen [[Stichprobenumfang]] <math>n</math> wird, ausgehend von der [[Schätzfunktion]] <math>\widehat{\pi}</math> die [[Standardisierung|standardisierte]] [[Zufallsvariable]]<br />
<br />
<math>V=\cfrac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left( \widehat{\pi}\right)}=\cfrac{\widehat{\pi}-\pi_{0}}{\sqrt{\cfrac{\pi_{0}\left( 1-\pi_{0}\right)}{n}}}</math><br />
<br />
als [[Teststatistik]] verwendet, wobei <math>\sigma_{0}\left(\widehat{\pi}\right)</math> die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Schätzfunktion]] <math>\widehat{\pi}</math> unter <math>H_{0}</math> bezeichnet. <br />
<br />
<math>V\;</math> ist bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Standardnormalverteilung|standardnormalverteilt]] (siehe Abschnitt [[Verteilung des Stichprobenanteilswertes]]). Für das vorgegebene [[Signifikanzniveau]] <math>\alpha</math> können die [[Kritischer Wert|kritischen Werte]] aus der Tabelle der [[Standardnormalverteilung]] entnommen werden. <br />
<br />
Für die einzelnen [[Statistischer Test|Test]]möglichkeiten ergeben sich die [[Entscheidungsbereiche]] analog zum [[Approximation|approximativen]] [[Einstichproben-t-Test]]. Da <math>E\left[\widehat{\pi}\right]=\pi</math> gilt, wird deutlich, dass eine [[Hypothese]] über den [[Anteilswert der Grundgesamtheit|Anteilswert]] <math>p</math> einer [[Hypothese]] über den [[Erwartungswert]] entspricht.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Statistik-Bücher===<br />
<br />
Ein Statistik-Professor vermutet, dass es im letzten Jahr deutliche Verschiebungen im Anteil der Neuzugänge an Büchern in der Universitätsbibliothek zuungunsten der Statistik-Literatur gegeben hat. <br />
<br />
In der Vergangenheit betrug der Anteil der Statistik-Literatur an allen Neuzugängen der Bibliothek mehr als 10%. Er beauftragt deshalb seinen Assistenten mit einer Überprüfung. <br />
<br />
Dabei will er im Interesse seiner Studenten das Risiko, keinen Einspruch bei der Universitätsbibliothek einzulegen, obwohl der Anteil geringer geworden ist, klein halten.<br />
<br />
Die Überprüfung läuft auf einen Test des Anteilswertes einer [[dichotomes Merkmal|dichotomen]] [[Grundgesamtheit]] hinaus, wobei der hypothetische Wert <math>\pi_{0} = 0,1</math> ist. <br />
<br />
Die [[Grundgesamtheit]] ist in der Hinsicht [[dichotomes Merkmal|dichotom]], da eine weitere fachwissenschaftliche Untergliederung der Neuzugänge im Zusammenhang mit dem Test ohne Bedeutung ist, so dass nur zwei mögliche [[Ereignis]]se gegeben sind: <br />
<br />
der Neuzugang ist ein Statistik-Buch und der Neuzugang ist kein Statistik-Buch. <br />
<br />
Der Test soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> und mittels einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> durchgeführt werden.<br />
<br />
Da nur Abweichungen vom hypothetischen Wert nach einer Seite von Bedeutung sind, wird ein [[einseitiger Test]] durchgeführt. <br />
<br />
Die Behauptung des Professors, dass der Anteil der Statistik-Lektüre an den Neuzugängen höchstens noch 10% beträgt, wird als [[Nullhypothese]] formuliert mit dem Ziel, sie möglichst abzulehnen.<br />
<br />
Daraus ergibt sich ein [[rechtsseitiger Test]]:<br />
<br />
<math>H_{0}:\; \pi \leq \pi_{0}=0,1 \quad H_{1}:\; \pi > \pi_{0}=0,1</math><br />
<br />
Über eine Fehlerbetrachtung ist zu prüfen, ob bei dieser [[Hypothese]]nformulierung die Intention des Professors eingehalten wird. <br />
<br />
Der bei der [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] mögliche [[Fehler 1. Art]] hat folgenden Inhalt:<br />
<br />
<math>\mbox{''}H_{1}\mbox{''}|H_{0}=</math> "Der Anteil der Statistik-Bücher an den Neuzugängen hat sich nicht verändert" | In Wirklichkeit hat er sich verringert.<br />
<br />
Die [[Wahrscheinlichkeit]] eines [[Fehler 1. Art|Fehlers 1. Art]] <math>P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)</math>, ist das [[Signifikanzniveau]] <math>\alpha</math>, so dass mit dessen Vorgabe (hier <math>\alpha = 0,05</math>) das Risiko eines derartigen Fehlers gering gehalten werden kann. <br />
<br />
Damit wird die Zielstellung des Professors bei der Durchführung des [[Statistischer Test|Tests]] eingehalten.<br />
<br />
Wird im Ergebnis des [[Statistischer Test|Tests]] die [[Nullhypothese]] nicht abgelehnt, ist der Inhalt des dann möglichen [[Fehler 2. Art|Fehlers 2. Art]]:<br />
<br />
<math>\mbox{''}H_{0}\mbox{''}|H_{1}= </math> "Der Anteil der Statistik-Bücher an den Neuzugängen hat sich verringert" | In Wirklichkeit ist alles wie vorher.<br />
<br />
Die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] <math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right) =\beta</math><br />
ist unbekannt, da der wahre [[Anteilswert der Grundgesamtheit|Anteilswert]] <math>\pi</math> unter der [[Alternativhypothese]] nicht bekannt ist. <br />
<br />
Diese [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]], d.h. das Risiko für einen unberechtigten Einspruch des Professors<br />
bei der Universitätsbibliothek, kann sehr groß sein. Das muss der Professor jedoch in Kauf nehmen, da er andere Prioritäten für die Überprüfung gesetzt hatte.<br />
<br />
====Teststatistik und Entscheidungsbereiche====<br />
<br />
Die [[Schätzfunktion]] <math>X\;</math> "Anzahl der Statistik - Bücher in einer [[Zufallsstichprobe]] von [[Stichprobenumfang|Umfang]] <math>n = 25</math>" kann unmittelbar als [[Teststatistik]] <math>V\;</math> verwendet werden. <br />
<br />
<math>V = X\;</math> ist unter <math>H_{0} \sim B( 25;\;0,1)</math>-[[Verteilung (stochastisch)|verteilt]]. <br />
<br />
Eine große Anzahl von Statistik-Büchern in der [[Stichprobe]] spricht dabei gegen die [[Nullhypothese]] und für die [[Alternativhypothese]], d.h. für einen nicht gesunkenen Anteil der Statistik-Bücher an den Neuzugängen. <br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>x_{c}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}\left( x\right)</math> den Wert <math>1-\alpha =0,95</math> gerade erreicht oder überschreitet, so dass gilt <math>F_{B}\left( x_{c}-1\right) <1-\alpha=0,95</math> und <math>F_{B}\left(x_{c}\right) \geq 1-\alpha =0,95</math>.<br />
<br />
In der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(25;\; 0,1)</math> findet man <math>x_{c} = 5</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist damit gegeben durch<br />
<br />
<math>\left\{ v|v>5\right\}=\left\{6,7,\ldots ,25\right\}</math> mit <math>P\left( V>5|0,1\right) =0,0334=\alpha_{exakt}</math>.<br />
<br />
Da <math>V = X\;</math> eine [[diskrete Zufallsvariable]] ist, wird das vorgegebene [[Signifikanzniveau]] von <math>\alpha = 0,05</math> nicht voll ausgeschöpft. Es ist nur <math>\alpha_{exakt}= 0,0334</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|v\leq 5\right\} =\left\{0,1,2,3,4,5\right\}</math> mit <math>P\left(V\leq 5|0,1\right) =0,9666</math>.<br />
<br />
====Prüfwert und Testentscheidung====<br />
<br />
Aus den Neuzugängen an Büchern in der Universitätsbibliothek im letzten Jahr werden 25 Bücher zufällig ausgewählt und festgestellt, ob es sich um ein Statistik-Buch handelt oder nicht. <br />
<br />
Da die [[Grundgesamtheit|Gesamtheit]] aller Neuzugänge an Büchern pro Jahr in der Universitätsbibliothek als genügend groß anzusehen ist, spielt es kaum eine Rolle, ob eine [[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahl mit]] oder [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] durchgeführt wird. <br />
<br />
Eine [[einfache Zufallsstichprobe]] kann unterstellt werden.<br />
<br />
Es habe sich <math>x = 3</math> als Anzahl der Statistik-Bücher in der [[Zufallsstichprobe]] ergeben, was gleichzeitig der [[Prüfwert]] <math>v</math> ist.<br />
<br />
Da <math>v = x = 3</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<br />
fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> konnte [[Statistik|statistisch]] nicht bewiesen werden, dass der Anteil der [[Statistik]]-Bücher an den Neuzugängen der Universitätsbibliothek dem bisherigen Anteil von mehr als 10% entspricht. Der Professor wird Einspruch bei der Universitätsbibliothek einlegen.<br />
<br />
====Gütefunktion====<br />
<br />
Wie groß wäre die [[Wahrscheinlichkeit]], dass bei diesem [[Rechtsseitiger Test|rechtsseitigen Test]] (mit <math>\pi_{0}=0,1,\; n=25,\; \alpha =0,05</math> und <math>x_{c}=5</math>) die [[Nullhypothese]] nicht verworfen würde, wenn der wahre Anteil der [[Statistik]]-Bücher an den Neuzugängen <math>\pi = 0,2</math> betragen würde? <br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] unter der Bedingung, dass <math>\pi = 0,2</math> wahr ist:<br />
<br />
<math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right)=P\left( V=X\in \mbox{Nichtablehnungsbereich der } H_{0}|\pi =0,2\right) =P\left( V\leq 5|\pi =0,2\right)</math><br />
<br />
Diese [[Wahrscheinlichkeit]] kann direkt aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(25; 0,2)</math> entnommen werden. Sie beträgt 0,6167. <br />
<br />
Im Fall eines wahren Anteils von <math>\pi = 0,2</math> wird in 61,67% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> die Abweichung vom hypothetischen Wert <math>\pi_{0} = 0,1</math> durch den [[Statistischer Test|Test]] nicht aufgedeckt und ist die [[Wahrscheinlichkeit]] eines unberechtigten Einspruchs des Professors bei der Universitätsbibliothek.<br />
<br />
Die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] kann auch über die [[Gütefunktion]] berechnet werden. <br />
<br />
Die folgende Tabelle enthält für verschiedene zulässige Werte von <math>\pi</math> die [[Gütefunktion]] <math>G( \pi )</math> und <math>1 - G( \pi )</math> für den oben durchgeführten [[Rechtsseitiger Test|rechtsseitigen Test]]<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>\pi</math><br />
|align="center"|Gültigkeit von<br />
|align="center"|<math>G\left( \pi\right)</math><br />
|align="center"|<math>1-G\left( \pi\right)</math><br />
|-<br />
|align="center"|<math>0</math><br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0=\alpha</math><br />
|align="center"|<math>1=1-\alpha</math><br />
|-<br />
|align="center"|<math>0,05</math><br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0012=\alpha</math><br />
|align="center"|<math>0,9988=1-\alpha</math><br />
|-<br />
|align="center"|<math>0,1</math><br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0334=\alpha_{a}</math><br />
|align="center"|<math>0,9666=1-\alpha_{a}</math><br />
|-<br />
|align="center"|<math>0,15</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,1615=1-\beta</math><br />
|align="center"|<math>0,8385=\beta</math><br />
|-<br />
|align="center"|<math>0,20</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,3833=1-\beta</math><br />
|align="center"|<math>0,6167=\beta</math><br />
|-<br />
|align="center"|<math>0,25</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,6217=1-\beta</math><br />
|align="center"|<math>0,3783=\beta</math><br />
|-<br />
|align="center"|<math>0,30</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,8065=1-\beta</math><br />
|align="center"|<math>0,1935=\beta</math><br />
|-<br />
|align="center"|<math>0,35</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,9174=1-\beta</math><br />
|align="center"|<math>0,0826=\beta</math><br />
|-<br />
|align="center"|<math>0,40</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,9706=1-\beta</math><br />
|align="center"|<math>0,0294=\beta</math><br />
|-<br />
|align="center"|<math>0,45</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,9914=1-\beta</math><br />
|align="center"|<math>0,0086=\beta</math><br />
|-<br />
|align="center"|<math>0,50</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,9980=1-\beta</math><br />
|align="center"|<math>0,0020=\beta</math><br />
|-<br />
|align="center"|<math>0,60</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,9999=1-\beta</math><br />
|align="center"|<math>0,0001=\beta</math><br />
|-<br />
|align="center"|<math>0,70</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>1=1-\beta</math><br />
|align="center"|<math>0=\beta</math><br />
|}<br />
<br />
Wenn z.B. der wahre Anteil der [[Statistik]]-Bücher an den Neuzugängen <math>\pi = 0</math> ist, kann auf keinen Fall ein [[Statistik]]-Buch in der [[Stichprobe]] enthalten sein, d.h. man wird <math>x = 0</math> erhalten und die [[Nullhypothese]] nicht<br />
ablehnen. <br />
<br />
Die [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]], d.h. <math>\mbox{''}H_{1}\mbox{''}</math>, ist ein [[unmögliches Ereignis]]. <br />
<br />
Für die [[Gütefunktion]], die für <math>\pi = 0</math> die [[Wahrscheinlichkeit]] eines [[Fehler 1. Art|Fehlers 1. Art]] beinhaltet, folgt:<br />
<br />
<math>G\left(\pi = 0 \right) =P\left( V=X\in \mbox{ Ablehnungsbereich der } H_{0}|\pi =0\right) =P\left(\mbox{''}H_{1}\mbox{''}|0\right) =0</math><br />
<br />
Wenn dagegen der wahre Anteil der [[Statistik]]-Bücher an den Neuzugängen <math>\pi = 0,35</math> wäre, ergibt sich die<br />
[[Gütefunktion]] zu:<br />
<br />
<math>G\left(0,35\right)=P\left(V>5|\pi=0,35\right)=1-P\left(V\leq5|\pi=0,35\right)=1-0,0826=0,9174</math><br />
<br />
wobei man <math>P\left( V\leq 5|\pi=0,35\right)</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(25; 0,35)</math> für <math>x_{c}=5</math> findet.<br />
<br />
<math>G(\pi = 0,35)</math> beinhaltet die [[Wahrscheinlichkeit]] einer berechtigten [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]], d.h. <math>P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)=1- \beta</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] ist <math>\beta(\pi= 0,35) =1 - G( \pi = 0,35)= 0,0826</math>. Im Fall eines wahren Anteils von <math>\pi =0,35</math> wird in 8,26% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> die Abweichung vom hypothetischen Wert <math>\pi_{0} = 0,1</math> durch den [[Statistischer Test|Test]] nicht aufgedeckt.<br />
<br />
Die nachstehende Abbildung zeigt die [[Gütefunktion]] für den [[Rechtsseitiger Test|rechtsseitigen Test]] mit <math>\pi_{0}= 0,1,\; n = 25,\; \alpha = 0,05</math> und <math>x_{c} = 5</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_TestAnteilswert_Guetefunktion_rechtsseitig_R00480004800000000000000_plot.html" /><br />
<br />
===Kreditwürdigkeit===<br />
<br />
Zu den wichtigsten Aufgaben einer Bank gehört die Bewertung der Kreditwürdigkeit potentieller Kreditnehmer, um Kreditverluste niedrig zu halten.<br />
<br />
Die ABC-Bank will eine Verschärfung der Bewertungsrichtlinien der Kreditwürdigkeit vornehmen, wenn der Anteil von gewährten Krediten mit Schwierigkeiten bei der Rückzahlung nicht unter 20% liegt. <br />
<br />
Sie lässt deshalb von ihrer Statistik-Abteilung einen [[Statistischer Test|Test]] durchführen. Dabei will die Bank das Risiko, keine Veränderung in den Bewertungsrichtlinien vorzunehmen, obwohl der Anteil 20% und mehr beträgt, gering halten.<br />
<br />
Die [[Zufallsvariable]] <math>X\;</math>: "Schwierigkeiten bei der Kreditrückzahlung" weist nur die Werte 0 (nein) oder 1 (ja) auf. Der Anteil <math>\pi</math> der Kreditnehmer mit Schwierigkeiten bei der Rückzahlung ist unbekannt. <br />
<br />
Die Überprüfung läuft auf einen [[Statistischer Test|Test]] des [[Anteilswert der Grundgesamtheit|Anteilswertes]] einer [[dichotomes Merkmal|dichotomen]] [[Grundgesamtheit]] hinaus, wobei der hypothetische Wert <math>\pi_{0} = 0,2</math> ist.<br />
<br />
Es sind nur Abweichungen vom hypothetischen Wert nach einer Seite von Bedeutung, so dass ein [[einseitiger Test]] durchgeführt wird. <br />
<br />
Da die ABC-Bank nachweisen will, dass ihre derzeitigen Bewertungskriterien ausreichend sind, d.h. der Anteil der Kreditnehmer mit Rückzahlungsschwierigkeiten kleiner als 20% ist, wird diese Annahme als [[Alternativhypothese]] formuliert, woraus ein [[linksseitiger Test]] resultiert:<br />
<br />
<math>H_{0}:\;\pi \geq \pi_{0}=0,2\quad H_{1}:\;\pi<\pi_{0}=0,2</math><br />
<br />
Über eine Fehlerbetrachtung ist zu prüfen, ob bei dieser Hypothesenformulierung die Vorgabe der Bank eingehalten wird. <br />
<br />
Der bei der [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] mögliche [[Fehler 1. Art]] hat folgenden Inhalt:<br />
<br />
<math>\mbox{''}H_{1}\mbox{''}|H_{0}=</math> "Anteil mit Rückzahlungsschwierigkeiten <math> <20%</math>; Veränderungen in den Bewertungsrichtlinien werden nicht vorgenommen" | in Wirklichkeit ist der Anteil mit Rückzahlungsschwierigkeiten <math>\geq 20%</math>; Veränderungen in den Bewertungsrichtlinien müssten erfolgen.<br />
<br />
Wird im Ergebnis des [[Statistischer Test|Tests]] die [[Nullhypothese]] nicht abgelehnt, ist der Inhalt des möglichen [[Fehler 2. Art|Fehlers 2. Art]]:<br />
<br />
<math>\mbox{''}H_{0}\mbox{''}|H_{1} =</math> "Anteil mit Rückzahlungsschwierigkeiten <math>\geq 20%</math>; Veränderungen in den Bewertungsrichtlinien sind vorzunehmen"| in Wirklichkeit ist der Anteil mit Rückzahlungsschwierigkeiten <math>\leq 20%</math>; Veränderungen in den Bewertungsrichtlinien sind nicht notwendig.<br />
<br />
Der [[Fehler 1. Art]] entspricht der Risikovorgabe der ABC-Bank. Die [[Wahrscheinlichkeit]] für den [[Fehler 1. Art]] <math>P(\mbox{''}H_{1}\mbox{''}|H_{0})</math> kann über die Festlegung des [[Signifikanzniveau]]s gesteuert werden. Die Bank will dieses Risiko klein halten und gibt deshalb <math>\alpha = 0,05</math> vor.<br />
<br />
Der [[Fehler 2. Art]] hat für die Bank keine schwerwiegenden Folgen, denn eine Verschärfung der Bewertungsrichtlinien, obwohl es aufgrund des gesetzten Kriteriums nicht notwendig gewesen wäre, ist nicht nachteilig.<br />
<br />
Von dieser Hypothesenformulierung und dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = 0,05</math> wird bei den beiden<br />
folgenden [[Statistischer Test|Test]]varianten ausgegangen.<br />
<br />
Für die Durchführung des [[Statistischer Test|Tests]] soll eine [[einfache Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> aus den mehr als 10000 Kreditnehmern gezogen werden. <br />
<br />
Bei der gegebenen Problemstellung ist es nicht sinnvoll, das [[Zufallsauswahlmodell mit Zurücklegen]] anzuwenden. Bei Einhaltung eines [[Auswahlsatz]]es von <math>\frac{n}{N} \leq 0,05</math> kann jedoch eine [[Zufallsauswahlmodell ohne Zurücklegen|Zufallsauswahl ohne Zurücklegen]] näherungsweise als eine [[einfache Zufallsstichprobe]] angesehen werden.<br />
<br />
====Stichprobenumfang n=30====<br />
<br />
Um die Kosten für die Überprüfung niedrig zu halten, wird der [[Stichprobenumfang]] auf <math>n = 30</math> festgelegt. Die<br />
Forderung <math>\frac{n}{N}\leq 0,05</math> wird eingehalten.<br />
<br />
=====Teststatistik und Entscheidungsbereiche=====<br />
<br />
Die [[Schätzfunktion]] <math>X=\;</math> "Anzahl der Kreditnehmer mit Rückzahlungsschwierigkeiten in einer [[Zufallsstichprobe]] von [[Stichprobenumfang|Umfang]] <math>n = 30</math>" kann unmittelbar als [[Teststatistik]] <math>V\;</math> verwendet werden.<br />
<br />
<math>V = X\;</math> ist unter <math>H_{0}\sim B(30; 0,2)</math>-[[Verteilung (stochastisch)|verteilt]]. <br />
<br />
Eine kleine Anzahl von Kreditnehmern mit Rückzahlungsschwierigkeiten in der [[Stichprobe]] spricht dabei gegen die [[Nullhypothese]]. <br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>x_{c}</math> ist diejenige [[Realisation]] von <math>X\;</math>, für die <math>F_{B}(x)</math> den Wert <math>\alpha = 0,05</math> gerade überschreitet, so dass gilt: <br />
<br />
<math>F_{B}(x_{c} - 1) \leq 0,05</math> und <math>F_{B}(x_{c}) > 0,05</math>. <br />
<br />
In der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(30; 0,2)</math> findet man <math>x_{c} = 3</math>. <br />
<br />
Damit folgt:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]: <math>\left\{v|v<3\right\}=\left\{0,1,2\right\}</math>, mit <math>P\left(V<3|0,2\right) =0,0442</math>.<br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]: <math>\left\{v|v\geq 3\right\}=\left\{3,4,\ldots,30\right\}</math>, mit <math>P\left(V\geq 3|0,02\right) =0,9558</math>. <br />
<br />
Da <math>V = X\;</math> eine [[diskrete Zufallsvariable]] ist, wird das vorgegebene [[Signifikanzniveau]] von <math>\alpha = 0,05</math> nicht voll ausgeschöpft. Es ist nur <math>\alpha_{exakt}=0,0442</math>.<br />
<br />
=====Prüfwert und Testentscheidung=====<br />
<br />
Aus den Kreditnehmern werden 30 zufällig ausgewählt und festgestellt, ob es Schwierigkeiten bei der Rückzahlung gab oder nicht. <br />
<br />
Es habe sich <math>x = 5</math> als Anzahl der Kreditnehmer mit Rückzahlungsschwierigkeiten in der [[Zufallsstichprobe]] ergeben,<br />
was gleichzeitig der [[Prüfwert]] <math>v</math> ist.<br />
<br />
Da <math>v = x = 5</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<br />
fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Der in der [[Stichprobe]] beobachtete Anteil <math>\frac{5}{30} = 0,167</math> ist zwar kleiner als der hypothetische Wert <math>\pi_{0}= 0,20</math>, die Differenz zwischen beiden wird jedoch auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> noch nicht als wesentlich angesehen. <br />
<br />
Man beachte, dass bei [[Statistischer Test|Tests]] auf einem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> stets [[Entscheidungsbereiche]] ([[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] bzw. [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]) der [[Statistischer Test|Test]]entscheidung zugrunde liegen und nicht nur die [[Punktschätzung]]. <br />
<br />
Basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 30</math> konnte [[Statistik|statistisch]] nicht bewiesen werden, dass der Anteil der Kreditnehmer mit Rückzahlungsschwierigkeiten kleiner als 20% ist. Die ABC-Bank wird ihre<br />
Bewertungskriterien überarbeiten.<br />
<br />
=====Gütefunktion=====<br />
<br />
Mit der Beibehaltung der [[Nullhypothese]] kann ein [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> unterlaufen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist.<br />
<br />
Wie groß wäre die [[Wahrscheinlichkeit]], dass bei diesem [[Linksseitiger Test|linksseitigen Test]] (mit <math>\pi_{0}=0,2,\; n = 30,\; \alpha = 0,05</math> und <math>x_{c} = 3</math>) die [[Nullhypothese]] nicht verworfen würde, wenn der wahre Anteil der<br />
Kreditnehmer mit Rückzahlungsschwierigkeiten <math>\pi = 0,15</math> beträgt? <br />
<br />
Für <math>\pi = 0,15</math> gilt in Wirklichkeit die [[Alternativhypothese]], so dass die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] gesucht wird:<br />
<br />
<math>\beta \left( \pi =0,15\right) =P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right) =P\left(V=X\in\mbox{ Nichtablehnungsbereich der }H_{0}|\pi =0,15\right)=P\left(V\geq 3|\pi=0,15\right)</math><br />
<br />
Es ist<br />
<br />
<math>P\left( V\geq 3|\pi=0,15\right)=1-P\left(V<3|\pi=0,15\right)=1-P\left(V\leq 2|\pi=0,15\right)=1-0,1514=0,8486</math><br />
<br />
wobei man <math>P\left(V\leq 2|\pi=0,15\right)</math> in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B\left(30;\; 0,15\right)</math> findet. <br />
<br />
Im Fall eines wahren Anteils von <math>\pi =0,15</math> wird in <math>84,86%</math> aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 30</math> die Abweichung vom hypothetischen Wert <math>\pi_{0}=0,20</math>, durch den [[Statistischer Test|Test]] nicht aufgedeckt. <br />
<br />
Die Beibehaltung der [[Nullhypothese]] <math>(\mbox{''}H_{0}\mbox{''})</math> im Ergebnis des [[Statistischer Test|Tests]] auf der Basis der konkreten [[Stichprobe]] veranlasst die Bank zur Verschärfung der Bewertungsrichtlinien; da jedoch mit <math>\pi = 0,15</math> in Wirklichkeit die [[Alternativhypothese]] wahr ist, wäre die Veränderung der Bewertungsrichtlinien nicht<br />
notwendig. <br />
<br />
<math>\beta(\pi = 0,15) = 0,8496</math> ist somit die [[Wahrscheinlichkeit]] für eine nicht notwendige Veränderung der<br />
Richtlinien. <br />
<br />
Obwohl sie recht hoch ist, stellt sie aber für die Bank bei der [[Statistischer Test|Test]]durchführung nicht das entscheidende Problem dar (im Vergleich zur [[Wahrscheinlichkeit]] eines [[Fehler 1. Art|Fehlers 1. Art]]).<br />
<br />
Mit der Beibehaltung der [[Nullhypothese]] kann aber auch eine richtige Entscheidung getroffen werden, wenn in Wirklichkeit die<br />
[[Nullhypothese]] richtig ist <math>(\mbox{''}H_{0}\mbox{''}|H_{0})</math>.<br />
<br />
Wie groß wäre die [[Wahrscheinlichkeit]], dass bei diesem [[Linksseitiger Test|linksseitigen Test]] (mit <math>\pi_{0}=0,2,\; n = 30,\;\alpha = 0,05</math> und <math>x_{c} = 3</math>) die [[Nullhypothese]] nicht verworfen würde, wenn der wahre Anteil der<br />
Kreditnehmer mit Rückzahlungsschwierigkeiten <math>\pi = 0,25</math> beträgt? <br />
<br />
Für <math>\pi = 0,25</math> gilt in Wirklichkeit die [[Nullhypothese]], so dass folgende [[Wahrscheinlichkeit]] gesucht wird:<br />
<br />
<math>P\left( V=X \in \mbox{Nichtablehnungsbereich der }H_{0}|\pi=0,25\right) =P\left( V\geq 3|\pi =0,25\right) =P\left(\mbox{''}H_{0}\mbox{''}|H_{0}\right)=1-\alpha^{*}</math><br />
<br />
Es ist<br />
<br />
<math>P\left(V\geq 3|\pi=0,25\right)=1-P\left(V\leq 2|\pi=0,25\right)=1-P\left(V\leq 2|\pi=0,25\right)=1-0,0106=0,9894</math><br />
<br />
mit <math>P\left( V\leq 2|\pi=0,25\right)</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B\left(30;\; 0,25\right)</math><br />
<br />
Beide [[Wahrscheinlichkeit]]sberechnungen können für verschiedene zulässige Werte von <math>\pi</math> durchgeführt werden.<br />
<br />
Eine geeignete Berechnungs- und Darstellungsweise ist die [[Gütefunktion]] <math>G(\pi)</math> bzw. <math>1 - G(\pi)</math>.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>\pi</math><br />
|align="center"|Gültigkeit von<br />
|align="center"|<math>G\left(\pi\right)</math><br />
|align="center"|<math>1-G\left(\pi\right)</math><br />
|-<br />
|align="center"|0<br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>1=1-\beta</math><br />
|align="center"|<math>0=\beta</math><br />
|-<br />
|align="center"|0,05<br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,8122=1-\beta</math><br />
|align="center"|<math>0,1878=\beta</math><br />
|-<br />
|align="center"|0,10<br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,4114=1-\beta</math><br />
|align="center"|<math>0,5886=\beta</math><br />
|-<br />
|align="center"|0,15<br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,1514=1-\beta</math><br />
|align="center"|<math>0,8486=\beta</math><br />
|-<br />
|align="center"|0,20<br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0442=\alpha_{a}</math><br />
|align="center"|<math>0,9558=1-\alpha_{a}</math><br />
|-<br />
|align="center"|0,25<br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0106=\alpha</math><br />
|align="center"|<math>0,9894=1-\alpha</math><br />
|-<br />
|align="center"|0,30<br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0021=\alpha</math><br />
|align="center"|<math>0,9979=1-\alpha</math><br />
|-<br />
|align="center"|0,35<br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,0003=\alpha</math><br />
|align="center"|<math>0,9997=1-\alpha</math><br />
|-<br />
|align="center"|0,40<br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0=\alpha</math><br />
|align="center"|<math>1=1-\alpha</math><br />
|}<br />
<br />
Die nachstehende Abbildung zeigt die [[Gütefunktion]] für den [[Linksseitiger Test|linksseitigen Test]] mit <math>\pi_{0}=0,20,\; n = 30,\; \alpha = 0,05</math> und <math>x_{c} = 3</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_TestAnteilswert_Guetefunktion_linksseitig_R00480004800000000000000_plot.html" /><br />
<br />
====Stichprobenumfang n=350====<br />
<br />
Die [[Statistik]]-Abteilung will nicht nur die [[Wahrscheinlichkeit]] des für die Bank schwerwiegenden [[Fehler 1. Art|Fehlers 1. Art]] durch die Vorgabe von <math>\alpha = 0,05</math> niedrig halten, sondern auch erreichen, dass das Risiko für einen [[Fehler 2. Art]] nicht zu hoch ausfällt. <br />
<br />
Da bekannt ist, dass bei festgelegtem [[Signifikanzniveau]] <math>\alpha</math> die [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] über die Erhöhung des [[Stichprobenumfang]]s verringert werden kann, entscheidet sich die [[Statistik]]-Abteilung gleich für einen großen [[Stichprobenumfang]]: <math>n = 350</math>. Die Forderung <math>\frac{n}{N}\leq 0,05</math> wird eingehalten.<br />
<br />
=====Teststatistik und Entscheidungsbereiche=====<br />
<br />
Es wird die [[Teststatistik]]<br />
<br />
<math>V=\frac{\widehat{\pi }-\pi_{0}}{\sigma_{0}\left( \widehat{\pi }\right) }=<br />
\frac{\widehat{\pi }-\pi_{0}}{\sqrt{\cfrac{\pi_{0}\left( 1-\pi_{0}\right) }{n}}}</math><br />
<br />
verwendet, die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Standardnormalverteilung|standardnormalverteilt]] ist, da aufgrund des sehr großen [[Stichprobenumfang]]es die [[Approximation]]sbedingungen erfüllt sind.<br />
<br />
Für <math>P(V \leq c) = 1 - \alpha = 0,95</math> findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(0; 1):\; c = z_{0,95} = 1,645</math>, so dass wegen der Symmetrie der [[Normalverteilung]] der [[Kritischer Wert|kritische Wert]] <math>-c = - 1,645</math> ist. <br />
<br />
Der [[Approximation|approximative]] [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch <math>\left\{v|v<-1,645\right\}</math><br />
<br />
Für den [[Approximation|approximativen]] [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man <math>\left\{ v|v\geq -1,645\right\}</math><br />
<br />
=====Prüfwert und Testentscheidung=====<br />
<br />
Aus den Kreditnehmern werden 350 zufällig ausgewählt und festgestellt, ob es Schwierigkeiten bei der Rückzahlung gab oder nicht. <br />
<br />
Es habe sich <math>x = 63</math> als Anzahl der Kreditnehmer mit Rückzahlungsschwierigkeiten in der [[Zufallsstichprobe]]<br />
ergeben, womit der Anteil in der [[Stichprobe]] 0,18 beträgt. <br />
<br />
Einsetzen in die [[Teststatistik]] führt zu dem [[Prüfwert]]:<br />
<br />
<math>v=\frac{0,18-0,2}{\sqrt{\cfrac{0,2\cdot 0,8}{350}}}=-0,935</math><br />
<br />
Da <math>v = - 0,935</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 350</math> konnte [[Statistik|statistisch]] nicht bewiesen werden, dass der Anteil der Kreditnehmer mit Rückzahlungsschwierigkeiten kleiner als 20% ist. <br />
<br />
Die ABC-Bank wird ihre Bewertungskriterien überarbeiten.<br />
<br />
=====Wahrscheinlichkeit eines Fehlers 2. Art=====<br />
<br />
Auch bei dieser [[Statistischer Test|Test]]variante kann mit der Beibehaltung der [[Nullhypothese]] ein [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> unterlaufen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist. <br />
<br />
Analog soll die Frage gestellt werden: <br />
<br />
Wie groß wäre die [[Wahrscheinlichkeit]], dass bei diesem [[Linksseitiger Test|linksseitigen Test]] (mit <math>\pi_{0} = 0,2,\; n = 350,\; \alpha = 0,05</math>) die [[Nullhypothese]] nicht verworfen würde, wenn der wahre Anteil der Kreditnehmer mit Rückzahlungsschwierigkeiten <math>\pi = 0,15</math> beträgt? <br />
<br />
Für <math>\pi = 0,15</math> gilt in Wirklichkeit die [[Alternativhypothese]], so dass die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] gesucht wird: <math>\beta(\pi = 0,15)=P(\mbox{''}H_{0}\mbox{''}|H_{1})</math>.<br />
<br />
Zunächst wird der kritische [[Anteilswert der Grundgesamtheit|Anteilswert]] <math>p_{c}</math> bei Gültigkeit der <math>H_{0}</math> ermittelt, der sich aus der Beziehung <math>-c = \frac{p_{c} - \pi_{0}}{\sigma(\widehat{\pi})}</math> zu <math>p_{c} = \pi_{0} - c \cdot \sigma(\widehat{\pi }) = 0,2 - 1,645\left(0,2\cdot \frac{0,8}{350}\right) = 0,1648</math> ergibt. <br />
<br />
<math>\beta(\pi)</math> ist somit die [[Wahrscheinlichkeit]], dass die [[Schätzfunktion]] <math>\widehat{\pi }</math> einen Wert im [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] annimmt, obwohl <math>H_{1}</math> gilt:<br />
<br />
<math>\beta \left( \pi =0,15\right) =P\left(\widehat{\pi}\geq p_{c}|\pi =0,15\right)=P\left(\widehat{\pi }\geq 0,1648|\pi =0,15\right)</math><br />
<br />
Um diese [[Wahrscheinlichkeit]] aus der Tabelle der [[Standardnormalverteilung]] entnehmen zu können, muss ebenfalls eine<br />
[[Standardisierung]] vorgenommen werden, da jedoch <math>H_{1}</math> gilt mit <math>E\left[\widehat{\pi }\right] =\pi =0,15</math> und <math>Var\left(\widehat{\pi }\right) =\frac{\pi\left( 1-\pi \right)}{n}=\frac{0,15\cdot 0,85}{350}</math>:<br />
<br />
{|<br />
|<math>\beta \left( \pi =0,15\right)</math><br />
|<math>=P\left( \widehat{\pi }\geq p_{c}|\pi =0,15\right) =P\left( \frac{\widehat{\pi }-\pi_{0}}{\sqrt{\frac{\pi \left( 1-\pi \right) }{n}}}\geq \frac{p_{c}-\pi_{0}}{\sqrt{\frac{\pi\left( 1-\pi \right) }{n}}}|\pi =0,15\right)</math><br />
|-<br />
|<br />
|<math> =P\left( V\geq \frac{0,1648-0,15}{\sqrt{\frac{0,15\cdot 0,85}{350}}}|\pi =0,15\right)=P\left( V\geq 0,775|\pi =0,15\right)</math><br />
|}<br />
<br />
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] findet man <math>P\left( V\leq 0,775\right)=0,7808</math> und somit<br />
<br />
<math>\beta\left( \pi=0,15\right)=1-P\left( V\leq 0,775 \right)=1-0,7808=0,2192</math><br />
<br />
Diese [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] <math>\beta\left( \pi=0,15\right)</math> liegt deutlich unter vorheriger Variante mit [[Stichprobenumfang]] n=30. Dies resultiert aus der Erhöhung des [[Stichprobenumfang]]es.<br />
<br />
<!--==Interaktives Beispiel==<br />
<br />
Vorausgesetzt wird eine dichotome Grundgesamtheit von <math>N = 3250</math> Studenten einer<br />
Wirtschaftswissenschaftlichen Fakultät, in der ein unbekannter Anteil <math>\pi</math> von Studenten Begeisterung für Statistik aufweist und ein Anteil <math>1 - \pi</math> diese Eigenschaft nicht besitzt. Die zugrundeliegende [[STAT-Glossar#Zufallsvariable|Zufallsvariable]] ist <math>X =\;</math> "Statistikbegeisterung der Studenten", die nur die Werte<br />
<math>X = 1</math> für "ja" und <math>X = 0</math> für "nein" annehmen kann.<br />
<br />
Es wird angenommen, dass die Hälfte der Studenten sich für Statistik begeistert, d.h., der<br />
hypothetische Wert ist <math>\pi_{0}=0,5</math><br />
<br />
Auf einem [[STAT-Glossar#Signifikanzniveau|Signifikanzniveau]] von <math>\alpha</math> und basierend auf einer einfachen Zufallsstichprobe vom Umfang <math>n</math> soll getestet werden, ob der wahre Anteilswert <math>\pi</math> der [[STAT-Glossar#Zufallsvariable|Zufallsvariablen]] <math>X\;</math> in der<br />
Grundgesamtheit dem hypothetischen Wert <math>\pi_{0} = 0,5</math> entspricht, d.h.<br />
<br />
<math>H_{0}:\;\pi =\pi_{0}=0,5\quad H_{1}:\;\pi \neq \pi_{0}=0,5</math><br />
<br />
Mit diesem Beispiel haben Sie die Möglichkeit, den Test wiederholt durchzuführen, wobei<br />
'''für jede Testdurchführung erneut eine Zufallsstichprobe aus der Grundgesamtheit gezogen<br />
wird.''' Dabei können Sie<br />
<br />
* das [[STAT-Glossar#Signifikanzniveau|Signifikanzniveau]] <math>\alpha</math> und den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math> konstant halten;<br />
* das [[STAT-Glossar#Signifikanzniveau|Signifikanzniveau]] <math>\alpha</math> verändern und den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math> konstant halten;<br />
* das [[STAT-Glossar#Signifikanzniveau|Signifikanzniveau]] <math>\alpha</math> konstant halten und den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math> verändern;<br />
* das [[STAT-Glossar#Signifikanzniveau|Signifikanzniveau]] <math>\alpha</math> und den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math> verändern.<br />
--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Stetige_Gleichverteilung&diff=1264Stetige Gleichverteilung2018-05-30T15:41:53Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Stetige Gleichverteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math>, die nur Werte im Intervall <math>[a,b]</math> annehmen kann, heißt ''gleichverteilt'', wenn ihre Dichte die folgende Form hat:<br />
<br />
<math>f(x)=\begin{cases}\frac{1}{b-a}\quad & \mbox{, wenn } a\leq x\leq b \\<br />
0\quad & \mbox{, sonst}<br />
\end{cases}</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] einer ''stetigen Gleichverteilung'' gilt:<br />
<br />
<math>F(x) = \begin{cases}<br />
0 \quad & \mbox{, wenn } x < a \\<br />
\frac{x - a}{b - a} \quad & \mbox{, wenn }a \leq x \leq b \\<br />
1 \quad & \mbox{, wenn } b \leq x\end{cases}<br />
</math><br />
<br />
Für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]] einer stetigen Gleichverteilung gilt<br />
<br />
<math> E[X] = \frac{b + a}{2}</math><br />
<br />
<math>Var(X) = \frac{(b - a)^2}{12}</math><br />
<br />
Die stetige Gleichverteilung hängt von den [[Parameter]]n <math>a</math> und <math>b</math> ab.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Erklärungen zur stetigen Gleichverteilung===<br />
<br />
Es ist zu prüfen, ob die Funktion<br />
<br />
<math>f(x)=\begin{cases}\frac{1}{b-a}\quad & \mbox{, wenn } a\leq x\leq b \\<br />
0\quad & \mbox{, sonst}<br />
\end{cases}</math><br />
<br />
eine [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist:<br />
<br />
Da <math>b > a</math> ist, folgt <math>f(x) \geq 0 </math> für alle <math>x</math>, d.h. die Funktion verläuft in jedem Bereich der reellen Zahlen auf oder<br />
oberhalb der Abszisse. <br />
<br />
Weiterhin gilt<br />
<br />
<math>\int\limits_{-\infty }^{\infty }f(x)\,dx=\int\limits_{a}^{b}\frac{1}{b-a}\,dx=\left[ \frac{x}{b-a}\right] _{a}^{b}=\frac{b-a}{b-a}=1</math>.<br />
<br />
Mit obiger Funktion <math>f(x)</math> ist somit eine [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben.<br />
<br />
Man erhält den Wert der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] <math>F(x)</math> wie folgt:<br />
<br />
<math>F(x) = \int\limits_a^x\cdot \frac{1}{b - a}\,dv = \left[ \frac{v}{b - a} \right]_a^x = \frac{x - a}{b - a}</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] ergeben sich zu:<br />
<br />
<math>E(X) = \int\limits_a^b x\cdot \frac{1}{b - a}\,dx = \left[ \frac{x^2}{2\cdot (b - a)}\right]_a^b = \frac{b^2 - a^2}{2\cdot (b - a)} = \frac{(b - a)\cdot (b + a)}{2\cdot (b - a)} =\frac{b + a}{2}</math><br />
<br />
<math>Var(X) = \int\limits_a^b x^2\cdot \frac{1}{b - a}\,dx - \left( \frac{b + a}{2}<br />
\right)^2 = \left[ \frac{x^3}{3\cdot (b - a)} \right]_a^b - \left( \frac{b + a}{2} \right)^2 = \frac{b^3 - a^3}{3\cdot (b - a)} - \frac{b + a}{4} = \frac{(b - a)^2}{12}</math><br />
<br />
Die allgemeine Form der Dichte- und der Verteilungsfunktion einer stetigen Gleichverteilung zeigen die nachfolgenden Graphiken.<br />
<br />
<iframe k="wiwi" p="examples/stat_StetigeGleichverteilung_Dichtefunktion_SGV_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_StetigeGleichverteilung_Verteilungsfunktion_SGV_R00480004800000000000000_plot.html" /><br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Straßenbahn===<br />
<br />
Eine Person kommt, ohne auf die Uhr zu sehen, zur Straßenbahn, welche im 20-Minuten-Takt fährt. <br />
<br />
Die [[Zufallsvariable]] <math>X\;</math>: "Wartezeit auf die nächste Straßenbahn in Minuten" kann dann jeden Wert aus dem Intervall <math>[0, 20]</math> annehmen, Pünktlichkeit der Straßenbahn vorausgesetzt. <br />
<br />
Damit folgt<br />
<br />
<math>P(0\leq X \leq 20) = 1</math> mit <math>a = 0</math> und <math>b = 20</math>.<br />
<br />
Da die Person rein zufällig in einem hinreichend kleinen, gleichmöglichen Zeitintervall konstanter Länge (etwa von der Länge 30 Sekunden) an der Haltestelle eintrifft, kann die [[stetige Zufallsvariable]] <math>X = \{\mbox{Wartezeit}\}</math> als ''gleichverteilt'' angesehen werden. <br />
<br />
Damit ist die [[Dichtefunktion (eindimensional)|Dichtefunktion]] von <math>X\;</math>:<br />
<br />
<math>f(x)=\begin{cases}\frac{1}{20}\quad & \mbox{, wenn }\ 0<x\leq b \\<br />
0\quad & \mbox{, sonst}\end{cases}<br />
</math><br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] lautet:<br />
<br />
<math>F(x)=\begin{cases}0\quad & \mbox{, wenn } x<0 \\<br />
\frac{1}{20}\cdot x\quad & \mbox{, wenn } 0\leq x\leq 20 \\<br />
1\quad & \mbox{, sonst}\end{cases}</math><br />
<br />
Der [[Erwartungswert]] von <math>X\;</math> ist<br />
<br />
{|<br />
|<math>\,E[X]</math><br />
|<math> = \int\nolimits_{-\infty}^{\infty} x\cdot f(x)\,dx = \int\nolimits_0^{20} x\cdot \frac{1}{20}\,dx </math><br />
|-<br />
|<br />
|<math>=\frac{1}{20}\cdot \left[ \frac{1}{2}\cdot x^2 \right]_{0}^{20} =\frac{1}{20}\cdot \left[\frac{1}{2}\cdot 20^2 - \frac{1}{2}\cdot 0^2 \right] = 10 </math><br />
|}<br />
<br />
Falls sich die Person nicht besser orientiert, muss sie im Mittel mit einer Wartezeit von 10 Minuten rechnen.<br />
<br />
Die [[Varianz (stochastisch)|Varianz]] ist<br />
<br />
{|<br />
|<math>\,Var(X)</math><br />
|<math>= \int\nolimits_{-\infty}^{\infty} (x - \mu)^2\cdot f(x)\,dx =\int\nolimits_0^{20} (x - 10)^2 \cdot \frac{1}{20}\,dx </math><br />
|-<br />
|<br />
|<math>= \frac{1}{20}\cdot \int\nolimits_0^{20} (x^2 - 20x + 100)\,dx</math><br />
|-<br />
|<br />
|<math>= \frac{1}{20}\cdot \left[ \frac{1}{3}\cdot x^3 - \frac{1}{2}\cdot 20\cdot x^2 + 100x \right]_{0}^{20}</math><br />
|-<br />
|<br />
|<math>= \frac{1}{20}\cdot \left[ \frac{1}{3}\cdot 20^3 - \frac{1}{2}\cdot 20^3 + 100 \cdot 20\right] = 33,33 </math><br />
|}<br />
<br />
Die [[Standardabweichung (stochastisch)|Standardabweichung]] ist somit <math>\sigma = 5,77</math>.<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] sehen wie folgt aus:<br />
<br />
<iframe k="wiwi" p="examples/stat_StetigeGleichverteilung_Dichtefunktion_0_20_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_StetigeGleichverteilung_Verteilungsfunktion_0_20_R00480004800000000000000_plot.html" /><br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Standardnormalverteilung&diff=1263Standardnormalverteilung2018-05-30T15:34:56Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Standardnormalverteilung===<br />
<br />
Sei <math>Z</math> eine [[Standardisierung|standardisierte]] [[Zufallsvariable]] mit<br />
<br />
<math>Z = \frac{X - \mu}{\sigma}</math><br />
<br />
Die [[Zufallsvariable]] <math>Z</math> gibt die Werte der [[Zufallsvariable]]n <math>X</math> als Abweichungen von ihrem [[Erwartungswert]] in Einheiten der<br />
[[Standardabweichung]] an. <br />
<br />
Wenn <math>X\,</math> [[Normalverteilung|normalverteilt]] ist, dann ist auch <math>Z\,</math> [[Normalverteilung|normalverteilt]]. Die [[Normalverteilung]] von <math>Z\,</math> wird dann als ''Standardnormalverteilung'' <math>N(0;1)</math> bezeichnet.<br />
<br />
[[Dichtefunktion (eindimensional)|Dichtefunktion]] der Standardnormalverteilung:<br />
<br />
<math>\varphi (z) = \frac{1}{\sqrt{2\pi}} e^{- \frac{z^2}{2}}</math><br />
<br />
[[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Standardnormalverteilung:<br />
<br />
<math>\Phi(z) = \frac{1}{\sqrt{2\pi}} \int\limits_{-\infty}^{z} e^{-v^{2}/2}\;dv</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der Standardnormalverteilung:<br />
<br />
<math>E[Z] = 0 \quad Var(Z) = 1</math><br />
<br />
Für die Standardnormalverteilung ist die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] tabelliert.<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] bzw. [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] geben die nachfolgenden Grafiken wieder.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_N_0_1_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Verteilungsfunktion_N_0_1_R00480004800000000000000_plot.html" /><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Standardisierte Normalverteilung und Standardnormalverteilung===<br />
<br />
Eine Tabellierung der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Normalverteilung]] für alle praktisch relevanten Werte von <math>\mu</math> und <math>\sigma</math> ist nicht möglich. <br />
<br />
Man kann jede gegebene [[Normalverteilung]] in eine spezielle [[Normalverteilung]] transformieren und diese dann tabellieren. <br />
<br />
Es bietet sich an, als spezielle [[Verteilung (stochastisch)|Verteilung]] diejenige [[Normalverteilung]] zu wählen, die den [[Erwartungswert]] <math>E(X) =\mu = 0</math>, und die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma = 1</math> besitzt, also die Standardnormalverteilung.<br />
<br />
Beziehung zwischen <math>N(\mu,\sigma)</math> Verteilung und [[Standardisierung|standardisierter]] [[Normalverteilung]]:<br />
<br />
Aus<br />
<br />
<math>x=\mu +z\cdot \sigma</math> bzw. <math>z=\frac{x-\mu}{\sigma}</math><br />
<br />
folgt:<br />
<br />
<math>F_{NV}(x;\mu,\sigma)=P(X\leq x)=P\left(\frac{X-\mu}{\sigma}\leq\frac{x - \mu}{\sigma}\right) = P(Z\leq z) = \Phi(z)</math><br />
<br />
Die Bedeutung der [[Standardisierung|standardisierten]] [[Normalverteilung]] liegt darin, dass es zu jeder [[Normalverteilung|normalverteilten]] [[Zufallsvariable]]n <math>X\,</math> eine linear transformierte [[Zufallsvariable]] <math>Z\,</math> gibt, die der Standardnormalverteilung folgt. <br />
<br />
Bei Verwendung der Tabelle der [[Dichtefunktion (eindimensional)|Dichtefunktion]] und der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Standardnormalverteilung ist zu beachten, dass zumeist nur die positiven Werte von <math>Z\,</math> tabelliert sind. <br />
<br />
Die Tabellierung der Standardnormalverteilung für negative <math>Z\,</math>-Werte ist aufgrund der Symmetrie der [[Normalverteilung]] nicht erforderlich, da<br />
<br />
<math>\Phi (-z)=P(Z\leq -z)=1-P(Z\leq z)=1-\Phi (z)</math><br />
<br />
gilt.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Standardisierte Normalverteilung===<br />
<br />
Gegeben sei eine [[Zufallsvariable]] <math>X\,</math>, die <math>N(100;10)</math>-verteilt ist.<br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(X ≤ x) mit x = 125====<br />
<br />
<math>z = \frac{x - \mu}{\sigma} = \frac{125 - 100}{10} = 2,5</math><br />
<br />
{|<br />
|<math>\,P(X\leq 125)</math><br />
|<math>= F(125)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(\frac{125-100}{10})</math><br />
|-<br />
|<br />
|<math>=\Phi(2,5)\,</math><br />
|-<br />
|<br />
|<math>=0,99379 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 99,38% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von höchstens 125 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_max_125_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(X ≥ x) mit x = 115,6====<br />
<br />
<math>z = \frac{x - \mu}{\sigma} = \frac{115,6 - 100}{10} = 1,56</math><br />
<br />
{|<br />
|<math>\,P(X\geq115,6)</math><br />
|<math>=1-P(X\leq115,6)\,</math><br />
|-<br />
|<br />
|<math>=1-F(115,6)\,</math><br />
|-<br />
|<br />
|<math>=1-\Phi(\frac{115,6-100}{10})\,</math><br />
|-<br />
|<br />
|<math>=1-\Phi(1,56) \,</math><br />
|-<br />
|<br />
|<math>=1-0,94062\,</math><br />
|-<br />
|<br />
|<math>=0,05938 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 5,94% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von mindestens 115,6 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_min_115_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(X ≤ x) mit x = 80====<br />
<br />
<math>z = \frac{x - \mu}{\sigma} = \frac{80 - 100}{10} = -2</math><br />
<br />
{|<br />
|<math>\,P(X\leq80)</math><br />
|<math>=F(80)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(\frac{80-100}{10})\,</math><br />
|-<br />
|<br />
|<math>=\Phi(-2)\,</math><br />
|-<br />
|<br />
|<math>=1-\Phi(2)\,</math><br />
|-<br />
|<br />
|<math>=1-0,97725\,</math><br />
|-<br />
|<br />
|<math>=0,02275 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 2,275% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von höchstens 80 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_max_80_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(X ≥ x) mit x = 94,8====<br />
<br />
<math>z = \frac{x - \mu}{\sigma} = \frac{94,8 - 100}{10} = - 0,52</math><br />
<br />
{|<br />
|<math>\,P(X\geq94,8)</math><br />
|<math>=1-P(X\leq94,8)\,</math><br />
|-<br />
|<br />
|<math>=1-F(94,8)\,</math><br />
|-<br />
|<br />
|<math>=1-\Phi(\frac{94,8-100}{10})\,</math><br />
|-<br />
|<br />
|<math>=1-\Phi(-0,52)\,</math><br />
|-<br />
|<br />
|<math>=1-(1-\Phi(0,52))\,</math><br />
|-<br />
|<br />
|<math>=\Phi(0,52) \,</math><br />
|-<br />
|<br />
|<math>=0,698468 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 69,85% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von mindestens 94,8 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_min_94_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(x_u ≤ X ≤ x_o) mit x_u = 88,8 und x_o = 132====<br />
<br />
<math>z_u = \frac{x_u - \mu}{\sigma} = \frac{88,8 - 100}{10} = -1,12</math><br />
<br />
<math>z_o = \frac{x_o - \mu}{\sigma} = \frac{132 - 100}{10} = 3,2</math><br />
<br />
{|<br />
|<math>\,P(88,8\leq X\leq132)</math><br />
|<math>=P(X\leq132)-P(X\leq88,8)\,</math><br />
|-<br />
|<br />
|<math>=F(132)-F(88,8)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(3,2)-\Phi(-1,12)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(3,2)-(1-\Phi(1,12))\,</math><br />
|-<br />
|<br />
|<math>=0,999313+0,868643-1\,</math><br />
|-<br />
|<br />
|<math>=0,867956 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 86,8% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte im Intervall <math>\left[88,8; 132\right]</math> an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_Intervall_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist die Wahrscheinlichkeit P(x_u ≤ X ≤ x_o) mit x_u = 80,4 und x_o = 119,6====<br />
<br />
<math>z_u = \frac{x_u - \mu}{\sigma} = \frac{80,4 - 100}{10} = -1,96</math><br />
<br />
<math>z_o = \frac{x_o - \mu}{\sigma} = \frac{119,6 - 100}{10} = 1,96</math><br />
<br />
{|<br />
|<math>\,P(80,4\leq X\leq119,6)</math><br />
|<math>=P(X\leq119,6)-P(X\leq80,4)\,</math><br />
|-<br />
|<br />
|<math>=F(119,6)-F(80,4)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(1,96)-\Phi(-1,96)\,</math><br />
|-<br />
|<br />
|<math>=\Phi(1,96)-(1-\Phi(1,96))\,</math><br />
|-<br />
|<br />
|<math>=2\cdot \Phi(1,96)-1\,</math><br />
|-<br />
|<br />
|<math>=2\cdot 0,975-1 \,</math><br />
|-<br />
|<br />
|<math>=0,95 \,</math><br />
|}<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 95% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte im Intervall <math>[80,4; 119,6]</math> an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_Intervall_80_119_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist der Wert x der Zufallsvariablen X, so dass 76,11% der Realisationen von X höchstens gleich x sind====<br />
<br />
{|<br />
|<math>0,7611\,</math><br />
|<math>=P(X\leq x)</math><br />
|-<br />
|<br />
|<math>=P(Z\leq \frac{x-100}{10})</math><br />
|-<br />
|<br />
|<math>=P(Z\leq z)</math><br />
|-<br />
|<br />
|<math>=\Phi(z)\,</math><br />
|}<br />
<br />
Für die [[Wahrscheinlichkeit]] von 0,7611 findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Standardnormalverteilung den Wert <math>z = 0,71</math>.<br />
<br />
Damit ist <math>x = \mu + z\cdot \sigma= 100 + 0,71 \cdot 10 = 107,1</math> und somit <math>P(X \leq 107,1) = 0,7611</math>.<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 76,11% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von höchstens 107,1 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_max_107_R00480004800000000000000_plot.html" /><br />
<br />
====Gesucht ist der Wert x der Zufallsvariablen X, so dass 3,6% der Realisationen von X mindestens gleich x sind====<br />
<br />
{|<br />
|<math>0,036\,</math><br />
|<math>=P(X\geq x)</math><br />
|-<br />
|<br />
|<math>=P(Z\geq \frac{x-100}{10})</math><br />
|-<br />
|<br />
|<math>=P(Z\geq z)</math><br />
|-<br />
|<br />
|<math>=1-P(Z\leq z)</math><br />
|}<br />
<br />
Wegen <math>P(Z \leq z) = 0,964</math> findet man für die [[Wahrscheinlichkeit]] von 0,964 aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Standardnormalverteilung den Wert <math>z = 1,8</math>.<br />
<br />
Damit ist <math>x = \mu - z\cdot \sigma = 100 - 1,8 \cdot 10 = 118</math> und somit <math>P(X \geq 118) = 0,036</math>.<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 3,6% nimmt die [[Zufallsvariable]] <math>X\,</math> Werte von mindestens 118 an.<br />
<br />
<iframe k="wiwi" p="examples/stat_Standardnormalverteilung_Dichtefunktion_min_118_R00480004800000000000000_plot.html" /><br />
<br />
<!--==Interaktives Beispiel Normalverteilung==<br />
<br />
<br />
<br />
<br />
Die Normalverteilung hängt von den beiden Parametern <math>\mu</math> und <math>\sigma</math> ab, die<br />
<br />
* ihre Gestalt,<br />
* ihre Lage und<br />
* ihre Streuung<br />
<br />
beeinflussen.<br />
<br />
Sie haben nunmehr zum einen die Möglichkeit, einen oder beide<br />
Parameter zu variieren, und erhalten als Output die grafische<br />
Darstellung der entsprechenden Dichtefunktion der <math>N(\mu;\;\sigma)</math>.<br />
<br />
In diesem Output ist zum Vergleich stets die<br />
[[STAT-Glossar#Normalverteilung|Standardnormalverteilung]] enthalten (schwarz).<br />
<br />
Empfehlenswert ist, zunächst nur einen Parameter zu variieren<br />
und den anderen konstant zu halten, um dessen Wirkung auf die<br />
Normalverteilung zu studieren.<br />
<br />
Weiterhin können Sie sich die Wahrscheinlichkeiten für<br />
spezielle Bereiche von <math>X</math> berechnen lassen.--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Schwankungsintervall&diff=1262Schwankungsintervall2018-05-30T15:26:40Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Schwankungsintervall, Sicherheits- und Überschreitungswahrscheinlichkeit===<br />
<br />
Ein ''Schwankungsintervall'' für die [[Zufallsvariable]] <math>X\,</math> ist ein Bereich mit festen Grenzen <math>x_{u}\,</math> und <math>x_{o}(x_{u}\leq x_{o})</math>, in dem die [[Zufallsvariable]] <math>X</math> [[Realisation]]en <math>x</math> mit einer vorgegebenen ''Sicherheitswahrscheinlichkeit'' <math>1 - \alpha</math> annimmt, d.h. <math>(1 - \alpha)\cdot 100%</math> aller [[Realisation]]en von <math>X\,</math> liegen in diesem Intervall und <math>\alpha </math> aller [[Realisation]]en von <math>X\,</math> außerhalb des Intervalls. <br />
<br />
<math>\alpha</math> wird als ''Überschreitungswahrscheinlichkeit'' bezeichnet.<br />
<br />
===Zentrales Schwankungsintervall===<br />
<br />
Konstruiert man das Intervall um den bekannten [[Erwartungswert]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\,</math> derart, dass den<br />
beiden Bereichen außerhalb der Grenzen des Intervalls jeweils die gleiche [[Wahrscheinlichkeit]] <math>\alpha/2</math> zugeordnet ist, dann heißt<br />
<br />
<math>[x_u \leq X \leq x_o] = [\mu - k \leq X \leq \mu + k]</math><br />
<br />
ein ''zentrales Schwankungsintervall'' mit der [[Sicherheitswahrscheinlichkeit]]<br />
<br />
<math>P(x_u \leq X \leq x_o) = 1 - \alpha</math>.<br />
<br />
Um die Bedeutung der [[Standardabweichung (stochastisch)|Standardabweichung]] als Streuungs[[parameter]] hervorzuheben, misst man die Abweichung <math>k</math> von <math>\mu</math> oftmals in Vielfachen von <math>\sigma</math>, so dass das zentrale Schwankungsintervall die Form<br />
<br />
<math>[\mu - c\cdot \sigma \leq X \leq \mu + c\cdot \sigma]</math><br />
<br />
hat.<br />
<br />
Ist die [[Zufallsvariable]] <math>X\; N(\mu, \sigma)</math>-verteilt, so folgt für <math>x= \mu + c\cdot \sigma</math><br />
<br />
<math>z= \frac{x - \mu}{\sigma} = \frac{\mu + c\cdot \sigma - \mu}{\sigma}= c</math><br />
<br />
und <math>P(Z \leq z) = \Phi(z) = 1 - \frac{\alpha}{2}</math>.<br />
<br />
Der Wert <math>z_{1-\frac{\alpha}{2}}</math> kann für die [[Wahrscheinlichkeit]] <math>1 -\frac{\alpha}{2}</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] entnommen werden.<br />
<br />
Somit ist das zentrale Schwankungsintervall für eine [[Normalverteilung|normalverteilte]] [[Zufallsvariable]] mit<br />
<br />
<math>[\mu - z_{1-\frac{\alpha}{2}}\cdot \sigma \leq X \leq \mu + z_{1-\frac{\alpha}{2}}\cdot \sigma]</math><br />
<br />
und die [[Wahrscheinlichkeit]] dieses Intervalls mit<br />
<br />
<math>P(\mu - z_{1-\frac{\alpha}{2}}\cdot \sigma \leq X \leq \mu + z_{1-\frac{\alpha}{2}}\cdot \sigma) = 1 - \alpha</math><br />
<br />
gegeben.<br />
<br />
<iframe k="wiwi" p="examples/stat_Schwankungsintervall_Schwankungsintervall_N_R00480004800000000000000_plot.html" /><br />
<br />
Wegen<br />
<br />
<math>P(-z \leq Z \leq z) = P(Z \leq z) - P(Z \leq -z) = P(Z \leq z) - [1 - P(Z \leq z)] = 2P(Z \leq z)-1</math>,<br />
<br />
folgt<br />
<br />
<math>P(\mu - z_{1-\frac{\alpha}{2}}\cdot \sigma \leq X \leq \mu + z_{1-\frac{\alpha}{2}}\cdot \sigma) = 2 \Phi(z) - 1</math>.<br />
<br />
Für vorgegebenes <math>z</math> lässt sich die [[Sicherheitswahrscheinlichkeit]] für das zentrale Schwankungsintervall ermitteln, z.B.<br />
<br />
<math>P(\mu -z_{1-\frac{\alpha}{2}}\cdot \sigma \leq X \leq \mu +z_{1-\frac{\alpha}{2}}\cdot \sigma )=<br />
\begin{cases}<br />
0,6827\quad \mbox{, wenn}\quad z_{1-\frac{\alpha}{2}}=1\\<br />
0,9545\quad \mbox{, wenn}\quad z_{1-\frac{\alpha}{2}}=2\\<br />
0,9973\quad \mbox{, wenn}\quad z_{1-\frac{\alpha}{2}}=3<br />
\end{cases}</math><br />
<br />
Umgekehrt findet man für eine vorgegebene [[Sicherheitswahrscheinlichkeit]] <math>1-\alpha</math> den zugehörigen <math>z</math>-Wert, z.B. für <math>P(\mu -z_{1-\frac{\alpha}{2}}\cdot \sigma \leq X \leq\mu+z_{1-\frac{\alpha}{2}}\cdot \sigma ) = 0,95</math> den Wert <math>z = 1,96</math>.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Schwankungsintervall===<br />
<br />
Gegeben sei eine [[Zufallsvariable]] <math>X\,</math>, die <math>N(100;10)</math>-verteilt ist.<br />
<br />
Gesucht ist ein symmetrischer Bereich um den [[Mittelwert]], so dass 99% der [[Realisation]]en von <math>X</math> in diesem Bereich liegen.<br />
<br />
{|<br />
|<math>0,99\,</math><br />
|<math>=P(x_u\leq X\leq x_o)</math><br />
|-<br />
|<br />
|<math>=P(\frac{x_u-100}{10}\leq Z\leq \frac{x_o-100}{10})</math><br />
|-<br />
|<br />
|<math>=P(-z\leq Z\leq z)</math><br />
|-<br />
|<br />
|<math>=2\cdot \Phi(z)-1</math><br />
|-<br />
|<math>\Phi(z)=\frac{1,99}{2}=0,995</math><br />
|}<br />
<br />
Für die [[Wahrscheinlichkeit]] von 0,995 findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] den Wert <math>z = 2,58</math>. <br />
<br />
Damit sind<br />
<br />
{|<br />
|<math>x_o = \mu + z \cdot \sigma = 100 + 2,58 \cdot 10 = 125,8</math><br />
|-<br />
|<math>x_u = \mu - z \cdot \sigma = 100 - 2,58 \cdot 10 = 74,2</math><br />
|}<br />
<br />
und somit <math>P(74,2 \leq X \leq 125,8) = 0,99</math>.<br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 99% liegt die [[Zufallsvariable]] <math>X\,</math> im Intervall <math>\left[74,2;125,8\right]</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Schwankungsintervall_Schwankungsintervall_N_100_10_R00480004800000000000000_plot.html" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Randverteilung_(stochastisch)&diff=1261Randverteilung (stochastisch)2018-05-30T14:46:51Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Randverteilung oder marginale Verteilung diskreter Zufallsvariablen===<br />
<br />
Die ''Randverteilung'' oder ''marginale Verteilung'' <math>f(x_{i})</math> der [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] <math>X</math><br />
gibt an, wie groß die [[Wahrscheinlichkeit]] dafür ist, dass <math>X</math> einen speziellen Wert <math>x_{i}</math> annimmt, wobei es gleichgültig<br />
ist, welchen Wert die zweite [[diskrete Zufallsvariable]] <math>Y</math> annimmt.<br />
<br />
Die Randverteilung <math>f(y_{j})</math> der [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] <math>Y</math> ist analog definiert.<br />
<br />
Randverteilungen (RV) sind eindimensionale Verteilungen.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>X/Y</math><br />
|align="center"|<math>\,y_1</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,y_j</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,\mbox{RV } X</math><br />
|-<br />
|align="center"|<math>\,x_1</math><br />
|align="center"|<math>\,f(x_1,y_1)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,f(x_1,y_j)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,f(x_1)</math><br />
|-<br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,:</math><br />
|-<br />
|align="center"|<math>\,x_i</math><br />
|align="center"|<math>\,f(x_i,y_1)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,f(x_i,y_j)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,f(x_i)</math><br />
|-<br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,:</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,:</math><br />
|-<br />
|align="center"| <math>\,\mbox{RV }Y</math><br />
|align="center"|<math>\,f(y_1)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,f(y_j)</math><br />
|align="center"|<math>\,\dots</math><br />
|align="center"|<math>\,1,00</math><br />
|}<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[diskrete Zufallsvariable]]n. Dann ist die Randverteilung definiert durch<br />
<br />
<math> P(X=x_{i})=f(x_{i})=\sum\nolimits_{j}f(x_{i},y_{j})</math><br />
<br />
<math> P(Y=y_{j})=f(y_{j})=\sum\nolimits_{i}f(x_{i},y_{j})</math><br />
<br />
===Randverteilung (Randdichte) oder marginale Verteilung (Marginaldichte) stetiger Zufallsvariablen===<br />
<br />
Seien <math>X</math> und <math>Y</math> zwei [[stetige Zufallsvariable]]n. Dann ist die ''Randverteilung'' oder ''marginale Verteilung'' definiert durch<br />
<br />
<math>f(x) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dy</math><br />
<br />
<math>f(y) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dx</math><br />
<br />
===Verteilungsfunktion der Randverteilung oder Randverteilungsfunktion===<br />
<br />
Die ''Randverteilungsfunktion'' <math>F_{y}(x)</math> der [[Zufallsvariable]]n <math>X</math> bezeichnet die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Zufallsvariable]]n <math>X</math>, unabhängig davon, welche Werte die [[Zufallsvariable]] <math>Y</math> angenommen hat. <br />
<br />
Sie ist definiert als:<br />
<br />
<math> P(X\leq x|Y)=F_{y}(x)=\begin{cases}<br />
\sum\limits_{j=-\infty }^{+\infty }\sum\limits_{i=-\infty}^{x}f(x_{i},y_{j})\quad \mbox{ }X & \mbox{diskret}\\<br />
\int\limits_{-\infty }^{+\infty }\int\limits_{-\infty}^{x}f(u,v)\,du\,dv\quad \mbox{ }X & \mbox{stetig}<br />
\end{cases} </math><br />
<br />
Die Randverteilungsfunktion <math>F_{x}(y)</math> der [[Zufallsvariable]]n <math>Y</math> bezeichnet die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Zufallsvariable]]n <math>Y</math>, unabhängig davon, welche Werte die [[Zufallsvariable]] <math>X</math> angenommen<br />
hat. <br />
<br />
Sie ist definiert als<br />
<br />
<math> P(Y\leq y|X)=F_{x}(y)=\begin{cases}<br />
\sum\limits_{j=-\infty }^{y}\sum\limits_{i=-\infty }^{+\infty}f(x_{i},y_{j})\quad \mbox{ }Y & \mbox{diskret}\\<br />
\int\limits_{-\infty }^{y}\int\limits_{-\infty }^{+\infty}f(u,v)\,du\,dv\quad \mbox{ }Y & \mbox{stetig}\end{cases}</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Stetige Zufallsvariablen===<br />
<br />
Gegeben seien zwei [[stetige Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> mit der [[Dichtefunktion (zweidimensional)|gemeinsamen Dichtefunktion]]<br />
<br />
<math>f(x,y)=\begin{cases}<br />
\frac{x+3y}{2}\quad & \mbox{, wenn }0<x<1 \mbox{ und }0<y<1 \\<br />
0 & \mbox{, sonst}\end{cases}<br />
</math><br />
<br />
Für diese [[Dichtefunktion (zweidimensional)|Dichtefunktion]] gilt:<br />
<br />
{|<br />
|<math>\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y)\, dx\, dy</math><br />
|<math> = \int_0^1 \int_0^1 \frac{x + 3 y}{2} \, dx\, dy = \int_0^1 \left[ \frac{x^2}{4} + \frac{3xy}{2} \right]_0^1\, dy</math><br />
|-<br />
|<br />
|<math>= \int_0^1 \left( \frac{1}{4} + \frac{3y}{2} \right) \, dy = \left[\frac{y}{4} + \frac{3y^2}{4} \right]_0^1 = 1</math><br />
|}<br />
<br />
Die nachstehende Abbildung zeigt die grafische Darstellung der [[Dichtefunktion (zweidimensional)|gemeinsamen Dichtefunktion]] von <math>X\;</math> und <math>Y\;</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Dichte_R00480004800000000000000_plot.html" /><br />
<br />
Als Randverteilungen erhält man:<br />
<br />
<math> f(x)=\int_{-\infty }^{\infty }f(x,y)\,dy=\int_{0}^{1}\frac{x+3y}{2}\,dy=\left[ \frac{xy}{2}+\frac{3y^{2}}{4}\right] _{0}^{1}</math><br />
<br />
<math>f(x)=\begin{cases}<br />
\frac{x}{2}+\frac{3}{4}\quad & \mbox{, wenn }0<x<1 \\<br />
0 & \mbox{, sonst}<br />
\end{cases}</math><br />
<br />
und<br />
<br />
<math> f(y)=\int_{-\infty }^{\infty }f(x,y)\,dx=\int_{0}^{1}\frac{x+3y}{2}\,dx=\left[ \frac{x^{2}}{4}+\frac{3xy}{2}\right] _{0}^{1}</math><br />
<br />
<math> f(y)=\begin{cases}<br />
\frac{3y}{2}+\frac{1}{4}\quad & \mbox{, wenn }0<y<1 \\<br />
0 & \mbox{, sonst}\end{cases}<br />
</math><br />
<br />
Die Graphische Darstellung der Randverteilungen liefert:<br />
<br />
<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Grafik_R00480004800000000000000_plot.html" /><br />
<br />
===Herzkranzgefäßkrankheiten und Alter===<br />
<br />
Ein Kardiologe vermutet einen Zusammenhang zwischen dem Auftreten von Herzkranzgefäßerkrankungen und dem Alter, weshalb er diese beiden [[Zufallsvariable]]n an seinen 100 Patienten erfasst.<br />
<br />
Es seien<br />
<br />
<math>X\;</math> - Alter der Patienten in Jahren,<br />
<br />
<math>Y\;</math> - Herzkranzgefäßerkrankung mit den [[Ausprägung]]en <math>y_{1} = 0</math> für ja und <math>y_{2} = 1</math> für nein.<br />
<br />
Als einen ersten Schritt für die Überprüfung seiner Vermutung will der Kardiologe die [[Wahrscheinlichkeit]]en und Randverteilungen der beiden [[Zufallsvariable]]n in Form einer [[Kontingenztabelle]] angeben.<br />
<br />
Da bei der [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] <math>X</math> = "Alter" 43 verschiedene [[Ausprägung]]en im Bereich von 20 bis 69 Jahre aufgetreten sind, lässt sich eine [[Kontingenztabelle]] mit dieser Anzahl von [[Ausprägung]]en von <math>X</math> nicht sinnvoll erstellen. <br />
<br />
Es wird deshalb eine [[Klassierung]] des Alters vorgenommen, wobei eine [[Klassenbreite]] von 5 Jahren gewählt wird, außer für die jüngeren und die älteren Patienten, die jeweils in einer [[Klasse]] der Breite 10 Jahre zusammengefasst werden:<br />
<br />
<math> \, 20-29,\;30-34,\;35-39,\;40-44,\;45-49,\;50-54,\;55-59 \mbox{ und } 60-69</math><br />
<br />
Damit resultieren die nachstehenden [[Wahrscheinlichkeit]]en und Randverteilungen der beiden [[Zufallsvariable]]n.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|rowspan="2" align="center"|Alter <math>X\;</math><br />
|colspan="2" align="center"|Herzkranzgefäßerkrankung<br />
|rowspan="2" align="center"|RV <math>X\;</math><br />
|-<br />
|<math>y_{1}=0</math> (ja)<br />
|<math>y_{2}=1</math> (nein)<br />
|<br />
|-<br />
|align="center"|20-29<br />
|align="center"|0,01<br />
|align="center"|0,09<br />
|align="center"|0,10<br />
|-<br />
|align="center"|30-34<br />
|align="center"|0,02<br />
|align="center"|0,13<br />
|align="center"|0,15<br />
|-<br />
|align="center"|35-39<br />
|align="center"|0,03<br />
|align="center"|0,09<br />
|align="center"|0,12<br />
|-<br />
|align="center"|40-44<br />
|align="center"|0,05<br />
|align="center"|0,10<br />
|align="center"|0,15<br />
|-<br />
|align="center"|45-49<br />
|align="center"|0,06<br />
|align="center"|0,07<br />
|align="center"|0,13<br />
|-<br />
|align="center"|50-54<br />
|align="center"|0,05<br />
|align="center"|0,03<br />
|align="center"|0,08<br />
|-<br />
|align="center"|55-59<br />
|align="center"|0,13<br />
|align="center"|0,04<br />
|align="center"|0,17<br />
|-<br />
|align="center"|60-69<br />
|align="center"|0,08<br />
|align="center"|0,02<br />
|align="center"|0,10<br />
|-<br />
|align="center"|RV <math>Y\;</math><br />
|align="center"|0,43<br />
|align="center"|0,57<br />
|align="center"|1,00<br />
|}<br />
<br />
Jede Zelle dieser Tabelle enthält die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> eine [[Realisation]] aus der Klasse <math>x_{i}</math> und gleichzeitig die [[Zufallsvariable]] <math>Y\;</math> die [[Realisation]] <math>y_{j}</math> annimmt, wobei hier die [[Wahrscheinlichkeit nach von Mises|statistische Definition der Wahrscheinlichkeit]] verwendet wird.<br />
<br />
Zum Beispiel besagt der Inhalt der Zelle (2,1), dass ein zufällig ausgewählter Patient mit einer [[Wahrscheinlichkeit]] von 0,13 in die Altersklasse 30 bis einschließlich 34 Jahre fällt und er keine Herzkranzgefäßerkrankung hat.<br />
<br />
Die Randverteilung (RV) von <math>X\;</math> gibt die [[Wahrscheinlichkeit]]en der [[Realisation]]en der [[Zufallsvariable]]n "Alter" an. <br />
<br />
So beträgt z.B. die [[Wahrscheinlichkeit]], dass ein zufällig ausgewählter Patient in die Altersklasse 30 bis einschließlich 34 Jahre fällt, 0,15.<br />
<br />
Die Randverteilung (RV) von <math>Y\;</math> enthält die [[Wahrscheinlichkeit]]en der [[Realisation]]en der [[Zufallsvariable]]n "Herzkranzgefäßerkrankung". <br />
<br />
Mit einer [[Wahrscheinlichkeit]] von 0,43 weist ein zufällig ausgewählter Patient eine Herzkranzgefäßerkrankung auf.<br />
<br />
Die folgende Abbildung zeigt die grafische Darstellung der [[Wahrscheinlichkeitsfunktion (zweidimensional)|zweidimensionalen Wahrscheinlichkeitsfunktion]] von Alter und Herzkranzgefäßerkrankung (HKE).<br />
<br />
<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Wahrscheinlichkeitsfunktion_R00480004800000000000000_plot.html" /><br />
<br />
Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die [[Klassierung]] der [[Zufallsvariable]]n "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55<br />
Jahre und älter.<br />
<br />
Mit dieser [[Klassierung]] ergibt sich:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" rowspan="2"|Alter <math>X\;</math><br />
|align="center" colspan="2"|Herzkranzgefäßerkrankung<br />
|align="center" rowspan="2"|RV <math>X\;</math><br />
|-<br />
|align="center"|<math> y_{1}=0 </math> (ja)<br />
|align="center"|<math> y_{2}=1 </math> (nein)<br />
|-<br />
|align="center"|bis einschl. 40<br />
|align="center"|0,07<br />
|align="center"|0,32<br />
|align="center"|0,39<br />
|-<br />
|align="center"|41 - 54<br />
|align="center"|0,15<br />
|align="center"|0,19<br />
|align="center"|0,34<br />
|-<br />
|align="center"|55 und älter<br />
|align="center"|0,21<br />
|align="center"|0,06<br />
|align="center"|0,27<br />
|-<br />
|align="center"|RV <math>Y\;</math><br />
|align="center"|0,43<br />
|align="center"|0,57<br />
|align="center"|1,00<br />
|}<br />
<br />
Die folgende Abbildung enthält die grafische Darstellung dieser [[Wahrscheinlichkeitsfunktion (zweidimensional)|zweidimensionalen Wahrscheinlichkeitsfunktion]] von Alter und Herzkranzgefäßerkrankung (HKE).<br />
<br />
{|<br />
|<R output="display"><br />
pdf(rpdf,width=7, height=7)<br />
library(RColorBrewer)<br />
library(lattice)<br />
library(latticeExtra)<br />
<br />
data <- read.table(text='HKE P Alter<br />
"(y1) ja" 0.07 "(x1) bis einschl. 40"<br />
"(y1) ja" 0.15 "(x2) 41-54"<br />
"(y1) ja" 0.21 "(x3) 55 und \u00E4lter"<br />
"(y2) nein" 0.32 "(x1) bis einschl. 40"<br />
"(y2) nein" 0.19 "(x2) 41-54"<br />
"(y2) nein" 0.06 "(x3) 55 und \u00E4lter"<br />
',header=TRUE)<br />
<br />
colors <- c("cornflowerblue","cornflowerblue","cornflowerblue",<br />
"deeppink4","deeppink4","deeppink4")<br />
cloud(P~HKE+Alter, data, panel.3d.cloud=panel.3dbars, col.facet=colors, <br />
xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), <br />
par.settings = list(axis.line = list(col = "transparent")))<br />
<br />
</R><br />
|}<br />
<br />
Schlussfolgerung:<br />
<br />
Bei [[diskrete Zufallsvariable|diskreten Zufallsvariablen]] mit einer hohen Anzahl von [[Ausprägung]]en ist eine [[Klassierung]] erforderlich, um eine übersichtliche [[Kontingenztabelle]] erstellen zu können. <br />
<br />
Der Erkenntnisgewinn, den man aus der [[Kontingenztabelle]] über mögliche Beziehungen zwischen den [[Zufallsvariable]]n gewinnen kann, ist entscheidend von dieser [[Klassierung]] abhängig. <br />
<br />
Es ist somit durchaus angebracht, weiterführende [[Statistische Untersuchung|statistische Analysen]] mit verschiedenen [[Klassierung]]en durchzuführen.<br />
<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Poisson-Verteilung&diff=1260Poisson-Verteilung2018-05-30T14:39:33Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Poisson-Prozess===<br />
<br />
Es seinen folgende Annahmen mit einem [[Zufallsexperiment]] verbunden:<br />
<br />
* Das Eintreten eines [[Ereignis]]ses wird immer in Hinblick auf ein Intervall betrachtet. Durch geeignete Wahl der Skala lässt sich immer erreichen, dass das Kontinuum vorgegebenen Umfangs ein Einheitsintervall ist. <br />
<br />
* Das Eintreten der [[Ereignis]]se ist zufällig in dem Sinne, dass es nicht bestimmten Mustern folgt und daher nicht vorhersehbar ist.<br />
<br />
* [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] des Eintretens der [[Ereignis]]se bedeutet, dass das Eintreten (oder Nichteintreten) eines [[Ereignis]]ses nicht das Eintreten oder Nichteintreten dieses [[Ereignis]]ses in einem anderen Intervall beeinflusst. Damit ist die jeweilige Anzahl von [[Ereignis]]sen innerhalb eines Intervalls [[Unabhängigkeit (stochastisch)|unabhängig]] von der Anzahl der [[Ereignis]]se eines anderen, [[disjunkte Ereignisse|disjunkten]] Intervalls.<br />
<br />
* Zwei [[Ereignis]]se können nicht gleichzeitig auftreten, d.h. in einem beliebig kleinen Intervall soll die [[Wahrscheinlichkeit]], dass mehr als ein [[Ereignis]] eintritt, gleich Null sein.<br />
<br />
* Die "Intensität" des Eintretens der [[Ereignis]]se soll konstant sein mit dem [[Parameter]] <math>\lambda > 0</math>, d.h. die mittlere Anzahl der in dem Intervall eintretenden [[Ereignis]]se soll [[Unabhängigkeit (stochastisch)|unabhängig]] von der Lage des Intervalls sein. Damit hängt die [[Wahrscheinlichkeit]] für das Eintreten einer bestimmten Anzahl von [[Ereignis]]sen in einem Intervall nur von dessen Umfang ab.<br />
<br />
Sind diese Bedingungen erfüllt und ist das Kontinuum die Zeit, spricht man von einem ''Poisson-Prozess''.<br />
<br />
===Poisson-Verteilung===<br />
<br />
Der ''Poisson-Verteilung'' liegt ein [[Zufallsexperiment]] zugrunde, bei dem ein [[Ereignis]] wiederholt, jedoch zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander in einem Kontinuum (z.B. Zeit, Raum, Fläche, Strecke) vorgegebenen Umfangs auftreten kann. <br />
<br />
Die [[Zufallsvariable]] <math>X</math> bezeichne die Anzahl der eingetretenen [[Ereignis]]se und ist daher [[Diskretes Merkmal|diskret]].<br />
<br />
Eine [[diskrete Zufallsvariable]] <math>X</math> mit der [[Wahrscheinlichkeitsverteilung]]<br />
<br />
<math>f_{PO}(x;\lambda )=\begin{cases}\frac{\lambda ^{x}}{x!}e^{-\lambda }& \mbox{, wenn } x=0,1,2,\dots;\lambda >0 \\<br />
0\quad & \mbox{, sonst}\end{cases}</math><br />
<br />
heißt Poisson-verteilt mit dem [[Parameter]] <math>\lambda</math>. In Kurzform schreibt man <math>X\sim PO(\lambda)\,</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] folgt:<br />
<br />
<math>F_{PO}(x;\lambda) =\begin{cases}\sum\limits_{k=0}^{x} \frac{\lambda^x}{x!}e^{- \lambda} & \mbox{, wenn }k \geq 0\; \mbox{ und } \lambda >0 \\<br />
0 \quad & \mbox{, wenn } k \leq 0\end{cases}</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der Poisson-Verteilung <math>PO(\lambda)</math> sind:<br />
<br />
<math>E[X]=\lambda \qquad Var(X)=\lambda</math>.<br />
<br />
Der Wertebereich von <math>X\,</math> umfasst alle natürlichen Zahlen.<br />
<br />
Die Poisson-Verteilung liegt für bestimmte <math>\lambda</math> und Schrittweiten tabelliert vor.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Sind <math>X\sim PO(\lambda _{1})\,</math> und <math>Y\sim PO(\lambda _{2})\,</math> verteilt und [[Unabhängigkeit (stochastisch)|unabhängige]] [[Zufallsvariable]]n, dann ist die [[Zufallsvariable]] <math>Z = X + Y\,</math> ebenfalls Poisson-verteilt mit dem [[Parameter]] <math>{\lambda_1 + \lambda_2}</math>:<br />
<br />
<math>Z \sim PO(\lambda_1+\lambda_2)\,</math><br />
<br />
===Poisson-Verteilung für Intervalle beliebigen Umfangs===<br />
<br />
Wenn die Anzahl von [[Ereignis]]sen im Einheitsintervall <math>PO(\lambda)</math>-verteilt ist, dann ist die Anzahl von [[Ereignis]]sen in einem Intervall des Umfangs <math>t</math> Poisson-verteilt mit dem [[Parameter]] <math>\lambda \cdot t</math>:<br />
<br />
<math>f_{PO}(x;\lambda \cdot t) = \frac{(\lambda \cdot t)^x}{x!}e^{-\lambda \cdot t}</math><br />
<br />
===Herleitung der Poisson-Verteilung===<br />
<br />
Die Poisson-Verteilung lässt sich auch aus der [[Binomialverteilung]] herleiten. Dazu nimmt man an:<br />
<br />
* Die Anzahl <math>n</math> der Versuche ist sehr groß.<br />
* Die [[Wahrscheinlichkeit]] für das Eintreten eines [[Ereignis]]ses <math>A</math>, d.h. <math>P(A) = p</math> bei der einzelnen Ziehung, ist sehr klein.<br />
* Hält man <math>E[X] = n\cdot p = \lambda</math> konstant und schickt <math>n</math> gegen Unendlich <math> (n \rightarrow \infty) </math>, dann geht <math>p</math> gegen Null.<br />
<br />
Damit kann die [[Binomialverteilung]] durch die Poisson-Verteilung <math>PO(\lambda = n\cdot p)</math> [[Approximation|approximiert]] werden. <br />
<br />
In diesem Sinne (großes <math>n</math> und kleines <math>p</math>) wird die Poisson-Verteilung oft auch als Verteilung seltener [[Ereignis]]se bezeichnet.<br />
<br />
Faustregel zur Anwendung der Poisson-Verteilung statt der [[Binomialverteilung]]: <math>n > 30</math> und <math>p\leq 0,05</math>.<br />
<br />
===Graphische Darstellung der Poisson-Verteilung===<br />
<br />
Die grafische Darstellung der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] der Poisson-Verteilung erfolgt in Form von [[Stabdiagramm]]en. <br />
<br />
Je kleiner <math>\lambda</math> desto linkssteiler ist die Poisson-Verteilung; je größer <math>\lambda</math> desto mehr nähert sich die Poisson-Verteilung einer symmetrischen [[Verteilung (stochastisch)|Verteilung]]. <br />
<br />
Die Grafik zeigt die Poisson-Verteilungen für <math>\lambda = 5</math> und <math>\lambda = 1</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_PoissonV_Poisson_L1_L5_R00480004800000000000000_plot.html" /><br />
<!--<br />
[[Bild:STAT-Poisson4.gif]]<br />
--><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Beispiele für Poisson-Prozesse===<br />
<br />
Zunächst einige Beispiele für das der Poisson-Verteilung zugrunde liegende [[Zufallsexperiment]] und die entsprechende [[Zufallsvariable]] <math>X\,</math>:<br />
<br />
* Anzahl von Druckfehlern pro Seite in Büchern,<br />
* Anzahl der Fadenbrüche pro Zeitraum in einer Spinnerei,<br />
* Anzahl der pro Minute ankommenden Gespräche in einer Telefonzentrale,<br />
* Anzahl der Kraftfahrzeuge, die pro Minute an einem Beobachtungspunkt vorbeifahren,<br />
* Anzahl der Patienten, die in einem Zeitintervall (z.B. 1 Stunde) in der Unfallstation eines Krankenhauses eintreffen,<br />
* Anzahl der pro Zeiteinheit emittierten <math>\alpha</math>-Teilchen einer radioaktiven Substanz<br />
* Anzahl der Fische, die ein Angler pro Tag fängt,<br />
* Anzahl der Schadensmeldungen bei einer Versicherung pro Jahr,<br />
* Anzahl der Kunden, die bei einer Bank innerhalb eines Monats einen Kredit beantragen.<br />
<br />
===Impfschäden===<br />
<br />
In einer Stadt von 20000 Einwohnern, die alle geimpft wurden, ist die [[Wahrscheinlichkeit]] gleich 0,0001, dass ein Individuum durch das verwendete Serum Impfschäden erleidet.<br />
<br />
Eigentlich ist dies ein [[Bernoulli-Experiment]] mit:<br />
<br />
1. <math>A = \{\mbox{Eintreten eines Impfschadens}\}\,</math> und <math>\bar{A} = \{\mbox{kein Impfschaden}\}</math><br />
<br />
2. <math>P(A) = 0.0001</math> ist konstant.<br />
<br />
3. [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der Versuche, d.h. der Impfungen.<br />
<br />
Für die Berechnung von [[Wahrscheinlichkeit]]en für eine bestimmte Anzahl des Eintretens von Impfschäden müsste somit die [[Binomialverteilung]] verwendet werden.<br />
<br />
Aufgrund der kleinen [[Wahrscheinlichkeit]] und der großen Anzahl der Versuche erfolgt eine [[Approximation]] durch die Poisson-Verteilung:<br />
<br />
<math>n>30</math> und <math>p\leq 0,05</math>.<br />
<br />
<math>\lambda = n\cdot p = 20000 \cdot 0,0001 = 2</math> ist die im Mittel zu erwartende Anzahl von Impfschäden.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_PoissonV_Wahrscheinlichkeitsfunktion_PO2_R00480004800000000000000_plot.html" /><br />
<br />
<!--<br />
[[Bild:STAT-Poisson3.gif]]<br />
--><br />
Die [[Wahrscheinlichkeit]], dass keiner Impfschäden erleidet, beträgt:<br />
<br />
<math>P(X = 0) = P(X \leq 0) = F(0) = 0,1353</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass genau eine Person einen Impfschaden erleidet beträgt:<br />
<br />
<math>P(X = 1) = P(X \leq 1) - P(X \leq 0) = F(1) - F(0) = 0,2707</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass mehr als 4 Personen Impfschäden erleiden, beträgt:<br />
<br />
<math>P(X > 4) = 1 - F(4)\,</math><br />
<br />
<math>F(4)</math> kann aus der Tabelle der Poisson-Verteilung für <math>\lambda =2</math> und <math>X = 4</math> entnommen werden:<br />
<br />
<math>F(4) = 0,9473</math><br />
<br />
<math>P(X > 4) = 1 - 0,9473 = 0,0527\,</math><br />
<br />
===Kundenservice===<br />
<br />
Aufgrund langjähriger Erfahrung geht man davon aus, dass der Kundenservice eines großen Kaufhauses in der Zeit von 9.00 bis 14.00 Uhr im Mittel von einem Kunden pro Stunde in Anspruch genommen wird und in der Zeit von 14.00 bis 19.00 Uhr im Mittel von 2 Kunden pro Stunde.<br />
<br />
Da die Inanspruchnahme des Service durch Kunden als zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander angesehen werden kann (kein Bestellsytem), ist die [[Zufallsvariable]]<br />
<br />
<math>X_{1} = \{\mbox{Anzahl der Kunden pro Stunde in der Zeit von 9.00 bis 14.00 Uhr}\}</math> <br />
<br />
Poisson-verteilt mit <math>\lambda_{1} = 1</math> und die [[Zufallsvariable]] <br />
<br />
<math>X_{2} = \{\mbox{Anzahl der Kunden pro Stunde in der Zeit von 14.00 bis 19.00 Uhr}\}</math> <br />
<br />
Poisson-verteilt mit <math>\lambda_{2} = 2</math>.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_PoissonV_Wahrscheinlichkeitsfunktion_PO5_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_PoissonV_Wahrscheinlichkeitsfunktion_PO10_R00480004800000000000000_plot.html" /><br />
<br />
Für beide Zeitperioden ist <math>t = 5</math>.<br />
<br />
Mit diesen Angaben lässt sich die [[Wahrscheinlichkeit]] berechnen, dass eine bestimmte Anzahl von Kunden in der Zeit von 9.00 bis 14.00 Uhr den Service in Anspruch nimmt, z.B. <math>X_{1} = 6</math>:<br />
<br />
<math>P(X_1 = 6) = f_{PO}(6;1 \cdot 5) = \frac{(\lambda\cdot t)^x}{x!}e^{-\lambda t} = \frac{(1 \cdot 5)^6}{6!}e^{-1 \cdot 5} =0,1462</math><br />
<br />
Mehr als 4 Kunden nehmen den Service in der gleichen Zeitperiode mit einer [[Wahrscheinlichkeit]] von<br />
<br />
<math>P(X_1 > 4) = 1 - P(X_1 \leq 4) = 1 - e^{-5}\cdot \left( \frac{5^0}{0!} + \frac{5^1}{1!} + \frac{5^2}{2!} + \frac{5^3}{3!} + \frac{5^4}{4!} \right) = 1 - 0,4405 = 0,5595</math><br />
<br />
in Anspruch.<br />
<br />
Für beide Fragestellungen für die Zeit von 14.00 bis 19.00 Uhr <math>(X_{2} = 6 \mbox{ bzw. } X_{2} > 4)</math> folgt:<br />
<br />
<math>P(X_2 = 6) = f_{PO}(6;2 \cdot 5) = \frac{(\lambda\cdot t)^x}{x!}e^{-\lambda t} = \frac{(2 \cdot 5)^6}{6!}e^{-2 \cdot 5} =<br />
0,063</math><br />
<br />
<math>P(X_2 > 4) = 1 - P(X_2 \leq 4) = 1 - e^{-10}\cdot \left( \frac{10^0}{0!} + \frac{10^1}{1!} + \frac{10^2}{2!} + \frac{10^3}{3!} + \frac{10^4}{4!}\right) = 1 - 0,0293 = 0,9707</math><br />
<br />
Aufgrund der Annahmen kann man davon ausgehen, dass die Inanspruchnahme des Service in beiden Zeitperioden in keinem Zusammenhang steht, d.h. die [[Zufallsvariable]]n <math>X_{1}</math> und <math>X_{2}</math> können als [[Unabhängigkeit (stochastisch)|unabhängig]] angesehen werden. <br />
<br />
Die [[Wahrscheinlichkeit]], dass sowohl von 9.00 bis 14.00 Uhr als auch von 14.00 bis 19.00 Uhr mehr als 4 Kunden kommen, beträgt dann<br />
<br />
<math>P(X_1 > 4, X_2 > 4) = P(X_1 > 4) \cdot P(X_2 > 4) = 0,5595 \cdot 0,9707 = 0,5431</math>.<br />
<br />
Betrachtet man die Anzahl der Kunden pro Stunde in der gesamten Öffnungszeit von 9.00 bis 19.00 Uhr, so gilt <math>Y=X_{1}+X_{2}</math>.<br />
<br />
Wegen der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] von <math>X_{1}</math> und <math>X_{2}</math> ist <math>Y</math> Poisson-verteilt mit <math>\lambda _{1}+\lambda _{2}=1+2=3</math>.<br />
<br />
<!--==Interaktives Beispiel Poisson-Verteilung==<br />
<br />
Die Poisson-Verteilung hängt von dem Parametern <math>\lambda</math> ab,<br />
der ihre Gestalt, ihre Lage und ihre Streuung beeinflusst.<br />
<br />
Sie haben nunmehr zum einen die Möglichkeit, diesen Parameter zu<br />
variieren, und erhalten als Output die grafische Darstellung der<br />
entsprechenden [[STAT-Glossar#Wahrscheinlichkeitsfunktion|Wahrscheinlichkeitsfunktion]] der <math>PO(\lambda)</math>.<br />
<br />
Weiterhin können Sie sich die Wahrscheinlichkeiten für<br />
spezielle Werte von <math>X</math> berechnen lassen.--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Poisson-Verteilung&diff=1259Poisson-Verteilung2018-05-30T14:38:18Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Poisson-Prozess===<br />
<br />
Es seinen folgende Annahmen mit einem [[Zufallsexperiment]] verbunden:<br />
<br />
* Das Eintreten eines [[Ereignis]]ses wird immer in Hinblick auf ein Intervall betrachtet. Durch geeignete Wahl der Skala lässt sich immer erreichen, dass das Kontinuum vorgegebenen Umfangs ein Einheitsintervall ist. <br />
<br />
* Das Eintreten der [[Ereignis]]se ist zufällig in dem Sinne, dass es nicht bestimmten Mustern folgt und daher nicht vorhersehbar ist.<br />
<br />
* [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] des Eintretens der [[Ereignis]]se bedeutet, dass das Eintreten (oder Nichteintreten) eines [[Ereignis]]ses nicht das Eintreten oder Nichteintreten dieses [[Ereignis]]ses in einem anderen Intervall beeinflusst. Damit ist die jeweilige Anzahl von [[Ereignis]]sen innerhalb eines Intervalls [[Unabhängigkeit (stochastisch)|unabhängig]] von der Anzahl der [[Ereignis]]se eines anderen, [[disjunkte Ereignisse|disjunkten]] Intervalls.<br />
<br />
* Zwei [[Ereignis]]se können nicht gleichzeitig auftreten, d.h. in einem beliebig kleinen Intervall soll die [[Wahrscheinlichkeit]], dass mehr als ein [[Ereignis]] eintritt, gleich Null sein.<br />
<br />
* Die "Intensität" des Eintretens der [[Ereignis]]se soll konstant sein mit dem [[Parameter]] <math>\lambda > 0</math>, d.h. die mittlere Anzahl der in dem Intervall eintretenden [[Ereignis]]se soll [[Unabhängigkeit (stochastisch)|unabhängig]] von der Lage des Intervalls sein. Damit hängt die [[Wahrscheinlichkeit]] für das Eintreten einer bestimmten Anzahl von [[Ereignis]]sen in einem Intervall nur von dessen Umfang ab.<br />
<br />
Sind diese Bedingungen erfüllt und ist das Kontinuum die Zeit, spricht man von einem ''Poisson-Prozess''.<br />
<br />
===Poisson-Verteilung===<br />
<br />
Der ''Poisson-Verteilung'' liegt ein [[Zufallsexperiment]] zugrunde, bei dem ein [[Ereignis]] wiederholt, jedoch zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander in einem Kontinuum (z.B. Zeit, Raum, Fläche, Strecke) vorgegebenen Umfangs auftreten kann. <br />
<br />
Die [[Zufallsvariable]] <math>X</math> bezeichne die Anzahl der eingetretenen [[Ereignis]]se und ist daher [[Diskretes Merkmal|diskret]].<br />
<br />
Eine [[diskrete Zufallsvariable]] <math>X</math> mit der [[Wahrscheinlichkeitsverteilung]]<br />
<br />
<math>f_{PO}(x;\lambda )=\begin{cases}\frac{\lambda ^{x}}{x!}e^{-\lambda }& \mbox{, wenn } x=0,1,2,\dots;\lambda >0 \\<br />
0\quad & \mbox{, sonst}\end{cases}</math><br />
<br />
heißt Poisson-verteilt mit dem [[Parameter]] <math>\lambda</math>. In Kurzform schreibt man <math>X\sim PO(\lambda)\,</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] folgt:<br />
<br />
<math>F_{PO}(x;\lambda) =\begin{cases}\sum\limits_{k=0}^{x} \frac{\lambda^x}{x!}e^{- \lambda} & \mbox{, wenn }k \geq 0\; \mbox{ und } \lambda >0 \\<br />
0 \quad & \mbox{, wenn } k \leq 0\end{cases}</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der Poisson-Verteilung <math>PO(\lambda)</math> sind:<br />
<br />
<math>E[X]=\lambda \qquad Var(X)=\lambda</math>.<br />
<br />
Der Wertebereich von <math>X\,</math> umfasst alle natürlichen Zahlen.<br />
<br />
Die Poisson-Verteilung liegt für bestimmte <math>\lambda</math> und Schrittweiten tabelliert vor.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Sind <math>X\sim PO(\lambda _{1})\,</math> und <math>Y\sim PO(\lambda _{2})\,</math> verteilt und [[Unabhängigkeit (stochastisch)|unabhängige]] [[Zufallsvariable]]n, dann ist die [[Zufallsvariable]] <math>Z = X + Y\,</math> ebenfalls Poisson-verteilt mit dem [[Parameter]] <math>{\lambda_1 + \lambda_2}</math>:<br />
<br />
<math>Z \sim PO(\lambda_1+\lambda_2)\,</math><br />
<br />
===Poisson-Verteilung für Intervalle beliebigen Umfangs===<br />
<br />
Wenn die Anzahl von [[Ereignis]]sen im Einheitsintervall <math>PO(\lambda)</math>-verteilt ist, dann ist die Anzahl von [[Ereignis]]sen in einem Intervall des Umfangs <math>t</math> Poisson-verteilt mit dem [[Parameter]] <math>\lambda \cdot t</math>:<br />
<br />
<math>f_{PO}(x;\lambda \cdot t) = \frac{(\lambda \cdot t)^x}{x!}e^{-\lambda \cdot t}</math><br />
<br />
===Herleitung der Poisson-Verteilung===<br />
<br />
Die Poisson-Verteilung lässt sich auch aus der [[Binomialverteilung]] herleiten. Dazu nimmt man an:<br />
<br />
* Die Anzahl <math>n</math> der Versuche ist sehr groß.<br />
* Die [[Wahrscheinlichkeit]] für das Eintreten eines [[Ereignis]]ses <math>A</math>, d.h. <math>P(A) = p</math> bei der einzelnen Ziehung, ist sehr klein.<br />
* Hält man <math>E[X] = n\cdot p = \lambda</math> konstant und schickt <math>n</math> gegen Unendlich <math> (n \rightarrow \infty) </math>, dann geht <math>p</math> gegen Null.<br />
<br />
Damit kann die [[Binomialverteilung]] durch die Poisson-Verteilung <math>PO(\lambda = n\cdot p)</math> [[Approximation|approximiert]] werden. <br />
<br />
In diesem Sinne (großes <math>n</math> und kleines <math>p</math>) wird die Poisson-Verteilung oft auch als Verteilung seltener [[Ereignis]]se bezeichnet.<br />
<br />
Faustregel zur Anwendung der Poisson-Verteilung statt der [[Binomialverteilung]]: <math>n > 30</math> und <math>p\leq 0,05</math>.<br />
<br />
===Graphische Darstellung der Poisson-Verteilung===<br />
<br />
Die grafische Darstellung der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] der Poisson-Verteilung erfolgt in Form von [[Stabdiagramm]]en. <br />
<br />
Je kleiner <math>\lambda</math> desto linkssteiler ist die Poisson-Verteilung; je größer <math>\lambda</math> desto mehr nähert sich die Poisson-Verteilung einer symmetrischen [[Verteilung (stochastisch)|Verteilung]]. <br />
<br />
Die Grafik zeigt die Poisson-Verteilungen für <math>\lambda = 5</math> und <math>\lambda = 1</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Poisson_Poisson_L1_L5_R00480004800000000000000_plot.html" /><br />
<!--<br />
[[Bild:STAT-Poisson4.gif]]<br />
--><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Beispiele für Poisson-Prozesse===<br />
<br />
Zunächst einige Beispiele für das der Poisson-Verteilung zugrunde liegende [[Zufallsexperiment]] und die entsprechende [[Zufallsvariable]] <math>X\,</math>:<br />
<br />
* Anzahl von Druckfehlern pro Seite in Büchern,<br />
* Anzahl der Fadenbrüche pro Zeitraum in einer Spinnerei,<br />
* Anzahl der pro Minute ankommenden Gespräche in einer Telefonzentrale,<br />
* Anzahl der Kraftfahrzeuge, die pro Minute an einem Beobachtungspunkt vorbeifahren,<br />
* Anzahl der Patienten, die in einem Zeitintervall (z.B. 1 Stunde) in der Unfallstation eines Krankenhauses eintreffen,<br />
* Anzahl der pro Zeiteinheit emittierten <math>\alpha</math>-Teilchen einer radioaktiven Substanz<br />
* Anzahl der Fische, die ein Angler pro Tag fängt,<br />
* Anzahl der Schadensmeldungen bei einer Versicherung pro Jahr,<br />
* Anzahl der Kunden, die bei einer Bank innerhalb eines Monats einen Kredit beantragen.<br />
<br />
===Impfschäden===<br />
<br />
In einer Stadt von 20000 Einwohnern, die alle geimpft wurden, ist die [[Wahrscheinlichkeit]] gleich 0,0001, dass ein Individuum durch das verwendete Serum Impfschäden erleidet.<br />
<br />
Eigentlich ist dies ein [[Bernoulli-Experiment]] mit:<br />
<br />
1. <math>A = \{\mbox{Eintreten eines Impfschadens}\}\,</math> und <math>\bar{A} = \{\mbox{kein Impfschaden}\}</math><br />
<br />
2. <math>P(A) = 0.0001</math> ist konstant.<br />
<br />
3. [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der Versuche, d.h. der Impfungen.<br />
<br />
Für die Berechnung von [[Wahrscheinlichkeit]]en für eine bestimmte Anzahl des Eintretens von Impfschäden müsste somit die [[Binomialverteilung]] verwendet werden.<br />
<br />
Aufgrund der kleinen [[Wahrscheinlichkeit]] und der großen Anzahl der Versuche erfolgt eine [[Approximation]] durch die Poisson-Verteilung:<br />
<br />
<math>n>30</math> und <math>p\leq 0,05</math>.<br />
<br />
<math>\lambda = n\cdot p = 20000 \cdot 0,0001 = 2</math> ist die im Mittel zu erwartende Anzahl von Impfschäden.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Poisson_Wahrscheinlichkeitsfunktion_PO2_R00480004800000000000000_plot.html" /><br />
<br />
<!--<br />
[[Bild:STAT-Poisson3.gif]]<br />
--><br />
Die [[Wahrscheinlichkeit]], dass keiner Impfschäden erleidet, beträgt:<br />
<br />
<math>P(X = 0) = P(X \leq 0) = F(0) = 0,1353</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass genau eine Person einen Impfschaden erleidet beträgt:<br />
<br />
<math>P(X = 1) = P(X \leq 1) - P(X \leq 0) = F(1) - F(0) = 0,2707</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass mehr als 4 Personen Impfschäden erleiden, beträgt:<br />
<br />
<math>P(X > 4) = 1 - F(4)\,</math><br />
<br />
<math>F(4)</math> kann aus der Tabelle der Poisson-Verteilung für <math>\lambda =2</math> und <math>X = 4</math> entnommen werden:<br />
<br />
<math>F(4) = 0,9473</math><br />
<br />
<math>P(X > 4) = 1 - 0,9473 = 0,0527\,</math><br />
<br />
===Kundenservice===<br />
<br />
Aufgrund langjähriger Erfahrung geht man davon aus, dass der Kundenservice eines großen Kaufhauses in der Zeit von 9.00 bis 14.00 Uhr im Mittel von einem Kunden pro Stunde in Anspruch genommen wird und in der Zeit von 14.00 bis 19.00 Uhr im Mittel von 2 Kunden pro Stunde.<br />
<br />
Da die Inanspruchnahme des Service durch Kunden als zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander angesehen werden kann (kein Bestellsytem), ist die [[Zufallsvariable]]<br />
<br />
<math>X_{1} = \{\mbox{Anzahl der Kunden pro Stunde in der Zeit von 9.00 bis 14.00 Uhr}\}</math> <br />
<br />
Poisson-verteilt mit <math>\lambda_{1} = 1</math> und die [[Zufallsvariable]] <br />
<br />
<math>X_{2} = \{\mbox{Anzahl der Kunden pro Stunde in der Zeit von 14.00 bis 19.00 Uhr}\}</math> <br />
<br />
Poisson-verteilt mit <math>\lambda_{2} = 2</math>.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Poisson_Wahrscheinlichkeitsfunktion_PO5_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_Poisson_Wahrscheinlichkeitsfunktion_PO10_R00480004800000000000000_plot.html" /><br />
<br />
Für beide Zeitperioden ist <math>t = 5</math>.<br />
<br />
Mit diesen Angaben lässt sich die [[Wahrscheinlichkeit]] berechnen, dass eine bestimmte Anzahl von Kunden in der Zeit von 9.00 bis 14.00 Uhr den Service in Anspruch nimmt, z.B. <math>X_{1} = 6</math>:<br />
<br />
<math>P(X_1 = 6) = f_{PO}(6;1 \cdot 5) = \frac{(\lambda\cdot t)^x}{x!}e^{-\lambda t} = \frac{(1 \cdot 5)^6}{6!}e^{-1 \cdot 5} =0,1462</math><br />
<br />
Mehr als 4 Kunden nehmen den Service in der gleichen Zeitperiode mit einer [[Wahrscheinlichkeit]] von<br />
<br />
<math>P(X_1 > 4) = 1 - P(X_1 \leq 4) = 1 - e^{-5}\cdot \left( \frac{5^0}{0!} + \frac{5^1}{1!} + \frac{5^2}{2!} + \frac{5^3}{3!} + \frac{5^4}{4!} \right) = 1 - 0,4405 = 0,5595</math><br />
<br />
in Anspruch.<br />
<br />
Für beide Fragestellungen für die Zeit von 14.00 bis 19.00 Uhr <math>(X_{2} = 6 \mbox{ bzw. } X_{2} > 4)</math> folgt:<br />
<br />
<math>P(X_2 = 6) = f_{PO}(6;2 \cdot 5) = \frac{(\lambda\cdot t)^x}{x!}e^{-\lambda t} = \frac{(2 \cdot 5)^6}{6!}e^{-2 \cdot 5} =<br />
0,063</math><br />
<br />
<math>P(X_2 > 4) = 1 - P(X_2 \leq 4) = 1 - e^{-10}\cdot \left( \frac{10^0}{0!} + \frac{10^1}{1!} + \frac{10^2}{2!} + \frac{10^3}{3!} + \frac{10^4}{4!}\right) = 1 - 0,0293 = 0,9707</math><br />
<br />
Aufgrund der Annahmen kann man davon ausgehen, dass die Inanspruchnahme des Service in beiden Zeitperioden in keinem Zusammenhang steht, d.h. die [[Zufallsvariable]]n <math>X_{1}</math> und <math>X_{2}</math> können als [[Unabhängigkeit (stochastisch)|unabhängig]] angesehen werden. <br />
<br />
Die [[Wahrscheinlichkeit]], dass sowohl von 9.00 bis 14.00 Uhr als auch von 14.00 bis 19.00 Uhr mehr als 4 Kunden kommen, beträgt dann<br />
<br />
<math>P(X_1 > 4, X_2 > 4) = P(X_1 > 4) \cdot P(X_2 > 4) = 0,5595 \cdot 0,9707 = 0,5431</math>.<br />
<br />
Betrachtet man die Anzahl der Kunden pro Stunde in der gesamten Öffnungszeit von 9.00 bis 19.00 Uhr, so gilt <math>Y=X_{1}+X_{2}</math>.<br />
<br />
Wegen der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] von <math>X_{1}</math> und <math>X_{2}</math> ist <math>Y</math> Poisson-verteilt mit <math>\lambda _{1}+\lambda _{2}=1+2=3</math>.<br />
<br />
<!--==Interaktives Beispiel Poisson-Verteilung==<br />
<br />
Die Poisson-Verteilung hängt von dem Parametern <math>\lambda</math> ab,<br />
der ihre Gestalt, ihre Lage und ihre Streuung beeinflusst.<br />
<br />
Sie haben nunmehr zum einen die Möglichkeit, diesen Parameter zu<br />
variieren, und erhalten als Output die grafische Darstellung der<br />
entsprechenden [[STAT-Glossar#Wahrscheinlichkeitsfunktion|Wahrscheinlichkeitsfunktion]] der <math>PO(\lambda)</math>.<br />
<br />
Weiterhin können Sie sich die Wahrscheinlichkeiten für<br />
spezielle Werte von <math>X</math> berechnen lassen.--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Periodische_Schwankungen&diff=1258Periodische Schwankungen2018-05-30T14:33:32Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Periodische Schwankung, Saisonschwankung bzw. Saisonkomponente===<br />
<br />
Bisher wurde aus der Original[[zeitreihe]] nur ein Trend ermittelt. Dabei fanden Informationen über saisonale Erscheinungen Beachtung in der Wahl eines geeigneten [[Filter]]s. <br />
<br />
Nun sollen auch die ''Saisonschwankungen'' (Saisonkomponenten) berechnet werden. Einige nützliche Definitionen vorab<br />
erleichtern das Verständnis:<br />
<br />
* Perioden: <math>p_{i},\; i=1,\ldots,\; P</math><br />
<br />
: Anzahl der Wiederholungen einer Saison<br />
<br />
: Beispiel: Quartalsdaten über 10 Jahre: <math>P = 10</math><br />
<br />
* Unterzeiträume <math>k_{j},\; j=1,\ldots,\;k</math><br />
<br />
: Anzahl der Perioden in einem Zyklus<br />
<br />
: Beispiel: Quartalsdaten: <math>k = 4</math><br />
<br />
* Anzahl der Zeiträume: <math>T=k\cdot P</math><br />
<br />
* Trendwerte: <math>\widehat{x}_{i,j}</math><br />
<br />
* Beobachtungswerte: <math>x_{i,j}</math><br />
<br />
* Schwankungskomponente: <math>s_{i,j}</math><br />
<br />
Man unterscheidet zwischen [[additives Zeitreihenmodell|additiven]] und [[multiplikatives Zeitreihenmodell|multiplikativen Zeitreihenmodellen]]: <br />
<br />
Bei ersteren wird ein additiver und bei letzeren ein multiplikativer Zusammenhang zwischen [[Trend]], Saisonkomponente und [[Residuum|Residuen]] unterstellt. Entsprechend unterscheidet sich die Berechnung der Saisonkomponente:<br />
<br />
===Additives Zeitreihenmodell===<br />
<br />
: <math>s_{i,j}=x_{i,j}-\widehat{x}_{i,j};\quad \bar{s_{j}}=\frac{1}{P}\cdot \sum\limits_{i=1}^{P}s_{i,j}</math><br />
<br />
: <math>\widehat{x}_{i,j}^{ZRM}=\widehat{x}_{i,j}+\bar{s_{j}}</math> für <math>i=1,\ldots ,P\;\; j=1,\ldots, k</math><br />
<br />
Der prognostizierte Wert der [[Variable]]n <math>X\;</math> aufgrund des [[Zeitreihe]]nmodells (ZRM) setzt sich ''additiv'' aus dem Trendwert <math>\widehat{x}_{i,j}</math> und dem mittleren Saisonkoeffizienten <math>\bar{s_{j}}</math> zusammen.<br />
<br />
===Multiplikatives Zeitreihenmodell===<br />
<br />
<math>s_{i,j}=\frac{x_{i,j}}{\widehat{x}_{i,j}},\qquad \bar{s_{j}}=\frac{1}{P}\sum\limits_{i=1}^{P}s_{i,j}</math><br />
<br />
<math>\widehat{x}_{i,j}^{ZRM}=\widehat{x}_{i,j}\cdot \bar{s_{j}}</math> für <math>i=1,\ldots, P\quad j=1,\ldots,k</math><br />
<br />
Der prognostizierte Wert der [[Variable]]n <math>X\;</math> aufgrund des [[Zeitreihe]]nmodells (ZRM) setzt sich ''multiplikativ'' aus dem Trendwert <math>\widehat{x}_{i,j}</math> und dem mittleren Saisonkoeffizienten <math>\bar{s_{j}}</math> zusammen.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===PKW Zulassungen (Additives Zeitreihenmodell)===<br />
<br />
Zulassungszahl neuer PKW in Berlin - 1. Quartal 1977 - 4. Quartal 1989<br />
<br />
[[Additives Zeitreihenmodell]]:<br />
<br />
[[Filter]]: <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math><br />
<br />
rot = Originalzeitreihe<br />
<br />
schwarz = geglättete Reihe ([[Trend]])<br />
<br />
blau = [[Trend]] und [[Saisonkomponente]]<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>j\;</math><br />
|align="center"|Summe<br />
|align="center"|<math>\bar{s_{j}}\;</math><br />
|align="center"|<math>P\;</math><br />
|-<br />
|align="center"|1<br />
|align="center"|2,934<br />
|align="center"|0,244<br />
|align="center"|12<br />
|-<br />
|align="center"|2<br />
|align="center"|30,424<br />
|align="center"|2,535<br />
|align="center"|12<br />
|-<br />
|align="center"|3<br />
|align="center"|-17,434<br />
|align="center"|-1,453<br />
|align="center"|12<br />
|-<br />
|align="center"|4<br />
|align="center"|-16,120<br />
|align="center"|-1,343<br />
|align="center"|12<br />
|}<br />
<br />
<iframe k="wiwi" p="examples/stat_PeriodischeSchwankung_Decomposition_PKW_R00480004800000000000000_plot.html" /><br />
===Pkw-Zulassungen===<br />
<br />
Dieses Beispiel soll zeigen, wie man eine saisonale [[Zeitreihe]] <math>x(t)</math> additiv in einen [[Trend]] <math>T(t)</math>, eine [[Saisonschwankung]] <math>S(t)</math> und [[Residuum|Residuen]] <math>e(t)</math> zerlegt. <br />
<br />
Unterstellt wird also ein geschätztes Modell in der Form <br />
<br />
<math>x(t)= T(t)+S(t)+e(t)</math>. <br />
<br />
Als Beispiel dienen Quartalsdaten über Pkw-Zulassungen in Berlin.<br />
<br />
====Trend====<br />
<br />
Zwei verschiedene Verfahren zur [[Trend]][[schätzung]] wurden oben eingeführt: Die [[Methode der kleinsten Quadrate]] und die [[Methode der gleitenden Durchschnitte]]. <br />
<br />
Hier soll letztere zur Anwendung kommen, bei der der [[Trend]] nach der Formel<br />
<br />
<math>T(t)=\sum_{i=-a}^{b}\lambda _{i}\cdot x_{t+i}</math> mit <math>\sum_{i=-a}^{b}\lambda _{i}=1</math><br />
<br />
ermittelt wird.<br />
<br />
Damit die geglättete Reihe keine [[Saisonschwankung]]en mehr enthält, verwendet man bei Quartalsdaten den [[Filter]] <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math>. <br />
<br />
Er sichert sowohl eine gleichmäßige Berücksichtigung von Vergangenheits- und Zukunftsdaten <math>(a = b)</math> als auch die gleiche Gewichtung aller Saisonarten (jeweils mit <math>\frac{1}{4}</math>).<br />
<br />
Beispiel:<br />
<br />
<math>T(3) = \frac{1}{8} \cdot x(1) + \frac{1}{4} \cdot x(2) + \frac{1}{4} \cdot x(3) + \frac{1}{4} \cdot x(4) + \frac{1}{8} \cdot x(5)</math><br />
<br />
====Saisonschwankung====<br />
<br />
Aus dem Modell <br />
<br />
<math>x(t) = T(t) + S(t) + e(t)</math> <br />
<br />
ergibt sich <br />
<br />
<math>x(t) - T(t) = S(t) + e(t)</math>. <br />
<br />
Die linke Seite dieser Gleichung ist nach der [[Trend]][[schätzung]] bekannt. <br />
<br />
Unter der Annahme, dass die [[Saisonschwankung]] in den jeweiligen Quartalen denselben Wert hat (also z.B.: <math>S(3) = S(7) =\ldots=S(51)</math>), ist ein naheliegendes Verfahren zur Saisonbestimmung die Bildung des [[Arithmetisches Mittel|arithmetischen Mittels]] über alle Differenzen <math>x(t) - T(t)</math>, die zu einer Saison gehören.<br />
<br />
Beispiel:<br />
<br />
<math>S(3) = S(7) = \ldots = S(51) = \frac{(x(3) - T(3)) + (x(7) - T(7)) + \ldots + (x(51)<br />
- T(51))}{12}</math><br />
<br />
Für dieses Vorgehen ist es unerheblich, mit welcher Methode der [[Trend]] [[Schätzung|geschätzt]] wurde.<br />
<br />
====Residuen====<br />
<br />
Die [[Schätzung|geschätzt]]en [[Residuum|Residuen]] berechnet man mit <math>e(t)=x(t)-T(t)-S(t)</math>.<br />
<br />
====Ergebnisse der Zerlegung der Zeitreihe====<br />
<br />
Sie sollten anhand der Rechenergebnisse zu mindestens einer Periode überprüfen, ob Sie das oben beschriebene Verfahren nachvollziehen können.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Quartal<br />
|align="center"|<math>\,t</math><br />
|align="center"|<math>\,x(t)</math><br />
|align="center"|<math>\,T(t)</math><br />
|align="center"|<math>\,x(t)-T(t)</math><br />
|align="center"|<math>\,S(t)</math><br />
|align="center"|<math>\,e(t)</math><br />
|-<br />
|align="center"|1977.1<br />
|align="center"|1<br />
|align="center"|15222<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1977.2<br />
|align="center"|2<br />
|align="center"|17456<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1977.3<br />
|align="center"|3<br />
|align="center"|12988<br />
|align="center"|14897,9<br />
|align="center"|-1909,9<br />
|align="center"|-1452,8<br />
|align="center"|-457,1<br />
|-<br />
|align="center"|1977.4<br />
|align="center"|4<br />
|align="center"|13833<br />
|align="center"|15127,8<br />
|align="center"|-1294,8<br />
|align="center"|-1343,3<br />
|align="center"|48,5<br />
|-<br />
|align="center"|1978.1<br />
|align="center"|5<br />
|align="center"|15407<br />
|align="center"|15395,9<br />
|align="center"|11,1<br />
|align="center"|244,5<br />
|align="center"|-233,4<br />
|-<br />
|align="center"|1978.2<br />
|align="center"|6<br />
|align="center"|19110<br />
|align="center"|15370,5<br />
|align="center"|3739,5<br />
|align="center"|2535,4<br />
|align="center"|1204,1<br />
|-<br />
|align="center"|1978.3<br />
|align="center"|7<br />
|align="center"|13479<br />
|align="center"|15408,8<br />
|align="center"|-1929,8<br />
|align="center"|-1452,8<br />
|align="center"|-477<br />
|-<br />
|align="center"|1978.4<br />
|align="center"|8<br />
|align="center"|13139<br />
|align="center"|15487,3<br />
|align="center"|-2348,3<br />
|align="center"|-1343,3<br />
|align="center"|-1005<br />
|-<br />
|align="center"|1979.1<br />
|align="center"|9<br />
|align="center"|16407<br />
|align="center"|15246,3<br />
|align="center"|1160,7<br />
|align="center"|244,5<br />
|align="center"|916,2<br />
|-<br />
|align="center"|1979.2<br />
|align="center"|10<br />
|align="center"|18738<br />
|align="center"|14891<br />
|align="center"|3847<br />
|align="center"|2535,4<br />
|align="center"|1311,6<br />
|-<br />
|align="center"|1979.3<br />
|align="center"|11<br />
|align="center"|11923<br />
|align="center"|14663<br />
|align="center"|-2740<br />
|align="center"|-1452,8<br />
|align="center"|-1287,2<br />
|-<br />
|align="center"|1979.4<br />
|align="center"|12<br />
|align="center"|11853<br />
|align="center"|14267,1<br />
|align="center"|-2414,1<br />
|align="center"|-1343,3<br />
|align="center"|-1070,8<br />
|-<br />
|align="center"|1980.1<br />
|align="center"|13<br />
|align="center"|15869<br />
|align="center"|14058,5<br />
|align="center"|1810,5<br />
|align="center"|244,5<br />
|align="center"|1566<br />
|-<br />
|align="center"|1980.2<br />
|align="center"|14<br />
|align="center"|16109<br />
|align="center"|14160,9<br />
|align="center"|1948,1<br />
|align="center"|2535,4<br />
|align="center"|-587,3<br />
|-<br />
|align="center"|1980.3<br />
|align="center"|15<br />
|align="center"|12883<br />
|align="center"|13971,5<br />
|align="center"|-1088,5<br />
|align="center"|-1452,8<br />
|align="center"|364,3<br />
|-<br />
|align="center"|1980.4<br />
|align="center"|16<br />
|align="center"|11712<br />
|align="center"|13707,8<br />
|align="center"|-1995,8<br />
|align="center"|-1343,3<br />
|align="center"|-652,5<br />
|-<br />
|align="center"|1981.1<br />
|align="center"|17<br />
|align="center"|14495<br />
|align="center"|13298<br />
|align="center"|1197<br />
|align="center"|244,5<br />
|align="center"|952,5<br />
|-<br />
|align="center"|1981.2<br />
|align="center"|18<br />
|align="center"|15373<br />
|align="center"|12905,1<br />
|align="center"|2467,9<br />
|align="center"|2535,4<br />
|align="center"|-67,5<br />
|-<br />
|align="center"|1981.3<br />
|align="center"|19<br />
|align="center"|10341<br />
|align="center"|12641,3<br />
|align="center"|-2300,3<br />
|align="center"|-1452,8<br />
|align="center"|-847,5<br />
|-<br />
|align="center"|1981.4<br />
|align="center"|20<br />
|align="center"|11111<br />
|align="center"|12205,5<br />
|align="center"|-1094,5<br />
|align="center"|-1343,3<br />
|align="center"|248,8<br />
|-<br />
|align="center"|1982.1<br />
|align="center"|21<br />
|align="center"|12985<br />
|align="center"|11850,1<br />
|align="center"|1134,9<br />
|align="center"|244,5<br />
|align="center"|890,4<br />
|-<br />
|align="center"|1982.2<br />
|align="center"|22<br />
|align="center"|13397<br />
|align="center"|11608,3<br />
|align="center"|1788,7<br />
|align="center"|2535,4<br />
|align="center"|-746,7<br />
|-<br />
|align="center"|1982.3<br />
|align="center"|23<br />
|align="center"|9474<br />
|align="center"|11530,5<br />
|align="center"|-2056,5<br />
|align="center"|-1452,8<br />
|align="center"|-603,7<br />
|-<br />
|align="center"|1982.4<br />
|align="center"|24<br />
|align="center"|10043<br />
|align="center"|11907,6<br />
|align="center"|-1864,6<br />
|align="center"|-1343,3<br />
|align="center"|-521,3<br />
|-<br />
|align="center"|1983.1<br />
|align="center"|25<br />
|align="center"|13431<br />
|align="center"|12450,5<br />
|align="center"|980,5<br />
|align="center"|244,5<br />
|align="center"|736<br />
|-<br />
|align="center"|1983.2<br />
|align="center"|26<br />
|align="center"|15968<br />
|align="center"|12824,3<br />
|align="center"|3143,7<br />
|align="center"|2535,4<br />
|align="center"|608,3<br />
|-<br />
|align="center"|1983.3<br />
|align="center"|27<br />
|align="center"|11246<br />
|align="center"|13161,1<br />
|align="center"|-1915,1<br />
|align="center"|-1452,8<br />
|align="center"|-462,3<br />
|-<br />
|align="center"|1983.4<br />
|align="center"|28<br />
|align="center"|11261<br />
|align="center"|13172,4<br />
|align="center"|-1911,4<br />
|align="center"|-1343,3<br />
|align="center"|-568,1<br />
|-<br />
|align="center"|1984.1<br />
|align="center"|29<br />
|align="center"|14908<br />
|align="center"|12905,5<br />
|align="center"|2002,5<br />
|align="center"|244,5<br />
|align="center"|1758<br />
|-<br />
|align="center"|1984.2<br />
|align="center"|30<br />
|align="center"|14581<br />
|align="center"|12736,5<br />
|align="center"|1844,5<br />
|align="center"|2535,4<br />
|align="center"|-690,9<br />
|-<br />
|align="center"|1984.3<br />
|align="center"|31<br />
|align="center"|10498<br />
|align="center"|12182,3<br />
|align="center"|-1684,3<br />
|align="center"|-1452,8<br />
|align="center"|-231,5<br />
|-<br />
|align="center"|1984.4<br />
|align="center"|32<br />
|align="center"|10657<br />
|align="center"|11738,1<br />
|align="center"|-1081,1<br />
|align="center"|-1343,3<br />
|align="center"|262,2<br />
|-<br />
|align="center"|1985.1<br />
|align="center"|33<br />
|align="center"|11078<br />
|align="center"|11894,6<br />
|align="center"|-816,6<br />
|align="center"|244,5<br />
|align="center"|-1061,1<br />
|-<br />
|align="center"|1985.2<br />
|align="center"|34<br />
|align="center"|14858<br />
|align="center"|12232,4<br />
|align="center"|2625,6<br />
|align="center"|2535,4<br />
|align="center"|90,2<br />
|-<br />
|align="center"|1985.3<br />
|align="center"|35<br />
|align="center"|11473<br />
|align="center"|12788,6<br />
|align="center"|-1315,6<br />
|align="center"|-1452,8<br />
|align="center"|137,2<br />
|-<br />
|align="center"|1985.4<br />
|align="center"|36<br />
|align="center"|12384<br />
|align="center"|13414,6<br />
|align="center"|-1030,6<br />
|align="center"|-1343,3<br />
|align="center"|312,7<br />
|-<br />
|align="center"|1986.1<br />
|align="center"|37<br />
|align="center"|13801<br />
|align="center"|14047,3<br />
|align="center"|-246,3<br />
|align="center"|244,5<br />
|align="center"|-490,8<br />
|-<br />
|align="center"|1986.2<br />
|align="center"|38<br />
|align="center"|17143<br />
|align="center"|14685,3<br />
|align="center"|2457,7<br />
|align="center"|2535,4<br />
|align="center"|-77,7<br />
|-<br />
|align="center"|1986.3<br />
|align="center"|39<br />
|align="center"|14249<br />
|align="center"|14826,5<br />
|align="center"|-577,5<br />
|align="center"|-1452,8<br />
|align="center"|875,3<br />
|-<br />
|align="center"|1986.4<br />
|align="center"|40<br />
|align="center"|14712<br />
|align="center"|14633,8<br />
|align="center"|78,2<br />
|align="center"|-1343,3<br />
|align="center"|1421,5<br />
|-<br />
|align="center"|1987.1<br />
|align="center"|41<br />
|align="center"|12603<br />
|align="center"|14761<br />
|align="center"|-2158<br />
|align="center"|244,5<br />
|align="center"|-2402,5<br />
|-<br />
|align="center"|1987.2<br />
|align="center"|42<br />
|align="center"|16799<br />
|align="center"|15038,3<br />
|align="center"|1760,7<br />
|align="center"|2535,4<br />
|align="center"|-774,7<br />
|-<br />
|align="center"|1987.3<br />
|align="center"|43<br />
|align="center"|15611<br />
|align="center"|15204,5<br />
|align="center"|406,5<br />
|align="center"|-1452,8<br />
|align="center"|1859,3<br />
|-<br />
|align="center"|1987.4<br />
|align="center"|44<br />
|align="center"|15568<br />
|align="center"|15301,1<br />
|align="center"|266,9<br />
|align="center"|-1343,3<br />
|align="center"|1610,2<br />
|-<br />
|align="center"|1988.1<br />
|align="center"|45<br />
|align="center"|13077<br />
|align="center"|15157<br />
|align="center"|-2080<br />
|align="center"|244,5<br />
|align="center"|-2324,5<br />
|-<br />
|align="center"|1988.2<br />
|align="center"|46<br />
|align="center"|17098<br />
|align="center"|14665,1<br />
|align="center"|2432,9<br />
|align="center"|2535,4<br />
|align="center"|-102,5<br />
|-<br />
|align="center"|1988.3<br />
|align="center"|47<br />
|align="center"|14159<br />
|align="center"|14481,8<br />
|align="center"|-322,8<br />
|align="center"|-1452,8<br />
|align="center"|1130<br />
|-<br />
|align="center"|1988.4<br />
|align="center"|48<br />
|align="center"|13085<br />
|align="center"|14514,5<br />
|align="center"|-1429,5<br />
|align="center"|-1343,3<br />
|align="center"|-86,2<br />
|-<br />
|align="center"|1989.1<br />
|align="center"|49<br />
|align="center"|14093<br />
|align="center"|14155,9<br />
|align="center"|-62,9<br />
|align="center"|244,5<br />
|align="center"|-307,4<br />
|-<br />
|align="center"|1989.2<br />
|align="center"|50<br />
|align="center"|16344<br />
|align="center"|13976,1<br />
|align="center"|2367,9<br />
|align="center"|2535,4<br />
|align="center"|-167,5<br />
|-<br />
|align="center"|1989.3<br />
|align="center"|51<br />
|align="center"|12044<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1989.4<br />
|align="center"|52<br />
|align="center"|13762<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|}<br />
<br />
Schließlich soll das Resultat der Zerlegung grafisch veranschaulicht werden. Beachten Sie, dass die [[Schätzung|geschätzt]]e [[Trend]]reihe <math>T(t)</math> tatsächlich keine [[Saisonschwankung]]en mehr enthält. <br />
<br />
<iframe k="wiwi" p="examples/stat_PeriodischeSchwankung_ZulassungszahlPKW_R00480004800000000000000_plot.html" /><br />
<br />
Dies bestätigt die Wahl des [[Filter]]s <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math> zur Glättung einer [[Zeitreihe]] mit Quartalsdaten.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Periodische_Schwankungen&diff=1257Periodische Schwankungen2018-05-30T14:33:00Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Periodische Schwankung, Saisonschwankung bzw. Saisonkomponente===<br />
<br />
Bisher wurde aus der Original[[zeitreihe]] nur ein Trend ermittelt. Dabei fanden Informationen über saisonale Erscheinungen Beachtung in der Wahl eines geeigneten [[Filter]]s. <br />
<br />
Nun sollen auch die ''Saisonschwankungen'' (Saisonkomponenten) berechnet werden. Einige nützliche Definitionen vorab<br />
erleichtern das Verständnis:<br />
<br />
* Perioden: <math>p_{i},\; i=1,\ldots,\; P</math><br />
<br />
: Anzahl der Wiederholungen einer Saison<br />
<br />
: Beispiel: Quartalsdaten über 10 Jahre: <math>P = 10</math><br />
<br />
* Unterzeiträume <math>k_{j},\; j=1,\ldots,\;k</math><br />
<br />
: Anzahl der Perioden in einem Zyklus<br />
<br />
: Beispiel: Quartalsdaten: <math>k = 4</math><br />
<br />
* Anzahl der Zeiträume: <math>T=k\cdot P</math><br />
<br />
* Trendwerte: <math>\widehat{x}_{i,j}</math><br />
<br />
* Beobachtungswerte: <math>x_{i,j}</math><br />
<br />
* Schwankungskomponente: <math>s_{i,j}</math><br />
<br />
Man unterscheidet zwischen [[additives Zeitreihenmodell|additiven]] und [[multiplikatives Zeitreihenmodell|multiplikativen Zeitreihenmodellen]]: <br />
<br />
Bei ersteren wird ein additiver und bei letzeren ein multiplikativer Zusammenhang zwischen [[Trend]], Saisonkomponente und [[Residuum|Residuen]] unterstellt. Entsprechend unterscheidet sich die Berechnung der Saisonkomponente:<br />
<br />
===Additives Zeitreihenmodell===<br />
<br />
: <math>s_{i,j}=x_{i,j}-\widehat{x}_{i,j};\quad \bar{s_{j}}=\frac{1}{P}\cdot \sum\limits_{i=1}^{P}s_{i,j}</math><br />
<br />
: <math>\widehat{x}_{i,j}^{ZRM}=\widehat{x}_{i,j}+\bar{s_{j}}</math> für <math>i=1,\ldots ,P\;\; j=1,\ldots, k</math><br />
<br />
Der prognostizierte Wert der [[Variable]]n <math>X\;</math> aufgrund des [[Zeitreihe]]nmodells (ZRM) setzt sich ''additiv'' aus dem Trendwert <math>\widehat{x}_{i,j}</math> und dem mittleren Saisonkoeffizienten <math>\bar{s_{j}}</math> zusammen.<br />
<br />
===Multiplikatives Zeitreihenmodell===<br />
<br />
<math>s_{i,j}=\frac{x_{i,j}}{\widehat{x}_{i,j}},\qquad \bar{s_{j}}=\frac{1}{P}\sum\limits_{i=1}^{P}s_{i,j}</math><br />
<br />
<math>\widehat{x}_{i,j}^{ZRM}=\widehat{x}_{i,j}\cdot \bar{s_{j}}</math> für <math>i=1,\ldots, P\quad j=1,\ldots,k</math><br />
<br />
Der prognostizierte Wert der [[Variable]]n <math>X\;</math> aufgrund des [[Zeitreihe]]nmodells (ZRM) setzt sich ''multiplikativ'' aus dem Trendwert <math>\widehat{x}_{i,j}</math> und dem mittleren Saisonkoeffizienten <math>\bar{s_{j}}</math> zusammen.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===PKW Zulassungen (Additives Zeitreihenmodell)===<br />
<br />
Zulassungszahl neuer PKW in Berlin - 1. Quartal 1977 - 4. Quartal 1989<br />
<br />
[[Additives Zeitreihenmodell]]:<br />
<br />
[[Filter]]: <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math><br />
<br />
rot = Originalzeitreihe<br />
<br />
schwarz = geglättete Reihe ([[Trend]])<br />
<br />
blau = [[Trend]] und [[Saisonkomponente]]<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>j\;</math><br />
|align="center"|Summe<br />
|align="center"|<math>\bar{s_{j}}\;</math><br />
|align="center"|<math>P\;</math><br />
|-<br />
|align="center"|1<br />
|align="center"|2,934<br />
|align="center"|0,244<br />
|align="center"|12<br />
|-<br />
|align="center"|2<br />
|align="center"|30,424<br />
|align="center"|2,535<br />
|align="center"|12<br />
|-<br />
|align="center"|3<br />
|align="center"|-17,434<br />
|align="center"|-1,453<br />
|align="center"|12<br />
|-<br />
|align="center"|4<br />
|align="center"|-16,120<br />
|align="center"|-1,343<br />
|align="center"|12<br />
|}<br />
<br />
<iframe k="wiwi" p="examples/stat_PeriodischeSchwankung_Decomposition_PKW_R00480004800000000000000_plot.html" /><br />
===Pkw-Zulassungen===<br />
<br />
Dieses Beispiel soll zeigen, wie man eine saisonale [[Zeitreihe]] <math>x(t)</math> additiv in einen [[Trend]] <math>T(t)</math>, eine [[Saisonschwankung]] <math>S(t)</math> und [[Residuum|Residuen]] <math>e(t)</math> zerlegt. <br />
<br />
Unterstellt wird also ein geschätztes Modell in der Form <br />
<br />
<math>x(t)= T(t)+S(t)+e(t)</math>. <br />
<br />
Als Beispiel dienen Quartalsdaten über Pkw-Zulassungen in Berlin.<br />
<br />
====Trend====<br />
<br />
Zwei verschiedene Verfahren zur [[Trend]][[schätzung]] wurden oben eingeführt: Die [[Methode der kleinsten Quadrate]] und die [[Methode der gleitenden Durchschnitte]]. <br />
<br />
Hier soll letztere zur Anwendung kommen, bei der der [[Trend]] nach der Formel<br />
<br />
<math>T(t)=\sum_{i=-a}^{b}\lambda _{i}\cdot x_{t+i}</math> mit <math>\sum_{i=-a}^{b}\lambda _{i}=1</math><br />
<br />
ermittelt wird.<br />
<br />
Damit die geglättete Reihe keine [[Saisonschwankung]]en mehr enthält, verwendet man bei Quartalsdaten den [[Filter]] <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math>. <br />
<br />
Er sichert sowohl eine gleichmäßige Berücksichtigung von Vergangenheits- und Zukunftsdaten <math>(a = b)</math> als auch die gleiche Gewichtung aller Saisonarten (jeweils mit <math>\frac{1}{4}</math>).<br />
<br />
Beispiel:<br />
<br />
<math>T(3) = \frac{1}{8} \cdot x(1) + \frac{1}{4} \cdot x(2) + \frac{1}{4} \cdot x(3) + \frac{1}{4} \cdot x(4) + \frac{1}{8} \cdot x(5)</math><br />
<br />
====Saisonschwankung====<br />
<br />
Aus dem Modell <br />
<br />
<math>x(t) = T(t) + S(t) + e(t)</math> <br />
<br />
ergibt sich <br />
<br />
<math>x(t) - T(t) = S(t) + e(t)</math>. <br />
<br />
Die linke Seite dieser Gleichung ist nach der [[Trend]][[schätzung]] bekannt. <br />
<br />
Unter der Annahme, dass die [[Saisonschwankung]] in den jeweiligen Quartalen denselben Wert hat (also z.B.: <math>S(3) = S(7) =\ldots=S(51)</math>), ist ein naheliegendes Verfahren zur Saisonbestimmung die Bildung des [[Arithmetisches Mittel|arithmetischen Mittels]] über alle Differenzen <math>x(t) - T(t)</math>, die zu einer Saison gehören.<br />
<br />
Beispiel:<br />
<br />
<math>S(3) = S(7) = \ldots = S(51) = \frac{(x(3) - T(3)) + (x(7) - T(7)) + \ldots + (x(51)<br />
- T(51))}{12}</math><br />
<br />
Für dieses Vorgehen ist es unerheblich, mit welcher Methode der [[Trend]] [[Schätzung|geschätzt]] wurde.<br />
<br />
====Residuen====<br />
<br />
Die [[Schätzung|geschätzt]]en [[Residuum|Residuen]] berechnet man mit <math>e(t)=x(t)-T(t)-S(t)</math>.<br />
<br />
====Ergebnisse der Zerlegung der Zeitreihe====<br />
<br />
Sie sollten anhand der Rechenergebnisse zu mindestens einer Periode überprüfen, ob Sie das oben beschriebene Verfahren nachvollziehen können.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Quartal<br />
|align="center"|<math>\,t</math><br />
|align="center"|<math>\,x(t)</math><br />
|align="center"|<math>\,T(t)</math><br />
|align="center"|<math>\,x(t)-T(t)</math><br />
|align="center"|<math>\,S(t)</math><br />
|align="center"|<math>\,e(t)</math><br />
|-<br />
|align="center"|1977.1<br />
|align="center"|1<br />
|align="center"|15222<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1977.2<br />
|align="center"|2<br />
|align="center"|17456<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1977.3<br />
|align="center"|3<br />
|align="center"|12988<br />
|align="center"|14897,9<br />
|align="center"|-1909,9<br />
|align="center"|-1452,8<br />
|align="center"|-457,1<br />
|-<br />
|align="center"|1977.4<br />
|align="center"|4<br />
|align="center"|13833<br />
|align="center"|15127,8<br />
|align="center"|-1294,8<br />
|align="center"|-1343,3<br />
|align="center"|48,5<br />
|-<br />
|align="center"|1978.1<br />
|align="center"|5<br />
|align="center"|15407<br />
|align="center"|15395,9<br />
|align="center"|11,1<br />
|align="center"|244,5<br />
|align="center"|-233,4<br />
|-<br />
|align="center"|1978.2<br />
|align="center"|6<br />
|align="center"|19110<br />
|align="center"|15370,5<br />
|align="center"|3739,5<br />
|align="center"|2535,4<br />
|align="center"|1204,1<br />
|-<br />
|align="center"|1978.3<br />
|align="center"|7<br />
|align="center"|13479<br />
|align="center"|15408,8<br />
|align="center"|-1929,8<br />
|align="center"|-1452,8<br />
|align="center"|-477<br />
|-<br />
|align="center"|1978.4<br />
|align="center"|8<br />
|align="center"|13139<br />
|align="center"|15487,3<br />
|align="center"|-2348,3<br />
|align="center"|-1343,3<br />
|align="center"|-1005<br />
|-<br />
|align="center"|1979.1<br />
|align="center"|9<br />
|align="center"|16407<br />
|align="center"|15246,3<br />
|align="center"|1160,7<br />
|align="center"|244,5<br />
|align="center"|916,2<br />
|-<br />
|align="center"|1979.2<br />
|align="center"|10<br />
|align="center"|18738<br />
|align="center"|14891<br />
|align="center"|3847<br />
|align="center"|2535,4<br />
|align="center"|1311,6<br />
|-<br />
|align="center"|1979.3<br />
|align="center"|11<br />
|align="center"|11923<br />
|align="center"|14663<br />
|align="center"|-2740<br />
|align="center"|-1452,8<br />
|align="center"|-1287,2<br />
|-<br />
|align="center"|1979.4<br />
|align="center"|12<br />
|align="center"|11853<br />
|align="center"|14267,1<br />
|align="center"|-2414,1<br />
|align="center"|-1343,3<br />
|align="center"|-1070,8<br />
|-<br />
|align="center"|1980.1<br />
|align="center"|13<br />
|align="center"|15869<br />
|align="center"|14058,5<br />
|align="center"|1810,5<br />
|align="center"|244,5<br />
|align="center"|1566<br />
|-<br />
|align="center"|1980.2<br />
|align="center"|14<br />
|align="center"|16109<br />
|align="center"|14160,9<br />
|align="center"|1948,1<br />
|align="center"|2535,4<br />
|align="center"|-587,3<br />
|-<br />
|align="center"|1980.3<br />
|align="center"|15<br />
|align="center"|12883<br />
|align="center"|13971,5<br />
|align="center"|-1088,5<br />
|align="center"|-1452,8<br />
|align="center"|364,3<br />
|-<br />
|align="center"|1980.4<br />
|align="center"|16<br />
|align="center"|11712<br />
|align="center"|13707,8<br />
|align="center"|-1995,8<br />
|align="center"|-1343,3<br />
|align="center"|-652,5<br />
|-<br />
|align="center"|1981.1<br />
|align="center"|17<br />
|align="center"|14495<br />
|align="center"|13298<br />
|align="center"|1197<br />
|align="center"|244,5<br />
|align="center"|952,5<br />
|-<br />
|align="center"|1981.2<br />
|align="center"|18<br />
|align="center"|15373<br />
|align="center"|12905,1<br />
|align="center"|2467,9<br />
|align="center"|2535,4<br />
|align="center"|-67,5<br />
|-<br />
|align="center"|1981.3<br />
|align="center"|19<br />
|align="center"|10341<br />
|align="center"|12641,3<br />
|align="center"|-2300,3<br />
|align="center"|-1452,8<br />
|align="center"|-847,5<br />
|-<br />
|align="center"|1981.4<br />
|align="center"|20<br />
|align="center"|11111<br />
|align="center"|12205,5<br />
|align="center"|-1094,5<br />
|align="center"|-1343,3<br />
|align="center"|248,8<br />
|-<br />
|align="center"|1982.1<br />
|align="center"|21<br />
|align="center"|12985<br />
|align="center"|11850,1<br />
|align="center"|1134,9<br />
|align="center"|244,5<br />
|align="center"|890,4<br />
|-<br />
|align="center"|1982.2<br />
|align="center"|22<br />
|align="center"|13397<br />
|align="center"|11608,3<br />
|align="center"|1788,7<br />
|align="center"|2535,4<br />
|align="center"|-746,7<br />
|-<br />
|align="center"|1982.3<br />
|align="center"|23<br />
|align="center"|9474<br />
|align="center"|11530,5<br />
|align="center"|-2056,5<br />
|align="center"|-1452,8<br />
|align="center"|-603,7<br />
|-<br />
|align="center"|1982.4<br />
|align="center"|24<br />
|align="center"|10043<br />
|align="center"|11907,6<br />
|align="center"|-1864,6<br />
|align="center"|-1343,3<br />
|align="center"|-521,3<br />
|-<br />
|align="center"|1983.1<br />
|align="center"|25<br />
|align="center"|13431<br />
|align="center"|12450,5<br />
|align="center"|980,5<br />
|align="center"|244,5<br />
|align="center"|736<br />
|-<br />
|align="center"|1983.2<br />
|align="center"|26<br />
|align="center"|15968<br />
|align="center"|12824,3<br />
|align="center"|3143,7<br />
|align="center"|2535,4<br />
|align="center"|608,3<br />
|-<br />
|align="center"|1983.3<br />
|align="center"|27<br />
|align="center"|11246<br />
|align="center"|13161,1<br />
|align="center"|-1915,1<br />
|align="center"|-1452,8<br />
|align="center"|-462,3<br />
|-<br />
|align="center"|1983.4<br />
|align="center"|28<br />
|align="center"|11261<br />
|align="center"|13172,4<br />
|align="center"|-1911,4<br />
|align="center"|-1343,3<br />
|align="center"|-568,1<br />
|-<br />
|align="center"|1984.1<br />
|align="center"|29<br />
|align="center"|14908<br />
|align="center"|12905,5<br />
|align="center"|2002,5<br />
|align="center"|244,5<br />
|align="center"|1758<br />
|-<br />
|align="center"|1984.2<br />
|align="center"|30<br />
|align="center"|14581<br />
|align="center"|12736,5<br />
|align="center"|1844,5<br />
|align="center"|2535,4<br />
|align="center"|-690,9<br />
|-<br />
|align="center"|1984.3<br />
|align="center"|31<br />
|align="center"|10498<br />
|align="center"|12182,3<br />
|align="center"|-1684,3<br />
|align="center"|-1452,8<br />
|align="center"|-231,5<br />
|-<br />
|align="center"|1984.4<br />
|align="center"|32<br />
|align="center"|10657<br />
|align="center"|11738,1<br />
|align="center"|-1081,1<br />
|align="center"|-1343,3<br />
|align="center"|262,2<br />
|-<br />
|align="center"|1985.1<br />
|align="center"|33<br />
|align="center"|11078<br />
|align="center"|11894,6<br />
|align="center"|-816,6<br />
|align="center"|244,5<br />
|align="center"|-1061,1<br />
|-<br />
|align="center"|1985.2<br />
|align="center"|34<br />
|align="center"|14858<br />
|align="center"|12232,4<br />
|align="center"|2625,6<br />
|align="center"|2535,4<br />
|align="center"|90,2<br />
|-<br />
|align="center"|1985.3<br />
|align="center"|35<br />
|align="center"|11473<br />
|align="center"|12788,6<br />
|align="center"|-1315,6<br />
|align="center"|-1452,8<br />
|align="center"|137,2<br />
|-<br />
|align="center"|1985.4<br />
|align="center"|36<br />
|align="center"|12384<br />
|align="center"|13414,6<br />
|align="center"|-1030,6<br />
|align="center"|-1343,3<br />
|align="center"|312,7<br />
|-<br />
|align="center"|1986.1<br />
|align="center"|37<br />
|align="center"|13801<br />
|align="center"|14047,3<br />
|align="center"|-246,3<br />
|align="center"|244,5<br />
|align="center"|-490,8<br />
|-<br />
|align="center"|1986.2<br />
|align="center"|38<br />
|align="center"|17143<br />
|align="center"|14685,3<br />
|align="center"|2457,7<br />
|align="center"|2535,4<br />
|align="center"|-77,7<br />
|-<br />
|align="center"|1986.3<br />
|align="center"|39<br />
|align="center"|14249<br />
|align="center"|14826,5<br />
|align="center"|-577,5<br />
|align="center"|-1452,8<br />
|align="center"|875,3<br />
|-<br />
|align="center"|1986.4<br />
|align="center"|40<br />
|align="center"|14712<br />
|align="center"|14633,8<br />
|align="center"|78,2<br />
|align="center"|-1343,3<br />
|align="center"|1421,5<br />
|-<br />
|align="center"|1987.1<br />
|align="center"|41<br />
|align="center"|12603<br />
|align="center"|14761<br />
|align="center"|-2158<br />
|align="center"|244,5<br />
|align="center"|-2402,5<br />
|-<br />
|align="center"|1987.2<br />
|align="center"|42<br />
|align="center"|16799<br />
|align="center"|15038,3<br />
|align="center"|1760,7<br />
|align="center"|2535,4<br />
|align="center"|-774,7<br />
|-<br />
|align="center"|1987.3<br />
|align="center"|43<br />
|align="center"|15611<br />
|align="center"|15204,5<br />
|align="center"|406,5<br />
|align="center"|-1452,8<br />
|align="center"|1859,3<br />
|-<br />
|align="center"|1987.4<br />
|align="center"|44<br />
|align="center"|15568<br />
|align="center"|15301,1<br />
|align="center"|266,9<br />
|align="center"|-1343,3<br />
|align="center"|1610,2<br />
|-<br />
|align="center"|1988.1<br />
|align="center"|45<br />
|align="center"|13077<br />
|align="center"|15157<br />
|align="center"|-2080<br />
|align="center"|244,5<br />
|align="center"|-2324,5<br />
|-<br />
|align="center"|1988.2<br />
|align="center"|46<br />
|align="center"|17098<br />
|align="center"|14665,1<br />
|align="center"|2432,9<br />
|align="center"|2535,4<br />
|align="center"|-102,5<br />
|-<br />
|align="center"|1988.3<br />
|align="center"|47<br />
|align="center"|14159<br />
|align="center"|14481,8<br />
|align="center"|-322,8<br />
|align="center"|-1452,8<br />
|align="center"|1130<br />
|-<br />
|align="center"|1988.4<br />
|align="center"|48<br />
|align="center"|13085<br />
|align="center"|14514,5<br />
|align="center"|-1429,5<br />
|align="center"|-1343,3<br />
|align="center"|-86,2<br />
|-<br />
|align="center"|1989.1<br />
|align="center"|49<br />
|align="center"|14093<br />
|align="center"|14155,9<br />
|align="center"|-62,9<br />
|align="center"|244,5<br />
|align="center"|-307,4<br />
|-<br />
|align="center"|1989.2<br />
|align="center"|50<br />
|align="center"|16344<br />
|align="center"|13976,1<br />
|align="center"|2367,9<br />
|align="center"|2535,4<br />
|align="center"|-167,5<br />
|-<br />
|align="center"|1989.3<br />
|align="center"|51<br />
|align="center"|12044<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|-<br />
|align="center"|1989.4<br />
|align="center"|52<br />
|align="center"|13762<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|}<br />
<br />
Schließlich soll das Resultat der Zerlegung grafisch veranschaulicht werden. Beachten Sie, dass die [[Schätzung|geschätzt]]e [[Trend]]reihe <math>T(t)</math> tatsächlich keine [[Saisonschwankung]]en mehr enthält. <br />
<br />
<iframe k="wiwi" p="examples/stat_PeriodischeSchwankung_ZulassungPKW_R00480004800000000000000_plot.html" /><br />
<br />
Dies bestätigt die Wahl des [[Filter]]s <math>\left[\frac{1}{8}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{8}\right]</math> zur Glättung einer [[Zeitreihe]] mit Quartalsdaten.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Parameter_eindimensionaler_Verteilungen_(empirisch)&diff=1256Parameter eindimensionaler Verteilungen (empirisch)2018-05-30T14:28:48Z<p>Jacobdan: </p>
<hr />
<div>{{Univariate Statistik|NaviExt}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Lageparameter oder Lagemaß===<br />
<br />
''Lageparameter'' charakterisieren die Lage der [[Häufigkeitsverteilung]] auf der [[Merkmal]]sachse. Sie sollen:<br />
<br />
* die [[Häufigkeitsverteilung]] gut repräsentieren,<br />
* einen Vergleich zwischen verschiedenen [[Häufigkeitsverteilung]]en ermöglichen,<br />
* zur Beurteilung der einzelnen [[Merkmalsausprägung]]en dienen.<br />
<br />
Jeder Lageparameter ist ein [[Merkmalswert]], d.h. er besitzt die gleiche Maßeinheit wie das [[Merkmal]]. Da sich die Lokalisation eines [[Merkmal]]s auf verschiedene Weise messen läßt, können verschiedene Lageparameter definiert werden.<br />
<br />
;[[Modus]]<br />
:Der häufigste Wert.<br />
;[[Arithmetisches Mittel]]<br />
:Der (gewichtete) Durchschnitt der Daten.<br />
;[[Harmonisches Mittel]]<br />
:Setzt ein [[Verhältnisskala|verhältnisskaliertes Merkmal]] voraus und ist ein Spezialfall des [[Arithmetisches Mittel|arithmetischen Mittels]].<br />
;[[Geometrisches Mittel]]<br />
:Ist für Zuwachsraten etc. geeignet.<br />
;[[Quantil]]e ([[Median]], [[Quartil]]e, [[Quintil]]e [[Dezil]]e)<br />
:Teilen die Daten in Gruppen, wobei die Gruppen jeweils einen vorgegebenen Prozentsatz der [[Beobachtung]]en enthalten.<br />
<br />
===Mittelwert===<br />
<br />
Die vier zuerst genannten [[Lageparameter]] sowie der [[Median]] werden auch als ''Mittelwerte'' bezeichnet.<br />
<br />
===Robustheit===<br />
<br />
Ein [[Parameter]] heißt ''robust'', wenn er relativ unempfindlich gegenüber [[Ausreißer]]n ist.<br />
<br />
===Streuung===<br />
<br />
Mit dem Begriff ''Streuung'' (auch als Dispersion bezeichnet) wird im statistischen Sinne die Variabilität, die<br />
Unterschiedlichkeit in den [[Merkmalswert]]en eines [[metrische Skala|metrisch skalierten]] [[Merkmal]]s erfasst.<br />
<br />
[[Streuungsparameter]] dienen der numerischen Erfassung dieser Variabilität.<br />
<br />
===Streuungsparameter oder Streuungsmaß===<br />
<br />
Die [[Lageparameter]] sind zur Charakterisierung einer [[Eindimensionale Häufigkeitsverteilung|eindimensionalen Häufigkeitsverteilungen]] nicht ausreichend. Dies soll durch folgendes Beispiel gezeigt werden:<br />
<br />
Monatliche Aufwendungen für Freizeitgüter und Urlaub (in EUR)<br />
<br />
* von 10 Zweipersonenhaushalten: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630 und<br />
* von 10 Vierpersonenhaushalten: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490<br />
<br />
abgetragen auf einer [[Merkmal]]sachse:<br />
<br />
<iframe k="wiwi" p="examples/stat_ParameterEindimensional_Parameter_Eindimensional_R00480004800000000000000_plot.html" /><br />
<br />
Das [[Arithmetisches Mittel|arithmetische Mittel]] <math> \bar{x} </math> beträgt in beiden Fällen 404 EUR. Die grafische Darstellung verdeutlicht jedoch die großen Unterschiede zwischen beiden [[Häufigkeitsverteilung|Verteilungen]]. <br />
<br />
Bei den Vierpersonenhaushalten liegen die [[Merkmalswert]]e enger um das Zentrum ([[Arithmetisches Mittel|arithmetische Mittel]]) als bei den Zweipersonenhaushalten, d.h. sie [[Streuung|streuen]] weniger.<br />
<br />
Neben der Angabe der Lokalisation ([[Mittelwert]]e) sind Streuungsparameter unerlässlich zur weitergehenderen Charakterisierung und Unterscheidung verschiedener [[Eindimensionale Häufigkeitsverteilung|eindimensionaler Häufigkeitsverteilungen]].<br />
<br />
Da sich die Variabilität eines [[Merkmal]]s auf verschiedene Weise messen läßt, können verschiedene Streuungsparameter definiert werden:<br />
<br />
;[[Spannweite]]<br />
:Ist gleich der Differenz zwischen dem größten und dem kleinsten [[Beobachtungswert]].<br />
;[[Interquartilsabstand]]<br />
:Ist die Differenz zwischen dem dritten [[Quartil]] <math>x_{0,75}</math> und dem ersten [[Quartil]] <math>x_{0,25}</math> und ein robustes Streuungsmaß.<br />
;[[Mittlere absolute Abweichung]]<br />
:Ist die (gewichtete) absolute Abweichung vom [[Arithmetisches Mittel|arithmetischen Mittel]] oder [[Median]].<br />
;[[Varianz (empirisch)|Empirische Varianz]] und [[Standardabweichung (empirisch)|empirische Standardabweichung]]<br />
:Ist die (gewichtete) quadrierte Abweichung vom [[Arithmetisches Mittel|arithmetischen Mittel]]<br />
;[[Variationskoeffizient (empirisch)|Empirischer Variationskoeffizient]] und [[Quartilsdispersionskoeffizient (empirisch)|empirischer Quartilsdispersionskoeffizient]]<br />
:Sind zwei relative Streuungsmaße.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Regressionsanalyse&diff=1255Regressionsanalyse2018-05-30T14:25:22Z<p>Jacobdan: </p>
<hr />
<div>{{Regression}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Regressionsanalyse===<br />
<br />
Das Ziel der ''Regressionsanalyse'' besteht in einer Beschreibung der mittleren Tendenz bzw. des durchschnittlichen Verlaufs der Abhängigkeit eines [[metrische Skala|metrisch skalierten]] [[Merkmal]]s <math>Y\;</math> von ebenfalls [[metrische Skala|metrisch skalierten]] [[Merkmal]]en<br />
<math>X_{1},X_{2},\ldots</math>. <br />
<br />
Es liegt eine einseitig gerichtete Abhängigkeit vor. Diese Abhängigkeit lässt sich in Form einer allgemeinen [[Regressionsfunktion]] wie folgt<br />
darstellen:<br />
<br />
<math>\hat{y}=f(x_{1},x_{2},\ldots )</math><br />
<br />
Das verwendete <math>\hat{y}</math> bedeutet hierbei, dass die [[Regressionsfunktion]] den [[Beobachtungswert]]en <math>x_{1},x_{2},\ldots</math> nicht den wahren [[Beobachtungswert]] <math>y</math> zuordnet, sondern einen auf der [[Regressionsfunktion]] liegenden durchschnittlichen Wert <math>\hat{y}</math>.<br />
<br />
===Regressionsfunktion===<br />
<br />
Eine ''Regressionsfunktion'' ist die Darstellung der mittleren [[Statistik|statistischen]] Abhängigkeit einer [[Endogene Variable|endogenen Variablen]] von einer (oder mehreren) [[Exogene Variable|exogenen Variablen]] mittels einer Funktion auf der Basis von <math>n</math> [[Beobachtung]]s[[daten]] der [[Variable]]n.<br />
<br />
Im Weiteren werden die Ausführungen auf den Fall beschränkt, dass das [[Merkmal]] <math>Y\;</math> nur von einem [[Merkmal]] <math>X\;</math> abhängt.<br />
<br />
Die Festlegung des Typs der Regressionsfunktion <math>f(x)</math> erfolgt problemabhängig durch den Anwender.<br />
<br />
Mögliche Funktionen sind beispielsweise:<br />
<br />
{|<br />
|Lineare Funktion:<br />
|<math>\hat{y}=b_{0}+b_{1}\cdot x</math><br />
|-<br />
|Quadratische Funktion:<br />
|<math>\hat{y}=b_{0}+b_{1}\cdot x+b_{2}\cdot x^{2}</math><br />
|-<br />
|Potenzfunktion:<br />
|<math>\hat{y}=a\cdot x^{b}</math><br />
|-<br />
|Exponentialfunktion:<br />
|<math>\hat{y}=b_{0}\cdot {b_{1}}^{x}</math><br />
|-<br />
|Logistische Funktion:<br />
|<math>\hat{y}= l\cdot (1+e^{a+b\cdot x})</math><br />
|}<br />
<br />
===Regressor, exogene, erklärende oder unabhängige Variable===<br />
<br />
Die [[Merkmal]]e <math>X_1,X_2,\ldots</math> werden als ''Regressor, exogene, erklärende oder unabhängige Variable'' bezeichnet.<br />
<br />
===Regressand, endogene, erklärte oder abhängige Variable===<br />
<br />
Das [[Merkmal]] <math>Y\;</math> wird als ''Regressand, endogene, erklärte oder abhängige Variable'' bezeichnet.<br />
<br />
===Regresswert===<br />
<br />
Der ''Regresswert'' <math>\hat{y_{i}}</math> stellt den Wert des [[Merkmal]]s <math>Y\;</math> dar, wenn die Abhängigkeit <math>Y\;</math> von <math>X\;</math> tatsächlich durch eine lineare Funktion repräsentiert werden kann. <br />
<br />
Der [[Beobachtungswert]] ergibt sich zu:<br />
<br />
<math>y_{i}=\hat{y_{i}}+\hat{u_{i}}\quad i=1,\ldots ,n</math><br />
<br />
===Restgröße bzw. Residuum===<br />
<br />
Die Differenz zwischen dem wahren Wert <math>y_{i}</math> und dem Wert der [[Regressionsfunktion]] <math>\hat{y_{i}}</math> wird als ''Restgröße'' oder ''Residuum'' <math>\hat{u_{i}}</math> bezeichnet. <br />
<br />
Sie enthält diejenigen Einflüsse, die nicht durch die [[Regressionsfunktion]] erfasst werden, d.h. diese Abweichung kann nicht durch die Einflüsse der [[Exogene Variable|exogenen Variablen]] erklärt werden.<br />
<br />
<math>\hat{u_{i}}=y_{i}-\hat{y_{i}} \quad (i=1,\ldots ,n)</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Regressand und Regressor===<br />
<br />
Beispiel für eine [[lineares Regressionsmodell]] mit der Arbeitszeit als [[Regressand]] und der Losgröße als [[Regressor]]:<br />
<br />
<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_R00480004800000000000000_plot.html" /><br />
<br />
===Lineare und quadratische Funktion===<br />
<br />
<math>n= 8</math> vergleichbare Städte<br />
<br />
<math>X\;</math> - Anzahl der Bus-Streckenpläne, die am Beginn des Untersuchungszeitraumes kostenlos an die Einwohner verteilt wurden<br />
<br />
<math>Y\;</math> - Zuwachs an Fahrgästen während des Untersuchungszeitraumes<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Stadt <math>i</math><br />
|align="center"|Fahrgastzuwachs <math>Y\;</math><br />
(in 1000)<br />
|align="center"|Streckenpläne <math>X\;</math><br />
(in 1000)<br />
|-<br />
|align="center"|1<br />
|align="center"|0,60<br />
|align="center"|80<br />
|-<br />
|align="center"|2<br />
|align="center"|6,70<br />
|align="center"|220<br />
|-<br />
|align="center"|3<br />
|align="center"|5,30<br />
|align="center"|140<br />
|-<br />
|align="center"|4<br />
|align="center"|4,00<br />
|align="center"|120<br />
|-<br />
|align="center"|5<br />
|align="center"|6,55<br />
|align="center"|180<br />
|-<br />
|align="center"|6<br />
|align="center"|2,15<br />
|align="center"|100<br />
|-<br />
|align="center"|7<br />
|align="center"|6,60<br />
|align="center"|200<br />
|-<br />
|align="center"|8<br />
|align="center"|5,75<br />
|align="center"|160<br />
|}<br />
<br />
====Lineare Regressionsfunktion====<br />
<br />
<math>{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}=-1,82+0,0435\cdot x_{i}</math><br />
<br />
<math>{R_{yx}}^{2}=0,875</math><br />
<br />
<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_residuen_R00480004800000000000000_plot.html" /><br />
<br />
Die [[Residuum|Residuen]] streuen nicht zufällig um den Wert Null, sondern zeigen eine deutliche nichtlineare Tendenz. Das führt zu der Überlegung, statt einer linearen eine nichtlineare [[Regressionsfunktion]] zu verwenden.<br />
<br />
====Quadratische Regressionsfunktion====<br />
<br />
<math>{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}+{\widehat{b_{2}}\cdot x_{i}}^{2}=-10,03+0,1642\cdot x_{i}-0,0004\cdot {x_{i}}^{2}</math><br />
<br />
<math>{R_{yx}}^{2}=0,995</math><br />
<br />
<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_nichtlinear_residuen_R00480004800000000000000_plot.html" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Sch%C3%A4tzung_der_Regressionsparameter&diff=1254Schätzung der Regressionsparameter2018-05-30T14:21:19Z<p>Jacobdan: </p>
<hr />
<div>{{Regression}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Schätzung der Regressionsparameter===<br />
<br />
Für die Schätzung der [[Regressionsparameter]] müssen zwei Bedingungen erfüllt sein.<br />
<br />
====1. Bedingung====<br />
<br />
Die Abweichungen der [[Regresswert]]e <math>\hat{y_{i}}</math> von den [[Beobachtung]]swerten <math>y_{i}</math> sollen im Mittel gleich Null sein, d.h.<br />
<br />
<math>\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})=\sum_{i=1}^{n}\hat{u_{i}}=0</math><br />
<br />
<math>\Rightarrow \bar{\hat{u}}=\frac{1}{n}\cdot \sum_{i=1}^{n}\hat{u_{i}}=0</math><br />
<br />
Diese Bedingung wird aber von einer unendlichen Menge von [[Regressionsgerade]]n, die alle durch den Schwerpunkt <math>\bar{x}\;,\bar{y}</math> der Punktwolke verlaufen, erfüllt. <br />
<br />
Diese Bedingung für sich allein genommen führt also zu keiner eindeutigen [[Regressionsgerade]]n.<br />
<br />
<iframe k="wiwi" p="examples/stat_SchaetzungRegressionsparameter_Punktwolke_R00480004800000000000000_plot.html" /><br />
====2. Bedingung====<br />
<br />
Es wird eine [[Regressionsgerade]] gesucht, für die die [[Streuung]] ([[Varianz (stochastisch)|Varianz]]) der [[Residuum|Residuen]]<br />
<br />
<math>s^{2}_{\hat{u}}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(\hat{u_{i}}-\bar{\hat{u}})}^{2}</math><br />
<br />
ein Minimum im Vergleich zu allen anderen [[Regressionsgerade]]n ist.<br />
<br />
Aus der Erfüllung der 1. Bedingung <math>\bar{\hat{u}}=0</math> folgt:<br />
<br />
<math>s^{2}_{\hat{u}}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(\hat{u_{i}}-0)}^{2}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{\hat{u_{i}}}^{2}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}</math><br />
<br />
Die folgende Grafik veranschaulicht die 2. Bedingung:<br />
<br />
<iframe k="wiwi" p="examples/stat_SchaetzungRegressionsparameter_Zweite_Bedingung_R00480004800000000000000_plot.html" /><br />
<br />
Die in der Grafik dargestellten Quadrate (sie entsprechen den quadrierten [[Residuum|Residuen]]) sollen minimiert werden. <br />
<br />
Daraus ergibt sich der Name der dafür angewandten Methode - die [[Methode der kleinsten Quadrate]] (KQ).<br />
<br />
===Methode der kleinsten Quadrate===<br />
<br />
Die ''Methode der kleinsten Quadrate (KQ)'' hat die Minimierung der Summe der quadratischen Abweichungen (Residual Sum of Squares - RSS) der [[Regresswert]]e von den [[Beobachtung]]swerten zum Ziel.<br />
<br />
<math>\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}\rightarrow min.\quad\mid \hat{y_{i}}=b_{0}+b_{1}\cdot x_{i}</math><br />
<br />
Die zu minimierende Funktion ist eine Gleichung mit zwei Unbekannten <math>(b_{0}</math> und <math>b_{1})</math>. Für das Erreichen eines Minimums müssen die ersten partiellen Ableitungen verschwinden, d.h. sie werden Null gesetzt.<br />
<br />
<math>S(b_{0},b_{1})=\sum_{i=1}^{n}{(y_{i}-b_{0}-b_{1}\cdot x_{i})}^{2}\rightarrow min</math><br />
<br />
<math>\frac{\partial S(b_0,b_1)}{\partial b_0}=-2\cdot \sum_{i=1}^{n}(y_i-b_0-b_1\cdot x_i)= 0</math><br />
<br />
<math>\frac{\partial S(b_0,b_1)}{\partial b_1}=-2\cdot\sum_{i=1}^{n}(y_i-b_0-b_1\cdot x_i)\cdot x_i= 0</math><br />
<br />
Mit Hilfe der Hesse-Matrix lässt sich überprüfen, ob es sich um ein Minimum handelt<br />
<br />
<math>\begin{pmatrix}\frac{{\partial}^2S(b_0,b_1)}{\partial {b_0}^2}& \frac{{\partial}^2S(b_0,b_1)}{\partial {b_0}\cdot \partial{b_1}}\\<br />
\frac{{\partial}^2S(b_0,b_1)}{\partial {b_1}\cdot \partial{b_0}}& \frac{{\partial}^2S(b_0,b_1)}{\partial {b_1}^2}\end{pmatrix}=<br />
\begin{pmatrix} 2\cdot n & 2\cdot\sum_{i=1}^n x_i\\<br />
2\cdot\sum_{i=1}^n x_i&\sum_{i=1}^{n} {x_i}^2<br />
\end{pmatrix}</math><br />
<br />
Diese ist positiv-definit und somit handelt es sich bei den<br />
Extremwerten um Minima.<br />
<br />
Die erste Ableitung führt zu den beiden Normalgleichungen, mit deren Hilfe sich die [[Schätzung|geschätzt]]en [[Regressionsparameter]] <math>\hat{b_{0}}</math> und <math>\hat{b_{1}}</math> durch die Auflösung der Gleichungen nach <math>\hat{b_{0}}</math> bzw. <math>\hat{b_{1}}</math> berechnen lassen:<br />
<br />
<math>n\cdot {\hat{b_{0}}}+{\hat{b_{1}}}\cdot \sum_{i=1}^{n}x_{i}=\sum_{i=1}^{n}y_{i}</math><br />
<br />
<math>{\hat{b_{0}}}\cdot \sum_{i=1}^{n}x_{i}+{\hat{b_{1}}}\cdot \sum_{i=1}^{n}{x_{i}}^{2}=\sum_{i=1}^{n}x_{i}\cdot y_{i}</math><br />
<br />
Die Auflösung der Normalgleichungen mit Hilfe der Cramer'schen Regel liefert:<br />
<br />
<math>{\hat{b_{0}}}=\frac{\begin{vmatrix} \sum y_{i} & \sum x_{i} \\<br />
\sum x_{i}\cdot y_{i} & \sum {x_{i}}^{2}\end{vmatrix}<br />
}{\begin{vmatrix}n & \sum x_{i} \\<br />
\sum x_{i} & \sum {x_{i}}^{2}\end{vmatrix}}=\frac{\sum y_{i}\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}</math><br />
<br />
<math>{\hat{b_{1}}}=\frac{\begin{vmatrix}<br />
n & \sum y_{i} \\<br />
\sum x_{i} & \sum x_{i}\cdot y_{i}<br />
\end{vmatrix}}<br />
{\begin{vmatrix}<br />
n & \sum x_{i} \\<br />
\sum x_{i} & \sum {x_{i}}^{2}\end{vmatrix}<br />
}=\frac{n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot \sum y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}</math><br />
<br />
Werden die ursprünglichen Normalgleichungen durch <math>n</math> dividiert, erhält man im Ergebnis vereinfachte Formeln zur Berechnung der [[Regressionsparameter]]:<br />
<br />
{|<br />
|align="right"|<math>{\hat{b_{0}}}+{\hat{b_{1}}}\cdot \bar{x}</math><br />
|<math>=\bar{y}</math><br />
|-<br />
|align="right"|<math>{\hat{b_{0}}}\cdot \bar{x}+{\hat{b_{1}}}\cdot \bar{x^{2}}</math><br />
|<math>=\overline{xy}</math><br />
|}<br />
<br />
Für die Konstante <math>b_{0}</math> ergibt sich:<br />
<br />
<math>b_{0}=\bar{y}-{\hat{b_{1}}}\cdot \bar{x}</math><br />
<br />
Für den [[linearer Regressionskoeffizient|linearen Regressionskoeffizienten]] <math>b_{1}</math> ergibt sich:<br />
<br />
{|<br />
|<math>(\bar{y}-{\hat{b_{1}}}\cdot \bar{x})\cdot \bar{x}+{\hat{b_{1}}}\cdot \bar{x^{2}}</math><br />
|<math>=\overline{xy}</math><br />
|-<br />
|<math>{\hat{b_{1}}}\cdot (\bar{x^{2}}-{\bar{x}}^{2})</math><br />
|<math>=\overline{xy}-\overline{x}\cdot \bar{y}</math><br />
|-<br />
|<math>\hat{b_{1}}\cdot S_{X}^{2}</math><br />
|<math>=S_{XY}\;</math><br />
|-<br />
|<math>{\hat{b_{1}}}</math><br />
|<math>=\frac{S_{XY}}{S_{X}^{2}}</math><br />
|}<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
* Die [[Varianz (stochastisch)|Varianz]] von <math>X\;</math> muss größer sein als Null: <math>{S_{X}}^{2}>0</math><br />
<br />
* Wie schon aus den vereinfachten Normalgleichungen zu ersehen, gilt<br />
<br />
: Für <math>x_{i}=\bar{x}</math> wird <math>{\hat{y_{i}}}=\bar{y}</math>, d.h. der Punkt <math>(\bar{x},\bar{y})</math> liegt auf der [[Regressionsgerade]]n<br />
<br />
: <math>{\hat{y_{i}}}={\hat{b_{0}}}+{\hat{b_{1}}}\cdot x_{i}=\bar{y}+{\hat{b_{1}}}\cdot (x_{i}-\bar{x})=\bar{y}</math><br />
<br />
* Werden die Ergebnisse aus der Korrelationsanalyse mit denen der [[Regressionsanalyse]] verknüpft, lässt sich der [[linearer Regressionskoeffizient|lineare Regressionskoeffizient]] <math>b_{1}</math> auch wie folgt berechnen:<br />
<br />
: <math>{\hat{b_{1}}}=\frac{S_{XY}}{S_{X}^{2}},\quad r_{XY}=\frac{S_{XY}}{S_{X}\cdot S_{Y}}</math><br />
<br />
: <math>\Rightarrow {\hat{b_{1}}}=r_{XY}\cdot\frac{S_{Y}}{S_{X}}</math><br />
<br />
: Eine lineare Regression <math>(y|x)</math> von <math>x</math> auf <math>y</math> <math>(\hat{y_i}={\hat{b_{0}}}+{\hat{b_{1}}}\cdot x_{i})</math> entspricht nicht der linearen Regression <math>(x|y)</math> von <math>y</math> auf <math>x</math> <math>(\hat{x_i}=\hat{b_{0}}^{*}+{\hat{b_{1}}}^{*}\cdot y_i)</math>!<br />
<br />
:{|<br />
|<math>{\hat{b_{0}}}=\bar{y}-{\hat{b_{1}}}\cdot\bar{x} \qquad<br />
{\hat{b_{0}}}^{*}=\bar{x}-{\hat{b_{1}}}^{*}\cdot\bar{y}</math><br />
|-<br />
|<math>{\hat{b_{1}}}=\frac{S_{XY}}{{S_{X}}^{2}} \qquad<br />
{\hat{b_{1}}}^{*}=\frac{S_{XY}}{{S_{Y}}^{2}}</math><br />
|}<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Losgröße und Arbeitszeit===<br />
<br />
<math>X\;</math> - Losgröße<br />
<br />
<math>Y\;</math> - Arbeitszeit<br />
<br />
<math>n=10</math> Produktionsdurchläufe im Unternehmen<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|'''<math>i</math>'''<br />
|align="center"|'''<math>x_{i}</math>'''<br />
|align="center"|'''<math>y_{i}</math>'''<br />
|align="center"|'''<math>x_{i}\cdot y_{i}</math>'''<br />
|align="center"|'''<math>x_{i}^{2}</math>'''<br />
|align="center"|'''<math>y_{i}^{2}</math>'''<br />
|align="center"|'''<math>\hat{y_{i}}</math>'''<br />
|align="center"|'''<math>\hat{u_{i}}</math><br />
|-<br />
|align="center"|1<br />
|align="center"|30<br />
|align="center"|73<br />
|align="center"|2,190<br />
|align="center"|900<br />
|align="center"|5,329<br />
|align="center"|70<br />
|align="center"|3<br />
|-<br />
|align="center"|2<br />
|align="center"|20<br />
|align="center"|50<br />
|align="center"|1,000<br />
|align="center"|400<br />
|align="center"|2,500<br />
|align="center"|50<br />
|align="center"|0<br />
|-<br />
|align="center"|3<br />
|align="center"|60<br />
|align="center"|128<br />
|align="center"|7,680<br />
|align="center"|3,600<br />
|align="center"|16,384<br />
|align="center"|130<br />
|align="center"|-2<br />
|-<br />
|align="center"|4<br />
|align="center"|80<br />
|align="center"|170<br />
|align="center"|1,360<br />
|align="center"|6,400<br />
|align="center"|28,900<br />
|align="center"|170<br />
|align="center"|0<br />
|-<br />
|align="center"|5<br />
|align="center"|40<br />
|align="center"|87<br />
|align="center"|3,480<br />
|align="center"|1,600<br />
|align="center"|7,569<br />
|align="center"|90<br />
|align="center"|-3<br />
|-<br />
|align="center"|6<br />
|align="center"|50<br />
|align="center"|108<br />
|align="center"|5,400<br />
|align="center"|2,500<br />
|align="center"|11,664<br />
|align="center"|110<br />
|align="center"|-2<br />
|-<br />
|align="center"|7<br />
|align="center"|60<br />
|align="center"|135<br />
|align="center"|8,100<br />
|align="center"|3,600<br />
|align="center"|18,225<br />
|align="center"|130<br />
|align="center"|5<br />
|-<br />
|align="center"|8<br />
|align="center"|30<br />
|align="center"|69<br />
|align="center"|2,070<br />
|align="center"|900<br />
|align="center"|4,761<br />
|align="center"|70<br />
|align="center"|-1<br />
|-<br />
|align="center"|9<br />
|align="center"|70<br />
|align="center"|148<br />
|align="center"|10,360<br />
|align="center"|4,900<br />
|align="center"|21,904<br />
|align="center"|150<br />
|align="center"|-2<br />
|-<br />
|align="center"|10<br />
|align="center"|60<br />
|align="center"|132<br />
|align="center"|72,920<br />
|align="center"|3,600<br />
|align="center"|17,424<br />
|align="center"|130<br />
|align="center"|2<br />
|-<br />
|align="center"|'''<math>\sum</math>'''<br />
|align="center"|500<br />
|align="center"|1,100<br />
|align="center"|61,800<br />
|align="center"|28,400<br />
|align="center"|134,660<br />
|align="center"|1,100<br />
|align="center"|0<br />
|}<br />
<br />
Berechnung der Hilfsgrößen ([[Mittelwert]]e, [[Varianz (stochastisch)|Varianzen]] und [[Standardabweichung (stochastisch)|Standardabweichungen]]):<br />
<br />
{|<br />
|<math>\bar{x}</math><br />
|<math>= 50</math><br />
|<br />
|<math>s_{x}^{2}</math><br />
|<math>=\frac{3400}{10}=340</math><br />
|<br />
|<math>s_{x}</math><br />
|<math>=18,44</math><br />
|-<br />
|<math>\bar{y}</math><br />
|<math>= 110</math><br />
|<br />
|<math>s_{x}^{2}</math><br />
|<math>=\frac{13660}{10}=13366</math><br />
|<br />
|<math>s_{y}</math><br />
|<math>=36,96</math><br />
|}<br />
<br />
Für die [[Kovarianz (stochastisch)|Kovarianz]] und den [[Korrelationskoeffizient (stochastisch)|Korrelationskoeffizient]]en ergibt sich:<br />
<br />
<math>s_{xy}=\frac{6800}{10}=680\quad \mbox{bzw.} \quad r_{xy}=\frac{680}{18,44\cdot36,96}=0,9977</math><br />
<br />
Damit lassen sich die [[Regressionsparameter]] <math>b_{0}</math> und <math>b_{1}</math> berechnen:<br />
<br />
<math>{\hat{b_{1}}}=\frac{680}{340}=2</math><br />
<br />
<math>{\hat{b_{0}}}=110-2\cdot (50)=10</math><br />
<br />
Es ergibt sich folgende Regressionsgleichung:<br />
<br />
<math>{\hat{y_{i}}}=10+2\cdot x_{i}</math><br />
<br />
<iframe k="wiwi" p="examples/stat_SchaetzungRegressionsparameter_Regressionsgleichung_R00480004800000000000000_plot.html" /><br />
<br />
===Haushaltsnettoeinkommen und Konsumausgaben===<br />
<br />
Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen sowie die Konsumausgaben ermittelt:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Haushalt<br />
|align="center"|1<br />
|align="center"|2<br />
|align="center"|3<br />
|align="center"|4<br />
|align="center"|5<br />
|align="center"|6<br />
|align="center"|7<br />
|align="center"|8<br />
|align="center"|9<br />
|align="center"|10<br />
|-<br />
|align="center"|HH-Nettoeinkommen in Euro (<math>x_i</math>)<br />
|align="center"|3500<br />
|align="center"|5000<br />
|align="center"|4300<br />
|align="center"|6100<br />
|align="center"|1000<br />
|align="center"|4800<br />
|align="center"|2900<br />
|align="center"|2400<br />
|align="center"|5600<br />
|align="center"|4100<br />
|-<br />
|align="center"|Konsumausgaben in Euro (<math>y_i</math>)<br />
|align="center"|2000<br />
|align="center"|3500<br />
|align="center"|3100<br />
|align="center"|3900<br />
|align="center"|900<br />
|align="center"|3000<br />
|align="center"|2100<br />
|align="center"|1900<br />
|align="center"|2900<br />
|align="center"|2100<br />
|}<br />
<br />
Anhand der Punktwolke im folgenden [[Scatterplot]] ist bereits zu erkennen, dass das Haushaltsnettoeinkommen einen positiven Einfluss auf die Konsumausgaben bei den 10 Zwei-Personen-Haushalten ausübt, der offensichtlich mittels einer linearen [[Regressionsfunktion]] geschätzt werden kann.<br />
<br />
<iframe k="wiwi" p="examples/stat_SchaetzungRegressionsparameter_Scatterplot_Haushaltseinkommen_R00480004800000000000000_plot.html" /><br />
<br />
Gesucht ist die lineare [[Regressionsfunktion]] der Konsumausgaben in Abhängigkeit vom HH-Nettoeinkommen.<br />
<br />
Für die [[Schätzung]] der [[Regressionsparameter]] sind einige Zwischenberechnungen notwendig<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|HH<br />
|align="center"|<math>x_i</math><br />
|align="center"|<math>y_i</math><br />
|align="center"|<math>x_i \cdot y_i</math><br />
|align="center"|<math>{x_i}^2</math><br />
|align="center"|<math>{y_i}^2</math><br />
|-<br />
|align="center"|1<br />
|align="center"|3500<br />
|align="center"|2000<br />
|align="center"|7000000<br />
|align="center"|12250000<br />
|align="center"|4000000<br />
|-<br />
|align="center"|2<br />
|align="center"|5000<br />
|align="center"|3500<br />
|align="center"|17500000<br />
|align="center"|25000000<br />
|align="center"|12250000<br />
|-<br />
|align="center"|3<br />
|align="center"|4300<br />
|align="center"|3100<br />
|align="center"|13330000<br />
|align="center"|18490000<br />
|align="center"|9610000<br />
|-<br />
|align="center"|4<br />
|align="center"|6100<br />
|align="center"|3900<br />
|align="center"|23790000<br />
|align="center"|37210000<br />
|align="center"|15210000<br />
|-<br />
|align="center"|5<br />
|align="center"|1000<br />
|align="center"|900<br />
|align="center"|900000<br />
|align="center"|1000000<br />
|align="center"|810000<br />
|-<br />
|align="center"|6<br />
|align="center"|4800<br />
|align="center"|3000<br />
|align="center"|14400000<br />
|align="center"|23040000<br />
|align="center"|9000000<br />
|-<br />
|align="center"|7<br />
|align="center"|2900<br />
|align="center"|2100<br />
|align="center"|6090000<br />
|align="center"|8410000<br />
|align="center"|4410000<br />
|-<br />
|align="center"|8<br />
|align="center"|2400<br />
|align="center"|1900<br />
|align="center"|4560000<br />
|align="center"|5760000<br />
|align="center"|3610000<br />
|-<br />
|align="center"|9<br />
|align="center"|5600<br />
|align="center"|2900<br />
|align="center"|16240000<br />
|align="center"|31360000<br />
|align="center"|8410000<br />
|-<br />
|align="center"|10<br />
|align="center"|4100<br />
|align="center"|2100<br />
|align="center"|8610000<br />
|align="center"|16810000<br />
|align="center"|4410000 <br />
|-<br />
|align="center"|'''Summe'''<br />
|align="center"|39700<br />
|align="center"|25400<br />
|align="center"|112420000<br />
|align="center"|179330000<br />
|align="center"|71720000<br />
|}<br />
<br />
Gemäß der angegebenen Formeln lassen sich die [[Regressionsparameter]] <math>b_{0}</math> und <math>b_{1}</math> wie folgt errechnen:<br />
<br />
{|<br />
|<math>{\widehat{b_{0}}}</math><br />
|<math>=\frac{\sum y_{i}\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot\sum x_{i}}</math><br />
|-<br />
|<br />
|<math>=\frac{(25400\cdot 179330000)-(39700\cdot 112420000)}{(10\cdot 179330000)-(39700\cdot 39700)}</math><br />
|-<br />
|<br />
|<math>\,=423,13</math><br />
|-<br />
|<math>{\widehat{b_{1}}}</math><br />
|<math>=\frac{n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot\sum y_{i}}{n\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot\sum x_{i}}</math><br />
|-<br />
|<br />
|<math>=\frac{(10\cdot 112420000)-(39700\cdot 25400)}{(10\cdot 179330000)-(39700\cdot 39700)}</math><br />
|-<br />
|<br />
|<math>\,=0,5332</math><br />
|}<br />
<br />
Damit ergibt sich die folgende lineare [[Regressionsfunktion]]:<br />
<br />
<math>{\widehat{y_{i}}}=423,13+0,5332\cdot x_{i}</math><br />
<br />
(Konsumausgaben = 423,13 + 0,5332 <math>\cdot</math> Haushaltsnettoeinkommen)<br />
<br />
Die [[Regressionsgerade]] lässt sich im [[Scatterplot]] darstellen:<br />
<br />
<iframe k="wiwi" p="examples/stat_SchaetzungRegressionsparameter_Regression_Haushaltseinkommen_R00480004800000000000000_plot.html" /><br />
<br />
Der Anstieg der Geraden entspricht der Konsumquote: <br />
<br />
Mit jeder Mark mehr Einkommen erhöhen sich im Mittel der beobachteten 10 Zwei-Personen-Haushalte die Konsumausgaben um 0,53 Euro.<br />
<br />
Nach Berechnung der [[Standardabweichung (stochastisch)|Standardabweichung]] von <math>x</math> bzw. <math>y</math> sowie der [[Kovarianz (stochastisch)|Kovarianz]] zwischen <math>x</math> und <math>y</math> lässt sich der [[Korrelationskoeffizient (stochastisch)|Korrelationskoeffizient]] <math>r</math> wie folgt ermitteln:<br />
<br />
<math>r_{xy}= \frac{S_{xy}} {S_x\cdot S_y} = \frac{1286900}{1553,5 \cdot 894,68} = 0,926</math><br />
<br />
Er weist auf einen starken Zusammenhang zwischen Konsumausgaben und HH-Nettoeinkommen hin.<br />
<br />
Die Güte der Anpassung der [[Regressionsfunktion]] an die Daten lässt sich mit Hilfe des [[Bestimmtheitsmaß]]es ermitteln. Es ist der Anteil der durch die<br />
[[Regressionsfunktion]] erklärten [[Varianz (stochastisch)|Varianz]] an der Gesamtvarianz der Konsumausgaben (Y):<br />
<br />
<math>R^{2}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}=\frac{6175715,85}{7204000,00}=0,857</math><br />
<br />
Das [[Bestimmtheitsmaß]] zeigt, dass 86% der [[Varianz (stochastisch)|Varianz]] der Konsumausgaben durch die lineare Abhängigkeit vom Haushaltsnettoeinkommen bei den 10 Zwei-Personen-Haushalten erklärt werden kann.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Lineares_Regressionsmodell&diff=1253Lineares Regressionsmodell2018-05-30T14:15:34Z<p>Jacobdan: </p>
<hr />
<div>{{Regression}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Einfache lineare Regressionsfunktion oder Regressionsgerade===<br />
<br />
Die ''einfache lineare Regressionsfunktion'' oder ''Regressionsgerade'' hat die Form:<br />
<br />
<math>\hat{y_{i}}=b_{0}+b_{1}\cdot x_{i}\quad i=1,\ldots ,n</math><br />
<br />
Hierbei sind <math>x_{i}</math> die [[Beobachtung|beobachtete]]n Werte des [[Merkmal]]s <math>X\;</math> (fest vorgegeben) und <math>b_{0}</math> und <math>b_{1}</math> die noch unbekannten [[Regressionsparameter]].<br />
<br />
Der jeweilige [[Beobachtungswert]] <math>y_{i}\,(i=1,\ldots ,n)</math> ergibt sich durch die Addition des [[Residuum]]s <math>\hat{u_{i}}</math> zum [[Regresswert]] <math>\hat{y_{i}}</math> (vgl. auch die grafische Darstellung):<br />
<br />
<math>y_{i}=\hat{y_{i}}+\hat{u_{i}}=b_{0}+b_{1}\cdot x_{i}+\hat{u_{i}}\quad (i=1,\ldots,n)</math><br />
<br />
<iframe k="wiwi" p="examples/stat_LinearesRegressionsmodell_Lineares_Regressionsmodell_R00480004800000000000000_plot.html" /><br />
===Regressionsparameter: Regressionskonstante und linearer Regressionskoeffizient===<br />
<br />
Die ''Regressionsparameter'' der [[Einfache lineare Regressionsfunktion|einfachen linearen Regressionfunktion]] haben folgende Bedeutung:<br />
<br />
* <math>b_{0}</math> - ''Regressionskonstante''<br />
<br />
: Sie kennzeichnet den Schnittpunkt der [[Regressionsfunktion]] mit der <math>y</math>-Achse und besitzt die gleiche Maßeinheit wie das [[Merkmal]] <math>Y\;</math>.<br />
<br />
* <math>b_{1}</math> - ''linearer Regressionskoeffizient''<br />
<br />
: Er kennzeichnet den Anstieg der [[Regressionsfunktion]]. Er gibt an, um wieviel Einheiten sich der Wert des [[Merkmal]]s <math>Y\;</math> durchschnittlich ändert, wenn der Wert des [[Merkmal]]s <math>X\;</math> um eine Einheit geändert wird.<br />
<br />
===Multiple lineare Regression===<br />
<br />
Werden mehr als eine [[erklärende Variable]] in das lineare Modell eingefügt, so handelt es sich um eine ''multiple lineare Regression''.<br />
<br />
Dementsprechend wird eine multiple lineare [[Regressionsfunktion]] mit <math>m</math> [[Exogene Variable|exogenen Variable]]n <math>X_{1},X_{2},\ldots ,X_{m}(m<n)</math> aufgestellt:<br />
<br />
<math>\widehat{y_{i}}=b_{0}+b_{1}\cdot x_{1i}+b_{2}\cdot x_{2i}+\cdots +b_{m}\cdot x_{mi}</math><br />
<br />
Die [[Schätzung der Regressionsparameter]] erfolgt wie auch bei der [[Einfache lineare Regressionsfunktion|einfachen linearen Regressionfunktion]] mittels der [[Kleinste-Quadrate-Methode]] (KQ).<br />
<br />
Auf eine weitergehende Darstellung wird an dieser Stelle verzichtet, da die multiple Regressionsanalyse ein Thema der Ökonometrie-Lehrveranstaltung ist.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Konfidenzintervall_f%C3%BCr_den_Erwartungswert_bei_unbekannter_Varianz&diff=1252Konfidenzintervall für den Erwartungswert bei unbekannter Varianz2018-05-29T13:19:02Z<p>Jacobdan: </p>
<hr />
<div>{{Schaetztheorie}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Konfidenzintervall für den Erwartungswert bei Normalverteilung der Grundgesamtheit===<br />
<br />
Es gilt:<br />
<br />
<math>X \sim N(\mu;\sigma),\; X_{i} \sim N(\mu;\sigma) \; \forall \, i \, ,\; \bar{X} \sim N\left(\mu; \sigma\left(\bar{X}\right)\right)</math>.<br />
<br />
Weiterhin sei <math>S</math> die [[Standardabweichung (stochastisch)|Standardabweichung]] als Wurzel aus der [[Stichprobenvarianz]] <math>S^{2}</math> und <math>t_{n-1;1-\frac{\alpha}{2}}</math> das [[p-Quantil|<math>\left(1 -\frac{\alpha}{2}\right)</math>-Quantil]] der [[t-Verteilung]].<br />
<br />
Dann ist<br />
<br />
<math>\left[\bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\quad\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math><br />
<br />
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Normalverteilung|normalverteilten]] [[Zufallsvariable]]n <math>X\;</math> mit unbekannter [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}</math> zum [[Konfidenzniveau]]<br />
<br />
<math>P\left(\bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)=1-\alpha</math><br />
<br />
Wurde die [[Stichprobe]] gezogen und liegen die [[Stichprobenwerte]] <math>x_{1},\ldots,x_{n}</math> vor, dann lassen sich daraus<br />
<br />
* die Punkt[[schätzwert]]e <math>\bar{x}</math> und <math>s</math><br />
<br />
* und das [[Schätzintervall]]<br />
<br />
: <math>\left[ \bar{x}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}}\leq\mu \leq\bar{x}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}}\right]</math><br />
<br />
: bestimmen.<br />
<br />
Da die [[t-Verteilung]] mit wachsender Anzahl der [[Freiheitsgrad]]e und somit mit wachsendem [[Stichprobenumfang]] <math>n</math> gegen die <math>N(0; 1)</math> konvergiert, kann bei genügend großem [[Stichprobenumfang]] <math>(n > 30)</math> [[Approximation|approximativ]] die [[Standardnormalverteilung]] und <math>z_{1-\frac{\alpha}{2}}</math> statt <math>t_{n - 1; 1 - \frac{\alpha}{2}}</math> verwendet werden. Man erhält dann ein [[Approximation|approximativ]]es [[Konfidenzintervall]].<br />
<br />
===Konfidenzintervall für den Erwartungswert bei unbekannter Verteilung der Grundgesamtheit===<br />
<br />
Wenn die [[Zufallsvariable]] <math>X\;</math> in der [[Grundgesamtheit]] nicht [[Normalverteilung|normalverteilt]] und die [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}</math> unbekannt ist, kann unter der Voraussetzung eines großen [[Stichprobenumfang]]es <math>n</math> das [[Konfidenzintervall]]<br />
<br />
<math>\left[ \bar{X} -z_{1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}};\bar{X}+z_{1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right]</math><br />
<br />
verwendet werden, das näherungsweise das [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X} - z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}} \leq\mu \leq \bar<br />
{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right) = 1- \alpha</math><br />
<br />
hat.<br />
<br />
Dies lässt sich darauf zurückführen, dass<br />
<br />
* bei beliebig [[Verteilung (stochastisch)|verteilter]] [[Grundgesamtheit]] die [[Standardisierung|standardisierte]] [[Zufallsvariable]] <math>Z\;</math> bei großem [[Stichprobenumfang]] [[Approximation|approximativ]] [[Standardnormalverteilung|standardnormalverteilt]] ist (Anwendung des [[Zentraler Grenzwertsatz|zentralen Grenzwertsatzes]]);<br />
<br />
* die [[Schätzfunktion]] <math>S^{2}\;</math> eine [[Konsistenz|konsistente]] [[Schätzfunktion]] für <math>\sigma^{2}</math> ist und somit auch <math>S</math> [[Konsistenz|konsistent]] ist, d.h. es kann bei sehr großem [[Stichprobenumfang]] <math>n</math> davon ausgegangen werden, dass <math>S\;</math> hinreichend wenig um den wahren Wert <math>\sigma</math> streut;<br />
<br />
* die [[Zufallsvariable]] <math>T\;</math>, in der <math>\sigma</math> durch <math>S\;</math> ersetzt wurde, ebenfalls bei genügend großem [[Stichprobenumfang]] [[Approximation|approximativ]] [[Standardnormalverteilung|standardnormalverteilt]] ist.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit===<br />
<br />
Es gilt:<br />
<br />
<math>X \sim N(\mu;\sigma),\; X_{i} \sim N(\mu;\sigma) \; \forall \, i \, ,\; \bar{X} \sim N\left(\mu; \sigma\left(\bar{X}\right)\right)</math>.<br />
<br />
Die [[Standardisierung|standardisierte]] [[Zufallsvariable]] <math>Z</math> lässt sich jedoch nicht mehr bestimmen, da <math>\sigma^{2}</math> nunmehr unbekannt ist. <br />
<br />
Die [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}</math> muss aus der [[Stichprobe]] geschätzt werden. Eine geeignete [[Schätzfunktion]] ist die [[Stichprobenvarianz]]<br />
<br />
<math>S^{2}=\frac{1}{n-1}\cdot\sum\limits_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}</math><br />
<br />
Die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>S</math> als Wurzel aus <math>S^{2}</math> wird für die [[Standardisierung]] verwendet:<br />
<br />
<math>T=\sqrt{n}\cdot\frac{\bar{X}-\mu}{S}</math><br />
<br />
Die [[Zufallsvariable]] <math>T\;</math> folgt bei einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> einer [[t-Verteilung]] mit der Anzahl der [[Freiheitsgrad]]e <math>f = n - 1</math>:<br />
<br />
<math>T\sim t(n-1)\;</math><br />
<br />
Für die [[Standardisierung|standardisierte]] [[Zufallsvariable]] <math>T\;</math> lässt sich ein [[zentrales Schwankungsintervall]] angeben, in dem <math>T\;</math> [[Realisation]]en mit einer vorgegebenen [[Sicherheitswahrscheinlichkeit]]<br />
<br />
<math>P\left(t_{f;\frac{\alpha}{2}} \leq T \leq t_{f;1-\frac{\alpha}{2}}\right)=1-\alpha</math><br />
<br />
annimmt.<br />
<br />
Dabei ist <math>t_{f;\frac{\alpha}{2}}</math> das [[p-Quantil|<math>\frac{\alpha}{2}</math>-Quantil]] und <math>t_{f; 1-\frac{\alpha}{2}}</math> das [[p-Quantil|<math>\left(1 -\frac{\alpha}{2}\right)</math>-Quantil]] der [[t-Verteilung]].<br />
<br />
Aufgrund der Symmetrie der [[t-Verteilung]] gilt:<br />
<br />
<math>|t_{f;\frac{\alpha}{2}}|=|t_{f;1-\frac{\alpha}{2}}|</math> und <math> t_{f;\frac{\alpha}{2}} =-t_{f;1-\frac{\alpha}{2}}</math><br />
<br />
Damit folgt:<br />
<br />
<math>P\left(-t_{f;1-\frac{\alpha}{2}}\leq T\leq t_{f;1-\frac{\alpha}{2}}\right)=1-\alpha</math><br />
<br />
Für die [[Wahrscheinlichkeit]] <math>1-\alpha</math> findet man <math>t_{f;1-\frac{\alpha}{2}}</math> in der Tabelle der [[t-Verteilung]].<br />
<br />
Die [[Verteilung (stochastisch)|Verteilung]] ist somit bekannt und sie hängt nicht von dem unbekannten [[Parameter]] <math>\mu</math> ab, so dass man nach Einsetzen von <math>T</math> und einfachen Umformungen der Ungleichung ein [[Konfidenzintervall]]<br />
<br />
<math>\left[\bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\quad\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math><br />
<br />
zum [[Konfidenzniveau]]<br />
<br />
<math>P\left(\bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)=1-\alpha</math><br />
<br />
erhält.<br />
<br />
===Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit===<br />
<br />
* Das [[Konfidenzintervall]] ist ein bezüglich der [[Wahrscheinlichkeit]] [[symmetrisches Konfidenzintervall]].<br />
* Das [[Konfidenzintervall]] ist symmetrisch bezüglich der [[Punktschätzung]]. Die Grenzen des [[Konfidenzintervall|Intervall]]s haben zu <math>\bar{X}</math> den gleichen Abstand.<br />
* Die [[Länge des Konfidenzintervalls|Länge <math>L</math> des Konfidenzintervalls]] und der [[Schätzfehler]] <math>E</math><br />
<br />
: <math>L= 2t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\quad E= t_{n-1; 1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt{n}}</math><br />
<br />
: hängen über <math>S</math> von den [[Stichprobenvariable]]n <math>X_{1},\ldots, X_{n}</math> ab und sind somit [[Zufallsvariable]]n. <br />
<br />
: Bei gegebenem [[Stichprobenumfang]] <math>n</math> und [[Konfidenzniveau]] <math>1-\alpha</math> ergeben sich von [[Stichprobe]] zu [[Stichprobe]] unterschiedliche [[Schätzintervall]]e, die auch verschiedene [[Länge des Konfidenzintervalls|Länge]] bzw. verschiedenen [[Schätzfehler]] aufweisen können.<br />
<br />
* Die [[Länge des Konfidenzintervalls]] und der [[Schätzfehler]] hängen vom [[Stichprobenumfang]] <math>n</math> und über <math>t_{n-1;1-\frac{\alpha}{2}}</math> vom vorgegebenen [[Konfidenzniveau]] <math>1-\alpha</math> ab.<br />
<br />
* Da die [[p-Quantil|Quantile]] <math>t_{n-1;1-\frac{\alpha}{2}}</math> aus der [[t-Verteilung]] größer sind als die [[p-Quantil|Quantile]] <math>z_{1-\frac{\alpha}{2}}</math> aus der [[Standardnormalverteilung]], sind die [[Konfidenzintervall]]e bei unbekannter [[Varianz der Grundgesamtheit]] breiter als bei bekannter [[Varianz der Grundgesamtheit|Varianz]], wodurch diese fehlende Information zum Ausdruck kommt. <br />
<br />
: Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Haushaltsnettoeinkommen===<br />
<br />
Für eine [[Grundgesamtheit]] von <math>N = 2000</math> Privathaushalten sei die [[Zufallsvariable]] <math>X\;</math> das Haushaltsnettoeinkommen (in €). <br />
<br />
Das mittlere Haushaltsnettoeinkommen dieser [[Grundgesamtheit]], d.h. der [[Erwartungswert der Grundgesamtheit|Erwartungswert]] <math>E[X] = \mu</math>, ist unbekannt und soll geschätzt werden.<br />
<br />
Über die [[Punktschätzung]] hinaus soll ein [[Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1-\alpha=0,95</math> und für die konkreten [[Stichprobe]]n das [[Schätzintervall]] angegeben werden.<br />
<br />
Zur [[Schätzung]] von <math>\mu</math> wird der [[Stichprobenmittelwert]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
als [[Schätzfunktion]] verwendet.<br />
<br />
Eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> liefert die [[Stichprobenwerte]] <math>x_{1},\ldots, x_{n}</math>. <br />
<br />
Nach Einsetzen dieser [[Stichprobenwerte]] in die [[Schätzfunktion]] erhält man einen [[Schätzwert]]<br />
<br />
<math>\bar{x}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}x_{i}</math><br />
<br />
als [[Punktschätzung]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].<br />
<br />
Die Angabe des [[Konfidenzintervall]]s wird entscheidend von den Informationen, die über die [[Grundgesamtheit]] vorliegen, bestimmt.<br />
<br />
====Konfidenzintervall bei normalverteilter Grundgesamtheit====<br />
<br />
Es wird wiederum davon ausgegangen, dass die [[Zufallsvariable]] <math>X\;</math> (Haushaltsnettoeinkommen) in der [[Grundgesamtheit]] [[Normalverteilung|normalverteilt]] ist, jedoch sei nunmehr die [[Standardabweichung (stochastisch)|Standardabweichung]] unbekannt: <math>X\sim N(\mu;\sigma)\;</math>.<br />
<br />
Für die Bestimmung eines [[Konfidenzintervall]]s für <math>\mu</math> muß die [[Varianz der Grundgesamtheit|Varianz]] <math>\sigma^{2}</math> [[Schätzung|geschätzt]] werden, was mittels der [[Schätzfunktion]] <math>S^{2}</math> erfolgt.<br />
<br />
Aufgrund dieser Informationen ist<br />
<br />
<math>\left[ \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math><br />
<br />
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\;</math> (Haushaltnettoeinkommen) zum [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right) =1-\alpha</math><br />
<br />
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0.95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[t-Verteilung]]:<br />
<br />
<math>t_{n-1;1-\frac{\alpha}{2}}=t_{19;0,975}=2,093</math>.<br />
<br />
Nach der Ziehung der [[Stichprobe]] ist<br />
<br />
<math>\left[ \bar{x}-2,093\cdot\frac{s}{\sqrt{n}};\;\bar{x}+2,093\cdot\frac{s}{\sqrt {n}}\right]</math><br />
<br />
das sich für die [[Stichprobe]] ergebende [[Schätzintervall]], in dem die Punkt[[schätzwert]]e <math>\bar{x}</math> und <math>s</math> sowie <math>n</math> einzusetzen sind.<br />
<br />
Um diese Veränderung in der Bestimmung des [[Konfidenzintervall]]s zu veranschaulichen, wird von den gleichen 25 [[Einfache Zufallsstichprobe|einfachen Zufallsstichproben]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> wie unter Punkt 1.1. ausgegangen.<br />
<br />
Für die [[Stichprobe]] Nr. 25, deren [[Stichprobenwerte]] in der Tabelle 1 enthalten sind, ergibt sich ein mittleres Haushaltsnettoeinkommen von<br />
<br />
<math>\bar{x}=\frac{48300}{20}=2415\,\euro</math><br />
<br />
und eine [[Standardabweichung (stochastisch)|Standardabweichung]]<br />
<br />
<math>s=1001,065\,\euro</math><br />
<br />
und damit das [[Schätzintervall]]<br />
<br />
{|<br />
|<math>\left[ 2415-2,093\cdot\frac{1001,065}{\sqrt{20}};\; 2415+2,093\cdot\frac{1001,065}{\sqrt{20}}\right]</math><br />
|<math>=[2415-468,51;\; 2415+468,51]</math><br />
|-<br />
|<br />
|<math>=[1946,49;\; 2883,51]</math><br />
|}<br />
<br />
Die Interpretation dieses [[Schätzintervall]]s ist wie vorher.<br />
<br />
Tabelle 3 enthält das mittlere Haushaltsnettoeinkommen <math>\bar{x}</math>, die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math>, das [[Schätzintervall]] sowie den [[Schätzfehler]] <math>e</math> für die 25 [[Zufallsstichprobe]]n.<br />
<br />
Tabelle 3: Mittleres Haushaltsnettoeinkommen (€) <math>\bar{x}</math>, [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math>, [[Schätzintervall]] und [[Schätzfehler]] <math>e</math> für 25 [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math><br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>i\;</math><br />
|align="center"|<math>\bar{x}</math><br />
|align="center"|<math>s\;</math><br />
|align="center"|<math>v_{u}\;</math><br />
|align="center"|<math>v_{o}\;</math><br />
|align="center"|<math>e\;</math><br />
|-<br />
|align="center"|1<br />
|align="center"|2413,40<br />
|align="center"|1032,150<br />
|align="center"|1930,34<br />
|align="center"|2896,46<br />
|align="center"|966,12<br />
|-<br />
|align="center"|2<br />
|align="center"|2317,00<br />
|align="center"|872,325<br />
|align="center"|1908,74<br />
|align="center"|2825,26<br />
|align="center"|816,52<br />
|-<br />
|align="center"|3<br />
|align="center"|2567,50<br />
|align="center"|1002,008<br />
|align="center"|2098,55<br />
|align="center"|3036,45<br />
|align="center"|937,90<br />
|-<br />
|align="center"|4<br />
|align="center"|2060,90<br />
|align="center"|812,365<br />
|align="center"|1680,71<br />
|align="center"|2441,09<br />
|align="center"|760,38<br />
|-<br />
|align="center"|5<br />
|align="center"|2363,50<br />
|align="center"|1376,648<br />
|align="center"|1719,22<br />
|align="center"|3007,78<br />
|align="center"|1288,56<br />
|-<br />
|align="center"|6<br />
|align="center"|2774,30<br />
|align="center"|1213,779<br />
|align="center"|2206,24<br />
|align="center"|3342,63<br />
|align="center"|1136,12<br />
|-<br />
|align="center"|7<br />
|align="center"|2298,80<br />
|align="center"|843,736<br />
|align="center"|1903,92<br />
|align="center"|2693,68<br />
|align="center"|789,76<br />
|-<br />
|align="center"|8<br />
|align="center"|2241,15<br />
|align="center"|1116,827<br />
|align="center"|1718,46<br />
|align="center"|2763,84<br />
|align="center"|1045,38<br />
|-<br />
|align="center"|9<br />
|align="center"|1915.30<br />
|align="center"|1113,122<br />
|align="center"|1394,35<br />
|align="center"|2436,25<br />
|align="center"|1041,90<br />
|-<br />
|align="center"|10<br />
|align="center"|2062,15<br />
|align="center"|856,069<br />
|align="center"|1661,50<br />
|align="center"|2462,80<br />
|align="center"|801,30<br />
|-<br />
|align="center"|11<br />
|align="center"|2267,75<br />
|align="center"|1065,227<br />
|align="center"|1769,21<br />
|align="center"|2766,29<br />
|align="center"|997,08<br />
|-<br />
|align="center"|12<br />
|align="center"|2163,10<br />
|align="center"|1040,966<br />
|align="center"|1675,92<br />
|align="center"|2650,28<br />
|align="center"|974,36<br />
|-<br />
|align="center"|13<br />
|align="center"|2635,00<br />
|align="center"|1154,294<br />
|align="center"|2094,78<br />
|align="center"|3175,22<br />
|align="center"|1080,44<br />
|-<br />
|align="center"|14<br />
|align="center"|2126,50<br />
|align="center"|1103,508<br />
|align="center"|1610,05<br />
|align="center"|2642,95<br />
|align="center"|1032,90<br />
|-<br />
|align="center"|15<br />
|align="center"|2243,15<br />
|align="center"|1126,913<br />
|align="center"|1715,74<br />
|align="center"|2770,56<br />
|align="center"|1054,82<br />
|-<br />
|align="center"|16<br />
|align="center"|2361,25<br />
|align="center"|1166,260<br />
|align="center"|1815,43<br />
|align="center"|2907,07<br />
|align="center"|1091,64<br />
|-<br />
|align="center"|17<br />
|align="center"|2607,25<br />
|align="center"|848,019<br />
|align="center"|2210,37<br />
|align="center"|3004,13<br />
|align="center"|793,76<br />
|-<br />
|align="center"|18<br />
|align="center"|2319,55<br />
|align="center"|941,236<br />
|align="center"|1879,04<br />
|align="center"|2760,06<br />
|align="center"|881,02<br />
|-<br />
|align="center"|19<br />
|align="center"|2203,85<br />
|align="center"|974,980<br />
|align="center"|1747,55<br />
|align="center"|2660,15<br />
|align="center"|912,60<br />
|-<br />
|align="center"|20<br />
|align="center"|2395,25<br />
|align="center"|899,461<br />
|align="center"|1974,29<br />
|align="center"|2816,21<br />
|align="center"|841,92<br />
|-<br />
|align="center"|21<br />
|align="center"|2659,00<br />
|align="center"|969,720<br />
|align="center"|2205,16<br />
|align="center"|3112,84<br />
|align="center"|907,68<br />
|-<br />
|align="center"|22<br />
|align="center"|2168,50<br />
|align="center"|763,222<br />
|align="center"|1811,31<br />
|align="center"|2525,69<br />
|align="center"|714,38<br />
|-<br />
|align="center"|23<br />
|align="center"|2110,30<br />
|align="center"|1127,608<br />
|align="center"|1582,57<br />
|align="center"|2638,03<br />
|align="center"|1055,46<br />
|-<br />
|align="center"|24<br />
|align="center"|1884,90<br />
|align="center"|928,420<br />
|align="center"|1450,39<br />
|align="center"|2319,41<br />
|align="center"|869,02<br />
|-<br />
|align="center"|25<br />
|align="center"|2415,00<br />
|align="center"|1001,065<br />
|align="center"|1946,49<br />
|align="center"|2883,51<br />
|align="center"|937,02<br />
|}<br />
<br />
Die folgende Abbildung enthält die grafische Darstellung der 25 Punkt[[schätzwert]]e und [[Schätzintervall]]e. <br />
<br />
Auch hier wird einzig und allein zum Zweck der Veranschaulichung der wahre [[Mittelwert der Grundgesamtheit|Mittelwert <math>\mu</math> der Grundgesamtheit]] als gestrichelte Linie in die Grafik eingefügt.<br />
<br />
<iframe k="wiwi" p="examples/stat_Konfidenzintervall_Konfidenzintervall_varianz_unbekannt1_R00480004800000000000000_plot.html" /><br />
<br />
In diesem Fall überdeckt nur ein [[Schätzintervall]] (der [[Stichprobe]] Nr. 24) nicht den wahren Wert <math>\mu</math> des mittleren Haushaltsnettoeinkommens.<br />
<br />
Aus Tabelle 3 und Abb. 2 ist zu erkennen, dass hier die [[Länge des Konfidenzintervalls|Länge <math>L</math> der Intervalle]] und der [[Schätzfehler]] <math>E</math> von [[Stichprobe]] zu [[Stichprobe]] variieren und somit [[Zufallsvariable]]n sind. <br />
<br />
Die Ursache liegt in der unbekannten [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> der [[Grundgesamtheit]], die geschätzt werden muss und in verschiedenen [[Schätzwert]]en resultiert.<br />
<br />
====Konfidenzintervall bei beliebig verteilter Grundgesamtheit====<br />
<br />
Es soll jetzt der in der Praxis am häufigsten auftretende Fall betrachtet werden, dass die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>X\;</math> und die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma</math> in der [[Grundgesamtheit]] unbekannt sind. <br />
<br />
Um überhaupt ein [[Konfidenzintervall]] angeben zu können, muss der [[Stichprobenumfang]] <math>n</math> ausreichend groß sein, so dass der [[Zentraler Grenzwertsatz|Zentrale Grenzwertsatz]] zur Anwendung kommen kann. Es wird <math>n = 100</math> gewählt.<br />
<br />
Dann ist<br />
<br />
<math>\left[ \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}},\quad\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math><br />
<br />
ein [[Approximation|approximatives]] [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\;</math> (Haushaltnettoeinkommen) zum näherungsweisen [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right) \approx1-\alpha</math><br />
<br />
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]:<br />
<br />
<math>z_{1-\frac{\alpha}{2}}=z_{0.975}=1.96</math>.<br />
<br />
Für 50 [[einfache Zufallsstichprobe]]n sind in der Abb. 3 die Punkt[[schätzwert]]e und [[Schätzintervall]]e enthalten, wobei wiederum einzig und allein zum Zweck der Veranschaulichung der wahre [[Mittelwert der Grundgesamtheit|Mittelwert <math>\mu</math> der Grundgesamtheit]] als gepunktete Linie in die Grafik eingefügt wurde. <br />
<br />
Auf die Angabe der numerischen Resultate wird verzichtet.<br />
<br />
<iframe k="wiwi" p="examples/stat_Konfidenzintervall_Konfidenzintervall_varianz_unbekannt2_R00480004800000000000000_plot.html" /><br />
Auch hier ist zu sehen, dass die [[Länge des Konfidenzintervalls|Länge <math>L</math> der Intervalle]] und der [[Schätzfehler]] <math>E</math> von [[Stichprobe]] zu [[Stichprobe]] variieren und somit [[Zufallsvariable]]n sind, was auf die unbekannte [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Grundgesamtheit]] zurückzuführen ist. <br />
<br />
Von den 50 [[Schätzintervall]]en überdeckt zwei [[Schätzintervall]]e (4%) nicht den wahren Wert <math>\mu</math> des mittleren Haushaltsnettoeinkommens.<br />
<br />
===Glühlampen===<br />
<br />
Ein Unternehmen stellt Glühlampen her. Die Marketing-Abteilung benötigt für Werbungszwecke eine Angabe über die durchschnittliche Brenndauer einer bestimmten Sorte von Glühlampen. <br />
<br />
Aus statistischer Sicht ergeben sich dabei folgende Überlegungen:<br />
<br />
* Die Erfassung der [[Grundgesamtheit]], d.h. der Gesamtproduktion dieser Sorte von Glühlampen, ist aus zwei Gründen nicht möglich:<br />
** Da auch in Zukunft diese Glühlampen produziert werden, liegt die [[Grundgesamtheit]] nicht vollständig vor.<br />
** Mit der Feststellung der Brenndauer ist die Zerstörung der Glühlampen verbunden.<br />
<br />
* Um systematische Fehler bei der Erfassung des Brenndauer zu vermeiden, wird eine [[Zufallsstichprobe]] gezogen.<br />
<br />
* Das Ziehen einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ([[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahl mit Zurücklegen]]) macht bei dieser Problemstellung wegen der Zerstörung der Glühlampen keinen Sinn. Es wird somit eine [[uneingeschränkte Zufallsstichprobe]] ([[Zufallsauswahlmodell ohne Zurücklegen|Zufallsauswahl ohne Zurücklegen]]) gezogen.<br />
<br />
* Da die Gesamtproduktion jedoch sehr groß ist, spielt die Tatsache, dass [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] gezogen wird, keine Rolle, denn die [[Verteilung der Grundgesamtheit|Verteilung in der Grundgesamtheit]] verändert sich dadurch so gut wie nicht. Die [[Stichprobe]] kann somit als eine [[einfache Zufallsstichprobe]] angesehen werden.<br />
<br />
* Neben einer [[Punktschätzung]] für die unbekannte durchschnittliche Brenndauer soll ein [[symmetrisches Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1 - \alpha = 0,95</math> angegeben werden.<br />
<br />
* Über die [[Verteilung der Grundgesamtheit|Verteilung der Zufallsvariablen]] <math>X = \;</math> "Brenndauer" und die [[Varianz der Grundgesamtheit|Varianz <math>\sigma^{2}</math> in der Grundgesamtheit]] liegen keine Informationen vor.<br />
<br />
====Zweiseitiges (approximatives) Konfidenzintervall====<br />
<br />
Wenn jedoch der [[Stichprobenumfang]] <math>n</math> genügend groß gewählt wird, kann ein [[Approximation|approximatives]] [[Konfidenzintervall]]<br />
<br />
<math>\left[ \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math><br />
<br />
zum näherungsweisen [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{X}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right) \approx1-\alpha</math><br />
<br />
ermittelt werden. <br />
<br />
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]: <math>z_{1-\frac{\alpha}{2}}=z_{0,975}=1,96</math>.<br />
<br />
Um einerseits eine ausreichende [[Approximation]] durch die [[Normalverteilung]] zu garantieren, andererseits aber die Kosten der [[Stichprobe]] gering zu halten, soll der [[Stichprobenumfang|Umfang der Stichprobe]] so klein als notwendig gehalten werden. In diesem Sinn wird <math>n = 50</math> gewählt.<br />
<br />
Die konkrete [[Stichprobe]] führte zu folgenden [[Punktschätzung]]en:<br />
<br />
*mittlere Brenndauer in der [[Stichprobe]] <math>\bar{x}</math>: <math>1600 \; \mbox{Stunden}</math><br />
<br />
*[[Varianz (stochastisch)|Varianz]] <math>s^{2}</math> in der [[Stichprobe]]: <math>8100 \; \mbox{Stunden}^{2}</math><br />
<br />
*[[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> in der [[Stichprobe]]: <math>90 \; \mbox{Stunden}</math><br />
<br />
Damit erhält man das [[Schätzintervall]]:<br />
<br />
{|<br />
|<math>\left[ 1600-1,96\cdot\frac{90}{\sqrt{50}};\; 1600+1,96\cdot\frac{90}{\sqrt{50}}\right]</math><br />
|<math>=[1600-24,95;\;1600+24,95]</math><br />
|-<br />
|<br />
|<math>=[1575,05;\;1624,95]</math><br />
|}<br />
<br />
Da für das [[Schätzverfahren]] eine hohe [[Sicherheitswahrscheinlichkeit]] von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, kann man davon ausgehen, eines der [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.<br />
<br />
====Einseitiges Konfidenzintervall====<br />
<br />
Aus der Sicht des Leiters der Marketing-Abteilung ist dieses Ergebnis insoweit unbefriedigend, dass aus psychologischen Gründen bei der Werbung keine Angabe über die [[Grenzen des Konfidenzintervalls|obere Grenze]] der mittleren Brenndauer erfolgen sollte. <br />
<br />
Er lässt deshalb ein nach oben offenes [[Konfidenzintervall]], d.h. ein [[einseitiges Konfidenzintervall]], bestimmen. Zum näherungsweisen [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\alpha}\cdot\frac{S}{\sqrt{n}}\leq\mu\right) =1-\alpha=0,95</math><br />
<br />
findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]:<br />
<br />
<math>z_{1-\alpha}=z_{0,95}=1,645</math>.<br />
<br />
Mit den Ergebnissen der gleichen [[Stichprobe]] ergibt sich für die [[Grenzen des Konfidenzintervalls|untere Grenze]]:<br />
<br />
<math>v_{u}=1600-1,645\cdot\frac{90}{\sqrt{50}}=1600-20,94=1579,06\mbox{ Stunden}</math><br />
<br />
und für das einseitige [[Schätzintervall]]<br />
<br />
<math>\left[1579,06;\;+\infty\right)</math><br />
<br />
Auch für dieses Ergebnis gilt eine analoge Interpretation: Aufgrund der hohen [[Sicherheitswahrscheinlichkeit]] von 0,95 geht man davon aus, eines der einseitigen [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.<br />
<br />
<!--==Interaktives Beispiel==<br />
<br />
<br />
Es steht eine Grundgesamtheit von <math>N = 500</math> Angestellten einer Versicherungsgesellschaft zur Verfügung. An den Angestellten wurden die Variablen<br />
<br />
<math>X_1 =\;</math> Jahresprovision in DM,<br />
<br />
<math>X_2 =\;</math> Versicherungsabschlüsse pro Monat,<br />
<br />
<math>X_3 =\;</math> Krankheitstage pro Kalenderjahr,<br />
<br />
<math>X_4 =\;</math> Wochenarbeitszeit in Stunden<br />
<br />
beobachtet. Der [[STAT-Glossar#Erwartungswert|Erwartungswert]] <math>\mu</math>, die [[STAT-Glossar#Varianz|Varianz]] <math>\sigma^{2}</math> und die Verteilung der Variablen in der Grundgesamtheit sind unbekannt.<br />
<br />
Ermitteln Sie auf der Basis einer einfachen Zufallsstichprobe eine<br />
Punkt- und Intervallschätzung für den unbekannten [[STAT-Glossar#Erwartungswert|Erwartungswert]]<br />
<math>\mu</math>.<br />
<br />
Mit diesem Beispiel haben Sie die Möglichkeit, den Einfluss des<br />
[[STAT-Glossar#Konfidenzniveau|Konfidenzniveaus]] und des [[STAT-Glossar#Stichprobenumfang|Stichprobenumfanges]] auf die Breite des<br />
Konfidenzintervalls zu studieren. Dazu empfiehlt es sich, nur eine<br />
der beiden Größen zu verändern, während die andere konstant<br />
gehalten wird.<br />
<br />
Treffen Sie bitte nachfolgend ihre Entscheidungen über<br />
<br />
* die zu analysierende Variable,<br />
* den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math>,<br />
* das [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] <math>1-\alpha</math> (als Dezimalzahl, z.B. 0,95).<br />
<br />
<br />
Hinweis:<br />
<br />
Berücksichtigen Sie bei diesen Entscheidungen, welche<br />
Informationen Sie über die Grundgesamtheit haben.<br />
<br />
<br />
'''Ausgabe:'''<br />
<br />
Als Ergebnis gibt dieses interaktive Beispiel<br />
<br />
# einen ''[[STAT-Glossar#Scatterplot|Scatterplot]]'' der ausgewählten Variable,<br />
# den dazu gehörigen ''[[STAT-Glossar#Boxplot|Boxplot]]'' und<br />
# das -zum gewählte [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] passende- ''Konfidenzintervall''<br />
<br />
<br />
aus. Wenn man die gleiche Variable anschließend ein weiteres Mal<br />
auswählt, aber ein anderes/n [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]]/[[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]]<br />
angibt, so werden im nächsten Ausgabefenster auch die alten<br />
''Konfidenzintervalle'' angezeigt (zum Vergleich).--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Konfidenzintervall_f%C3%BCr_den_Erwartungswert_bei_bekannter_Varianz&diff=1251Konfidenzintervall für den Erwartungswert bei bekannter Varianz2018-05-29T13:17:15Z<p>Jacobdan: </p>
<hr />
<div>{{Schaetztheorie}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Konfidenzintervall bei Normalverteilung der Grundgesamtheit===<br />
<br />
Die [[Zufallsvariable]] <math>X\;</math> in der [[Grundgesamtheit]] sei [[Normalverteilung|normalverteilt]] mit <math>E[X]=\mu</math> und <math>Var(X)=\sigma^{2}</math>:<br />
<br />
<math>X\sim N(\mu;\sigma^{2})\;</math><br />
<br />
Dann ist<br />
<br />
<math> \left[\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]</math><br />
<br />
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Normalverteilung|normalverteilten]] [[Zufallsvariable]]n <math>X\;</math> mit bekannter [[Varianz der Grundgesamtheit|Varianz]] <math>\sigma^{2}</math> zum [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)=1-\alpha</math><br />
<br />
Wurde die [[Stichprobe]] gezogen und liegen die [[Stichprobenwerte]] <math>x_{1},\ldots,x_{n}</math> vor, dann ist<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
das [[Arithmetisches Mittel|arithmetische Mittel]] dieser [[Stichprobe]] (als eine [[Realisation]] von <math>\bar{X}</math>) und<br />
<br />
<math>\left[\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]</math><br />
<br />
das sich für diese [[Stichprobe]] ergebende [[Schätzintervall]]. <br />
<br />
Die allgemein gegebene Interpretation von [[Konfidenzintervall]]en bleibt uneingeschränkt gültig.<br />
<br />
===Konfidenzintervall bei unbekannter Verteilung der Grundgesamtheit===<br />
<br />
Wenn die [[Verteilung der Grundgesamtheit|Verteilung der Zufallsvariablen <math>X\;</math> in der Grundgesamtheit]] unbekannt ist, d.h. <math>X\;</math> beliebig [[Verteilung (stochastisch)|verteilt]] ist, dann lässt sich keine exakte Aussage über die [[Verteilung (stochastisch)|Verteilung]] der [[Schätzfunktion]] <math>\bar{X}</math> treffen. <br />
<br />
Aus vorhergehenden Betrachtungen über den [[Zentraler Grenzwertsatz|Zentralen Grenzwertsatz]] ist jedoch bekannt, dass die<br />
[[Verteilung (stochastisch)|Verteilung]] von <math>\bar{X}</math> mit wachsendem [[Stichprobenumfang]] <math>n</math> gegen eine [[Normalverteilung]] strebt. <br />
<br />
Somit gilt:<br />
<br />
Bei genügend großen [[Stichprobenumfang]] <math>n</math> ist die [[Schätzfunktion]] <math>\bar{X}</math> [[Approximation|approximativ]] [[Normalverteilung|normalverteilt]]:<br />
<br />
<math>X\sim N\left(\mu;\sigma\left(\bar{X}\right)\right)</math><br />
<br />
und die [[Standardisierung|standardisierte]] [[Zufallsvariable]] <math>Z\;</math> ist [[Approximation|approximativ]] [[standardnormalverteilung|standardnormalverteilt]]:<br />
<br />
<math>Z\sim N(0;1)\;</math>.<br />
<br />
Als Faustregel für einen genügend großen [[Stichprobenumfang]] gilt <math>n \geq 30</math>.<br />
<br />
Dann ist<br />
<br />
<math>\left[ \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]</math><br />
<br />
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math>, das [[Approximation|approximativ]] das [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right) =1-\alpha</math><br />
<br />
hat.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit===<br />
<br />
Die [[Zufallsvariable]] <math>X\;</math> in der [[Grundgesamtheit]] sei [[Normalverteilung|normalverteilt]] mit <math>E[X]=\mu</math> und <math>Var(X)=\sigma^{2}</math>:<br />
<br />
<math>X\sim N(\mu;\sigma^{2})\;</math><br />
<br />
Während die [[Varianz der Grundgesamtheit|Varianz]] <math>\sigma^{2}</math> bekannt sei, ist der [[Erwartungswert der Grundgesamtheit|Erwartungswert]] <math>\mu</math> unbekannt und soll unter Verwendung einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> geschätzt werden.<br />
<br />
Die [[Stichprobenvariable]]n <math>X_{1},\ldots,X_{n}</math> sind dann [[Unabhängigkeit (stochastisch)|unabhängig]] und ebenfalls [[Normalverteilung|normalverteilt]] mit <math>E[X]=\mu</math> und <math>Var(X)=\sigma^{2}</math>:<br />
<br />
<math>X_{i}\sim N(\mu;\sigma^{2})\;\forall{i}</math><br />
<br />
Daraus folgt, dass auch die [[Schätzfunktion]] <math>\bar{X}</math> [[Normalverteilung|normalverteilt]] ist mit dem [[Erwartungswert]] <math>E\left[\bar{X}\right]=\mu</math> und der [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}(\bar{x})=\frac{\sigma^{2}}{n}</math>:<br />
<br />
<math>\bar{X}\sim N\left(\mu,\sigma^{2}\left(\bar{X}\right)\right)</math><br />
<br />
Die [[Standardisierung|standardisierte]] [[Zufallsvariable]]<br />
<br />
<math>z=\frac{\bar{X}-\mu}{\sigma(\bar{X})}=\cfrac{\bar{X}-\mu}{\cfrac{\sigma}{\sqrt{n}}}=\sqrt{n}\cdot \frac{\bar{X}-\mu}{\sigma}</math><br />
<br />
ist [[Standardnormalverteilung|standardnormalverteilt]]: <math>Z\sim N(0,1)\;</math>.<br />
<br />
Für die [[Standardisierung|standardisierte]] [[Zufallsvariable]] lässt sich ein [[zentrales Schwankungsintervall]] angeben, in dem <math>Z\;</math> [[Realisation]]en mit einer vorgegebenen [[Sicherheitswahrscheinlichkeit]]<br />
<br />
<math>P(z_{\frac{\alpha}{2}}\leq Z\leq z_{1-\frac{\alpha}{2}})=1-\alpha</math><br />
<br />
annimmt. <br />
<br />
Dabei ist <math>z_{\frac{\alpha}{2}}</math> das [[p-Quantil|<math>\frac{\alpha}{2}</math>-Quantil]] und<br />
<math>z_{\frac{\alpha}{2}}</math> das [[p-Quantil|<math>\left(1 -\frac{\alpha}{2}\right)</math>-Quantil]] der [[Standardnormalverteilung]]. <br />
<br />
Aufgrund der Symmetrie der [[Standardnormalverteilung]] gilt:<br />
<br />
<math>|z_{\frac{\alpha}{2}}|=|z_{1-\frac{\alpha}{2}}|</math> und <math> z_{\frac{\alpha}{2}} = -z_{1-\frac{\alpha}{2}}</math><br />
<br />
Damit folgt:<br />
<br />
<math>P\left(-z_{1-\frac{\alpha}{2}}\leq Z\leq z_{1-\frac{\alpha}{2}}\right)=1-\alpha</math><br />
<br />
Für die [[Wahrscheinlichkeit]] <math>1-\alpha</math> findet man <math>z_{1-\frac{\alpha}{2}}</math> in der Tabelle der [[Standardnormalverteilung]].<br />
<br />
Nach Einsetzen von <math>Z</math> und einigen elementaren Umformungen der<br />
Ungleichung erhält man:<br />
<br />
<math>P\left( -z_{1-\frac{\alpha}{2}}\leq Z\leq z_{1-\frac{\alpha}{2}}\right) =1-\alpha</math><br />
<br />
<math>P\left(-z_{1-\frac{\alpha}{2}}\leq\sqrt{n}\cdot\frac{\bar{X}-\mu}{\sigma}\leq z_{1-\frac{\alpha}{2}}\right) =1-\alpha</math><br />
<br />
<math>P\left(-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\leq\bar{X}-\mu\leq z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right) =1-\alpha</math><br />
<br />
<math>P\left(\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)=1-\alpha</math><br />
<br />
Mit dem letzten Ausdruck ist das [[Konfidenzniveau]] für ein [[Konfidenzintervall]] für <math>\mu</math> gegeben. <br />
<br />
Der Faktor <math>c</math> als Vielfaches der [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Schätzfunktion]] ergibt sich zu: <math>c = z_{1 - \frac{\alpha}{2}}</math>.<br />
<br />
Die Bedingungen für ein [[Konfidenzintervall]] sind erfüllt, denn die [[Verteilung (stochastisch)|Verteilung]] ist bekannt ([[Standardnormalverteilung]]) und sie hängt nicht von dem unbekannten [[Parameter]] <math>\mu</math> ab.<br />
<br />
===Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit===<br />
<br />
* Das angegebene [[Konfidenzintervall]] ist ein bezüglich der [[Wahrscheinlichkeit]] [[symmetrisches Konfidenzintervall]], denn es gilt:<br />
<br />
: <math>P\left( \mu<\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)=\frac{\alpha}{2}=P\left( \bar{X} +z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma }{\sqrt{n}}<\mu\right)</math><br />
<br />
* Das [[Konfidenzintervall]] weist eine weitere Symmetrieeigenschaft auf: Es ist symmetrisch bezüglich der [[Punktschätzung]]. <br />
<br />
: Die [[Grenzen des Konfidenzintervalls|Grenzen des Intervalls]] haben zu <math>\bar{X}</math> den gleichen Abstand. Dieser Abstand, d.h. die halbe [[Länge des Konfidenzintervalls|Länge des Intervalls]], wird in diesem Fall auch als [[Schätzfehler]] bezeichnet und mit <math>e</math> symbolisiert.<br />
<br />
: <math>e= z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}</math><br />
<br />
* Die [[Länge des Konfidenzintervalls]]<br />
<br />
: <math>\left(\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)-\left(\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)=2z_{1-\frac {\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}} </math><br />
<br />
: und der [[Schätzfehler]] <math>e</math> hängen nicht von den [[Stichprobenvariable]]n <math>X_{1},\ldots,X_{n}</math> ab. <br />
<br />
: Bei gegebenen <math>\sigma</math>, <math>n</math> und <math>1-\alpha</math> ergeben sich von [[Stichprobe]] zu [[Stichprobe]] unterschiedliche [[Schätzintervall]]e, die aber alle die gleiche feste [[Länge des Konfidenzintervalls|Länge]] bzw. den gleichen festen [[Schätzfehler]] aufweisen.<br />
<br />
* Die [[Länge des Konfidenzintervalls]] und der [[Schätzfehler]] hängen von der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> der [[Grundgesamtheit]], vom [[Stichprobenumfang]] <math>n</math> und über <math>z_{1 - \frac{\alpha}{2}}</math> vom vorgegebenen [[Konfidenzniveau]] ab.<br />
<br />
: Je größer (kleiner) die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma</math> ist, desto breiter (schmaler) ist unter sonst gleichen Bedingungen das [[Konfidenzintervall|Intervall]].<br />
<br />
: Je größer (kleiner) das [[Konfidenzniveau]] <math>1 -\alpha</math> ist, um so größer (kleiner) ist <math>z_{1 - \frac{\alpha}{2}}</math> und umso breiter (schmaler) ist unter sonst gleichen Bedingungen das [[Konfidenzintervall|Intervall]].<br />
<br />
: Je größer (kleiner) der [[Stichprobenumfang]] ist, desto schmaler (breiter) ist unter sonst gleichen Bedingungen das [[Konfidenzintervall|Intervall]].<br />
<br />
: Im Zusammenspiel von [[Konfidenzniveau]] und [[Stichprobenumfang]] lässt sich somit eine Steuerung für das [[Konfidenzintervall]] erreichen.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Haushaltsnettoeinkommen===<br />
<br />
Für eine [[Grundgesamtheit]] von <math>N = 2000</math> Privathaushalten sei die [[Zufallsvariable]] <math>X\;</math> das Haushaltsnettoeinkommen (in €). <br />
<br />
Das mittlere Haushaltsnettoeinkommen dieser [[Grundgesamtheit]], d.h. der [[Erwartungswert der Grundgesamtheit|Erwartungswert]] <math>E[X] = \mu</math>, ist unbekannt und soll geschätzt werden.<br />
<br />
Über die [[Punktschätzung]] hinaus soll ein [[Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1-\alpha=0,95</math> und für die konkreten [[Stichprobe]]n das [[Schätzintervall]] angegeben werden.<br />
<br />
Zur [[Schätzung]] von <math>\mu</math> wird der [[Stichprobenmittelwert]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
als [[Schätzfunktion]] verwendet.<br />
<br />
Eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> liefert die [[Stichprobenwerte]] <math>x_{1},\ldots, x_{n}</math>. <br />
<br />
Nach Einsetzen dieser [[Stichprobenwerte]] in die [[Schätzfunktion]] erhält man einen [[Schätzwert]]<br />
<br />
<math>\bar{x}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}x_{i}</math><br />
<br />
als [[Punktschätzung]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].<br />
<br />
Die Angabe des [[Konfidenzintervall]]s wird entscheidend von den Informationen, die über die [[Grundgesamtheit]] vorliegen, bestimmt.<br />
<br />
Es sei bekannt, dass die [[Zufallsvariable]] <math>X\;</math> (Haushaltsnettoeinkommen) in der [[Grundgesamtheit]] einer [[Normalverteilung]] mit der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma = 1012,8 \,\euro</math> folgt:<br />
<br />
<math>X\sim N(\mu; 1012,8)\;</math>.<br />
<br />
Aufgrund dieser Informationen ist<br />
<br />
<math>\left[\bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}},\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]</math><br />
<br />
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\;</math> (Haushaltnettoeinkommen) zum [[Konfidenzniveau]]<br />
<br />
<math>P\left( \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right) =1-\alpha</math><br />
<br />
Zum vorgegebenen [[Konfidenzniveau]] <math>1 - \alpha = 0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] <math>N(0; 1):</math><br />
<br />
<math>z_{1-\frac{\alpha}{2}} = z_{0,975} = 1,96</math><br />
<br />
Nach Einsetzen von <math>\sigma</math> und <math>z_{0,975}</math> ergibt sich:<br />
<br />
<math>P\left(\bar{X}-1,96\cdot\frac{1012,8}{\sqrt{n}}\leq\mu\leq\bar{X}+1,96\cdot\frac{1012,8}{\sqrt{n}}\right) =0,95</math><br />
<br />
und<br />
<br />
<math>\left[\bar{X}-1,96\cdot\frac{1012,8}{\sqrt{n}},\;\bar{X}+1,96\cdot\frac{1012,8}{\sqrt{n}}\right]</math><br />
<br />
Nach der Ziehung der [[Stichprobe]] ist<br />
<br />
<math>\left[ \bar{X}-1,96\cdot\frac{1012,8}{\sqrt{n}},\;\bar{X}+1,96\cdot\frac{1012,8}{\sqrt{n}}\right]</math><br />
<br />
das sich für die [[Stichprobe]] ergebende [[Schätzintervall]], in dem nur noch der Punkt[[schätzwert]] <math>\bar{X}</math> und <math>n</math> einzusetzen sind.<br />
<br />
Eine [[einfache Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> Privathaushalten aus der oben genannten [[Grundgesamtheit]] liefert die folgenden [[Stichprobenwerte]].<br />
<br />
Tabelle 1: [[Stichprobenwerte]] des Haushaltsnettoeinkommens einer [[Stichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> (der Größe nach geordnet)<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math> i</math><br />
|align="center"|Haushaltsnettoeinkommen (€) <math>x_{i}</math><br />
|align="center"|<math>i</math><br />
|align="center"|Haushaltsnettoeinkommen (€) <math>x_{i}</math><br />
|-<br />
|align="center"|1<br />
|align="center"|800<br />
|align="center"|11<br />
|align="center"|2500<br />
|-<br />
|align="center"|2<br />
|align="center"|1200<br />
|align="center"|12<br />
|align="center"|2500<br />
|-<br />
|align="center"|3<br />
|align="center"|1400<br />
|align="center"|13<br />
|align="center"|2500<br />
|-<br />
|align="center"|4<br />
|align="center"|1500<br />
|align="center"|14<br />
|align="center"|2700<br />
|-<br />
|align="center"|5<br />
|align="center"|1500<br />
|align="center"|15<br />
|align="center"|2850<br />
|-<br />
|align="center"|6<br />
|align="center"|1500<br />
|align="center"|16<br />
|align="center"|3300<br />
|-<br />
|align="center"|7<br />
|align="center"|1800<br />
|align="center"|17<br />
|align="center"|3650<br />
|-<br />
|align="center"|8<br />
|align="center"|1800<br />
|align="center"|18<br />
|align="center"|3700<br />
|-<br />
|align="center"|9<br />
|align="center"|2300<br />
|align="center"|19<br />
|align="center"|4100<br />
|-<br />
|align="center"|10<br />
|align="center"|2400<br />
|align="center"|20<br />
|align="center"|4300<br />
|}<br />
<br />
Das mittlere Haushaltsnettoeinkommen dieser [[Stichprobe]] beträgt<br />
<br />
<math>\bar{x}=\frac{48300}{20}=2415 \,\euro</math><br />
<br />
und ist ein [[Schätzwert]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].<br />
<br />
Als [[Schätzintervall]] für diese [[Stichprobe]] ergibt sich:<br />
<br />
{|<br />
|<math>\left[ 2415-1,96\cdot\frac{1012,8}{\sqrt{20}};\; 2415+1,96\cdot\frac{1012,8}{\sqrt{20}}\right]</math><br />
|<math>=[2415-443,88;\; 2415+443,88]</math><br />
|-<br />
|<br />
|<math> =[1971,12;\; 2858,88]</math><br />
|}<br />
<br />
Für dieses [[Schätzintervall]] kann nichts darüber ausgesagt werden, ob der wahre Wert <math>\mu</math> des mittleren Haushaltsnettoeinkommens der [[Grundgesamtheit]] in dem [[Konfidenzintervall|Intervall]] enthalten ist oder nicht. <br />
<br />
Da jedoch für das [[Schätzverfahren]] eine [[Sicherheitswahrscheinlichkeit]] von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, unterstellt man, eines der [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 20</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.<br />
<br />
Um die Problematik von [[Konfidenzintervall]]en zu demonstrieren, werden 24 weitere [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> aus der gleichen [[Grundgesamtheit]] gezogen und das mittlere Haushaltsnettoeinkommen <math>\bar{X}</math> und ein [[Schätzintervall]] für jede [[Stichprobe]] berechnet, die in der folgenden Tabelle für alle 25 Zufallsstichproben enthalten sind.<br />
<br />
Tabelle 2: Mittleres Haushaltsnettoeinkommen (€) und [[Schätzintervall]] für 25 [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math><br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>i\;</math><br />
|align="center"|<math>\bar{x}</math><br />
|align="center"|<math>v_{u}\;</math><br />
|align="center"|<math>v_{o}\;</math><br />
|align="center"|<math>i\;</math><br />
|align="center"|<math>\bar{x}</math><br />
|align="center"|<math>v_{u}\;</math><br />
|align="center"|<math>v_{o}\;</math><br />
|-<br />
|align="center"|1<br />
|align="center"|2413,40<br />
|align="center"|1969,52<br />
|align="center"|2857,28<br />
|align="center"|14<br />
|align="center"|2126,50<br />
|align="center"|1682,62<br />
|align="center"|2570,38<br />
|-<br />
|align="center"|2<br />
|align="center"|2317,00<br />
|align="center"|1873,12<br />
|align="center"|2760,88<br />
|align="center"|15<br />
|align="center"|2243,15<br />
|align="center"|1799,27<br />
|align="center"|2687,03<br />
|-<br />
|align="center"|3<br />
|align="center"|2567,50<br />
|align="center"|2123,62<br />
|align="center"|3011,38<br />
|align="center"|16<br />
|align="center"|2361,25<br />
|align="center"|1917,37<br />
|align="center"|2805,13<br />
|-<br />
|align="center"|4<br />
|align="center"|2060,90<br />
|align="center"|1617,02<br />
|align="center"|2504,78<br />
|align="center"|17<br />
|align="center"|2607,5<br />
|align="center"|2163,37<br />
|align="center"|3051,13<br />
|-<br />
|align="center"|5<br />
|align="center"|2363,50<br />
|align="center"|1919,62<br />
|align="center"|2807,38<br />
|align="center"|18<br />
|align="center"|2319,55<br />
|align="center"|1875,67<br />
|align="center"|2763,43<br />
|-<br />
|align="center"|6<br />
|align="center"|2774,30<br />
|align="center"|2330,42<br />
|align="center"|3218,18<br />
|align="center"|19<br />
|align="center"|2203,85<br />
|align="center"|1759,97<br />
|align="center"|2647,73<br />
|-<br />
|align="center"|7<br />
|align="center"|2298,80<br />
|align="center"|1854,92<br />
|align="center"|2742,68<br />
|align="center"|20<br />
|align="center"|2395,25<br />
|align="center"|1951,37<br />
|align="center"|2839,13<br />
|-<br />
|align="center"|8<br />
|align="center"|2241,15<br />
|align="center"|1797,27<br />
|align="center"|2685,03<br />
|align="center"|21<br />
|align="center"|2659,00<br />
|align="center"|2215,12<br />
|align="center"|3102,88<br />
|-<br />
|align="center"|9 <br />
|align="center"|1915,30<br />
|align="center"|1471,42<br />
|align="center"|2359,18<br />
|align="center"|22<br />
|align="center"|2168,50<br />
|align="center"|1724,62<br />
|align="center"|2612,38<br />
|-<br />
|align="center"|10<br />
|align="center"|2062,15<br />
|align="center"|1618,27<br />
|align="center"|2506,03<br />
|align="center"|23<br />
|align="center"|2110,30<br />
|align="center"|1666,42<br />
|align="center"|2554,18<br />
|-<br />
|align="center"|11<br />
|align="center"|2267,75<br />
|align="center"|1823,87<br />
|align="center"|2711,63<br />
|align="center"|24<br />
|align="center"|1884,90<br />
|align="center"|1441,02<br />
|align="center"|2328,78<br />
|-<br />
|align="center"|12<br />
|align="center"|2163,10<br />
|align="center"|1719,22<br />
|align="center"|2606,98<br />
|align="center"|25<br />
|align="center"|2415,00<br />
|align="center"|1971,12<br />
|align="center"|2858,88<br />
|-<br />
|align="center"|13<br />
|align="center"|2635,00<br />
|align="center"|2191,12<br />
|align="center"|3078,88<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|}<br />
<br />
Die folgende Abbildung zeigt die 25 Punkt[[schätzwert]]e und [[Schätzintervall]]e. <br />
<br />
Einzig und allein zum Zweck der Veranschaulichung ist der wahre [[Mittelwert der Grundgesamtheit|Mittelwert <math>\mu</math> der Grundgesamtheit]] als gepunktete Linie in der Grafik enthalten.<br />
<br />
<iframe k="wiwi" p="examples/stat_Konfidenzintervall_Konfidenzintervall_varianz_bekannt_R00480004800000000000000_plot.html" /><br />
<br />
Anhand dieser Ergebnisse werden verschiedene Charakteristika von [[Konfidenzintervall]]en deutlich:<br />
<br />
* Die Grenzen <math>V_{u}</math> und <math>vV_{o}</math> eines [[Konfidenzintervall]]s sind [[Zufallsvariable]]n, die von [[Stichprobe]] zu [[Stichprobe]] aufgrund der verschiedenen [[Stichprobenwerte]] <math>x_{i}\quad (i = 1,\ldots, 20)</math> und der daraus resultierenden [[Schätzwert]]e <math>\bar{X}</math> unterschiedliche Werte annehmen können.<br />
<br />
* 23 [[Schätzintervall]]e (92%) schließen den wahren Wert <math>\mu</math> ein und 2 [[Schätzintervall]]e (Stichprobe Nr. 9 und Nr. 24; 8%) schließen ihn nicht ein. <br />
<br />
: Widerspricht dies dem festgelegten [[Konfidenzniveau]] von 0,95?<br />
<br />
: Die Antwort ist nein, denn das [[Konfidenzniveau]] bezieht sich auf eine sehr große Anzahl von [[Stichprobe]]n und 25 [[Stichprobe]]n ist wirklich keine große Anzahl.<br />
<br />
* Da die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma</math> der [[Grundgesamtheit]] als bekannt vorausgesetzt wurde, haben alle 25 [[Schätzintervall]]e die gleiche [[Länge des Konfidenzintervalls|Länge]] von 887,76 bzw. den gleichen [[Schätzfehler]] von 443,88.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=G%C3%BCte_der_Regression&diff=1250Güte der Regression2018-05-29T13:11:05Z<p>Jacobdan: </p>
<hr />
<div>{{Regression}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Güte (Bestimmtheit) der Regression===<br />
<br />
Ist die [[Regressionsfunktion]] ermittelt, interessiert im Folgenden, wie gut die [[Regressionsfunktion]] an die [[Beobachtungswert]]e angepasst ist, wie gut sie diese repräsentiert.<br />
<br />
Das [[Bestimmtheitsmaß]] ist eine für diese Untersuchung geeignete Maßzahl. Die Berechnung des [[Bestimmtheitsmaß]]es beruht auf der Aufspaltung der [[Varianz (stochastisch)|Varianz]] der [[Abhängige Variable|abhängigen Variablen]] <math>Y\;</math>.<br />
<br />
Gemäß dem Ziel der Regression ist die Güte der Anpassung umso höher, je kleiner die Summe der quadratischen Abweichungen ist.<br />
<br />
<math>\sum{(y_{i}-\hat{y_{i}})}^{2}=\sum \hat{{u_{i}}^{2}}\rightarrow min.</math><br />
<br />
Für die [[Varianz (stochastisch)|Varianz]] von <math>Y\;</math> gilt:<br />
<br />
<math>s_y^2 = \frac{\sum_{i=1}^{n}{(y_i-\bar y)}^2}{n}</math><br />
<br />
Die Abweichung eines [[Beobachtungswert]]es <math>y_{i}</math> vom [[Mittelwert]] <math>\bar{y}</math> lässt sich zerlegen in die Abweichung des [[Beobachtungswert]]es vom [[Regresswert]] und die Abweichung des [[Regresswert]]es vom [[Mittelwert]].<br />
<br />
<math>y_{i}-\bar{y}=[(y_{i}-{\hat{y_{i}})}+({\hat{y_{i}}}-\bar{y})],\quad i=1,\cdots ,n<br />
</math><br />
<br />
Die Grafik veranschaulicht diese Zerlegung.<br />
<br />
<iframe k="wiwi" p="examples/stat_GueteRegression_Zerlegung_1_R00480004800000000000000_plot.html" /><br />
<br />
<br />
Analog lässt sich auch die Summe der quadratischen Abweichungen zerlegen:<br />
<br />
<math>\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}=\sum_{i=1}^{n}[{(y_{i}-\hat{y_{i}})}+({\hat{y_{i}}}-\bar{y})]^{2}</math><br />
<br />
<math>\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}=\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}+\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}</math><br />
<br />
Werden beide Seiten der Gleichung durch <math>n</math> dividiert, ergibt<br />
sich:<br />
<br />
<math>\frac{\sum_{i}^{n}{(y_{i}-\bar{y})}^{2}}{n}=\frac{\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}}{n}+\frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}}{n}</math><br />
<br />
<math>\frac{\sum_{i}^{n}{(y_{i}-\bar{y})}^{2}}{n}=\frac{\sum_{i=1}^{n}{\hat{u_{i}}}^{2}}{n}\cdot\frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}}{n}</math><br />
<br />
<math>S_{y}^{2}=S_{\hat{u}}^{2}+S_{\hat{y}}^{2}</math><br />
<br />
Die Gesamt[[Varianz (stochastisch)|varianz]] von <math>Y\;</math> ist gleich der Summe aus der [[Varianz (stochastisch)|Varianz]] der [[Residuum|Residuen]] (nicht erklärter Teil der [[Varianz (stochastisch)|Varianz]] von <math>Y\;</math>) und dem durch die [[Regressionsfunktion]] erklärten Teil der [[Varianz (stochastisch)|Varianz]] von <math>Y\;</math>.<br />
<br />
Es folgt:<br />
<br />
* Je größer die durch das Modell erklärte [[Varianz (stochastisch)|Varianz]] <math>{\hat{S_{\hat{y}}}^{2}}</math> ist, desto besser ist die Güte der [[Regressionsfunktion]].<br />
<br />
* Je größer dagegen die [[Varianz (stochastisch)|Varianz]] der [[Residuum|Residuen]] <math>\hat{S_{\hat{u}}^{2}}</math> ist, desto größer ist der Einfluss anderer, nicht durch die [[Regressionsfunktion]] erklärter Einflüsse.<br />
<br />
===Bestimmtheitsmaß===<br />
<br />
Das ''Bestimmtheitsmaß'' ist definiert als Anteil der durch die [[Regressionsfunktion]] erklärten [[Varianz (stochastisch)|Varianz]] von <math>Y</math> an der Gesamt[[Varianz (stochastisch)|varianz]] von <math>Y</math>:<br />
<br />
<math>R_{yx}^{2}=\frac{\sum_{i=1}^{n}{\left(\hat{y_{i}}-\bar{y}\right)}^{2}}{\sum_{i=1}^{n}{\left(y_{i}-\bar{y}\right)}^{2}}=\frac{S_{\hat{y}}^{2}}{S_{y}^{2}}</math><br />
<br />
Alternative Möglichkeiten zur Berechnung des [[Bestimmtheitsmaß]]es sind:<br />
<br />
<math>R_{yx}^{2}=\frac{{\left[\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)\cdot\left(x_{i}-\bar{x}\right)\right]}^{2}}{\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}\cdot\sum_{i=1}^{n}{(x_{i}-\bar{x})}^{2}}=\frac{S_{xy}^{2}}{S_{y}^{2}\cdot S_{x}^{2}}</math><br />
<br />
<math>R_{xy}^{2}=\frac{{(n\cdot\sum_{i=1}^{n}x_{i}\cdot y_{i}-\sum_{i=1}^{n}x_{i}\cdot\sum_{i=1}^{n}y_{i})}^{2}}{\left[n\cdot\sum_{i=1}^{n}{x_{i}}^{2}-{\left(\sum_{i=1}^{n}x_{i}\right)}^{2}\right]\left[n\cdot\sum_{i=1}^{n}{y_{i}}^{2}-{\left(\sum_{i=1}^{n}y_{i}\right)}^{2}\right]}</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
* Wertebereich des [[Bestimmtheitsmaß]]es: <math>0 \leq R_{yx}^2 \leq 1</math><br />
<br />
: Je größer der Wert des [[Bestimmtheitsmaß]]es, desto besser ist die Anpassung der [[Regressionsfunktion]] an die [[Beobachtungswert]]e.<br />
<br />
: Liegen alle [[Beobachtungswert]]e auf der [[Regressionsgerade]]n, nimmt das [[Bestimmtheitsmaß]] den Wert 1 an. Die Gesamt[[Varianz (stochastisch)|varianz]] von <math>Y\;</math> wird durch die Abhängigkeit von <math>X\;</math> erklärt. Es liegt eine vollständige funktionale Abhängigkeit vor.<br />
<br />
: Bei einem [[Bestimmtheitsmaß]] von 0 ist die Gesamt[[Varianz (stochastisch)|varianz]] von <math>Y\;</math> identisch mit der nicht erklärten [[Varianz (stochastisch)|Varianz]] ([[Varianz (stochastisch)|Varianz]] der [[Residuum|Residuen]]). Das [[Merkmal]] <math>X\;</math> hat keinen Einfluss auf das [[Merkmal]] <math>Y\;</math>.<br />
<br />
* <math>R_{xy}^{2}=R_{yx}^{2}</math><br />
<br />
* Für eine lineare [[Regressionsfunktion]] entspricht das [[Bestimmtheitsmaß]] dem Quadrat des [[Korrelationskoeffizient (stochastisch)|Korrelationskoeffizient]]en: <math>R_{yx}^{2}=r_{yx}^{2}</math>.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Autotypen===<br />
<br />
Von 74 verschiedenen Autotypen wurden unter anderem folgende [[Merkmal]]e erhoben:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|price<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|mpg (miles per gallon)<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|headroom (in inches)<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rear seat clearance (distance from front seat back to the rear seat, in inches)<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|trunk space (in cubic feet)<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|weight (in pound)<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|length (in inches)<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|turning diameter (clearance required to make a U-turn, in feet)<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|displacement (in cubic inches)<br />
|}<br />
<br />
Die Abhängigkeit des Wendekreises <math>(X_8)\;</math> von der Länge <math>(X_7)\;</math> des Fahrzeugs lässt sich grafisch in Form eines [[Scatterplot]]s veranschaulichen. <br />
<br />
Jedes Fahrzeug wird in dem [[Scatterplot]] durch einen Punkt (<math>x_7,\; x_8</math>) dargestellt. Zusätzlich ist in dem Plot die [[Regressionsgerade]] (schwarz) eingezeichnet.<br />
<br />
<iframe k="wiwi" p="examples/stat_GueteRegression_Scatterplot_Fahrzeuge_R00480004800000000000000_plot.html" /><br />
<br />
Die [[Regressionsanalyse]] liefert folgende Ergebnisse:<br />
<br />
* Die [[Regressionskonstante]] beträgt 7,1739. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; <math>b_{0}</math> ist vor allem ein Ausgleichsparameter.<br />
<br />
* Mit jedem Längenzuwachs um eine Einheit (in diesem Fall ein inch) erhöht sich der Wendekreis um <math>b_{1} = 0,1735</math> feet.<br />
<br />
* Der [[Korrelationskoeffizient (stochastisch)|Korrelationskoeffizient]] beträgt 0,90 - ein starker Zusammenhang zwischen Wendekreis und Fahrzeuglänge wird impliziert.<br />
<br />
* Zur Einschätzung der Güte der Anpassung der [[Regressionsfunktion]] an die Daten wird das [[Bestimmtheitsmaß]] (<math>R^2</math>) verwendet. <br />
<br />
: Seine Berechnung beruht auf der Aufspaltung der [[Varianz (stochastisch)|Varianz]] der [[Abhängige Variable|abhängigen Variablen]] (Wendekreis). Für die Berechnung des [[Bestimmtheitsmaß]]es wird die Gesamt[[Varianz (stochastisch)|varianz]] (SS-Total), die nicht erklärte [[Varianz (stochastisch)|Varianz]] (SS-Residual) sowie die erklärte [[Varianz (stochastisch)|Varianz]] (SS-Regression) ermittelt und in folgende Formel eingesetzt:<br />
<br />
: <math>R^{2}=\frac{\mbox{SS-Regression}}{\mbox{SS-Total}}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}</math><br />
<br />
: Es ergibt sich ein [[Bestimmtheitsmaß]] von 0,81. Die Anpassung der linearen [[Regressionsfunktion]] an die Beobachtungswerte ist im Ergebnis recht gut.<br />
<br />
: Im Datenpunkt <math>x_{53}</math> beträgt die Fahrzeuglänge 192 inches, der dazugehörige beobachtete Wendekreis 38 feet. Die ermittelte [[Regressionsfunktion]] prognostiziert im Mittel für eine Fahrzeuglänge diesen Ausmaßes einen Wendekreis von 40,49 feet.<br />
<br />
===Kriminalitätsraten===<br />
<br />
In den U.S.A. wurden 1985 neben anderen [[Variable]]n verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|land area<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|population<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|murder<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rape<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|robbery<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|assault<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|burglary<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|auto-theft<br />
|-<br />
|<math>X_{10}\;</math><br />
| -<br />
|US states region number<br />
|-<br />
|<math>X_{11}\;</math><br />
| -<br />
|US states division number<br />
|}<br />
<br />
Die Abhängigkeit der Überfallrate <math>(X_5)\;</math> von der Größe der Bevölkerung <math>(X_2)\;</math> lässt sich grafisch in Form eines [[Scatterplot]]s veranschaulichen. <br />
<br />
Jeder Bundesstaat wird in dem [[Scatterplot]] durch einen Punkt <math>(x_2,\; x_5)</math> dargestellt. Zusätzlich ist in dem Plot die [[Regressionsgerade]] (schwarz) eingezeichnet.<br />
<br />
<iframe k="wiwi" p="examples/stat_GueteRegression_Scatterplot_Kriminalitaet_R00480004800000000000000_plot.html" /><br />
<br />
Die [[Regressionsanalyse]] liefert folgende Ergebnisse:<br />
<br />
* Die [[Regressionskonstante]] beträgt 48,1134. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; <math>b_{0}</math> ist vor allem ein Ausgleichsparameter.<br />
<br />
* Mit jedem Anstieg der Bevölkerung um eine Einheit (in diesem Fall 1.000 Personen) steigt die Überfallrate um <math>b_{1}=0,0112</math>.<br />
<br />
* Der [[Korrelationskoeffizient (stochastisch)|Korrelationskoeffizient]] beträgt 0,62 - ein Zusammenhang zwischen Überfallrate und Bevölkerungsgröße wird impliziert.<br />
<br />
* Zur Einschätzung der Güte der Anpassung der [[Regressionsfunktion]] an die Daten wird das [[Bestimmtheitsmaß]] <math>(R^2)</math> verwendet. <br />
<br />
: Seine Berechnung beruht auf der Aufspaltung der [[Varianz (stochastisch)|Varianz]] der [[Abhängige Variable|abhängigen Variablen]] (Überfallrate). <br />
<br />
: Für die Berechnung des [[Bestimmtheitsmaß]]es wird die Gesamt[[Varianz (stochastisch)|varianz]] (SS-Total), die nicht erklärte [[Varianz (stochastisch)|Varianz]] (SS-Residual) sowie die erklärte [[Varianz (stochastisch)|Varianz]] (SS-Regression) ermittelt und in folgende Formel eingesetzt:<br />
<br />
: <math>R^{2}=\frac{\mbox{SS-Regression}}{\mbox{SS-Total}}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}=1-\frac{\mbox{SS-Residual}}{\mbox{SS-Total}}</math><br />
<br />
Es ergibt sich ein [[Bestimmtheitsmaß]] von 0,39. Die Anpassung der linearen [[Regressionsfunktion]] an die [[Beobachtungswert]]e ist im Ergebnis relativ gering.<br />
<br />
Im Datenpunkt <math>x_{37}</math> beträgt die Größe der Bevölkerung 16370 (Tsd.), die dazugehörige beobachtete Überfallrate 134,1. Die ermittelte [[Regressionsfunktion]] prognostiziert im Mittel für eine Bevölkerung dieser Größe eine Überfallrate von 231,66.<br />
<br />
<!--==Interaktives Beispiel==<br />
<br />
<br />
Mit diesem interaktiven Beispiel können einfache lineare [[STAT-Glossar#Regressionsfunktion|Regressionsfunktionen]] zweier Variablen aus zwei zur Verfügung<br />
stehenden Datensätzen geschätzt werden. Das Programm erzeugt einen [[STAT-Glossar#Scatterplot|Scatterplot]], in dem die Regressionsgerade<br />
eingezeichnet wird. Weiterhin erfolgt eine Berechnung der linearen [[STAT-Glossar#Regressionsfunktion|Regressionsfunktion]], des<br />
Korrelationskoeffizienten sowie des Bestimmtheitsmaßes (incl. Varianzzerlegung).<br />
<br />
<br />
===US-crime data===<br />
<br />
[[Bild:STAT-Flaggenknarre.gif|right]]<br />
In den U.S.A. wurden 1985 unter anderem verschiedene Kriminalitätsraten für 50<br />
Bundesstaaten ermittelt:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|land area<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|population<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|murder<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|robbery<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|assault<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|burglary<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|larceny<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|auto-theft<br />
|-<br />
|<math>X_{10}\;</math><br />
| -<br />
|US states region number<br />
|-<br />
|<math>X_{11}\;</math><br />
| -<br />
|US states division number<br />
|}<br />
<br />
Die Variablen <math>X_{10}\;</math> und <math>X_{11}\;</math> haben die nachstehenden Ausprägungen:<br />
<br />
{|<br />
|'''<math>X_{10}\;</math>'''<br />
|'''Region Numbers'''<br />
|<br />
|'''<math>X_{11}\;</math>'''<br />
|'''Division Numbers'''<br />
|-<br />
|1<br />
|Northeast<br />
|<br />
|1<br />
|New England<br />
|-<br />
|2<br />
|Midwest<br />
|<br />
|2<br />
|Mid Atlantic<br />
|-<br />
|3<br />
|South<br />
|<br />
|3<br />
|E N Central<br />
|-<br />
|4<br />
|West<br />
|<br />
|4<br />
|W N Central<br />
|-<br />
|<br />
|<br />
|<br />
|5<br />
|S Atlantic<br />
|-<br />
|<br />
|<br />
|<br />
|6<br />
|E S Central<br />
|-<br />
|<br />
|<br />
|<br />
|7<br />
|W S Central<br />
|-<br />
|<br />
|<br />
|<br />
|8<br />
|Mountain<br />
|-<br />
|<br />
|<br />
|<br />
|9<br />
|Pacific<br />
|}<br />
<br />
===Car data===<br />
<br />
Von 74 verschiedenen Autotypen wurden unter anderem folgende Merkmale erhoben<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|price<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|mpg (miles per gallon)<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|headroom (in inches)<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rear seat clearance (distance from front seat back to the rear seat, in inches)<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|trunk space (in cubic feet)<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|weight (in pound)<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|length (in inches)<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|turning diameter (clearance required to make a U-turn, in feet)<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|displacement (in cubic inches)<br />
|}<br />
--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=G%C3%BCtefunktion_des_Gau%C3%9F-Tests&diff=1249Gütefunktion des Gauß-Tests2018-05-29T13:07:12Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Gütefunktion des Gauß-Tests===<br />
<br />
Für die Beurteilung der Güte eines [[Statistischer Test|Tests]] ist entscheidend, dass vorhandene Abweichungen des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> möglichst zuverlässig aufgedeckt werden. <br />
<br />
Es interessiert daher die [[Wahrscheinlichkeit]], sich im Ergebnis des Tests für <math>H_1</math> zu entscheiden, wenn der wahre [[Parameter]]wert <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> verschieden ist. <br />
<br />
Diese [[Wahrscheinlichkeit]] kann mittels der [[Gütefunktion]] <math>G(\mu)</math> gewonnen werden.<br />
<br />
Wenn <math>\sigma</math> bekannt ist und der hypothetische Wert <math>\mu_{0}</math>, das [[Signifikanzniveau]] <math>\alpha</math> und der [[Stichprobenumfang]] <math>n</math> vorgegeben sind, können die Werte der [[Gütefunktion]] berechnet werden, indem nacheinander alle zulässigen Werte für <math>\mu</math> eingesetzt werden. <br />
<br />
Die [[Gütefunktion]] kann bereits vor der [[Stichprobenerhebung]] ermittelt werden, da sie sich nicht auf konkrete [[Realisation]]en der [[Teststatistik]] <math>V\;</math> bezieht.<br />
<br />
Die [[Gütefunktion]] <math>G\left(\mu\right)</math> gibt die [[Wahrscheinlichkeit]] der [[Ablehnungsbereich der Nullhypothese|Ablehnung von <math>H_{0}</math>]] in Abhängigkeit vom [[Parameter]]wert <math>\mu</math> an:<br />
<br />
<math>G(\mu)=P(V \in \mbox{Ablehnungsbereich der } H_{0}|\mu)=P(\mbox{''}H_{1}\mbox{''}|\mu)\;</math><br />
<br />
====Zweiseitiger Test====<br />
<br />
Bei einem [[zweiseitiger Test|zweiseitigen Test]] ist die [[Nullhypothese]] in Wirklichkeit nur wahr, wenn <math>\mu =\mu_{0}</math> gilt,<br />
so dass in diesem Fall mit der Ablehnung der [[Nullhypothese]] ein [[Fehler 1. Art]] begangen wird und<br />
<br />
<math>P( V \in \mbox{Ablehnungsbereich der } H_{0} | \mu =\mu_{0} ) = P(\mbox{''}H_{1}\mbox{''} | H_{0})= \alpha\;</math><br />
<br />
ist. <br />
<br />
Für alle anderen zulässigen Werte von <math>\mu</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wird eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P( V \in \mbox{Ablehnungsbereich der } H_{0}|\mu \neq \mu_{0})=P(\mbox{''}H_{0}\mbox{''}|H_{1})=1-\beta\;</math><br />
<br />
<math>G(\mu)=\begin{cases} P(\mbox{''}H_{1}\mbox{''}|H_{0})=\alpha, & \mbox{, wenn } \mu = \mu_{0} \\<br />
P(\mbox{''}H_{1}\mbox{''}|H_{1})=1-\beta & \mbox{, wenn } \mu \neq \mu_{0}\end{cases}</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> kann beim [[zweiseitiger Test|zweiseitigen Test]] für vorgegebene Werte von <math>\mu</math> wie folgt berechnet werden:<br />
<br />
<math>G\left(\mu \right) =1-\left[P\left(V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu-\mu _{0}}{\sigma /\sqrt{n}}\right) -P\left(V\leq-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu _{0}}{\sigma /\sqrt{n}}\right) \right]</math><br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] lässt sich leicht über die [[Gütefunktion]] ermitteln:<br />
<br />
<math>P(\mbox{''}H_{0}\mbox{''}|H_{1})=1-G\left(\mu \right)=\beta</math><br />
<br />
Charakteristika der [[Gütefunktion]] beim [[zweiseitiger Test|zweiseitigen Test]]<br />
<br />
* An der Stelle <math>\mu = \mu_{0}</math> nimmt sie ihr Minimum mit dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> an.<br />
<br />
* Sie ist symmetrisch zum hypothetischen Wert <math>\mu_{0}</math><br />
<br />
* Sie wächst mit zunehmenden Abstand des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> und nimmt schließlich den Wert Eins an.<br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[zweiseitiger Test|zweiseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_zweiseitig_R00480004800000000000000_plot.html" /><br />
<br />
In dieser Abbildung sind zwei mögliche Alternativwerte <math>\mu_{1}</math> und <math>\mu _{2}</math> eingetragen. <br />
<br />
Wenn in Wirklichkeit <math>\mu_{1}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, so existiert eine relativ große Abweichung <math>\mu_{1} - \mu_{0}</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> ist groß und damit die<br />
[[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]] klein.<br />
<br />
Wenn in Wirklichkeit <math>\mu _{2}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, so existiert eine relativ kleine Abweichung <math>\mu_{2} - \mu_{0}</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> ist klein und damit die [[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]] groß. <br />
<br />
Dies ist intuitiv plausibel, denn kleine Abweichungen sind schwieriger zu entdecken.<br />
<br />
====Rechtsseitiger Test====<br />
<br />
Im Fall eines [[Rechtsseitiger Test|rechtsseitigen Test]]s gilt die [[Nullhypothese]] in Wirklichkeit für alle zulässigen Werte des [[Parameter]]s <math>\mu</math>, für die <math>\mu \leq \mu_{0}</math> ist. <br />
<br />
Für diese Fälle wird mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] ein [[Fehler 1. Art]] begangen, dessen [[Wahrscheinlichkeit]] höchstens gleich dem [[Signifikanzniveau]] <math>\alpha</math> ist:<br />
<br />
<math>P(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \leq \mu_{0})=P(\mbox{''}H_{1}\mbox{''}|H_{0}) \leq \alpha</math><br />
<br />
Für alle zulässigen Werte von <math>\mu>\mu_{0}</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wird eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P\left( V\in \mbox{Ablehnungsbereich der }H_{0}|\mu \geq \mu _{0}\right)P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)=1-\beta</math><br />
<br />
<math>G\left(\mu\right)=\begin{cases}<br />
P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha, & \mbox{, wenn } \mu \leq \mu_{0}\\<br />
P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)=1-\beta, & \mbox{, wenn }\mu > \mu_{0}\end{cases}<br />
</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] wird für vorgegebene Werte von <math>\mu</math> nach folgender Formel berechnet:<br />
<br />
<math>G(\mu ) =1-P\left( V\leq z_{1-\alpha }-\frac{\mu -\mu _{0}}{\frac{\sigma}{\sqrt{n}}}\right)</math><br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[Rechtsseitiger Test|rechtsseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_rechtsseitig_R00480004800000000000000_plot.html" /><br />
Für alle gültigen Werte der [[Alternativhypothese]], d.h. <math>\mu >\mu_{0}</math>, wächst die [[Gütefunktion]] und nimmt schließlich den Wert<br />
Eins an. <br />
<br />
Je größer dabei die Differenz <math>\mu -\mu_{0}</math> wird, desto größer wird die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> und desto kleiner wird die [[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]].<br />
<br />
Für <math>\mu =\mu _{0}</math> entspricht der Wert der [[Gütefunktion]] dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
Für alle anderen gültigen Werte der [[Nullhypothese]], d.h. <math>\mu <\mu_{0}</math>, ist die [[Gütefunktion]] kleiner als <math>\alpha</math>. <br />
<br />
Je größer dabei die Differenz <math>\mu -\mu_{0}</math> wird, desto kleiner wird die [[Wahrscheinlichkeit]] <math>\alpha</math>, einen [[Fehler 1. Art]] zu begehen.<br />
<br />
====Linksseitiger Test====<br />
<br />
Im Fall eines [[Linksseitiger Test|linksseitigen Test]]s gilt die [[Nullhypothese]] in Wirklichkeit für alle zulässigen Werte des [[Parameter]]s <math>\mu</math>, für die <math>\mu \geq \mu _{0}</math> ist. <br />
<br />
Für diese Fälle wurde mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] ein [[Fehler 1. Art]] begangen, dessen [[Wahrscheinlichkeit]] höchstens gleich dem [[Signifikanzniveau]] <math>\alpha</math> ist:<br />
<br />
<math>P\left(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \geq \mu_{0}\right)=P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha</math><br />
<br />
Für alle zulässigen Werte von <math>\mu <\mu_{0}</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wurde eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P\left(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \leq \mu _{0}\right) =P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right) =1-\beta</math><br />
<br />
<math>G\left(\mu \right)=\begin{cases} P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha, & \mbox{, wenn } \mu \geq \mu_{0} \\<br />
P\left(\mbox{''}H_{1}\mbox{''}| H_{1}\right)=1-\beta, & \mbox{, wenn } \mu < \mu_{0}\end{cases}<br />
</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> beim [[Linksseitiger Test|linksseitigen Test]] wird für vorgegebene Werte von <math>\mu</math> nach folgender Formel berechnet:<br />
<br />
<math>G(\mu ) =P\left( V\leq -z_{1-\alpha }-\frac{\mu -\mu _{0}}{\frac{\sigma}{\sqrt{n}}}\right)</math><br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[Linksseitiger Test|linksseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_linksseitig_R00480004800000000000000_plot.html" /><br />
Hier gelten analoge Interpretationen wie für die [[Gütefunktion]] eines [[Rechtsseitiger Test|rechtsseitigen Test]]s.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Herleitung der Gütefunktion===<br />
<br />
Für einen [[Rechtsseitiger Test|rechtsseitigen Test]] wird die Formel für die Berechnung der [[Gütefunktion]] hergeleitet.<br />
<br />
Es ist:<br />
{|<br />
|<math>G\left( \mu \right) </math><br />
|<math>=P\left( V\in \mbox{Ablehnungsbereich der }H_{0}|\mu \right)</math><br />
|-<br />
|<br />
|<math>=1-P\left( V\in \mbox{ Nichtablehnungsbereich der }H_{0}|\mu \right)</math><br />
|}<br />
<br />
Wenn <math>\mu</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, ergibt sich ausgehend von der letzten Bestimmungsgleichung für die [[Gütefunktion]]:<br />
<br />
{|<br />
|<math>G\left( \mu \right)</math><br />
|<math>=1-P\left(-z_{1-\frac{\alpha}{2}}\leq V\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu_{0}}{\sigma\cdot\sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|}<br />
<br />
Der mittlere Term der Ungleichung im [[Wahrscheinlichkeit]]sausdruck wird mit <math>\mu -\mu</math> erweitert und weiter umgeformt:<br />
<br />
{|<br />
|<math>G\left( \mu \right)</math><br />
|<math> =1-P\left( -z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu_{0}+\mu -\mu }{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|-<br />
|<br />
|<math>=1-P\left(-z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu }{\sigma\cdot\sqrt{n}}+\frac{\mu -\mu_{0}}{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right) </math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}\leq \frac{\overline{X}-\mu }{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\sqrt{n}}|\mu \right)</math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}\leq V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma \cdot \sqrt{n}}|\mu\right)</math><br />
|-<br />
|<br />
|<math> =1-\left[P\left( V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}|\mu \right)-P\left(V\leq-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}|\mu \right) \right]</math><br />
|}<br />
<br />
Analog können die Formeln für die Berechnung der [[Gütefunktion]] bei [[Einseitiger Test|einseitigen Tests]] hergeleitet werden.<br />
<br />
===Eigenschaften der Gütefunktion===<br />
<br />
Für die Güte eines [[Statistischer Test|Tests]] ist es von Vorteil, wenn die [[Wahrscheinlichkeit]], sich richtigerweise für <math>H_{1}</math> zu entscheiden, mit wachsendem Abstand des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu_{0}</math> schnell anwächst, d.h. wenn die [[Gütefunktion]] recht steil verläuft. <br />
<br />
Es gibt zwei grundsätzliche Möglichkeiten, die [[Gütefunktion]] zu beeinflussen:<br />
<br />
* über den [[Stichprobenumfang]] <math>n</math><br />
<br />
* über das [[Signifikanzniveau]] <math>\alpha</math><br />
<br />
====Stichprobenumfang====<br />
<br />
Wie aus den Formeln für die Berechnung der [[Gütefunktion]] ersichtlich ist, hängt <math>G\left(\mu\right)</math> außer an der Stelle <math>\mu = \mu_{0}</math> vom [[Stichprobenumfang]] <math>n</math> ab. <br />
<br />
Unter sonst gleichen Bedingungen wird die [[Gütefunktion]] mit wachsendem [[Stichprobenumfang]] <math>n</math> steiler, was für jeden Wert <math>\mu</math> (mit <math>\mu \neq \mu_{0}</math> beim [[zweiseitiger Test|zweiseitigen Test]], <math>\mu > \mu_{0}</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] bzw. <math>\mu < \mu_{0}</math> beim [[Linksseitiger Test|linksseitigen Test]]) eine höhere [[Wahrscheinlichkeit]] <math>1 - \beta</math> für die [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] und eine kleinere [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] impliziert. <br />
<br />
Die [[Wahrscheinlichkeit]], vorhandene Unterschiede zwischen dem wahren [[Parameter]]wert <math>\mu</math> und dem hypothetischen Wert <math>\mu_{0}</math> zu erkennen, wächst mit dem [[Stichprobenumfang]]. <br />
<br />
Bei festem [[Signifikanzniveau]] <math>\alpha</math> lässt sich die [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] über die Erhöhung des<br />
[[Stichprobenumfang]]s verringern.<br />
<br />
Die nachstehende Abbildung zeigt für einen [[zweiseitiger Test|zweiseitigen Test]] bei vorgegebenem [[Signifikanzniveau]] <math>\alpha</math> die [[Gütefunktion]]en für 4 verschiedene [[Stichprobenumfang|Stichprobenumfänge]], wobei <math>n_{1}<n_{2}<n_{3}<n_{4}</math> gilt.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_mu0_1000_4SP_R00480004800000000000000_plot.html" /><br />
====Signifikanzniveau====<br />
<br />
Je größer unter sonst gleichen Bedingungen das [[Signifikanzniveau]] <math>\alpha</math> (die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]]) ist, desto höher verläuft der Graf der [[Gütefunktion]]. <br />
<br />
Dies impliziert, dass mit einer Vergrößerung von <math>\alpha</math> für jeden Wert <math>\mu</math> (mit <math>\mu \neq \mu_{0}</math> beim [[zweiseitiger Test|zweiseitigen Test]], <math>\mu > \mu_{0}</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] bzw. <math>\mu < \mu_{0}</math> beim [[Linksseitiger Test|linksseitigen Test]]) die [[Wahrscheinlichkeit]] <math>1 -\beta</math> für die [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] größer und die [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] kleiner wird. <br />
<br />
Bei festem [[Stichprobenumfang]] <math>n</math> können also die beiden Fehler[[wahrscheinlichkeit]]en nicht gleichzeitig niedrig gehalten werden.<br />
<br />
Die folgende Abbildung zeigt für einen [[zweiseitiger Test|zweiseitigen Test]] bei gegebenem [[Stichprobenumfang]] <math>n</math> die [[Gütefunktion]]en für 2 verschiedene [[Signifikanzniveau]]s: <br />
<br />
die rote Linie repräsentiert <math>G(\mu)</math> für <math>\alpha = 0,05</math> und die blaue Linie <math>G(\mu)</math> für <math>\alpha = 0,10</math>.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_zweiseitig_2Alpha_R00480004800000000000000_plot.html" /><br />
<!--<br />
[[Bild:STAT-Gütefunktionzweis5.gif]]<br />
--><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Mehl===<br />
<br />
In einem Unternehmen wird Mehl maschinell in Tüten abgefüllt. Das Sollgewicht beträgt 1000 g, auf das die Maschine justiert wurde. <br />
<br />
Das Ist-Gewicht der Mehltüten weist gewisse Schwankungen auf, die im Produktionsprozess nicht vermieden werden können. <br />
<br />
Damit ist das Ist-Gewicht eine [[Zufallsvariable]]: <math>X =\;</math>"Ist-Gewicht der Mehltüten". <br />
<br />
Der [[Erwartungswert]] des Ist-Gewichts <math>E[X] = \mu</math>, mit dem die Maschine derzeit arbeitet, ist unbekannt. Er soll jedoch dem Sollgewicht entsprechen, d.h. <math>E[X] = \mu_{0} = 1000 \mbox{g}</math>. <br />
<br />
Die Konsequenz ist, dass nach einer gewissen Laufzeit der Maschine überprüft werden muss, ob die ursprüngliche Justierung der Maschine noch eingehalten wird oder ob schon erhebliche Abweichungen auftreten. <br />
<br />
Dazu wird in gewissen Abständen eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> aus der Produktion entnommen, für die [[Stichprobe]] das durchschnittliche Ist-Gewicht ermittelt und das Ergebnis mit dem Sollwert verglichen. <br />
<br />
Bei<br />
erheblichen (signifikanten) Abweichungen muss eine neue Justierung der Maschine vorgenommen<br />
werden.<br />
<br />
Aus der Sicht des Unternehmers sind Abweichungen nach beiden Seiten vom Sollwert <math>\mu_{0}= 1000\mbox{g}</math> relevant. <br />
<br />
Wird im Mittel zu wenig abgefüllt, würde dieser Umstand über kurz oder lang bei Überprüfungen (z.B. durch Verbraucherorganisationen) bekannt und der Reputation des Unternehmens erheblichen Schaden zufügen. <br />
<br />
Wird im Mittel zu viel abgefüllt, schmälert dies den Gewinn des Unternehmers. Es ist somit ein [[zweiseitiger Test]] durchzuführen:<br />
<br />
<math>H_{0}:\mu =1000\quad H_{1}:\mu \neq 1000</math><br />
<br />
Der [[Statistischer Test|Test]] soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt werden. <br />
<br />
Es wird eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> gezogen. Aufgrund des großen [[Umfang der Grundgesamtheit|Umfangs der Grundgesamtheit]] (Gesamtproduktion) kann dabei von einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ausgegangen werden.<br />
<br />
====Teststatistik und Entscheidungsbereiche====<br />
<br />
Als [[Schätzfunktion]] für den unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> der Grundgesamtheit]] wird der [[Stichprobenmittelwert]] <math>\bar{X}</math> verwendet. <br />
<br />
Es sei aufgrund der langjährigen Nutzung der Maschine bekannt, dass das Ist-Gewicht eine [[Normalverteilung|normalverteilte]] [[Zufallsvariable]] mit der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma = 10\mbox{g}</math> ist. <br />
<br />
Dann folgt für die [[Schätzfunktion]] <math>\bar{X}</math>, dass sie ebenfalls [[Normalverteilung|normalverteilt]] ist und eine [[Standardabweichung (stochastisch)|Standardabweichung]] von <math>\sigma\left(\bar{X}\right) = 2\mbox{g}</math> aufweist. <br />
<br />
Bei Gültigkeit der [[Nullhypothese]], d.h. wenn die Maschine im Mittel tatsächlich das Sollgewicht von 1000 g einhält, gilt:<br />
<br />
<math>\bar{X}\mbox{ ist unter } H_{0}\sim N(1000;\;2)</math>.<br />
<br />
Für die [[Teststatistik]]<br />
<br />
<math>V=\frac{\bar{X}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
folgt:<br />
<br />
<math>V \mbox{ ist unter }H_{0}\sim N(0;\;1)</math>.<br />
<br />
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] findet man für <math>P(V \leq c_{o})=1-\frac{\alpha}{2} = 0,975</math> den oberen [[Kritischer Wert|kritischen Wert]] <math>c_{o} = z_{0,975}= 1,96</math>. <br />
<br />
Wegen der Symmetrie der [[Normalverteilung]] gilt <math>c_{u}=-z_{1-\frac{\alpha}{2}}=-1,96</math>.<br />
<br />
Damit ergeben sich die [[Entscheidungsbereiche]] des [[Statistischer Test|Tests]] zu: <br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|-1,96\leq v\leq 1,96\right\}</math><br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|v<-1,96 \mbox{ oder }v>1,96\right\}</math><br />
<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_Verteilung_Teststatistik_R00480004800000000000000_plot.html" /><br />
| Abb. 1: Verteilung der Teststatistik <math>V</math> unter <math>H_0</math> und Entscheidungsbereiche}}<br />
<br />
====Prüfwert====<br />
<br />
Es werden nunmehr die 25 Mehltüten zufällig ausgewählt, ihr Ist-Gewicht festgestellt und das [[Arithmetisches Mittel|arithmetische Mittel]] dieser Gewichte berechnet, für das sich <math>\bar{x} = 996,4 \mbox{ g}</math> ergeben habe. <br />
<br />
Als [[Prüfwert]] erhält man<br />
<br />
<math>v=\frac{996,4-1000}{2}=-1,8</math><br />
<br />
====Entscheidungssituationen====<br />
<br />
Da <math>v = - 1,8 </math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> konnte statistisch nicht gezeigt werden, dass der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] verschieden vom hypothetischen Wert <math>\mu_{0} = 1000\mbox{g}</math> ist, d.h. dass die Maschine den Sollwert von 1000 g nicht einhält.<br />
<br />
====Gütefunktion====<br />
<br />
Bei dieser Testentscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist. <br />
<br />
Die [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der <math>H_{0}</math>]] kann daher nur angemessen beurteilt werden, wenn die [[Wahrscheinlichkeit]] für einen derartigen Fehler berücksichtigt wird. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist jedoch unbekannt, da der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] unbekannt ist. <br />
<br />
Man kann aber für verschiedene mögliche Alternativwerte <math>\mu</math> die [[Gütefunktion]] und über <math>1 - G(\mu)</math> die [[Wahrscheinlichkeit]] für den [[Fehler 2. Art]] in Abhängigkeit von <math>\mu</math> ermitteln. <br />
<br />
Es sei z.B. angenommen, dass <math>\mu = 1002\mbox{g}</math> das tatsächliche mittlere Ist-Gewicht ist, mit dem die Maschine arbeitet. <br />
<br />
Da für <math>\mu = 1002\mbox{g}</math> in Wirklichkeit die [[Alternativhypothese]] <math>H_{1}</math> stimmt, gibt die [[Gütefunktion]] <math>G(\mu = 1002)</math> an dieser Stelle die [[Wahrscheinlichkeit]] einer richtigen Entscheidung für <math>H_{1}</math> an:<br />
<br />
<math>P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)= 1-\beta</math><br />
<br />
Mit <math>\mu_{0} = 1000,\; \alpha =0,05,\; \sigma =10</math> und <math>n = 25</math> erhält man:<br />
{|<br />
|<math>G\left(\mu = 1002\right)</math><br />
|<math>=1-\left[P\left( V\leq 1,96-\frac{1002-1000}{2}\right)-P\left(V\leq -1,96-\frac{1002-1000}{2}\right) \right]</math><br />
|-<br />
|<br />
|<math>=1-\left[P\left(V\leq 0,96\right)-P\left(V\leq -2,96\right)\right]</math><br />
|-<br />
|<br />
|<math>=1-\left[P\left( V\leq 0,96\right) -\left( 1-P\left( V\leq 2,96\right) \right) \right]</math><br />
|-<br />
|<br />
|<math> =1-\left[ 0,831472-\left( 1-0,998462\right) \right]</math><br />
|-<br />
|<br />
|<math>=1-0,829934\;</math><br />
|-<br />
|<br />
|<math> =0,17=1-\beta\;</math><br />
|}<br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] an der Stelle <math>\mu = 1002</math> ist:<br />
<br />
<math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right) =\beta \left(\mu = 1002\right) =1-G\left(\mu= 1002\right)=0,83</math><br />
<br />
Wenn das tatsächliche durchschnittliche Ist-Gewicht <math>\mu = 1002\mbox{g}</math> beträgt, wird in rund 83% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> die Abweichung vom Sollgewicht 1000 g durch den Test nicht aufgedeckt. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist sehr hoch, da die Differenz <math>\mu -\mu_{0} = 1002 - 1000</math> relativ klein ist.<br />
<br />
Wenn dagegen z.B. <math>\mu = 989</math> g der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, dann gibt <math>G(\mu = 989)</math> ebenfalls die [[Wahrscheinlichkeit]] einer richtigen Entscheidung für <math>H_{1}</math> an: <br />
<br />
<math>P\left(\mbox{''}H_{1}\mbox{''}|H_{1} \right)=1-\beta</math>, da in Wirklichkeit die [[Alternativhypothese]] <math>H_{1}</math> stimmt. <br />
<br />
Man erhält durch analoge Berechnungen:<br />
<br />
<math>G\left(\mu= 989 \right) = 1-\beta = 0,9998</math> und <math> \beta\left(\mu =989\right)=0,0002</math><br />
<br />
In nur rund 0,02% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> wird in diesem Fall die Abweichung vom Sollgewicht <math>1000\mbox{g}</math> durch den [[Statistischer Test|Test]] nicht aufgedeckt. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist sehr klein, da die Differenz <math>\mu - \mu_{0} = 989 - 1000</math> groß ist.<br />
<br />
Für die gegebenen Werte von <math>\mu_{0},\; \alpha,\; \sigma</math> und <math>n</math> sind in der folgenden Tabelle <math>G(\mu)</math> und <math>1 - G(\mu)</math> für weitere zulässige Werte von <math>\mu</math> enthalten.<br />
<br />
{| class="wikitable"<br />
|align="center"|<math>\mu</math><br />
|align="center"|Gültigkeit von<br />
|align="center"|<math>G\left( \mu \right)</math><br />
|align="center"|<math>1-G\left( \mu \right)</math><br />
|-<br />
|align="center"|<math>988,00</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,999973=1-\beta</math><br />
|align="center"|<math>0,000027=\beta</math><br />
|-<br />
|align="center"|<math>990,40</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,997744=1-\beta </math><br />
|align="center"|<math>0,002256=\beta</math><br />
|-<br />
|align="center"|<math>992,80</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,949497=1-\beta</math><br />
|align="center"|<math>0,050503=\beta</math><br />
|-<br />
|align="center"|<math>995,20</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,670038=1-\beta</math><br />
|align="center"|<math>0,329962=\beta</math><br />
|-<br />
|align="center"|<math>997,60</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,224416=1-\beta</math><br />
|align="center"|<math>0,775584=\beta</math><br />
|-<br />
|align="center"|<math>1000,00</math><br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,05=\alpha</math><br />
|align="center"|<math>0,95=1-\alpha</math><br />
|-<br />
|align="center"|<math>1002,40</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,224416=1-\beta</math><br />
|align="center"|<math>0,775584=\beta</math><br />
|-<br />
|align="center"|<math>1004,80</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,670038=1-\beta</math><br />
|align="center"|<math>0,329962=\beta</math><br />
|-<br />
|align="center"|<math>1007,20</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,949497=1-\beta</math><br />
|align="center"|<math>0,050503=\beta </math><br />
|-<br />
|align="center"|<math>1009,60</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,997744=1-\beta</math><br />
|align="center"|<math>0,002256=\beta </math><br />
|-<br />
|align="center"|<math>1012,00</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,999973=1-\beta</math><br />
|align="center"|<math>0,000027=\beta</math><br />
|}<br />
<br />
Die grafische Darstellung der [[Gütefunktion]] enthält die Abb. 2.<br />
<br />
<br />
<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_mu0_1000_R00480004800000000000000_plot.html" /><br />
| Abb. 2: Gütefunktion mit <math>\mu_0=1000</math>, <math>\alpha=0,05</math>, <math>\sigma=10</math> und <math>n=25</math>}}<br />
<br />
Eine Möglichkeit, die [[Gütefunktion]] bei festem [[Signifikanzniveau]] <math>\alpha= 0,05</math> zu beeinflussen, ist die Erhöhung des [[Stichprobenumfang]]s <math>n</math>. <br />
<br />
Das soll exemplarisch unter den Annahmen gezeigt werden, dass <math>\mu = 1002\mbox{g}</math> bzw. <math>\mu = 989\mbox{g}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, wobei weiterhin <math>\alpha=0,05,\; \mu_{0} = 1000</math> und <math>\sigma = 10</math> gelten.<br />
<br />
{| class="wikitable"<br />
|<br />
|align="center"|<math>n=9</math><br />
|align="center"|<math>n=16</math><br />
|align="center"|<math>n=25</math><br />
|align="center"|<math>n=36</math><br />
|-<br />
|align="center"|<math>G\left(1002\right)=1-\beta</math><br />
|align="center"|<math>0,0921</math><br />
|align="center"|<math>0,126</math><br />
|align="center"|<math>0,17</math><br />
|align="center"|<math>0,224</math><br />
|-<br />
|align="center"|<math>\beta \left(\mu = 1002\right)</math><br />
|align="center"|<math>0,9079</math><br />
|align="center"|<math>0,874</math><br />
|align="center"|<math>0,83</math><br />
|align="center"|<math>0,776</math><br />
|-<br />
|align="center"|<math>G\left(\mu = 989\right) =1-\beta</math><br />
|align="center"|<math>0,91</math><br />
|align="center"|<math>0,993</math><br />
|align="center"|<math>0,9998</math><br />
|align="center"|<math>0,999998</math><br />
|-<br />
|align="center"|<math>\beta \left(\mu = 989\right)</math><br />
|align="center"|<math>0,09</math><br />
|align="center"|<math>0,007</math><br />
|align="center"|<math>0,0002</math><br />
|align="center"|<math>0,000002</math><br />
|}<br />
<br />
Abb. 3 zeigt die [[Gütefunktion]]en für die 4 verschiedenen [[Stichprobenumfang|Stichprobenumfänge]].<br />
<br />
===BEARBEITUNG===<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_zweiseitig_4SP_R00480004800000000000000_plot.html" /><br />
<br />
Wird z.B. vermutet, dass die Maschine nur mit einer geringfügigen Abweichung vom Sollwert <math>\mu_{0}</math> arbeitet, so ist ein größerer [[Stichprobenumfang]] empfehlenswert, um vorhandene Abweichungen zuverlässiger aufzudecken und bei [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der <math>H_{0}</math>]] die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] zu verringern, auch wenn dadurch die Kosten für die Überprüfung der Maschine höher werden.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=G%C3%BCtefunktion_des_Gau%C3%9F-Tests&diff=1248Gütefunktion des Gauß-Tests2018-05-29T13:02:17Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Gütefunktion des Gauß-Tests===<br />
<br />
Für die Beurteilung der Güte eines [[Statistischer Test|Tests]] ist entscheidend, dass vorhandene Abweichungen des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> möglichst zuverlässig aufgedeckt werden. <br />
<br />
Es interessiert daher die [[Wahrscheinlichkeit]], sich im Ergebnis des Tests für <math>H_1</math> zu entscheiden, wenn der wahre [[Parameter]]wert <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> verschieden ist. <br />
<br />
Diese [[Wahrscheinlichkeit]] kann mittels der [[Gütefunktion]] <math>G(\mu)</math> gewonnen werden.<br />
<br />
Wenn <math>\sigma</math> bekannt ist und der hypothetische Wert <math>\mu_{0}</math>, das [[Signifikanzniveau]] <math>\alpha</math> und der [[Stichprobenumfang]] <math>n</math> vorgegeben sind, können die Werte der [[Gütefunktion]] berechnet werden, indem nacheinander alle zulässigen Werte für <math>\mu</math> eingesetzt werden. <br />
<br />
Die [[Gütefunktion]] kann bereits vor der [[Stichprobenerhebung]] ermittelt werden, da sie sich nicht auf konkrete [[Realisation]]en der [[Teststatistik]] <math>V\;</math> bezieht.<br />
<br />
Die [[Gütefunktion]] <math>G\left(\mu\right)</math> gibt die [[Wahrscheinlichkeit]] der [[Ablehnungsbereich der Nullhypothese|Ablehnung von <math>H_{0}</math>]] in Abhängigkeit vom [[Parameter]]wert <math>\mu</math> an:<br />
<br />
<math>G(\mu)=P(V \in \mbox{Ablehnungsbereich der } H_{0}|\mu)=P(\mbox{''}H_{1}\mbox{''}|\mu)\;</math><br />
<br />
====Zweiseitiger Test====<br />
<br />
Bei einem [[zweiseitiger Test|zweiseitigen Test]] ist die [[Nullhypothese]] in Wirklichkeit nur wahr, wenn <math>\mu =\mu_{0}</math> gilt,<br />
so dass in diesem Fall mit der Ablehnung der [[Nullhypothese]] ein [[Fehler 1. Art]] begangen wird und<br />
<br />
<math>P( V \in \mbox{Ablehnungsbereich der } H_{0} | \mu =\mu_{0} ) = P(\mbox{''}H_{1}\mbox{''} | H_{0})= \alpha\;</math><br />
<br />
ist. <br />
<br />
Für alle anderen zulässigen Werte von <math>\mu</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wird eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P( V \in \mbox{Ablehnungsbereich der } H_{0}|\mu \neq \mu_{0})=P(\mbox{''}H_{0}\mbox{''}|H_{1})=1-\beta\;</math><br />
<br />
<math>G(\mu)=\begin{cases} P(\mbox{''}H_{1}\mbox{''}|H_{0})=\alpha, & \mbox{, wenn } \mu = \mu_{0} \\<br />
P(\mbox{''}H_{1}\mbox{''}|H_{1})=1-\beta & \mbox{, wenn } \mu \neq \mu_{0}\end{cases}</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> kann beim [[zweiseitiger Test|zweiseitigen Test]] für vorgegebene Werte von <math>\mu</math> wie folgt berechnet werden:<br />
<br />
<math>G\left(\mu \right) =1-\left[P\left(V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu-\mu _{0}}{\sigma /\sqrt{n}}\right) -P\left(V\leq-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu _{0}}{\sigma /\sqrt{n}}\right) \right]</math><br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] lässt sich leicht über die [[Gütefunktion]] ermitteln:<br />
<br />
<math>P(\mbox{''}H_{0}\mbox{''}|H_{1})=1-G\left(\mu \right)=\beta</math><br />
<br />
Charakteristika der [[Gütefunktion]] beim [[zweiseitiger Test|zweiseitigen Test]]<br />
<br />
* An der Stelle <math>\mu = \mu_{0}</math> nimmt sie ihr Minimum mit dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> an.<br />
<br />
* Sie ist symmetrisch zum hypothetischen Wert <math>\mu_{0}</math><br />
<br />
* Sie wächst mit zunehmenden Abstand des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu _{0}</math> und nimmt schließlich den Wert Eins an.<br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[zweiseitiger Test|zweiseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_zweiseitig_R00480004800000000000000_plot.html" /><br />
<br />
In dieser Abbildung sind zwei mögliche Alternativwerte <math>\mu_{1}</math> und <math>\mu _{2}</math> eingetragen. <br />
<br />
Wenn in Wirklichkeit <math>\mu_{1}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, so existiert eine relativ große Abweichung <math>\mu_{1} - \mu_{0}</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> ist groß und damit die<br />
[[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]] klein.<br />
<br />
Wenn in Wirklichkeit <math>\mu _{2}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, so existiert eine relativ kleine Abweichung <math>\mu_{2} - \mu_{0}</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> ist klein und damit die [[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]] groß. <br />
<br />
Dies ist intuitiv plausibel, denn kleine Abweichungen sind schwieriger zu entdecken.<br />
<br />
====Rechtsseitiger Test====<br />
<br />
Im Fall eines [[Rechtsseitiger Test|rechtsseitigen Test]]s gilt die [[Nullhypothese]] in Wirklichkeit für alle zulässigen Werte des [[Parameter]]s <math>\mu</math>, für die <math>\mu \leq \mu_{0}</math> ist. <br />
<br />
Für diese Fälle wird mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] ein [[Fehler 1. Art]] begangen, dessen [[Wahrscheinlichkeit]] höchstens gleich dem [[Signifikanzniveau]] <math>\alpha</math> ist:<br />
<br />
<math>P(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \leq \mu_{0})=P(\mbox{''}H_{1}\mbox{''}|H_{0}) \leq \alpha</math><br />
<br />
Für alle zulässigen Werte von <math>\mu>\mu_{0}</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wird eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P\left( V\in \mbox{Ablehnungsbereich der }H_{0}|\mu \geq \mu _{0}\right)P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)=1-\beta</math><br />
<br />
<math>G\left(\mu\right)=\begin{cases}<br />
P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha, & \mbox{, wenn } \mu \leq \mu_{0}\\<br />
P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)=1-\beta, & \mbox{, wenn }\mu > \mu_{0}\end{cases}<br />
</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] wird für vorgegebene Werte von <math>\mu</math> nach folgender Formel berechnet:<br />
<br />
<math>G(\mu ) =1-P\left( V\leq z_{1-\alpha }-\frac{\mu -\mu _{0}}{\frac{\sigma}{\sqrt{n}}}\right)</math><br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[Rechtsseitiger Test|rechtsseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_rechtsseitig_R00480004800000000000000_plot.html" /><br />
Für alle gültigen Werte der [[Alternativhypothese]], d.h. <math>\mu >\mu_{0}</math>, wächst die [[Gütefunktion]] und nimmt schließlich den Wert<br />
Eins an. <br />
<br />
Je größer dabei die Differenz <math>\mu -\mu_{0}</math> wird, desto größer wird die [[Wahrscheinlichkeit]] <math>1 - \beta</math> einer richtigen Entscheidung für die [[Alternativhypothese]] <math>H_{1}</math> und desto kleiner wird die [[Wahrscheinlichkeit]] <math>\beta</math> eines [[Fehler 2. Art|Fehlers 2. Art]].<br />
<br />
Für <math>\mu =\mu _{0}</math> entspricht der Wert der [[Gütefunktion]] dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
Für alle anderen gültigen Werte der [[Nullhypothese]], d.h. <math>\mu <\mu_{0}</math>, ist die [[Gütefunktion]] kleiner als <math>\alpha</math>. <br />
<br />
Je größer dabei die Differenz <math>\mu -\mu_{0}</math> wird, desto kleiner wird die [[Wahrscheinlichkeit]] <math>\alpha</math>, einen [[Fehler 1. Art]] zu begehen.<br />
<br />
====Linksseitiger Test====<br />
<br />
Im Fall eines [[Linksseitiger Test|linksseitigen Test]]s gilt die [[Nullhypothese]] in Wirklichkeit für alle zulässigen Werte des [[Parameter]]s <math>\mu</math>, für die <math>\mu \geq \mu _{0}</math> ist. <br />
<br />
Für diese Fälle wurde mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] ein [[Fehler 1. Art]] begangen, dessen [[Wahrscheinlichkeit]] höchstens gleich dem [[Signifikanzniveau]] <math>\alpha</math> ist:<br />
<br />
<math>P\left(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \geq \mu_{0}\right)=P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha</math><br />
<br />
Für alle zulässigen Werte von <math>\mu <\mu_{0}</math> gilt in Wirklichkeit die [[Alternativhypothese]] und mit der [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] wurde eine richtige Entscheidung getroffen. <br />
<br />
Es ist<br />
<br />
<math>P\left(V\in \mbox{ Ablehnungsbereich der }H_{0}|\mu \leq \mu _{0}\right) =P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right) =1-\beta</math><br />
<br />
<math>G\left(\mu \right)=\begin{cases} P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)\leq\alpha, & \mbox{, wenn } \mu \geq \mu_{0} \\<br />
P\left(\mbox{''}H_{1}\mbox{''}| H_{1}\right)=1-\beta, & \mbox{, wenn } \mu < \mu_{0}\end{cases}<br />
</math><br />
<br />
Die [[Gütefunktion]] <math>G(\mu)</math> beim [[Linksseitiger Test|linksseitigen Test]] wird für vorgegebene Werte von <math>\mu</math> nach folgender Formel berechnet:<br />
<br />
<math>G(\mu ) =P\left( V\leq -z_{1-\alpha }-\frac{\mu -\mu _{0}}{\frac{\sigma}{\sqrt{n}}}\right)</math><br />
<br />
Das charakteristische Bild der [[Gütefunktion]] beim [[Linksseitiger Test|linksseitigen Test]] zeigt die folgende Abbildung.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_linksseitig_R00480004800000000000000_plot.html" /><br />
Hier gelten analoge Interpretationen wie für die [[Gütefunktion]] eines [[Rechtsseitiger Test|rechtsseitigen Test]]s.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Herleitung der Gütefunktion===<br />
<br />
Für einen [[Rechtsseitiger Test|rechtsseitigen Test]] wird die Formel für die Berechnung der [[Gütefunktion]] hergeleitet.<br />
<br />
Es ist:<br />
{|<br />
|<math>G\left( \mu \right) </math><br />
|<math>=P\left( V\in \mbox{Ablehnungsbereich der }H_{0}|\mu \right)</math><br />
|-<br />
|<br />
|<math>=1-P\left( V\in \mbox{ Nichtablehnungsbereich der }H_{0}|\mu \right)</math><br />
|}<br />
<br />
Wenn <math>\mu</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, ergibt sich ausgehend von der letzten Bestimmungsgleichung für die [[Gütefunktion]]:<br />
<br />
{|<br />
|<math>G\left( \mu \right)</math><br />
|<math>=1-P\left(-z_{1-\frac{\alpha}{2}}\leq V\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu_{0}}{\sigma\cdot\sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|}<br />
<br />
Der mittlere Term der Ungleichung im [[Wahrscheinlichkeit]]sausdruck wird mit <math>\mu -\mu</math> erweitert und weiter umgeformt:<br />
<br />
{|<br />
|<math>G\left( \mu \right)</math><br />
|<math> =1-P\left( -z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu_{0}+\mu -\mu }{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right)</math><br />
|-<br />
|<br />
|<math>=1-P\left(-z_{1-\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu }{\sigma\cdot\sqrt{n}}+\frac{\mu -\mu_{0}}{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}|\mu \right) </math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}\leq \frac{\overline{X}-\mu }{\sigma\cdot \sqrt{n}}\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\sqrt{n}}|\mu \right)</math><br />
|-<br />
|<br />
|<math> =1-P\left(-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}\leq V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma \cdot \sqrt{n}}|\mu\right)</math><br />
|-<br />
|<br />
|<math> =1-\left[P\left( V\leq z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}|\mu \right)-P\left(V\leq-z_{1-\frac{\alpha}{2}}-\frac{\mu -\mu_{0}}{\sigma\cdot\sqrt{n}}|\mu \right) \right]</math><br />
|}<br />
<br />
Analog können die Formeln für die Berechnung der [[Gütefunktion]] bei [[Einseitiger Test|einseitigen Tests]] hergeleitet werden.<br />
<br />
===Eigenschaften der Gütefunktion===<br />
<br />
Für die Güte eines [[Statistischer Test|Tests]] ist es von Vorteil, wenn die [[Wahrscheinlichkeit]], sich richtigerweise für <math>H_{1}</math> zu entscheiden, mit wachsendem Abstand des wahren [[Parameter]]wertes <math>\mu</math> vom hypothetischen Wert <math>\mu_{0}</math> schnell anwächst, d.h. wenn die [[Gütefunktion]] recht steil verläuft. <br />
<br />
Es gibt zwei grundsätzliche Möglichkeiten, die [[Gütefunktion]] zu beeinflussen:<br />
<br />
* über den [[Stichprobenumfang]] <math>n</math><br />
<br />
* über das [[Signifikanzniveau]] <math>\alpha</math><br />
<br />
====Stichprobenumfang====<br />
<br />
Wie aus den Formeln für die Berechnung der [[Gütefunktion]] ersichtlich ist, hängt <math>G\left(\mu\right)</math> außer an der Stelle <math>\mu = \mu_{0}</math> vom [[Stichprobenumfang]] <math>n</math> ab. <br />
<br />
Unter sonst gleichen Bedingungen wird die [[Gütefunktion]] mit wachsendem [[Stichprobenumfang]] <math>n</math> steiler, was für jeden Wert <math>\mu</math> (mit <math>\mu \neq \mu_{0}</math> beim [[zweiseitiger Test|zweiseitigen Test]], <math>\mu > \mu_{0}</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] bzw. <math>\mu < \mu_{0}</math> beim [[Linksseitiger Test|linksseitigen Test]]) eine höhere [[Wahrscheinlichkeit]] <math>1 - \beta</math> für die [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] und eine kleinere [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] impliziert. <br />
<br />
Die [[Wahrscheinlichkeit]], vorhandene Unterschiede zwischen dem wahren [[Parameter]]wert <math>\mu</math> und dem hypothetischen Wert <math>\mu_{0}</math> zu erkennen, wächst mit dem [[Stichprobenumfang]]. <br />
<br />
Bei festem [[Signifikanzniveau]] <math>\alpha</math> lässt sich die [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] über die Erhöhung des<br />
[[Stichprobenumfang]]s verringern.<br />
<br />
Die nachstehende Abbildung zeigt für einen [[zweiseitiger Test|zweiseitigen Test]] bei vorgegebenem [[Signifikanzniveau]] <math>\alpha</math> die [[Gütefunktion]]en für 4 verschiedene [[Stichprobenumfang|Stichprobenumfänge]], wobei <math>n_{1}<n_{2}<n_{3}<n_{4}</math> gilt.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_mu0_1000_4SP_R00480004800000000000000_plot.html" /><br />
====Signifikanzniveau====<br />
<br />
Je größer unter sonst gleichen Bedingungen das [[Signifikanzniveau]] <math>\alpha</math> (die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]]) ist, desto höher verläuft der Graf der [[Gütefunktion]]. <br />
<br />
Dies impliziert, dass mit einer Vergrößerung von <math>\alpha</math> für jeden Wert <math>\mu</math> (mit <math>\mu \neq \mu_{0}</math> beim [[zweiseitiger Test|zweiseitigen Test]], <math>\mu > \mu_{0}</math> beim [[Rechtsseitiger Test|rechtsseitigen Test]] bzw. <math>\mu < \mu_{0}</math> beim [[Linksseitiger Test|linksseitigen Test]]) die [[Wahrscheinlichkeit]] <math>1 -\beta</math> für die [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]] größer und die [[Wahrscheinlichkeit]] <math>\beta</math> für einen [[Fehler 2. Art]] kleiner wird. <br />
<br />
Bei festem [[Stichprobenumfang]] <math>n</math> können also die beiden Fehler[[wahrscheinlichkeit]]en nicht gleichzeitig niedrig gehalten werden.<br />
<br />
Die folgende Abbildung zeigt für einen [[zweiseitiger Test|zweiseitigen Test]] bei gegebenem [[Stichprobenumfang]] <math>n</math> die [[Gütefunktion]]en für 2 verschiedene [[Signifikanzniveau]]s: <br />
<br />
die rote Linie repräsentiert <math>G(\mu)</math> für <math>\alpha = 0,05</math> und die blaue Linie <math>G(\mu)</math> für <math>\alpha = 0,10</math>.<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_zweiseitig_2Alpha_R00480004800000000000000_plot.html" /><br />
<!--<br />
[[Bild:STAT-Gütefunktionzweis5.gif]]<br />
--><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Mehl===<br />
<br />
In einem Unternehmen wird Mehl maschinell in Tüten abgefüllt. Das Sollgewicht beträgt 1000 g, auf das die Maschine justiert wurde. <br />
<br />
Das Ist-Gewicht der Mehltüten weist gewisse Schwankungen auf, die im Produktionsprozess nicht vermieden werden können. <br />
<br />
Damit ist das Ist-Gewicht eine [[Zufallsvariable]]: <math>X =\;</math>"Ist-Gewicht der Mehltüten". <br />
<br />
Der [[Erwartungswert]] des Ist-Gewichts <math>E[X] = \mu</math>, mit dem die Maschine derzeit arbeitet, ist unbekannt. Er soll jedoch dem Sollgewicht entsprechen, d.h. <math>E[X] = \mu_{0} = 1000 \mbox{g}</math>. <br />
<br />
Die Konsequenz ist, dass nach einer gewissen Laufzeit der Maschine überprüft werden muss, ob die ursprüngliche Justierung der Maschine noch eingehalten wird oder ob schon erhebliche Abweichungen auftreten. <br />
<br />
Dazu wird in gewissen Abständen eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> aus der Produktion entnommen, für die [[Stichprobe]] das durchschnittliche Ist-Gewicht ermittelt und das Ergebnis mit dem Sollwert verglichen. <br />
<br />
Bei<br />
erheblichen (signifikanten) Abweichungen muss eine neue Justierung der Maschine vorgenommen<br />
werden.<br />
<br />
Aus der Sicht des Unternehmers sind Abweichungen nach beiden Seiten vom Sollwert <math>\mu_{0}= 1000\mbox{g}</math> relevant. <br />
<br />
Wird im Mittel zu wenig abgefüllt, würde dieser Umstand über kurz oder lang bei Überprüfungen (z.B. durch Verbraucherorganisationen) bekannt und der Reputation des Unternehmens erheblichen Schaden zufügen. <br />
<br />
Wird im Mittel zu viel abgefüllt, schmälert dies den Gewinn des Unternehmers. Es ist somit ein [[zweiseitiger Test]] durchzuführen:<br />
<br />
<math>H_{0}:\mu =1000\quad H_{1}:\mu \neq 1000</math><br />
<br />
Der [[Statistischer Test|Test]] soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt werden. <br />
<br />
Es wird eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> gezogen. Aufgrund des großen [[Umfang der Grundgesamtheit|Umfangs der Grundgesamtheit]] (Gesamtproduktion) kann dabei von einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ausgegangen werden.<br />
<br />
====Teststatistik und Entscheidungsbereiche====<br />
<br />
Als [[Schätzfunktion]] für den unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> der Grundgesamtheit]] wird der [[Stichprobenmittelwert]] <math>\bar{X}</math> verwendet. <br />
<br />
Es sei aufgrund der langjährigen Nutzung der Maschine bekannt, dass das Ist-Gewicht eine [[Normalverteilung|normalverteilte]] [[Zufallsvariable]] mit der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma = 10\mbox{g}</math> ist. <br />
<br />
Dann folgt für die [[Schätzfunktion]] <math>\bar{X}</math>, dass sie ebenfalls [[Normalverteilung|normalverteilt]] ist und eine [[Standardabweichung (stochastisch)|Standardabweichung]] von <math>\sigma\left(\bar{X}\right) = 2\mbox{g}</math> aufweist. <br />
<br />
Bei Gültigkeit der [[Nullhypothese]], d.h. wenn die Maschine im Mittel tatsächlich das Sollgewicht von 1000 g einhält, gilt:<br />
<br />
<math>\bar{X}\mbox{ ist unter } H_{0}\sim N(1000;\;2)</math>.<br />
<br />
Für die [[Teststatistik]]<br />
<br />
<math>V=\frac{\bar{X}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
folgt:<br />
<br />
<math>V \mbox{ ist unter }H_{0}\sim N(0;\;1)</math>.<br />
<br />
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] findet man für <math>P(V \leq c_{o})=1-\frac{\alpha}{2} = 0,975</math> den oberen [[Kritischer Wert|kritischen Wert]] <math>c_{o} = z_{0,975}= 1,96</math>. <br />
<br />
Wegen der Symmetrie der [[Normalverteilung]] gilt <math>c_{u}=-z_{1-\frac{\alpha}{2}}=-1,96</math>.<br />
<br />
Damit ergeben sich die [[Entscheidungsbereiche]] des [[Statistischer Test|Tests]] zu: <br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|-1,96\leq v\leq 1,96\right\}</math><br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|v<-1,96 \mbox{ oder }v>1,96\right\}</math><br />
<br />
{{iframewiwi<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_Verteilung_Teststatistik_R00480004800000000000000_plot.html" /><br />
| Abb. 1: Verteilung der Teststatistik <math>V</math> unter <math>H_0</math> und Entscheidungsbereiche}}<br />
<br />
====Prüfwert====<br />
<br />
Es werden nunmehr die 25 Mehltüten zufällig ausgewählt, ihr Ist-Gewicht festgestellt und das [[Arithmetisches Mittel|arithmetische Mittel]] dieser Gewichte berechnet, für das sich <math>\bar{x} = 996,4 \mbox{ g}</math> ergeben habe. <br />
<br />
Als [[Prüfwert]] erhält man<br />
<br />
<math>v=\frac{996,4-1000}{2}=-1,8</math><br />
<br />
====Entscheidungssituationen====<br />
<br />
Da <math>v = - 1,8 </math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> konnte statistisch nicht gezeigt werden, dass der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] verschieden vom hypothetischen Wert <math>\mu_{0} = 1000\mbox{g}</math> ist, d.h. dass die Maschine den Sollwert von 1000 g nicht einhält.<br />
<br />
====Gütefunktion====<br />
<br />
Bei dieser Testentscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist. <br />
<br />
Die [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der <math>H_{0}</math>]] kann daher nur angemessen beurteilt werden, wenn die [[Wahrscheinlichkeit]] für einen derartigen Fehler berücksichtigt wird. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist jedoch unbekannt, da der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] unbekannt ist. <br />
<br />
Man kann aber für verschiedene mögliche Alternativwerte <math>\mu</math> die [[Gütefunktion]] und über <math>1 - G(\mu)</math> die [[Wahrscheinlichkeit]] für den [[Fehler 2. Art]] in Abhängigkeit von <math>\mu</math> ermitteln. <br />
<br />
Es sei z.B. angenommen, dass <math>\mu = 1002\mbox{g}</math> das tatsächliche mittlere Ist-Gewicht ist, mit dem die Maschine arbeitet. <br />
<br />
Da für <math>\mu = 1002\mbox{g}</math> in Wirklichkeit die [[Alternativhypothese]] <math>H_{1}</math> stimmt, gibt die [[Gütefunktion]] <math>G(\mu = 1002)</math> an dieser Stelle die [[Wahrscheinlichkeit]] einer richtigen Entscheidung für <math>H_{1}</math> an:<br />
<br />
<math>P\left(\mbox{''}H_{1}\mbox{''}|H_{1}\right)= 1-\beta</math><br />
<br />
Mit <math>\mu_{0} = 1000,\; \alpha =0,05,\; \sigma =10</math> und <math>n = 25</math> erhält man:<br />
{|<br />
|<math>G\left(\mu = 1002\right)</math><br />
|<math>=1-\left[P\left( V\leq 1,96-\frac{1002-1000}{2}\right)-P\left(V\leq -1,96-\frac{1002-1000}{2}\right) \right]</math><br />
|-<br />
|<br />
|<math>=1-\left[P\left(V\leq 0,96\right)-P\left(V\leq -2,96\right)\right]</math><br />
|-<br />
|<br />
|<math>=1-\left[P\left( V\leq 0,96\right) -\left( 1-P\left( V\leq 2,96\right) \right) \right]</math><br />
|-<br />
|<br />
|<math> =1-\left[ 0,831472-\left( 1-0,998462\right) \right]</math><br />
|-<br />
|<br />
|<math>=1-0,829934\;</math><br />
|-<br />
|<br />
|<math> =0,17=1-\beta\;</math><br />
|}<br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] an der Stelle <math>\mu = 1002</math> ist:<br />
<br />
<math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right) =\beta \left(\mu = 1002\right) =1-G\left(\mu= 1002\right)=0,83</math><br />
<br />
Wenn das tatsächliche durchschnittliche Ist-Gewicht <math>\mu = 1002\mbox{g}</math> beträgt, wird in rund 83% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> die Abweichung vom Sollgewicht 1000 g durch den Test nicht aufgedeckt. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist sehr hoch, da die Differenz <math>\mu -\mu_{0} = 1002 - 1000</math> relativ klein ist.<br />
<br />
Wenn dagegen z.B. <math>\mu = 989</math> g der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, dann gibt <math>G(\mu = 989)</math> ebenfalls die [[Wahrscheinlichkeit]] einer richtigen Entscheidung für <math>H_{1}</math> an: <br />
<br />
<math>P\left(\mbox{''}H_{1}\mbox{''}|H_{1} \right)=1-\beta</math>, da in Wirklichkeit die [[Alternativhypothese]] <math>H_{1}</math> stimmt. <br />
<br />
Man erhält durch analoge Berechnungen:<br />
<br />
<math>G\left(\mu= 989 \right) = 1-\beta = 0,9998</math> und <math> \beta\left(\mu =989\right)=0,0002</math><br />
<br />
In nur rund 0,02% aller [[Stichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> wird in diesem Fall die Abweichung vom Sollgewicht <math>1000\mbox{g}</math> durch den [[Statistischer Test|Test]] nicht aufgedeckt. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist sehr klein, da die Differenz <math>\mu - \mu_{0} = 989 - 1000</math> groß ist.<br />
<br />
Für die gegebenen Werte von <math>\mu_{0},\; \alpha,\; \sigma</math> und <math>n</math> sind in der folgenden Tabelle <math>G(\mu)</math> und <math>1 - G(\mu)</math> für weitere zulässige Werte von <math>\mu</math> enthalten.<br />
<br />
{| class="wikitable"<br />
|align="center"|<math>\mu</math><br />
|align="center"|Gültigkeit von<br />
|align="center"|<math>G\left( \mu \right)</math><br />
|align="center"|<math>1-G\left( \mu \right)</math><br />
|-<br />
|align="center"|<math>988,00</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,999973=1-\beta</math><br />
|align="center"|<math>0,000027=\beta</math><br />
|-<br />
|align="center"|<math>990,40</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,997744=1-\beta </math><br />
|align="center"|<math>0,002256=\beta</math><br />
|-<br />
|align="center"|<math>992,80</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,949497=1-\beta</math><br />
|align="center"|<math>0,050503=\beta</math><br />
|-<br />
|align="center"|<math>995,20</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,670038=1-\beta</math><br />
|align="center"|<math>0,329962=\beta</math><br />
|-<br />
|align="center"|<math>997,60</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,224416=1-\beta</math><br />
|align="center"|<math>0,775584=\beta</math><br />
|-<br />
|align="center"|<math>1000,00</math><br />
|align="center"|<math>H_{0}</math><br />
|align="center"|<math>0,05=\alpha</math><br />
|align="center"|<math>0,95=1-\alpha</math><br />
|-<br />
|align="center"|<math>1002,40</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,224416=1-\beta</math><br />
|align="center"|<math>0,775584=\beta</math><br />
|-<br />
|align="center"|<math>1004,80</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,670038=1-\beta</math><br />
|align="center"|<math>0,329962=\beta</math><br />
|-<br />
|align="center"|<math>1007,20</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,949497=1-\beta</math><br />
|align="center"|<math>0,050503=\beta </math><br />
|-<br />
|align="center"|<math>1009,60</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,997744=1-\beta</math><br />
|align="center"|<math>0,002256=\beta </math><br />
|-<br />
|align="center"|<math>1012,00</math><br />
|align="center"|<math>H_{1}</math><br />
|align="center"|<math>0,999973=1-\beta</math><br />
|align="center"|<math>0,000027=\beta</math><br />
|}<br />
<br />
Die grafische Darstellung der [[Gütefunktion]] enthält die Abb. 2.<br />
<br />
<br />
<br />
{{iframewiwi<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_mu0_1000_R00480004800000000000000_plot.html" /><br />
| Abb. 2: Gütefunktion mit <math>\mu_0=1000</math>, <math>\alpha=0,05</math>, <math>\sigma=10</math> und <math>n=25</math>}}<br />
<br />
Eine Möglichkeit, die [[Gütefunktion]] bei festem [[Signifikanzniveau]] <math>\alpha= 0,05</math> zu beeinflussen, ist die Erhöhung des [[Stichprobenumfang]]s <math>n</math>. <br />
<br />
Das soll exemplarisch unter den Annahmen gezeigt werden, dass <math>\mu = 1002\mbox{g}</math> bzw. <math>\mu = 989\mbox{g}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist, wobei weiterhin <math>\alpha=0,05,\; \mu_{0} = 1000</math> und <math>\sigma = 10</math> gelten.<br />
<br />
{| class="wikitable"<br />
|<br />
|align="center"|<math>n=9</math><br />
|align="center"|<math>n=16</math><br />
|align="center"|<math>n=25</math><br />
|align="center"|<math>n=36</math><br />
|-<br />
|align="center"|<math>G\left(1002\right)=1-\beta</math><br />
|align="center"|<math>0,0921</math><br />
|align="center"|<math>0,126</math><br />
|align="center"|<math>0,17</math><br />
|align="center"|<math>0,224</math><br />
|-<br />
|align="center"|<math>\beta \left(\mu = 1002\right)</math><br />
|align="center"|<math>0,9079</math><br />
|align="center"|<math>0,874</math><br />
|align="center"|<math>0,83</math><br />
|align="center"|<math>0,776</math><br />
|-<br />
|align="center"|<math>G\left(\mu = 989\right) =1-\beta</math><br />
|align="center"|<math>0,91</math><br />
|align="center"|<math>0,993</math><br />
|align="center"|<math>0,9998</math><br />
|align="center"|<math>0,999998</math><br />
|-<br />
|align="center"|<math>\beta \left(\mu = 989\right)</math><br />
|align="center"|<math>0,09</math><br />
|align="center"|<math>0,007</math><br />
|align="center"|<math>0,0002</math><br />
|align="center"|<math>0,000002</math><br />
|}<br />
<br />
Abb. 3 zeigt die [[Gütefunktion]]en für die 4 verschiedenen [[Stichprobenumfang|Stichprobenumfänge]].<br />
<br />
===BEARBEITUNG===<br />
<br />
<iframe k="wiwi" p="examples/stat_Guetefunktion_GF_mu0_1000_4SP_R00480004800000000000000_plot.html" /><br />
<br />
Wird z.B. vermutet, dass die Maschine nur mit einer geringfügigen Abweichung vom Sollwert <math>\mu_{0}</math> arbeitet, so ist ein größerer [[Stichprobenumfang]] empfehlenswert, um vorhandene Abweichungen zuverlässiger aufzudecken und bei [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der <math>H_{0}</math>]] die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] zu verringern, auch wenn dadurch die Kosten für die Überprüfung der Maschine höher werden.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Grundbegriffe_der_Sch%C3%A4tztheorie&diff=1247Grundbegriffe der Schätztheorie2018-05-29T12:54:49Z<p>Jacobdan: </p>
<hr />
<div>{{Schaetztheorie}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Schätzung und Schätzverfahren===<br />
<br />
Gegeben sei eine [[Grundgesamtheit]] mit der [[Verteilung der Grundgesamtheit|Verteilung]] <math>F(x)</math> und zugehörigen [[Parameter der Grundgesamtheit|Parameter]]n (wie z.B. [[Erwartungswert der Grundgesamtheit|Erwartungswert]] <math>\mu</math>, [[Varianz der Grundgesamtheit|Varianz]] <math>\sigma^{2}</math> oder [[Anteilswert der Grundgesamtheit|Anteilswert]] <math>\pi</math>).<br />
<br />
Wenn keine [[Totalerhebung]] durchgeführt wurde, sind die [[Verteilung (stochastisch)|Verteilung]] <math>F(x)</math> und die [[Parameter der Grundgesamtheit|Parameter]] im Allgemeinen unbekannt. <br />
<br />
Wie in vorherigen Abschnitten bereits erläutert, können Informationen über die [[Grundgesamtheit]] durch (Zufalls-)[[Stichprobe]]n<br />
gewonnen werden. <br />
<br />
Der Rückschluss von den Ergebnissen der [[Stichprobe]] auf die [[Grundgesamtheit]] wird als [[induktiver Schluss]] bezeichnet. <br />
<br />
Die Aussage eines [[Induktiver Schluss|induktiven Schlusses]] kann nicht mit Sicherheit getroffen werden, sie ist mit dem Risiko eines Fehlers<br />
behaftet. <br />
<br />
Der Grad der Unsicherheit kann unter bestimmten Voraussetzungen mittels des Instrumentariums der [[Wahrscheinlichkeitsrechnung]] gemessen werden.<br />
<br />
Die näherungsweise Bestimmung der [[Verteilung der Grundgesamtheit|Verteilung]] oder von [[Parameter der Grundgesamtheit|Parameter]]n der [[Grundgesamtheit]] auf der Basis von [[Stichprobe]]n wird in der Statistik als ''Schätzung'' und die Vorschrift zur Schätzung als<br />
''Schätzverfahren'' bezeichnet.<br />
<br />
===Parameterschätzung===<br />
<br />
Eine [[Schätzung]] der unbekannten [[Parameter der Grundgesamtheit]] auf der Basis von [[Stichprobe]]n wird als ''Parameterschätzung'' bezeichnet. <br />
<br />
<math>\vartheta</math> bezeichne allgemein einen [[Parameter der Grundgesamtheit]]. Der Wert dieses [[Parameter der Grundgesamtheit|Parameter]]s ist unbekannt und soll mittels einer [[Zufallsstichprobe]] geschätzt werden.<br />
<br />
Dabei unterscheidet man zwei Arten von [[Schätzung]]en: [[Punktschätzung]] und [[Intervallschätzung]].<br />
<br />
Zunächst wird die [[Punktschätzung]] und in einem späteren Unterkapitel die [[Intervallschätzung]] erläutert.<br />
<br />
===Punktschätzung und Schätzwert===<br />
<br />
Als ''Punktschätzung'' wird die Ermittlung eines einzelnen ''Schätzwertes'' aufgrund der Ergebnisse einer [[Zufallsstichprobe]] bezeichnet. Durch die Punktschätzung erhält man für den unbekannten [[Parameter der Grundgesamtheit]] <math>\vartheta</math> einen Schätzwert <math>\widehat{\vartheta}</math> als [[Realisation]] einer [[Zufallsvariable]]n.<br />
<br />
Dieser Schätzwert <math>\widehat{\vartheta}</math> soll ein "möglichst guter" Näherungswert für den unbekannten [[Parameter der Grundgesamtheit]] sein.<br />
<br />
Grundlage für die [[Schätzung]] ist eine [[einfache Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> mit den [[Stichprobenvariable]]n <math>X_{1}, \ldots, X_{n}</math>.<br />
<br />
Die Bestimmung der zum unbekannten [[Parameter der Grundgesamtheit]] analogen Maßzahl in der [[Stichprobe]] beinhaltet die Festlegung einer geeigneten Funktion der [[Stichprobenvariable]]n <math>X_{1}, \ldots, X_{n}</math>, d.h. die Auswahl einer [[Stichprobenfunktion]].<br />
<br />
===Schätzfunktion oder Schätzer===<br />
<br />
Eine [[Stichprobenfunktion]]<br />
<br />
<math>\widehat{\theta}=g(X_{1},\dots,X_{n})</math><br />
<br />
die aufgrund ihrer Eigenschaften zur [[Parameterschätzung|Schätzung eines Parameters]] der [[Grundgesamtheit]] geeignet ist, heißt ''Schätzfunktion'' oder ''Schätzer''. <br />
<br />
Eine [[Stichprobenfunktion]] ist eine Funktion von [[Zufallsvariable]]n (den [[Stichprobenvariable]]n <math>X_{1}, \ldots, X_{n}</math>) und damit selbst wieder eine [[Zufallsvariable]]. Daraus folgt, dass auch jede Schätzfunktion eine [[Zufallsvariable]] ist.<br />
<br />
Für jede konkrete [[Zufallsstichprobe]] mit den [[Stichprobenwerte]]n <math>x_{1}, \ldots, x_{n}</math> ergibt sich eine [[Realisation]] der<br />
Schätzfunktion <math>\widehat{\theta}</math>:<br />
<br />
<math>\widehat{\vartheta}=g(x_{1},\dots,x_{n})</math><br />
<br />
<math>\widehat{\vartheta}</math> wird als [[Schätzwert]] bezeichnet und ist eine [[Punktschätzung]] für den unbekannten [[Parameter der Grundgesamtheit|Parameter <math>\vartheta</math> der Grundgesamtheit]].<br />
<br />
Eine [[Punktschätzung]] hängt somit vom [[Stichprobenumfang]] <math>n</math> und den [[Realisation]]en der [[Stichprobenvariable]]n ab. <br />
<br />
[[Punktschätzung]]en als [[Realisation]]en einer [[Zufallsvariable]]n werden nur selten mit dem wahren Wert des [[Parameter der Grundgesamtheit|Parameters in der Grundgesamtheit]] übereinstimmen.<br />
<br />
Bei wiederholter Durchführung der [[Stichprobe]]nziehung erhält man verschiedene [[Realisation]]en der [[Stichprobenvariable]]n und somit auch<br />
verschiedene [[Schätzwert]]e, die mehr oder weniger nahe am wahren Wert des [[Parameter der Grundgesamtheit|Parameter]]s liegen werden.<br />
<br />
Das entscheidende Problem der [[Punktschätzung]] ist die Wahl des besten [[Schätzer]]s.<br />
<br />
Als [[Schätzer]] wird vielfach diejenige [[Stichprobenfunktion]] verwendet, die dem zu schätzenden [[Parameter der Grundgesamtheit|Parameter in der Grundgesamtheit]] entspricht und bestimmte wünschenswerte Eigenschaften aufweist. <br />
<br />
Wie noch zu begründen sein wird, kann z.B. für die [[Schätzung]] des unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswertes <math>E[X] = \mu</math> der Grundgesamtheit]] der [[Stichprobenmittelwert]] als [[arithmetisches Mittel]] der [[Stichprobenvariable]]n<br />
<br />
<math>\bar{X} = \frac{1}{n}\cdot \sum\limits_{i=1}^{n} X_{i}</math><br />
<br />
verwendet werden.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Haushaltsnettoeinkommen===<br />
<br />
Für eine [[Grundgesamtheit]] von <math>N = 2000</math> Privathaushalten sei die [[Zufallsvariable]] <math>X\;</math> das Haushaltsnettoeinkommen (in €). <br />
<br />
Das mittlere Haushaltsnettoeinkommen dieser [[Grundgesamtheit]], d.h. der [[Erwartungswert]] <math>E[X] = \mu</math>, ist unbekannt und soll [[Schätzung|geschätzt]] werden.<br />
<br />
Zur [[Schätzung]] von <math>\mu</math> wird der [[Stichprobenmittelwert]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
als [[Schätzfunktion]] verwendet.<br />
<br />
Eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> liefert die [[Stichprobenwerte]] <math>x_{1},\ldots,x_{n}</math>. <br />
<br />
Nach Einsetzen dieser [[Stichprobenwerte]] in die [[Schätzfunktion]] erhält man einen [[Schätzwert]]<br />
<br />
<math>\bar{x}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}x_{i}</math><br />
<br />
als [[Punktschätzung]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].<br />
<br />
====Zufallsstichproben vom Umfang n = 20====<br />
<br />
Eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> aus der oben genannten [[Grundgesamtheit]] (Privathaushalte) liefert die folgenden [[Stichprobenwerte]].<br />
<br />
Tabelle 1: [[Stichprobenwerte]] des Haushaltsnettoeinkommens einer [[Stichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> (der Größe nach geordnet)<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>i</math><br />
|align="center"|Haushaltsnettoeinkommen <math>x_{i} (\euro)</math><br />
|align="center"|<math>i</math><br />
|align="center"|Haushaltsnettoeinkommen <math>x_{i} (\euro)</math><br />
|-<br />
|align="center"|1<br />
|align="center"|800<br />
|align="center"|11<br />
|align="center"|2500<br />
|-<br />
|align="center"|2<br />
|align="center"|1200<br />
|align="center"|12<br />
|align="center"|2500<br />
|-<br />
|align="center"|3<br />
|align="center"|1400<br />
|align="center"|13<br />
|align="center"|2500<br />
|-<br />
|align="center"|4<br />
|align="center"|1500<br />
|align="center"|14<br />
|align="center"|2700<br />
|-<br />
|align="center"|5<br />
|align="center"|1500<br />
|align="center"|15<br />
|align="center"|2850<br />
|-<br />
|align="center"|6<br />
|align="center"|1500<br />
|align="center"|16<br />
|align="center"|3300<br />
|-<br />
|align="center"|7<br />
|align="center"|1800<br />
|align="center"|17<br />
|align="center"|3650<br />
|-<br />
|align="center"|8<br />
|align="center"|1800<br />
|align="center"|18<br />
|align="center"|3700<br />
|-<br />
|align="center"|9<br />
|align="center"|2300<br />
|align="center"|19<br />
|align="center"|4100<br />
|-<br />
|align="center"|10<br />
|align="center"|2400<br />
|align="center"|20<br />
|align="center"|4300<br />
|}<br />
<br />
Das mittlere Haushaltsnettoeinkommen dieser [[Stichprobe]] beträgt:<br />
<br />
<math>\bar{x}=\frac{48300 }{20} \ \euro \ =2415 \ \euro</math>.<br />
<br />
und ist ein [[Schätzwert]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].<br />
<br />
Wie leicht zu erkennen, ist die Berechnung identisch mit dem [[Arithmetisches Mittel|arithmetischen Mittel]], das bereits in der [[Deskriptive Statistik|deskriptiven Statistik]] verwendet wurde. In der deskriptiven Statistik ist jedoch die Arbeit mit der Aussage<br />
<br />
"Das mittlere Haushaltsnettoeinkommen der 20 beobachteten Privathaushalte beträgt 2415 €"<br />
<br />
beendet. <br />
<br />
Hier wird das Ergebnis der [[Stichprobe]] jedoch darüber hinaus verwendet, um auf das mittlere Haushaltsnettoeinkommen <math>E[X] = \mu</math> aller 2000 Privathaushalte zu schließen, indem <math>\bar{x} = 2415 \ \euro</math> als [[Schätzwert]] für <math>\mu</math> verwendet wird. <br />
<br />
Wie aussagekräftig, d.h. wie genau dieser [[Schätzwert]] den wahren [[Mittelwert der Grundgesamtheit]] trifft, bleibt an dieser Stelle zunächst noch offen.<br />
<br />
Um die Problematik von [[Punktschätzung]]en zu demonstrieren, werden 24 weitere [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> aus der gleichen [[Grundgesamtheit]] gezogen und das mittlere Haushaltsnettoeinkommen in jeder [[Stichprobe]] berechnet.<br />
<br />
Die folgende Tabelle enthält das mittlere Haushaltsnettoeinkommen <math>\bar{x}</math> aller 25 [[Zufallsstichprobe]]n.<br />
<br />
Tabelle 2: Mittleres Haushaltsnettoeinkommen (€) in 25 [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> (der Größe nach geordnet)<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Stichprobe<br />
|align="center"|<math>\bar{x}</math><br />
|align="center"|Stichprobe<br />
|align="center"|<math>\bar{x}</math><br />
|align="center"|Stichprobe<br />
|align="center"|<math>\bar{x}</math><br />
|-<br />
|align="center"|1<br />
|align="center"|1884,90<br />
|align="center"|10<br />
|align="center"|2241,15<br />
|align="center"|18<br />
|align="center"|2395,25<br />
|-<br />
|align="center"|2<br />
|align="center"|1915,30<br />
|align="center"|11<br />
|align="center"|2243,15<br />
|align="center"|19<br />
|align="center"|2413,40<br />
|-<br />
|align="center"|3<br />
|align="center"|2060,90<br />
|align="center"|12<br />
|align="center"|2267,75<br />
|align="center"|20<br />
|align="center"|2415,00<br />
|-<br />
|align="center"|4<br />
|align="center"|2062,15<br />
|align="center"|13<br />
|align="center"|2298,80<br />
|align="center"|21<br />
|align="center"|2567,50<br />
|-<br />
|align="center"|5<br />
|align="center"|2110,30<br />
|align="center"|14<br />
|align="center"|2317,00<br />
|align="center"|22<br />
|align="center"|2607,25<br />
|-<br />
|align="center"|6<br />
|align="center"|2126,50<br />
|align="center"|15<br />
|align="center"|2319,55<br />
|align="center"|23<br />
|align="center"|2635,00<br />
|-<br />
|align="center"|7<br />
|align="center"|2163,10<br />
|align="center"|16<br />
|align="center"|2361,25<br />
|align="center"|24<br />
|align="center"|2659,00<br />
|-<br />
|align="center"|8<br />
|align="center"|2168,50<br />
|align="center"|17<br />
|align="center"|2363,50<br />
|align="center"|25<br />
|align="center"|2774,30<br />
|-<br />
|align="center"|9<br />
|align="center"|2203,85<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|align="center"|<br />
|}<br />
<br />
Anhand dieser Ergebnisse wird der Zufallscharakter des [[Schätzverfahren]]s deutlich. Die [[Schätzfunktion]] <math>\bar{X}</math> ist eine<br />
[[Zufallsvariable]], da von [[Stichprobe]] zu [[Stichprobe]] aufgrund der verschiedenen [[Stichprobenwerte]] <math>x_{i}\; (i = 1, \ldots, 20)</math> ein anderer [[Schätzwert]] resultiert. <br />
<br />
Folglich wird dem [[Parameter der Grundgesamtheit|Parameter <math>\mu</math> der Grundgesamtheit]] durch eine [[Punktschätzung]] ein [[Schätzwert]] zugewiesen, der von der konkreten [[Stichprobe]] abhängig ist und fast immer vom wahren Wert des [[Parameter]]s (dem mittleren<br />
Haushaltsnettoeinkommen der 2000 Privathaushalte) verschieden sein wird. <br />
<br />
Die Konsequenz ist, dass [[Punktschätzung]]en durch die Angabe der Präzision des [[Schätzverfahren]]s (z.B. die [[Standardabweichung (stochastisch)|Standardabweichung]] des [[Schätzer]]s) oder durch andere [[Schätzverfahren]] ergänzt werden müssen.<br />
<br />
Die folgenden Grafiken enthalten die [[Schätzwert]]e <math>\bar{x}</math> der 25 [[Zufallsstichprobe]]n als Punkte.<br />
<br />
Um die Abweichung der [[Schätzwert]]e vom wahren [[Mittelwert der Grundgesamtheit]] zu verdeutlichen, wurde der tatsächliche Wert <math>\mu</math> als gestrichelte Linie in die Graphiken eingetragen.<br />
<br />
<iframe k="wiwi" p="examples/stat_GrundbegriffeSchaetztheorie_Schaetzwerte_Haushalt_R00480004800000000000000_plot.html" /><br />
<br />
<iframe k="wiwi" p="examples/stat_GrundbegriffeSchaetztheorie_Schaetzwerte_Haushalt_2_R00480004800000000000000_plot.html" /><br />
====Zufallsstichproben vom Umfang n = 100====<br />
<br />
Es wurden aus der gleichen [[Grundgesamtheit]] 100 [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 100</math> gezogen und das mittlere Haushaltsnettoeinkommen in jeder [[Stichprobe]] berechnet. Auf die Angabe der numerischen Resultate wird hier verzichtet. <br />
<br />
Die nachstehenden Grafiken enthalten die [[Schätzwert]]e <math>\bar{x}</math> der 100 [[Zufallsstichprobe]]n als Punkte. Es wurde wiederum der tatsächliche Wert <math>\mu</math> als gestrichelte Linie in die Grafiken eingetragen.<br />
<br />
<iframe k="wiwi" p="examples/stat_GrundbegriffeSchaetztheorie_Schaetzwerte_Haushalt_3_100_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_GrundbegriffeSchaetztheorie_Schaetzwerte_Haushalt_4_100_R00480004800000000000000_plot.html" /><br />
<br />
<!--===Nettoeinkommen und Alter===<br />
<br />
Es steht eine [[Grundgesamtheit]] mit <math>N = 2000</math> Personen zur Verfügung. An den Personen wurden die beiden [[Variable]]n <math>X_{1}=</math> Alter (in Jahren) und <math>X_2 =</math> Nettoeinkommen (in €) beobachtet. <br />
<br />
Der [[Erwartungswert der Grundgesamtheit|Erwartungswert]] und die [[Varianz der Grundgesamtheit|Varianz]] der beiden [[Variable]]n in der [[Grundgesamtheit]] sind unbekannt.<br />
<br />
Sie haben nun die Möglichkeit, aus dieser [[Grundgesamtheit]] [[uneingeschränkte Zufallsstichprobe]]n zu ziehen, um die unbekannten [[Parameter der Grundgesamtheit|Parameter]] zu [[Schätzung|schätzen]]. <br />
<br />
Dazu müssen Sie im ersten erscheinenden Fenster<br />
<br />
* den [[Stichprobenumfang]] <math>n</math> und<br />
* die [[Variable]] (Alter oder Nettoeinkommen)<br />
<br />
festlegen.<br />
<br />
Für die [[Schätzung]] von <math>E\left[X_{1}\right]=\mu_{1}</math> bzw. <math>E\left[X_{2}\right]=\mu_{2}</math> wird die [[Schätzfunktion]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
und für die [[Schätzung]] von <math>Var(X_{1})=\sigma_{1}^{2}</math> bzw. <math>Var(X_{2})=\sigma_{2}^{2}</math> die [[Schätzfunktion]]<br />
<br />
<math>S^{2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}</math><br />
<br />
verwendet.<br />
<br />
Als Output erhalten Sie einen [[Schätzwert]] <math>\bar{x}</math> bzw. <math>s^{2}</math> als [[Punktschätzung]] für <math>\mu</math> bzw. <math>\sigma^{2}</math>.<br />
<br />
Durch wiederholte [[Stichprobe]]nziehungen können Sie die Problematik von [[Punktschätzung]]en studieren.<br />
<---</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Diskrete_Gleichverteilung&diff=1246Diskrete Gleichverteilung2018-05-29T12:50:23Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Diskrete Gleichverteilung===<br />
<br />
Eine [[diskrete Zufallsvariable]] <math>X</math> mit den endlich vielen [[Realisation]]en <math>x_{i} \, (i = 1,...,n)</math> heißt ''gleichverteilt'', wenn jeder Wert von <math>X</math> die gleiche [[Wahrscheinlichkeit]] der [[Realisation|Realisierung]] hat. <br />
<br />
Die ''diskrete Gleichverteilung'' weist den [[Parameter]] <math>n</math> auf.<br />
<br />
Für die [[Wahrscheinlichkeitsfunktion]] einer diskreten Gleichverteilung gilt:<br />
<br />
<math>f(x_{i})=\begin{cases}\frac{1}{n}\quad & \mbox{, wenn } i=1,\dots ,n \\<br />
0\quad & \mbox{, sonst }\end{cases}</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] einer diskreten Gleichverteilung gilt:<br />
<br />
<math> F(x) = \begin{cases}0 & \mbox{, wenn } x < x_1 \\<br />
\frac{i}{n} \quad & \mbox{, wenn } x_i \leq x \leq x_{i+1} ; \quad i= 1, \dots n-1 \\<br />
1 \quad & \mbox{, wenn }\ x_n \leq x \end{cases}</math><br />
<br />
Für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]] einer diskreten gleichverteilten [[Zufallsvariable]]n erhält man:<br />
<br />
<math>E[X] = \mu = \frac{1}{n} \sum\limits_{i=1}^{n} x_i</math><br />
<br />
<math>Var(X) = \sigma^2 = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i -\mu)^2</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Würfel===<br />
<br />
Die grafische Darstellung einer diskreten Gleichverteilung ist bei der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] ein [[Stabdiagramm|Stab-]] oder [[Balkendiagramm]] und bei der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] eine Treppenfunktion.<br />
<br />
Ein typisches Beispiel für eine diskrete Gleichverteilung ist das einmalige Werfen eines idealen Würfels. <br />
<br />
Die [[diskrete Zufallsvariable]] <math> = \{\mbox{Augenzahl}\}</math> kann nur die ganzzahligen Werte im Intervall <math>\,[1;6]</math> annehmen. <br />
<br />
Aufgrund der Voraussetzung eines idealen Würfels hat nach der [[Wahrscheinlichkeit nach Laplace|klassischen Definition der Wahrscheinlichkeit]] jede [[Realisation]] von <math>X</math> die [[Wahrscheinlichkeit]]<br />
<br />
<math>\,f(x_{i})=\frac{1}{6}</math> für <math>i = 1,\dots,6</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Gleichverteilung_Diskrete_Gleichverteilung_1_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_Gleichverteilung_Diskrete_Gleichverteilung_VerteilungF_R00480004800000000000000_plot.html" /><br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Diskrete_Gleichverteilung&diff=1245Diskrete Gleichverteilung2018-05-29T12:49:49Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Diskrete Gleichverteilung===<br />
<br />
Eine [[diskrete Zufallsvariable]] <math>X</math> mit den endlich vielen [[Realisation]]en <math>x_{i} \, (i = 1,...,n)</math> heißt ''gleichverteilt'', wenn jeder Wert von <math>X</math> die gleiche [[Wahrscheinlichkeit]] der [[Realisation|Realisierung]] hat. <br />
<br />
Die ''diskrete Gleichverteilung'' weist den [[Parameter]] <math>n</math> auf.<br />
<br />
Für die [[Wahrscheinlichkeitsfunktion]] einer diskreten Gleichverteilung gilt:<br />
<br />
<math>f(x_{i})=\begin{cases}\frac{1}{n}\quad & \mbox{, wenn } i=1,\dots ,n \\<br />
0\quad & \mbox{, sonst }\end{cases}</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] einer diskreten Gleichverteilung gilt:<br />
<br />
<math> F(x) = \begin{cases}0 & \mbox{, wenn } x < x_1 \\<br />
\frac{i}{n} \quad & \mbox{, wenn } x_i \leq x \leq x_{i+1} ; \quad i= 1, \dots n-1 \\<br />
1 \quad & \mbox{, wenn }\ x_n \leq x \end{cases}</math><br />
<br />
Für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]] einer diskreten gleichverteilten [[Zufallsvariable]]n erhält man:<br />
<br />
<math>E[X] = \mu = \frac{1}{n} \sum\limits_{i=1}^{n} x_i</math><br />
<br />
<math>Var(X) = \sigma^2 = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i -\mu)^2</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Würfel===<br />
<br />
Die grafische Darstellung einer diskreten Gleichverteilung ist bei der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] ein [[Stabdiagramm|Stab-]] oder [[Balkendiagramm]] und bei der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] eine Treppenfunktion.<br />
<br />
Ein typisches Beispiel für eine diskrete Gleichverteilung ist das einmalige Werfen eines idealen Würfels. <br />
<br />
Die [[diskrete Zufallsvariable]] <math> = \{\mbox{Augenzahl}\}</math> kann nur die ganzzahligen Werte im Intervall <math>\,[1;6]</math> annehmen. <br />
<br />
Aufgrund der Voraussetzung eines idealen Würfels hat nach der [[Wahrscheinlichkeit nach Laplace|klassischen Definition der Wahrscheinlichkeit]] jede [[Realisation]] von <math>X</math> die [[Wahrscheinlichkeit]]<br />
<br />
<math>\,f(x_{i})=\frac{1}{6}</math> für <math>i = 1,\dots,6</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Gleichverteilung_Diskrete_Gleichverteilung_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_Gleichverteilung_Diskrete_Gleichverteilung_VerteilungF_R00480004800000000000000_plot.html" /><br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Gau%C3%9F-Test&diff=1244Gauß-Test2018-05-29T12:47:45Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Gauß-Test===<br />
<br />
Der ''Gauß-Test'' ist ein [[Test auf Mittelwert]], wobei die [[Standardabweichung des Stichprobenmittelwertes|Standardabweichung <math>\sigma</math> des Stichprobenmittelwertes <math>\bar{X}</math>]] als bekannt vorrausgesetzt wird.<br />
<br />
Im Folgenden gelten alle Voraussetzungen wie unter "[[Test auf Mittelwert]]" diskutiert.<br />
<br />
===Teststatistik des Gauß-Tests===<br />
<br />
Bei bekanntem <math>\sigma</math> ist die [[Normalverteilung]] von <math>\bar{X}</math> vollständig spezifiziert, liegt jedoch für <math>\mu_{0}</math> und <math>\sigma(\bar{X})</math> nicht tabelliert vor. <br />
<br />
Es wird deshalb <math>\bar{X}</math> [[Standardisierung|standardisiert]] und<br />
<br />
<math>V=\frac{\bar{X}-\mu _{0}}{\sigma }\;\sqrt{n}</math><br />
<br />
als [[Teststatistik]] verwendet.<br />
<br />
Bei Gültigkeit der [[Nullhypothese]] <math>H_{0}</math> ist <math>V\;</math> (zumindest [[Approximation|approximativ]]) [[Standardnormalverteilung|standardnormalverteilt]]: <br />
<br />
<math>V \mbox{ ist unter } (H_{0}) \;{\sim}\; N \left( 0, 1\right)</math><br />
<br />
Für das vorgegebene [[Signifikanzniveau]] <math>\alpha</math> können die [[Kritischer Wert|kritischen Werte]] aus der Tabelle der [[Standardnormalverteilung]] entnommen werden.<br />
<br />
===Entscheidungsbereiche des Gauß-Tests===<br />
<br />
Für die einzelnen [[Statistischer Test|Test]]möglichkeiten erhält man die nachstehenden [[Entscheidungsbereiche]] bei Gültigkeit der [[Nullhypothese]] <math>H_{0}</math> und vorgegebenem [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
====Zweiseitiger Test====<br />
<br />
Die [[Wahrscheinlichkeit]], eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
<math>P\left(V<c_{u}|\mu _{0}\right) +P\left( V>c_{o}|\mu _{0}\right) =\frac{\alpha}{2}+\frac{\alpha}{2}=\alpha</math>.<br />
<br />
Für <math>P( V\leq c_{u})= 1 - \frac{\alpha}{2}</math> findet man den oberen [[Kritischer Wert|kritischen Wert]] aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(0; 1): c_{o} = z_{1 - \frac{\alpha}{2}}</math>. <br />
<br />
Wegen der Symmetrie der [[Normalverteilung]] gilt <math>c_{u} = -z_{1 - \frac{\alpha}{2}}</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v<-z_{1-\frac{\alpha}{2}}\mbox{ oder }\;v>z_{1-\frac{\alpha}{2}}\right\}</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|-z_{1-\frac{\alpha}{2}}\leq v\leq z_{1-\frac{\alpha}{2}}\right\}</math>.<br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] annimmt, ist<br />
<br />
<math>P\left(c_{u}\leq V\leq c_{o}|\mu _{0}\right) =P\left(-z_{1-\frac{\alpha}{2}}\leq V\leq z_{1-\frac{\alpha}{2}}|\mu _{0}\right)=1-\alpha</math><br />
<br />
====Rechtsseitiger Test====<br />
<br />
Bei Gültigkeit der [[Nullhypothese]] ist <math>E\left[\bar{X}\right] = \mu_{0}</math> und damit <math>E\left[V\right] = 0</math>. <br />
<br />
Zu große Abweichungen nach rechts von <math>E\left[V\right] = 0</math> sprechen gegen <math>H_{0}</math>, so dass der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] im positiven Bereich von <math>V\;</math> liegt.<br />
<br />
Die [[Wahrscheinlichkeit]], eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
<math>P\left(V>c|\mu _{0}\right) =\alpha</math>.<br />
<br />
Für <math>P\left(V\leq c\right)=1-\alpha</math> findet man den [[Kritischer Wert|kritischen Wert]] aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(0; 1): c=z_{1-\alpha }</math>.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v>z_{1-\alpha}\right\}</math>.<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{v|v\leq z_{1-\alpha }\right\}</math>.<br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] annimmt, ist<br />
<br />
<math>P\left( V\leq c|\mu _{0}\right)=P\left(V\leq z_{1-\alpha}|\mu _{0}\right)=1-\alpha</math><br />
<br />
====Linksseitiger Test====<br />
<br />
Zu große Abweichungen nach links von <math>E\left[V\right] = 0</math> sprechen gegen <math>H_{0}</math>, so dass der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] im negativen Bereich von <math>V\;</math> liegt und der [[Kritischer Wert|kritische Wert]] <math>c</math> negativ ist <math>(- c)</math>. <br />
<br />
Die [[Wahrscheinlichkeit]], eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
Wegen der Symmetrie der [[Normalverteilung]] findet man für <math>P(V \leq c) = 1 - \alpha</math> den Wert <math>c</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(0; 1):c = z_{1-\alpha}</math>, so dass der [[Kritischer Wert|kritische Wert]] <math>-c=-z_{1 - \alpha/2}</math> ist.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] ist gegeben durch<br />
<br />
<math>\left\{v|v<-z_{1-\alpha }\right\}</math> ,<br />
<br />
Für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] erhält man:<br />
<br />
<math>\left\{ v|v\geq -z_{1-\alpha }\right\}</math>.<br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] annimmt, ist<br />
<br />
<math>P\left(V\geq -c|\mu _{0}\right) =P\left(V\geq-z_{1-\alpha}|\mu _{0}\right)=1-\alpha</math>.<br />
<br />
===Prüfwert des Gauß-Tests===<br />
<br />
Wenn die [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> gezogen wurde, liegen die konkreten [[Stichprobenwerte]] <math>x_{1},\ldots ,x_{n}</math> vor und der [[Schätzwert]] <math>\bar{X}</math> für den [[Stichprobenmittelwert]] kann berechnet werden:<br />
<br />
<math>\bar{x}=\frac{1}{n}\sum_{i=1}^{n}\; x_{i}</math><br />
<br />
Einsetzen in die [[Teststatistik]] führt zu einem [[Prüfwert]]:<br />
<br />
<math>v=\frac{\bar{x}-\mu _{0}}{\sigma }\cdot\sqrt{n}</math><br />
<br />
===Entscheidungssituationen des Gauß-Tests===<br />
<br />
* Wenn <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] auf dem [[Signifikanzniveau]] <math>\alpha</math> und basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>:<br />
<br />
: Es konnte [[Statistik|statistisch]] gezeigt werden, dass der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] nicht gleich dem hypothetischen Wert <math>\mu _{0}</math> ist.<br />
<br />
: Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}|H_{0})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist. <br />
<br />
: Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
* Wenn <math>v</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> nicht abgelehnt <math>(\mbox{''}H_{0}\mbox{''})</math>. <br />
<br />
: Das [[Stichprobe]]nergebnis gibt keine Veranlassung, <math>H_{0}</math> zu verwerfen:<br />
<br />
: Es konnte [[Statistik|statistisch]] nicht gezeigt werden, dass der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] vom hypothetischen Wert <math>\mu_{0}</math> abweicht.<br />
<br />
: Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist. <br />
<br />
: Die [[Wahrscheinlichkeit]] für einen [[Fehler 2. Art]] ist im Allgemeinen nicht bekannt und kann nur für konkrete Alternativwerte <math>\mu_{1}</math> berechnet werden.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Länge der Entscheidungsbereiche===<br />
<br />
Sowohl für den [[zweiseitiger Test|zweiseitigen]] als auch für die [[Einseitiger Test|einseitigen Tests]] auf <math>\mu</math> hängt die Länge der [[Entscheidungsbereiche]] ab:<br />
<br />
* vom vorgegebenen [[Signifikanzniveau]] <math>\alpha</math><br />
<br />
: Je größer <math>\alpha</math>, desto größer ist unter sonst gleichen Bedingungen der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] und um so kleiner ist der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]], und umgekehrt.<br />
<br />
* vom [[Stichprobenumfang]] <math>n</math><br />
<br />
: Je größer <math>n</math>, desto größer ist unter sonst gleichen Bedingungen der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] und um so kleiner ist der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]], und umgekehrt.<br />
<br />
* von der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma</math> der [[Grundgesamtheit]] bzw. der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> in der [[Stichprobe]]<br />
<br />
: Je größer <math>\sigma</math> bzw. <math>s</math>, desto größer ist unter sonst gleichen Bedingungen der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] und um so kleiner ist der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]], und umgekehrt.<br />
<br />
===Entscheidungsbereiche für die Schätzfunktion===<br />
<br />
Die [[Kritischer Wert|kritischen Werte]] und damit der [[Ablehnungsbereich der Nullhypothese|Ablehnungs-]] und [[Nichtablehnungsbereich der Nullhypothese]] können bei bekanntem <math>\sigma</math> auch für die [[Schätzfunktion]] <math>\bar{X}</math> angegeben werden, was durch<br />
einfache Umformungen erreicht wird. Dies wird für den [[zweiseitiger Test|zweiseitigen Test]] gezeigt.<br />
<br />
Die [[Teststatistik]] <math>V\;</math> ergab sich als [[Standardisierung|standardisierte]] Version der [[Schätzfunktion]] <math>\bar{X}</math>:<br />
<br />
<math>V=\frac{\overline{X}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
und damit jede mögliche [[Realisation]] von <math>V\;</math> gemäß<br />
<br />
<math>v=\frac{\overline{x}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
Beim [[zweiseitiger Test|zweiseitigen Test]] besteht der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die größer oder gleich <math>-z_{1-\frac{\alpha}{2}}</math> jedoch kleiner oder gleich <math>z_{1-\frac{\alpha}{2}}</math> sind:<br />
<br />
<math>\left\{v|-z_{1-\frac{\alpha}{2}}\leq v\leq z_{1-\frac{\alpha}{2}}\right\}</math><br />
<br />
Aus dieser Formulierung ist ersichtlich, dass die beiden [[Kritischer Wert|kritischen Werte]] <math>-z_{1-\frac{\alpha}{2}}</math> und <math>z_{1-\frac{\alpha}{2}}</math> mögliche [[Realisation]]en der [[Teststatistik]] <math>V\;</math> sind. <br />
<br />
Für sie gilt ebenfalls die für die [[Teststatistik]] vorgenommene [[Standardisierung]]:<br />
<br />
<math>-z_{1-\frac{\alpha}{2}}=\frac{\overline{X}_{u}-\mu_{0}}{\sigma }\cdot\sqrt{n},\quad z_{1-\frac{\alpha}{2}}=\frac{\overline{X}_{o}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
Da <math>-z_{1-\frac{\alpha}{2}}</math> der untere [[Kritischer Wert|kritische Wert]] bezüglich <math>V\;</math> ist, wurde mit <math>\bar{X} =\bar{X_{u}}</math> der untere [[Kritischer Wert|kritische Wert]] bezüglich <math>\bar{X}</math> gekennzeichnet. Entsprechendes gilt für den oberen [[Kritischer Wert|kritischen Wert]].<br />
<br />
Durch Umformung erhält man:<br />
<br />
<math>\bar{X}_{u}=\mu_{0}-z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}</math><br />
<br />
<math>\overline{X}_{o}=\mu_{0}+z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma }{\sqrt{n}}</math><br />
<br />
Damit ergibt sich für den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<br />
<br />
<math>\left\{\overline{X}|\overline{X}_{u}\leq \overline{X}\leq \overline{X}_{o}\right\} =\left\{ \overline{X}|\mu_{0}-z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma }{\sqrt{n}}\leq \overline{X}\leq \mu_{0}+z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}\right\}</math><br />
<br />
und für den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]<br />
<br />
<math>\left\{\overline{X}|\overline{X}<\overline{X}_{u}\mbox{ oder }\overline{X}>\overline{X}_{o}\right\}=\left\{\overline{X}|\overline{X}>\mu_{0}-z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}\mbox{ oder }\overline{X}>\mu_{0}+z_{1-\frac{\alpha}{2}}\cdot \frac{\sigma }{\sqrt{n}}\right\}</math><br />
<br />
Analoge Umrechnungen lassen sich für die [[Einseitiger Test|einseitigen Tests]] vornehmen.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Problematik der Hypothesenformulierung===<br />
<br />
Ein Beispiel soll die Problematik der Wahl von [[Nullhypothese|Null-]] und [[Alternativhypothese]] verdeutlichen.<br />
<br />
Ein Unternehmen stellt Autoreifen her. Zur Erhöhung der Lebensdauer eines bestimmten Typs von Autoreifen wurden Materialänderungen vorgenommen. <br />
<br />
Die Konkurrenz behauptet nun, dass durch die Materialänderung keine Erhöhung gegenüber der ursprünglichen mittleren Lebensdauer dieses<br />
Reifentyps von 38000 km erreicht wurde. <br />
<br />
Der Reifenhersteller lässt deshalb eine Prüfung vornehmen, womit ein [[statistischer Test]] verbunden ist.<br />
<br />
Die [[Zufallsvariable]] <math>X\;</math> ist die Lebensdauer des betrachteten Reifentyps. <br />
<br />
Vor der Materialänderung betrug die mittlere Lebensdauer des Reifentyps <math>E[X] = \mu_{0} = 38000</math> km. Nach der Materialänderung ist <math>\mu</math> unbekannt, soll jedoch gemäß der Behauptung des Reifenherstellers größer als <math>\mu_{0}</math> sein, d.h. <math>\mu > \mu_{0} = 38000 </math> km. <br />
<br />
Wie soll der [[Statistischer Test|statistische Test]] formuliert werden? <br />
<br />
* Zunächst ist eindeutig, dass ein [[zweiseitiger Test]] nicht in Frage kommt, da aufgrund der Behauptung des Reifenherstellers nur die Abweichungen in eine Richtung relevant sind. Es ist noch zwischen [[Rechtsseitiger Test|rechts-]] und [[Linksseitiger Test|linksseitigem Test]] zu wählen.<br />
<br />
: Die Intention des Reifenherstellers ist, seine Behauptung "statistisch möglichst gesichert zu beweisen". Dabei will er das Risiko einer Fehlentscheidung möglichst klein halten. <br />
<br />
: Daraus folgt, dass die Behauptung des Reifenherstellers als [[Alternativhypothese]] zu formulieren ist, woraus sich ein [[rechtsseitiger Test]] ergibt:<br />
<br />
: <math>H_{0}:\mu \leq \mu_{0}\quad (= 38000 \mbox{ km})</math><br />
<br />
: <math>H_{1}:\mu > \mu_{0}\quad (= 38000 \mbox{ km})</math><br />
<br />
* Wird im Ergebnis des [[Statistischer Test|Tests]] auf der Basis einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> die [[Nullhypothese]] abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>, so besteht die Möglichkeit, einen [[Fehler 1. Art]] zu begehen, d.h. die <math>H_{0}</math> abzulehnen, obwohl sie wahr ist. <br />
<br />
: Der sich aus der Problemstellung ergebende Inhalt des [[Fehler 1. Art|Fehlers 1. Art]] ist:<br />
<br />
: <math>\mbox{''}H_{1}\mbox{''}|H_{0}=</math> "Die Lebensdauer hat sich durch die Materialänderung erhöht" | In Wirklichkeit hat sich die Lebensdauer nicht erhöht.<br />
<br />
* Wird im Ergebnis des [[Statistischer Test|Tests]] die [[Nullhypothese]] nicht abgelehnt <math>(\mbox{''}H_{0}\mbox{''})</math>, so bedeutet das nicht, dass sie richtig ist, sondern lediglich, dass das [[Stichprobe]]nergebnis ihr nicht widerspricht. <br />
<br />
: Man kann einen [[Fehler 2. Art]] begehen, d.h. die <math>H_{0}</math> beizubehalten, obwohl sie falsch ist. Der Inhalt des [[Fehler 2. Art|Fehlers 2. Art]] ist:<br />
<br />
: <math>\mbox{''}H_{0}\mbox{''}|H_{1} =</math> "Die Lebensdauer hat sich nicht erhöht" | In Wirklichkeit hat sich die Lebensdauer durch die Materialänderung erhöht.<br />
<br />
Ein Vergleich der beiden Fehler zeigt, dass der [[Fehler 1. Art]] für den Reifenhersteller der schwerwiegendere Fehler ist, denn<br />
<br />
* die Konkurrenz schläft nicht und würde für diesen Reifentyp ebenfalls Prüfungen vornehmen (die Konkurrenz würde jedoch einen [[Linksseitiger Test|linksseitigen Test]] verwenden).<br />
<br />
* die dauerhafte Verwendung des veränderten Reifens würde bald zeigen, dass die Lebensdauer durch die Materialänderung tatsächlich nicht größer wurde, was dem Ansehen des Reifenherstellers bei seinen Kunden erheblichen Schaden zufügen würde.<br />
<br />
Das Risiko, d.h. die [[Wahrscheinlichkeit]] <math>P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)</math> für diesen [[Fehler 1. Art]], muss der Reifenhersteller deshalb klein halten, was durch die Vorgabe des [[Signifikanzniveau]]s <math>\alpha</math> (z.B. <math>\alpha = 0,05</math>) erreicht werden kann.<br />
<br />
===Mehl===<br />
<br />
In einem Unternehmen wird Mehl maschinell in Tüten abgefüllt. Das Sollgewicht beträgt 1000 g, auf das die Maschine justiert wurde. <br />
<br />
Das Ist-Gewicht der Mehltüten weist gewisse Schwankungen auf, die im Produktionsprozess nicht vermieden werden können. <br />
<br />
Damit ist das Ist-Gewicht eine [[Zufallsvariable]]: <math>X =\;</math>"Ist-Gewicht der Mehltüten". <br />
<br />
Der [[Erwartungswert]] des Ist-Gewichts <math>E[X] = \mu</math>, mit dem die Maschine derzeit arbeitet, ist unbekannt. Er soll jedoch dem Sollgewicht entsprechen, d.h. <math>E[X] = \mu_{0} = 1000 \mbox{g}</math>. <br />
<br />
Die Konsequenz ist, dass nach einer gewissen Laufzeit der Maschine überprüft werden muss, ob die ursprüngliche Justierung der Maschine noch eingehalten wird oder ob schon erhebliche Abweichungen auftreten. <br />
<br />
Dazu wird in gewissen Abständen eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> aus der Produktion entnommen, für die [[Stichprobe]] das durchschnittliche Ist-Gewicht ermittelt und das Ergebnis mit dem Sollwert verglichen. <br />
<br />
Bei<br />
erheblichen (signifikanten) Abweichungen muss eine neue Justierung der Maschine vorgenommen<br />
werden.<br />
<br />
Aus der Sicht des Unternehmers sind Abweichungen nach beiden Seiten vom Sollwert <math>\mu_{0}= 1000\mbox{g}</math> relevant. <br />
<br />
Wird im Mittel zu wenig abgefüllt, würde dieser Umstand über kurz oder lang bei Überprüfungen (z.B. durch Verbraucherorganisationen) bekannt und der Reputation des Unternehmens erheblichen Schaden zufügen. <br />
<br />
Wird im Mittel zu viel abgefüllt, schmälert dies den Gewinn des Unternehmers. Es ist somit ein [[zweiseitiger Test]] durchzuführen:<br />
<br />
<math>H_{0}:\mu =1000\quad H_{1}:\mu \neq 1000</math><br />
<br />
Der [[Statistischer Test|Test]] soll auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt werden. <br />
<br />
Es wird eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> gezogen. Aufgrund des großen [[Umfang der Grundgesamtheit|Umfangs der Grundgesamtheit]] (Gesamtproduktion) kann dabei von einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ausgegangen werden.<br />
<br />
====Teststatistik und Entscheidungsbereiche====<br />
<br />
Als [[Schätzfunktion]] für den unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> der Grundgesamtheit]] wird der [[Stichprobenmittelwert]] <math>\bar{X}</math> verwendet. <br />
<br />
Es sei aufgrund der langjährigen Nutzung der Maschine bekannt, dass das Ist-Gewicht eine [[Normalverteilung|normalverteilte]] [[Zufallsvariable]] mit der [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma = 10\mbox{g}</math> ist. <br />
<br />
Dann folgt für die [[Schätzfunktion]] <math>\bar{X}</math>, dass sie ebenfalls [[Normalverteilung|normalverteilt]] ist und eine [[Standardabweichung (stochastisch)|Standardabweichung]] von <math>\sigma\left(\bar{X}\right) = 2\mbox{g}</math> aufweist. <br />
<br />
Bei Gültigkeit der [[Nullhypothese]], d.h. wenn die Maschine im Mittel tatsächlich das Sollgewicht von 1000 g einhält, gilt:<br />
<br />
<math>\bar{X}\mbox{ ist unter } H_{0}\sim N(1000;\;2)</math>.<br />
<br />
Für die [[Teststatistik]]<br />
<br />
<math>V=\frac{\bar{X}-\mu_{0}}{\sigma}\cdot\sqrt{n}</math><br />
<br />
folgt:<br />
<br />
<math>V \mbox{ ist unter }H_{0}\sim N(0;\;1)</math>.<br />
<br />
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] findet man für <math>P(V \leq c_{o})=1-\frac{\alpha}{2} = 0,975</math> den oberen [[Kritischer Wert|kritischen Wert]] <math>c_{o} = z_{0,975}= 1,96</math>. <br />
<br />
Wegen der Symmetrie der [[Normalverteilung]] gilt <math>c_{u}=-z_{1-\frac{\alpha}{2}}=-1,96</math>.<br />
<br />
Damit ergeben sich die [[Entscheidungsbereiche]] des [[Statistischer Test|Tests]] zu: <br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|-1,96\leq v\leq 1,96\right\}</math><br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]<math>:\;\left\{v|v<-1,96 \mbox{ oder }v>1,96\right\}</math><br />
<br />
<iframe k="wiwi" p="examples/stat_Gauß-Test_Gauß-Test_R00480004800000000000000_plot.html" /><br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]|[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]|[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]<br />
<br />
====Prüfwert====<br />
<br />
Es werden nunmehr die 25 Mehltüten zufällig ausgewählt, ihr Ist-Gewicht festgestellt und das [[Arithmetisches Mittel|arithmetische Mittel]] dieser Gewichte berechnet, für das sich <math>\bar{x} = 996,4 \mbox{ g}</math> ergeben habe. <br />
<br />
Als [[Prüfwert]] erhält man<br />
<br />
<math>v=\frac{996,4-1000}{2}=-1,8</math><br />
<br />
====Entscheidungssituationen====<br />
<br />
Da <math>v = - 1,8 </math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
Basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 25</math> konnte statistisch nicht gezeigt werden, dass der wahre [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> in der Grundgesamtheit]] verschieden vom hypothetischen Wert <math>\mu_{0} = 1000\mbox{g}</math> ist, d.h. dass die Maschine den Sollwert von 1000 g nicht einhält.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=F-Verteilung&diff=1243F-Verteilung2018-05-29T12:46:00Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===F-Verteilung===<br />
<br />
Gegeben seien zwei [[Unabhängigkeit (stochastisch)|unabhängige]] [[Zufallsvariable]]n <math>Y_{1}\mbox{ und }Y_{2} </math>, die beide [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] sind mit <math>f_{1}\mbox{ bzw. }f_{2}</math> [[Freiheitsgrad]]en. <br />
<br />
Dann heißt die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n<br />
<br />
<math>X = \cfrac{\cfrac{Y_1}{f_1}}{\cfrac{Y_2}{f_2}}</math><br />
<br />
''F-Verteilung'' mit den [[Parameter]]n <math>f_{1}</math> und <math>f_{2}</math> oder kurz <math>F(f_{1},f_{2})</math>. <br />
<br />
Die [[Parameter]] sind die Anzahl der [[Freiheitsgrad]]e <math>f_{1}</math> der [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilten]] [[Zufallsvariable]] des Zählers und die Anzahl der [[Freiheitsgrad]]e <math>f_{2}</math> der [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilten]] [[Zufallsvariable]] des Nenners.<br />
<br />
Der Wertebereich ist <math>X >0</math>.<br />
<br />
Für eine [[Zufallsvariable]] <math>X</math>, die F-verteilt mit den [[Parameter]]n <math>f_{1}</math> und <math>f_{2}</math> ist, gilt:<br />
<br />
{|<br />
|<math>E[X]=\frac{f_{2}}{f_{2}-2},</math><br />
|<math>\mbox{für} \ f_{2}>2</math><br />
|-<br />
|<math>Var(X)=\frac{2\cdot f_{2}^{2}\cdot(f_{1}+f_{2}-2)}{f_{1}\cdot(f_{2}-2)^{2}\cdot(f_{2}-4)},</math><br />
|<math>\mbox{für} \ f_{2}>4</math><br />
|}<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der F-Verteilung liegt für ausgewählte [[Wahrscheinlichkeit]]en und ausgewählte Werte der [[Parameter]] <math>f_{1}</math> und <math>f_{2}</math> tabelliert vor.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Graphische Darstellung der F-Verteilung===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der F-Verteilung ist rechtsschief. Für wachsende Werte von <math>f_{1}</math> und <math>f_{2}</math> nimmt die Schiefe jedoch ab. <br />
<br />
Für <math>f_{1}\rightarrow \infty</math> und <math>f_{2}\rightarrow \infty</math> strebt die [[Dichtefunktion (eindimensional)|Dichte]] der F-Verteilung gegen die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der [[Standardnormalverteilung]].<br />
<br />
Die folgende Abbildung zeigt die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der F-Verteilung für ausgewählte [[Freiheitsgrad]]e <math>f_{1} \mbox{ und }f_{2}</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_F-Test_F-Verteilung_R00480004800000000000000_plot.html" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Exponentialverteilung&diff=1242Exponentialverteilung2018-05-29T12:44:06Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Exponentialverteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math> heißt ''exponentialverteilt'' mit dem [[Parameter]] <math>\lambda> 0</math>, wenn ihre [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben ist durch:<br />
<br />
<math>f_{EX}(x;\lambda) = \begin{cases}\lambda\cdot e^{- \lambda x} & \mbox{, wenn } x \geq 0,\quad \lambda > 0 \\<br />
0 & \mbox{, wenn } x < 0<br />
\end{cases}</math><br />
<br />
In Kurzform schreibt man: <math>X\sim EX(\lambda )\,</math>. <br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] folgt:<br />
<br />
<math> F_{EX}(x;\lambda) =\begin{cases}1 - e^{- \lambda x} & \mbox{, wenn } x \geq 0 \\<br />
0 & \mbox{, wenn } x < 0\end{cases}</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] einer exponentialverteilten [[Zufallsvariable]]:<br />
<br />
<math>E[X] = \frac{1}{\lambda} \quad Var(X) = \frac{1}{\lambda^2}</math><br />
<br />
Je größer der [[Parameter]] <math>\lambda </math> ist, desto schneller geht die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der ''Exponentialverteilung'' für <math>x \rightarrow \infty </math> gegen Null und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] gegen Eins.<br />
<br />
===Gedächtnislosigkeit der Exponentialverteilung===<br />
<br />
An die Exponentialverteilung ist die folgende Bedingung geknüpft:<br />
<br />
<math>P(X \leq t + s |X\geq t) = P( X \leq s)</math>.<br />
<br />
Die inhaltliche Bedeutung dieser Bedingung lässt sich am leichtesten erklären, wenn <math>X\,</math> die Lebensdauer beinhaltet. <br />
<br />
Dann besagt die Bedingung, dass für jeden Zeitpunkt <math>t</math> die weitere Lebensdauer nicht von der bereits bis <math>t</math> verstrichenen Lebensdauer abhängt. <br />
<br />
Dies wird auch als ''Gedächtnislosigkeit der Exponentialverteilung'' bezeichnet. <br />
<br />
Im praktischen Fall der Betrachtung der Lebensdauer eines Systems bedeutet dies, dass das System nicht altert und die Ausfall[[wahrscheinlichkeit]] [[Unabhängigkeit (stochastisch)|unabhängig]] von Alter gleich groß ist.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Herleitung der Exponentialverteilung===<br />
<br />
Zwischen der Exponentialverteilung und der [[Poisson-Verteilung]] besteht ein enger Zusammenhang.<br />
<br />
Die [[Poisson-Verteilung]] wurde zur Berechnung der [[Wahrscheinlichkeit]] der Anzahl von [[Ereignis]]sen in einem festen Intervall bei Gültigkeit der Voraussetzungen eines [[Poisson-Prozess]]es verwendet, d.h. die zugrundeliegende [[Zufallsvariable]] <math>Y</math> ist als Anzahl des Eintretens eines bestimmten [[Ereignis]]ses in einem Kontinuum fester Länge mit der Intensität <math>\lambda</math> definiert.<br />
<br />
Fragt man stattdessen, welches Intervall verstreicht, bis nach der Beobachtung eines [[Ereignis]]ses das nächste auftritt, so bietet sich als Lösung die Exponentialverteilung an. <br />
<br />
Die Exponentialverteilung gibt die [[Wahrscheinlichkeit]] des Abstandes zweier aufeinanderfolgender, [[Poisson-Verteilung|Poisson-verteilter]] [[Ereignis]]se an.<br />
<br />
Die [[Zufallsvariable]] <math>X\,</math> bezeichnet somit das Intervall zwischen zwei aufeinanderfolgenden [[Ereignis]]sen und ist eine [[stetige Zufallsvariable]]. <br />
<br />
Die [[Wahrscheinlichkeit]], dass <math>X\,</math> höchstens den Wert <math>x</math> annimmt, berechnet sich als <br />
<br />
<math>P(X\leq x) = 1 - P</math> (kein [[Ereignis]] im Intervall der Länge <math>x</math>).<br />
<br />
<math>P(\mbox{kein Ereignis im Intervall der Länge} \ x)</math> ist aber gleich der [[Wahrscheinlichkeit]], dass die [[Poisson-Verteilung|Poisson-verteilte]] [[Zufallsvariable]] <math>Y</math> den Wert Null in dem Intervall der Länge <math>x</math> annimmt: <br />
<br />
<math>P(Y = 0)</math>, so dass<br />
<br />
<math>f_{PO}(y;\lambda \cdot x) = \frac{(\lambda \cdot x)^y}{y!}e^{- \lambda \cdot x}</math><br />
<br />
<math>P(Y = 0) = f_{PO}(0;\lambda \cdot x) = \frac{(\lambda \cdot x)^0}{0!}e^{- \lambda \cdot x} =e^{- \lambda \cdot x}</math><br />
<br />
ist. Damit gilt:<br />
<br />
<math>P(X \leq x) = 1 - e^{- \lambda \cdot x}</math><br />
<br />
Dies ist jedoch die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Exponentialverteilung, d.h. <math>X\,</math> ist exponentialverteilt.<br />
<br />
===Graphische Darstellung der Exponentialverteilung===<br />
<br />
Die grafische Darstellung einer exponentialverteilten [[Zufallsvariable]]n erfolgt in Form einer [[Dichtefunktion (eindimensional)|Dichtefunktion]], da es sich<br />
hier um eine [[stetige Zufallsvariable]] <math>X\,</math> handelt.<br />
<br />
<iframe k="wiwi" p="examples/stat_ExponentialV_Exponential_Dichte_R00480004800000000000000_plot.html" /><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Verwendung der Exponentialverteilung===<br />
<br />
Die Exponentialverteilung wird häufig verwendet, um die Dauer von kontinuierlichen Vorgängen bzw. Wartezeiten zu modellieren, z.B.<br />
<br />
* Wartezeit bis zur Bedienung in einem Restaurant, einer Tankstelle oder Bank;<br />
* Wartezeit bis zum Ausfall einer Komponente eines technischen Systems,<br />
* Servicezeit (Rechenzeit eines Jobs, Beladezeit eines LKW, Reparaturdauer),<br />
* Lebensdauer (von Verschleißteilen, Personen),<br />
* Dauer von Telefongesprächen,<br />
* Zeit bis zur nächsten Schadensmeldung bei einer Sachversicherung.<br />
<br />
===Maschine===<br />
<br />
Veranschaulichung des engen Zusammenhangs von Exponentialverteilung und [[Poisson-Verteilung]]:<br />
<br />
Die [[Poisson-Verteilung]] gibt die [[Wahrscheinlichkeit]] für die Anzahl <math>Y</math> der Vorkommnisse eines bestimmten Phänomens in einem Kontinuum fester Länge mit der Intensität <math>\lambda</math> an.<br />
<br />
Ein Beispiel zur Veranschaulichung der [[Poisson-Verteilung]] sei eine Maschine, bei der durchschnittlich 2 Defekte pro Woche auftreten.<br />
<br />
Es ist: <math>t = </math>Anzahl der Intervalle fester Länge = Anzahl der Wochen <br />
<br />
(a) Die [[Wahrscheinlichkeit]], dass in einer Woche kein Defekt auftritt, beträgt:<br />
<br />
: <math>Y_1</math>: "Anzahl der Defekte pro Woche" mit <math>t=1</math>.<br />
<br />
: <math>E[Y_1] = \lambda = 2 \qquad Y_1 \sim PO(2)</math><br />
<br />
: <math>f_{PO}(y_1;\lambda) = \frac{(\lambda\cdot t)^{y_1}}{y_1!}e^{- \lambda\cdot x} = \frac{(2 \cdot 1)^0}{0!}e^{-2 \cdot 1} = e^{-2}=0,1353</math><br />
<br />
(b) Die [[Wahrscheinlichkeit]], dass in zwei Wochen kein Defekt auftritt, beträgt:<br />
<br />
: <math>Y_2</math>: "Anzahl der Defekte in zwei Wochen" mit <math>t=2</math><br />
<br />
: <math>E[Y_2] = \lambda\cdot t = 2 \cdot 2 \qquad Y_{2} \sim PO(4)</math><br />
<br />
:{|<br />
|<math>P(Y_{2} = 0)</math><br />
|<math> = \frac{4^0}{0!}e^{-4} = e^{-4} = 0,0183</math><br />
|-<br />
|<br />
|<math> = \frac{(2 \cdot 2)^0}{0!}e^{-2 \cdot 2} = e^{-4}</math><br />
|}<br />
<br />
:<math>P(Y_2 = 0) = \frac{(2 \cdot 2)^0}{0!}e^{-2 \cdot 2} =\frac{4^0}{0!}e^{-4} = e^{-4} = 0.0183</math><br />
<br />
Allgemein folgt:<br />
<br />
Die [[Wahrscheinlichkeit]], dass in <math>t</math> Wochen kein Defekt auftritt, ist:<br />
<br />
<math>Y</math>: "Anzahl der Defekte in <math>t</math> Wochen".<br />
<br />
<math>E[Y] = \lambda\cdot t \qquad Y \sim PO(\lambda\cdot t)</math><br />
<br />
<math>P(Y = 0) = \frac{(\lambda\cdot t)^0}{0!}e^{- \lambda\cdot t} = e^{- \lambda\cdot t}</math><br />
<br />
Nun interessiert jedoch die Frage nach der [[Wahrscheinlichkeit]] einer bestimmten Wartezeit bis zum Auftreten des nächsten Defektes, z.B. die [[Wahrscheinlichkeit]], dass die Wartezeit bis zum nächsten Defekt mehr als 2 Wochen beträgt.<br />
<br />
<math>X</math>: "Wartezeit bis zum nächsten Defekt"<br />
<br />
Zur Berechnung von <math>P(X>2)</math> ist die Exponentialverteilung zu verwenden:<br />
<br />
<math>P(X > 2) = 1 - P(X \leq 2) = 1 - F_{EX}(x; \lambda) = 1 - (1 -e^{- \lambda\cdot x}) = e^{- \lambda\cdot x} = e^{-2 \cdot 2} = 0,0183</math><br />
<br />
Wie ersichtlich ist dieses Ergebnis identisch mit der [[Wahrscheinlichkeit]] <math>P(Y_{2} = 0)</math> für die [[Poisson-Verteilung|Poisson-verteilte]] [[Zufallsvariable]] <math>Y_{2}</math>, dass in zwei Wochen kein Defekt auftritt.<br />
<br />
<iframe k="wiwi" p="examples/stat_ExponentialV_Exponential_WahrD2_R00480004800000000000000_plot.html" /><br />
<iframe k="wiwi" p="examples/stat_ExponentialV_Exponential_VerteilungF_R00480004800000000000000_plot.html" /><br />
<br />
===Elektronisches Bauteil===<br />
<br />
Bei einem elektronischen Bauteil kann man 48 Ausfälle pro Tag (= 24 Stunden) erwarten. <br />
<br />
Die Ausfälle erfolgen kurzfristig, rein zufällig und [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander. <br />
<br />
Die im Mittel pro Stunde zu erwartende Anzahl von Ausfällen AC ist <math>\lambda =\frac{48}{24} =2</math>.<br />
<br />
Die [[Zufallsvariable]] <math>T</math> ist als die Zeit zwischen 2 Ausfällen definiert, somit eine [[stetige Zufallsvariable]] und exponentialverteilt: <math>T\sim EX(2)\,</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_ExponentialV_Exponential_WahrD2_R00480004800000000000000_plot.html" /><br />
<br />
Die [[Wahrscheinlichkeit]], dass bis zum nächsten Ausfall mehr als zwei Stunden vergehen, berechnet sich folgendermaßen:<br />
<br />
<math>P(T>2)=1-F_{EX}(2)=1-(1-e^{-2\cdot 2})=e^{-4}=0,01832</math><br />
<br />
Nun wird angenommen, dass ein elektronisches System aus zwei solcher Bauteile besteht, welche [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander funktionieren. <br />
<br />
Das System fällt aus, sobald ein Bauteil nicht mehr funktioniert<br />
<br />
<math>T_{1} = \mbox{'Zeit zwischen 2 Ausfällen für 1. Bauteil'} </math><br />
<br />
<math>T_{2} = \mbox{'Zeit zwischen 2 Ausfällen für 2. Bauteil'} </math><br />
<br />
<math>T_{1}\sim EX(2)\,</math> und <math>T_{2}\sim EX(2)\,</math><br />
<br />
Da das System nur bei Funktionsfähigkeit beider Bauteile arbeitet, müssen beide mehr als 2 Stunden funktionieren:<br />
<br />
<math>\,P(\mbox{Das System funktioniert mehr als 2 Stunden})</math><br />
<br />
<math>=P \left( \left( \mbox{1. Bauteil funktioniert mehr als 2 Stunden} \right) \cap P \left( \mbox{2. Bauteil funktioniert mehr als 2 Stunden} \right) \right) </math><br />
<br />
<math>=P(\mbox{1. Bauteil funktioniert mehr als 2 Stunden})\cdot P(\mbox{2. Bauteil funktioniert mehr als 2 Stunden})</math><br />
<br />
<math>=P(T_{1}\geq 2)\cdot P(T_{2}\geq 2)=(0,01832)^{2}=0,000336</math><br />
<br />
Es wurde der [[Multiplikationssatz bei Unabhängigkeit|Multiplikationssatzes für unabhängige Ereignisse]] angewandt, da die beiden Bauteile im System [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander funktionieren.<br />
<br />
<!--==Interaktives Beispiel Exponentialverteilung==<br />
<br />
<br />
<br />
Die Exponentialverteilung hängt von dem Parametern <math>\lambda</math> ab.<br />
Sie haben nunmehr die Möglichkeit, diesen Parameter zu variieren<br />
und erhalten als Output die grafische Darstellung der<br />
entsprechenden Dichtefunktion der <math>EX(\lambda)</math>, um die<br />
Veränderung in der Gestalt der Exponentialverteilung studieren<br />
zu können.--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Erwartungstreue&diff=1241Erwartungstreue2018-05-29T12:37:50Z<p>Jacobdan: </p>
<hr />
<div>{{Schaetztheorie}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Erwartungstreue (eng. unbiasedness) oder Unverzerrtheit===<br />
<br />
Die ''Erwartungstreue'' trifft eine Aussage über den [[Erwartungswert]] einer [[Schätzfunktion]], der die Lage der [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>\hat{\theta}</math> angibt.<br />
<br />
Eine [[Schätzfunktion]] <math>\hat{\theta}</math> des unbekannten [[Parameter]]s <math>\vartheta</math> heißt ''erwartungstreu'' oder ''unverzerrt (unbiased)'', wenn der [[Erwartungswert]] der [[Schätzfunktion]] mit dem wahren [[Parameter]] übereinstimmt:<br />
<br />
<math>E\left[\hat{\theta}\right]=\vartheta</math><br />
<br />
Die Eigenschaft der Erwartungstreue besagt, dass sich bei einer hinreichend großen Anzahl von [[Stichprobe]]n des [[Stichprobenumfang|Umfang]]s <math>n</math> die positiven und negativen [[Schätzfehler]] gegenseitig aufheben (d.h. zu Null addieren) und die [[Schätzfunktion]] tendenziell den wahren<br />
[[Parameter]] weder überschätzt noch unterschätzt.<br />
<br />
Für eine erwartungstreue [[Schätzfunktion]] ist somit der MSE gleich der [[Varianz (stochastisch)|Varianz]] der [[Schätzfunktion]]:<br />
<br />
<math>MSE=Var(\hat{\theta})</math><br />
<br />
und die Genauigkeit der [[Schätzung]] kann über die [[Varianz (stochastisch)|Varianz]] der [[Schätzfunktion]] bestimmt werden.<br />
<br />
===Asymptotische Erwartungstreue===<br />
<br />
Eine [[Schätzfunktion]] <math>\hat{\theta}</math> des unbekannten [[Parameter der Grundgesamtheit|Parameters <math>\vartheta</math>]] heißt ''asymptotisch erwartungstreu'', wenn gilt<br />
<br />
<math>\lim_{n\rightarrow\infty}E(\hat{\theta})=\vartheta</math>,<br />
<br />
d.h. die [[Verzerrung]] geht mit wachsendem [[Stichprobenumfang]] <math>n</math> gegen Null.<br />
<br />
===Verzerrung (eng. bias)===<br />
<br />
Bei nicht erwartungstreuen [[Schätzfunktion]]en tritt eine Differenz zwischen dem [[Erwartungswert]] der [[Schätzfunktion]] und dem wahren<br />
[[Parameter der Grundgesamtheit]] auf, die als ''Verzerrung'' oder ''bias'' bezeichnet wird:<br />
<br />
<math> \mbox{Verzerrung} \ (\hat{\theta})=E\left[\hat{\theta}\right]-\vartheta\neq0</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Erwartungstreue des Stichprobenmittelwert===<br />
<br />
Der [[Stichprobenmittelwert]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
ist eine erwartungstreue [[Schätzfunktion]] für den unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> der Grundgesamtheit]], denn es gilt <br />
<br />
<math>E\left[\bar{X}\right]=\mu</math> <br />
<br />
(vgl. Abschnitt [[Verteilung des Stichprobenmittelwertes]]).<br />
<br />
===Erwartungstreue des Stichprobenanteilswert===<br />
<br />
Der [[Stichprobenanteilswert]]<br />
<br />
<math>\widehat{\pi}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
ist eine erwartungstreue [[Schätzfunktion]] für den unbekannten [[Anteilswert der Grundgesamtheit|Anteilswert <math>\pi</math> der Grundgesamtheit]], denn es gilt<br />
<br />
<math>E\left[\widehat{\pi}\right]=\pi</math>.<br />
<br />
(vgl. Abschnitt [[Verteilung des Stichprobenanteilswertes]])<br />
<br />
===Erwartungstreue der Stichprobenvarianz bei bekanntem Erwartungswert===<br />
<br />
Es wird von einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] mit dem [[Stichprobenumfang|Umfang]] <math>n</math> ausgegangen.<br />
<br />
Falls der [[Erwartungswert der Grundgesamtheit|Erwartungswertes <math>E[X] = \mu</math> der Grundgesamtheit]] bekannt ist, ist die [[Schätzfunktion]]<br />
<br />
<math>S^{*2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}</math><br />
<br />
eine erwartungstreue [[Schätzfunktion]] für die unbekannte [[Varianz der Grundgesamtheit|Varianz <math>\sigma^{2}</math> der Grundgesamtheit]], denn es gilt<br />
<br />
<math>\,E\left[ S^{*2}\right]=\sigma^{2}</math><br />
<br />
(vgl. Abschnitt [[Verteilung der Stichprobenvarianz]])<br />
<br />
===Erwartungstreue des Stichprobenvarianz bei unbekanntem Erwartungswert===<br />
<br />
Es wird von einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] mit dem [[Stichprobenumfang|Umfang]] <math>n</math> ausgegangen.<br />
<br />
Falls der [[Erwartungswert der Grundgesamtheit|Erwartungswert <math>E[X] = \mu</math> der Grundgesamtheit]] unbekannt ist und durch den [[Stichprobenmittelwert]] geschätzt wird, ist die [[Schätzfunktion]]<br />
<br />
<math>S^{2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}</math><br />
<br />
eine erwartungstreue [[Schätzfunktion]] für die unbekannte [[Varianz der Grundgesamtheit|Varianz <math>\sigma^{2}</math> der Grundgesamtheit]], denn es gilt<br />
<br />
<math>\,E\left[ S^{2}\right]=\sigma^{2}</math><br />
<br />
(vgl. Abschnitt [[Verteilung der Stichprobenvarianz]])<br />
<br />
Die [[Standardabweichung des Stichprobenmittelwertes|Standardabweichung]] als Wurzel aus der [[Stichprobenvarianz]] <math>S^{2}</math> ist jedoch im Allgemeinen keine erwartungstreue Schätzung für <math>\sigma</math>, sondern unterschätzt im<br />
Durchschnitt die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Grundgesamtheit]].<br />
<br />
Die [[Schätzfunktion]]<br />
<br />
<math>S^{\prime 2}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n} (X_{i}- \bar{X})^{2}</math>,<br />
<br />
die die in der [[Deskriptive Statistik|deskriptiven Statistik]] übliche Definition der [[Varianz (stochastisch)|Varianz]] beinhaltet, ist<br />
dagegen nicht erwartungstreu, denn es gilt<br />
<br />
{|<br />
|<math>E\left[S^{\prime 2}\right]=</math><br />
|<math>E\left[ \frac{1}{n}\cdot\sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}\right]</math><br />
|-<br />
|<br />
|<math>=\frac{1}{n}\cdot E\left[ \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}\right]</math><br />
|-<br />
|<br />
|<math>=\frac{n-1}{n}\cdot\sigma^{2}</math><br />
|}<br />
<br />
(vgl. Abschnitt [[Verteilung der Stichprobenvarianz]])<br />
<br />
Die [[Verzerrung]] ([[bias]]) ergibt sich zu<br />
<br />
<math>E\left[S^{\prime 2}\right]-\sigma^{2}=\frac{n-1}{n}\cdot\sigma^{2}-\sigma^{2}=-\frac{\sigma^{2}}{n}</math><br />
<br />
Mit der [[Schätzfunktion]] <math>S^{\prime 2}</math> wird im Mittel der [[Stichprobe]]n die unbekannte [[Varianz der Grundgesamtheit]] unterschätzt. <br />
<br />
Diese [[Schätzfunktion]] ist jedoch [[Asymptotische Erwartungstreue|asymptotisch erwartungstreu]], da mit wachsendem [[Stichprobenumfang]] <math>n</math> die [[Verzerrung]] gegen Null geht.<br />
<br />
Aus dieser Darstellung wird nunmehr auch deutlich, warum bei der [[Schätzfunktion]] <math>S^{2}</math> eine Normierung auf <math>n - 1</math> erfolgt, da dadurch die Erwartungstreue erreicht wird.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Erwartungstreue dreier Schätzfunktionen===<br />
<br />
Die folgende Abbildung zeigt drei [[Schätzfunktion]]en mit symmetrischer [[Verteilung (stochastisch)|Verteilung]] für denselben [[Parameter der Grundgesamtheit|Parameter <math>\vartheta</math> der Grundgesamtheit]].<br />
<br />
| <iframe k="wiwi" p="examples/stat_Erwartungstreue_Erwartungstreue_R00480004800000000000000_plot.html" /><br />
<br />
Die [[Schätzfunktion]]en <math>\hat{\theta}_{1}</math> und <math>\hat{\theta}_{2}</math> sind erwartungstreue [[Schätzfunktion]]en, da ihr [[Erwartungswert]] mit dem wahren [[Parameter der Grundgesamtheit|Parameter <math>\vartheta</math> der Grundgesamtheit]] übereinstimmt. <br />
<br />
Dagegen ist die [[Schätzfunktion]] <math>\hat{\theta}_{3}</math> nicht erwartungstreu.<br />
<br />
Für die beiden erwartungstreuen [[Schätzfunktion]]en gilt<br />
<br />
<math>MSE=Var(\hat{\theta})</math>,<br />
<br />
da die [[Verzerrung]] gleich Null ist. <br />
<br />
Offensichtlich unterscheiden sich aber beide [[Schätzfunktion]]en hinsichtlich der Größe der [[Varianz (stochastisch)|Varianz]]. <br />
<br />
Obwohl erwartungstreu kann eine [[Schätzfunktion]] eine relativ große [[Varianz (stochastisch)|Varianz]] aufweisen, so dass die Eigenschaft der<br />
Erwartungstreue durch weitere [[Gütekriterien einer Schätzfunktion|Gütekriterien]] ergänzt werden sollte.<br />
<br />
===Schätzung der Parameter===<br />
<br />
Für eine [[Grundgesamtheit]] sollen der unbekannte [[Erwartungswert]] <math>E[X] = \mu</math> und die unbekannte (endliche) [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}</math> geschätzt werden.<br />
<br />
Eine [[einfache Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 12</math> aus einer [[Grundgesamtheit]] ergab folgende Werte:<br />
<br />
1; 5; 3; 8; 7; 2; 1; 4; 3; 5; 3; 6.<br />
<br />
====Schätzung des Erwartungswertes====<br />
<br />
Da bekannt ist, dass der [[Stichprobenmittelwert]]<br />
<br />
<math>\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}</math><br />
<br />
eine erwartungstreue und [[Absolute Effizienz|absolut effiziente]] [[Schätzfunktion]] ist, wird diese [[Schätzfunktion]] verwendet. <br />
<br />
Einsetzen der [[Stichprobenwerte]] führt zu dem [[Schätzwert]]<br />
<br />
<math>\bar{x}=\frac{1}{12}\cdot(1+5+3+8+7+2+1+4+3+5+3+6)=\frac{48}{12}=4</math><br />
<br />
Dieses Ergebnis dient als [[Punktschätzung]] für <math>\mu</math>.<br />
<br />
====Schätzung der Varianz====<br />
<br />
Da <math>E[X] = \mu</math> unbekannt ist, wird die [[Schätzfunktion]]<br />
<br />
<math>S^{2}=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}</math><br />
<br />
verwendet, da sie erwartungstreu ist. <br />
<br />
Einsetzen der [[Stichprobenwerte]] führt zu der [[Punktschätzung]]<br />
<br />
{|<br />
|<math>\,s^{2}</math><br />
|<math>=\frac{1}{n-1}\cdot\sum\limits_{i=1}^{12}(x_{i}-\bar{x})^{2}</math><br />
|-<br />
|<br />
|<math>=\frac{1}{11}\cdot\left[(1-4)^{2}+(5-4)^{2}+\dots+(3-4)^{2}+(6-4)^{2}\right]=\frac{1}{11}\cdot56=5,09</math><br />
|}</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Entscheidungssituationen&diff=1240Entscheidungssituationen2018-05-29T12:35:49Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Entscheidungssituationen===<br />
<br />
Da [[Statistischer Test|statistische Tests]] auf [[Stichprobe]]nergebnissen basieren, können Fehlentscheidungen nicht ausgeschlossen werden.<br />
<br />
Je nachdem, welches konkrete Ergebnis die [[Stichprobe]] liefert, wird man im Ergebnis des [[Statistischer Test|Tests]] die [[Nullhypothese]] entweder nicht ablehnen oder ablehnen. <br />
<br />
Dies sei wie folgt symbolisiert:<br />
<br />
* <math>\mbox{''}H_0\mbox{''}</math>: [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der Nullhypothese]] aufgrund der [[Statistischer Test|Test]]durchführung<br />
<br />
* <math>\mbox{''}H_{1}\mbox{''}</math>: [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] (Annahme der [[Alternativhypothese]]) aufgrund der [[Statistischer Test|Test]]durchführung<br />
<br />
Ebenso gibt es 2 Möglichkeiten für den wahren Zustand in der [[Grundgesamtheit]]:<br />
<br />
* <math>\mbox{''}H_{0}\mbox{''}</math>: die [[Nullhypothese]] gilt in Wirklichkeit<br />
<br />
* <math>\mbox{''}H_{1}\mbox{''}</math>: die [[Alternativhypothese]] gilt in Wirklichkeit.<br />
<br />
Daraus ergeben sich 4 ''Entscheidungssituationen'', wobei jede mit einer bestimmten [[Wahrscheinlichkeit]] behaftet ist.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|rowspan="2" align="center"|Entscheidung im Ergebnis des Tests<br />
|colspan="2" align="center"|Wahrer Zustand in der [[Grundgesamtheit]]<br />
|-<br />
|align="center"|<math>H_{0}</math> trifft zu<br />
|align="center"|<math>H_{0}</math> trifft nicht zu (<math>H_{1}</math> trifft zu)<br />
|-<br />
|align="center"|<math>H_{0}</math> wird nicht abgelehnt: <math>\mbox{''}H_{0}\mbox{''}</math><br />
|align="center"|Richtige Entscheidung <br />
<math>\mbox{''}H_{0}\mbox{''}|H_{0}: P(\mbox{''}H_{0}\mbox{''}|H_{0})=1-\alpha</math><br />
|align="center"|[[Fehler 2. Art]]<br />
<math>\mbox{''}H_{0}\mbox{''}|H_{1}:P(\mbox{''}H_{0}\mbox{''}|H_{1})=\beta</math><br />
|-<br />
|align="center"|<math>H_{0}</math> wird abgelehnt: <math>\mbox{''}H_{1}\mbox{''}</math><br />
|align="center"|[[Fehler 1. Art]]<br />
<math>\mbox{''}H_{1}\mbox{''}|H_{0}:P(\mbox{''}H_{1}\mbox{''}|H_{0})=\alpha </math><br />
|align="center"|Richtige Entscheidung<br />
<math>\mbox{''}H_{1}\mbox{''}|H_{1}:P(\mbox{''}H_{1}\mbox{''}|H_{1})=1-\beta</math><br />
|}<br />
<br />
===Fehler 1. Art bzw. &alpha;-Fehler===<br />
<br />
Es sei die [[Nullhypothese]] <math>H_{0}</math> der wahre Zustand in der [[Grundgesamtheit]].<br />
<br />
Wenn aufgrund der konkreten [[Stichprobe]] eine große Abweichung zwischen dem [[Prüfwert]] <math>v</math> der [[Teststatistik]] <math>V\;</math> und dem hypothetischen Wert <math>\vartheta_{0}</math> auftritt (d.h. <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich von <math>H_{0}</math>]] fällt), wird die [[Nullhypothese]] im Ergebnis der [[Statistischer Test|Test]]durchführung abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Da jedoch in Wirklichkeit <math>H_{0}</math> gilt, hat man einen Fehler begangen <math>(\mbox{''}H_{1}\mbox{''}|H_{0})</math>, der als ''Fehler 1. Art'' oder ''<math>\alpha</math>-Fehler'' bezeichnet wird.<br />
<br />
Ein derartiger Fehler kann bei der [[Statistischer Test|Test]]durchführung nicht ausgeschlossen werden, denn eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> mit einer großen Abweichung zu <math>\vartheta_{0}</math> ist bei Gültigkeit der <math>H_{0}</math> zwar relativ unwahrscheinlich, jedoch nicht unmöglich. <br />
<br />
Der Fehler soll jedoch lediglich mit einer vor der [[Statistischer Test|Test]]durchführung vorgegebenen kleinen [[Wahrscheinlichkeit]]<br />
vorkommen. <br />
<br />
Da die [[Wahrscheinlichkeit]], bei Gültigkeit der [[Nullhypothese]] eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> im<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, mit dem [[Signifikanzniveau]] <math>\alpha</math> vorgegeben wird, ist das auch die [[Wahrscheinlichkeit]] für einen Fehler 1. Art.<br />
<br />
Es gilt also:<br />
<br />
<math>P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)=\alpha</math><br />
<br />
===Fehler 2. Art bzw. &beta;-Fehler===<br />
<br />
Es sei die [[Alternativhypothese]] <math>H_{1}</math> der wahre Zustand in der [[Grundgesamtheit]].<br />
<br />
Wenn aufgrund der konkreten [[Stichprobe]] die Abweichung der [[Realisation]] <math>v</math> der [[Teststatistik]] <math>V\;</math> vom hypothetischen Wert <math>\vartheta_{0}</math> relativ klein ist (d.h. <math>v</math> fällt in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich von <math>H_{0}</math>]]), spricht dies für die [[Nullhypothese]] und man wird sie nicht ablehnen <math>(\mbox{''}H_{0}\mbox{''})</math>.<br />
<br />
Da jedoch in Wirklichkeit <math>H_1</math> gilt, hat man einen Fehler begangen <math>(\mbox{''}H_{0}\mbox{''}|H_{1})</math>, der als ''Fehler 2. Art'' oder <math>\beta</math>-Fehler bezeichnet wird.<br />
<br />
Ein derartiger Fehler kann bei der [[Statistischer Test|Test]]durchführung ebenfalls nicht ausgeschlossen werden, denn eine [[Realisation]] der [[Teststatistik]] <math>V\;</math> mit einer kleinen Abweichung zu <math>\vartheta_{0}</math> ist zwar in der Regel unwahrscheinlich, wenn <math>H_{1}</math> gilt, aber nicht unmöglich.<br />
<br />
Der Fehler 2. Art beinhaltet die fälschliche Beibehaltung der [[Nullhypothese]], d.h. die [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der Nullhypothese]], obwohl sie falsch ist. <br />
<br />
<math>\beta(\vartheta_{1})</math> bezeichne die [[Wahrscheinlichkeit]] dafür, einen Fehler 2. Art zu begehen, wenn <math>\vartheta_{1}</math> der wahre [[Parameter]]wert in der [[Grundgesamtheit]] ist:<br />
<br />
<math>P\left(H_{0}|H_{1}\right)=\beta \left(\vartheta _{1}\right)</math><br />
<br />
Man sieht bereits aus dieser Formulierung, dass diese [[Wahrscheinlichkeit]] unbekannt ist, da der wahre [[Parameter]]wert <math>\vartheta_{1}</math> nicht bekannt ist.<br />
<br />
Wenn aufgrund der konkreten [[Stichprobe]] der [[Prüfwert]] <math>v</math> der [[Teststatistik]] <math>V\;</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich von <math>H_{0}</math>]] fällt, wird die [[Nullhypothese]] im Ergebnis der [[Statistischer Test|Test]]durchführung abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Da auch in Wirklichkeit <math>H_{1}</math> gilt, hat man eine richtige Entscheidung getroffen <math>(\mbox{''}H_{1}\mbox{''}|H_{1})</math>. <br />
<br />
Die [[Wahrscheinlichkeit]] für diese richtige Entscheidung ist durch<br />
<br />
<math>P\left(H_{1}|H_{1}\right)=1-\beta \left(\vartheta_{1}\right)</math><br />
<br />
gegeben.<br />
<br />
Die [[Wahrscheinlichkeit]] <math>\beta(\vartheta_{1})</math> eines Fehlers 2. Art hängt von dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> ab.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Zusammenhang zwischen Fehler 1. Art und Fehler 2. Art===<br />
<br />
Verringert man bei konstantem [[Stichprobenumfang]] <math>n</math> das [[Signifikanzniveau]] <math>\alpha</math>, vergrößert sich die [[Wahrscheinlichkeit]] <math>\beta(\vartheta_{1})</math> eines [[Fehler 2. Art|Fehlers 2. Art]] und umgekehrt. <br />
<br />
Es ist somit nicht möglich, gleichzeitig beide Fehler[[wahrscheinlichkeit]]en beliebig zu verringern. <br />
<br />
Grafisch sei dieser Zusammenhang für einen [[Rechtsseitiger Test|rechtsseitigen Test]] unter Annahme der [[Normalverteilung]] für die [[Teststatistik]] <math>V\;</math> gezeigt.<br />
<br />
{{iframewiwi<br />
| <iframe k="wiwi" p="examples/stat_Entscheidungssituationen_Entscheidungssituationen_Abb1_R00480004800000000000000_plot.html" /><br />
<br />
| Abb. 1: [[Verteilung (stochastisch)|Verteilung]] der [[Teststatistik]] <math>V\;</math> unter <math>H_{0}</math> und unter <math>H_{1}</math>: Veränderung der Größe des [[Fehler 1. Art|Fehlers 1. Art]] und [[Fehler 2. Art|Fehlers 2. Art]] bei der Veränderung des Signifikanzniveaus}}<br />
<br />
Die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] hängt (bei vorgegebenem [[Signifikanzniveau]] <math>\alpha</math> und [[Stichprobenumfang]] <math>n</math>) weiterhin von der Lage des wahren [[Parameter]]wertes <math>\vartheta_{1}</math> gegenüber dem hypothetischen Wert <math>\vartheta_{0}</math> unter <math>H_{0}</math> ab. <br />
<br />
Ist der Abstand groß, ist <math>\beta(\vartheta_{1})</math> klein. Die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] wird jedoch immer größer, je kleiner der Abstand zwischen dem wahren [[Parameter]]wert <math>\vartheta_{1}</math> und dem hypothetischen Wert <math>\vartheta_{0}</math> unter <math>H_{0}</math> wird.<br />
<br />
Grafisch sei das wiederum für einen [[Rechtsseitiger Test|rechtsseitigen Test]] unter Annahme der [[Normalverteilung]] für die [[Teststatistik]] <math>V\;</math> gezeigt.<br />
<br />
{{iframewiwi<br />
| <iframe k="wiwi" p="examples/stat_Entscheidungssituationen_Entscheidungssituationen_Abb2_R00480004800000000000000_plot.html" /><br />
| '''Abb. 2: [[Verteilung (stochastisch)|Verteilung]] der [[Teststatistik]] <math>V\;</math> unter <math>H_{0}</math> und unter <math>H_{1}</math>: Veränderung der Größe des [[Fehler 1. Art|Fehlers 1. Art]] und [[Fehler 2. Art|Fehlers 2. Art]] bei der Veränderung des Abstandes zwischen wahren und hypothetischen Parameter'''<br />
}}<br />
<br />
===Interpretation von Testergebnissen===<br />
<br />
Da bei allen [[Statistischer Test|Test]]durchführungen die Wirklichkeit unbekannt ist und die Entscheidung nur auf einem [[Stichprobe]]nergebnis basiert, muss man sich stets bewusst sein, dass man mit der [[Statistischer Test|Test]]entscheidung einen Fehler begehen kann. <br />
<br />
Daher bedeutet die Beibehaltung der [[Nullhypothese]] noch lange nicht, dass ihre Richtigkeit bewiesen ist! Man hat lediglich ein [[Stichprobe]]nergebnis beobachtet, dass ihr nicht widerspricht. <br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnung]] bzw. [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der Nullhypothese]] haben eine unterschiedliche Aussagekraft. <br />
<br />
Bei einer [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] ist die [[Wahrscheinlichkeit]], einen<br />
[[Fehler 1. Art]] zu begehen, mit dem vorgegebenen [[Signifikanzniveau]] auf einen kleinen Wert beschränkt. <br />
<br />
Die [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung von <math>H_{0}</math>]] ist dagegen wesentlich unsicherer und [[Statistik|statistisch]] nicht abgesichert, da die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] im Allgemeinen nicht bekannt ist und sehr groß sein kann. <br />
<br />
Aus diesem Grund wird in der Regel diejenige Annahme als [[Alternativhypothese]] <math>H_{1}</math> formuliert, die "[[Statistik|statistisch]] bestätigt" werden soll oder deren fälschliche Annahme mit den schwerwiegenderen Folgen verbunden ist. <br />
<br />
Dies ist vor allem bei [[Einseitiger Test|einseitigen Tests]] zu beachten.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Einseitiger_Test&diff=1239Einseitiger Test2018-05-29T12:33:03Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Einseitige Tests===<br />
<br />
Bei ''einseitigen Tests'' gibt es einen [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]], da zu große Abweichungen der [[Teststatistik]] <math>V\;</math> vom hypothetischen Wert <math>\theta_{0}</math> nur in eine Richtung gegen die [[Nullhypothese]]<br />
sprechen. <br />
<br />
Der [[Kritischer Wert|kritische Wert]] wird mit <math>c</math> symbolisiert.<br />
<br />
===Linksseitiger Test===<br />
<br />
* [[Nullhypothese|Null-]] und [[Alternativhypothese]]:<br />
<br />
: <math>H_{0}:\theta \geq \theta _{0}\qquad H_{1}:\theta <\theta _{0}</math><br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die kleiner als der [[Kritischer Wert|kritische Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\,|\;v<c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] zu erhalten, ist höchstens so groß wie das vorgegebene [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
: <math>P\left\{V<c\;|\;\vartheta _{0}\right\}\leq \alpha</math> <br />
<br />
* [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die größer bzw. gleich dem [[Kritischer Wert|kritischen Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v\geq c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] zu erhalten, ist mindestens <math>1-\alpha </math>:<br />
<br />
: <math>P\left\{V\geq c\;|\;\vartheta _{0}\right\}\geq 1-\alpha</math><br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples/stat_EinseitigerTest_EinseitigerTest_R00480004800000000000000_plot.html" /><br />
| Abb. 1: Verteilung der Teststatistik <math>V</math> unter <math>H_0</math> und Entscheidungsbereiche<br />
}}<br />
<br />
===Rechtsseitiger Test===<br />
<br />
* [[Nullhypothese|Null-]] und [[Alternativhypothese]]:<br />
<br />
: <math>H_{0}:\vartheta \leq \vartheta_{0} \qquad H_{1}: \vartheta > \vartheta_{0}</math><br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die größer als der [[Kritischer Wert|kritische Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v>c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] zu erhalten, ist höchstens so groß wie das vorgegebene [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
: <math>P\left\{V>c\;|\;\vartheta _{0}\right\}\leq\alpha</math><br />
<br />
* [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die kleiner bzw. gleich dem [[Kritischer Wert|kritischen Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v\leq c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] zu erhalten, ist mindestens <math>1-\alpha</math>:<br />
<br />
: <math>P\left\{V\leq c\;|\;\vartheta _{0}\right\}\geq 1-\alpha</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Testentscheidungen bei einem rechtsseitigen Test===<br />
<br />
Zur Veranschaulichung sei angenommen, dass<br />
<br />
* ein [[rechtsseitiger Test]] für einen [[Parameter]] <math>\vartheta</math> durchgeführt wird: <math>H_{0}: \vartheta \leq \vartheta_{0}</math> und <math>H_1: \vartheta > \vartheta_{0}</math><br />
* die [[Teststatistik]] <math>V\;</math> bei Gültigkeit der [[Nullhypothese]] [[Standardnormalverteilung|standardnormalverteilt]] ist.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] wird dann durch alle Werte der [[Teststatistik]] <math>V\;</math> gebildet, für die <math>\{v|v>c\}</math> gilt. <br />
<br />
Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = P(V > c |\vartheta_{0})</math> und ist in der folgenden Abb. 2 (oben) durch die grüne Fläche gekennzeichnet.<br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples/stat_EinseitigerTest_EinseitigerTestUeberschreitung_R00480004800000000000000_plot.html" /><br />
| Abb. 2: Signifikanzniveau, Entscheidungsbereiche (oben) und Überschreitungswahrscheinlichkeit (unten) beim rechtsseitigen Test<br />
}}<br />
<br />
Die [[Statistischer Test|Test]]entscheidung ist wie folgt: Ist der aus der [[Stichprobe]] berechnete [[Prüfwert]] ein<br />
[[Statistisches Element|Element]] des [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereiches der <math>H_{0}</math>]], so wird die [[Nullhypothese]] auf dem vorgegebenen [[Signifikanzniveau]] und basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> verworfen. <br />
<br />
Andernfalls besteht keine Veranlassung, <math>H_{0}</math> abzulehnen. Die [[Statistischer Test|Test]]entscheidung basiert somit auf einem Vergleich des [[Prüfwert]]es <math>v</math> mit den [[Entscheidungsbereiche]]n.<br />
<br />
Bei Verwendung [[Statistik|statistischer]] Software (z.B. R, STATA, SPSS, Matlab) wird ebenfalls der [[Prüfwert]] <math>v</math> auf der Grundlage der [[Stichprobe]] berechnet und im Output ausgewiesen. <br />
<br />
Zusätzlich wird die [[Überschreitungswahrscheinlichkeit]] dieses [[Prüfwert]]es <math>v</math> ausgegeben, d.h. die [[Wahrscheinlichkeit]] <math>P(V > v | \vartheta_{0})</math>, dass die [[Teststatistik]] <math>V\;</math> einen Wert annimmt, der größer als dieser berechnete [[Prüfwert]] <math>v</math> ist (bei Gültigkeit der [[Nullhypothese]] <math>H_{0}</math>). <br />
<br />
Diese [[Überschreitungswahrscheinlichkeit]] wird im Output [[Statistik|statistischer]] Software sehr unterschiedlich bezeichnet (z.B. als Significance, p-value, 1-tailed P bzw. 1-tailed Sig beim einseitigen Test bzw. 2-tailed P bzw. 2-tailed Sig beim [[zweiseitiger Test|zweiseitigen Test]]). <br />
<br />
Hier sei das Symbol <math>P</math> verwendet, so dass <math>P = P(V > v | \vartheta_{0})</math> gilt. Abb. 2 (unten) veranschaulicht diese [[Überschreitungswahrscheinlichkeit]] durch die himmelblaue Fläche.<br />
<br />
Der Nutzer der Software braucht nun nicht erst zu Tabellen der entsprechenden [[Verteilung (stochastisch)|Verteilung]] der [[Teststatistik]] <math>V\;</math> greifen, um den bzw. die [[Kritischer Wert|kritischen Werte]] und damit die [[Entscheidungsbereiche]] des [[Statistischer Test|Tests]] zu ermitteln. <br />
<br />
Im Output sind alle notwendigen Informationen für die [[Statistischer Test|Test]]entscheidung enthalten, die nunmehr auf dem Vergleich des vorgegebenen [[Signifikanzniveau]]s <math>\alpha</math> und der [[Überschreitungswahrscheinlichkeit]] <math>P</math> beruht. <br />
<br />
Das sei wie folgt gezeigt.<br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] <math>H_{0}</math><br />
<br />
: Ergibt sich aufgrund einer konkreten [[Stichprobe]] ein [[Prüfwert]] <math>v</math>, der weit von <math>\vartheta_{0}</math> entfernt liegt, dann ist die [[Überschreitungswahrscheinlichkeit]] <math>P = P(V > v | \vartheta_{0})</math> unter der [[Verteilung (stochastisch)|Verteilung]] von <math>H_{0}</math> sehr klein. <br />
<br />
: <math>v</math> ist ein für die Gültigkeit der [[Nullhypothese]] extremer Wert und die [[Nullhypothese]] erscheint unplausibel. <br />
<br />
: Ein solcher Wert <math>v</math> kommt eher unter der [[Alternativhypothese]] zustande, so dass auf einen signifikanten Unterschied zwischen <math>\vartheta_{0}</math> und <math>\vartheta</math> geschlossen wird, d.h. die [[Nullhypothese]] abgelehnt wird.<br />
<br />
: Entscheidungsregel:<br />
<br />
: Erhält man im Output der Software eine [[Überschreitungswahrscheinlichkeit]], für die <math>P\leq\alpha</math> gilt, impliziert dies, dass der [[Prüfwert]] <math>v</math> ein Element des [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereiches der <math>H_{0}</math>]] zum vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> ist. Die [[Nullhypothese]] wird abgelehnt.<br />
<br />
: Bei dem hier demonstrierten [[Rechtsseitiger Test|rechtsseitigen Test]] wird diese Entscheidungsregel in der Abb. 3 deutlich.<br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples/stat_EinseitigerTest_EinseitigerTestEntscheidung_R00480004800000000000000_plot.html" /><br />
|Abb. 3: Signifikanzniveau und Überschreitungswahrscheinlichkeit bei Gültigkeit der <math>H_0</math><br />
}}<br />
<br />
* b) [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der Nullhypothese]]<br />
<br />
: Ergibt sich aufgrund einer konkreten [[Stichprobe]] ein [[Prüfwert]] <math>v</math>, der relativ nahe bei <math>\vartheta_{0}</math> liegt, dann ist die [[Überschreitungswahrscheinlichkeit]] <math>P = P(V > v |\vartheta_{0})</math> unter der [[Verteilung (stochastisch)|Verteilung]] von <math>H_{0}</math> groß. <br />
<br />
: <math>v</math> ist ein für die Gültigkeit der [[Nullhypothese]] plausibler Wert, die Abweichung zwischen <math>v</math> und <math>\vartheta_{0}</math> kann als zufällig angesehen werden. Die [[Nullhypothese]] wird in diesem Fall nicht abgelehnt.<br />
<br />
: Entscheidungsregel:<br />
<br />
: Ist <math>P > \alpha</math>, impliziert dies, dass der [[Prüfwert]] <math>v</math> ein Element des [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereiches der <math>H_{0}</math>]] ist. Die [[Nullhypothese]] wird nicht abgelehnt.<br />
<br />
: Mit den gleichen Regeln sind die [[Statistischer Test|Test]]entscheidungen bei einem [[Linksseitiger Test|linksseitigen Test]] bzw. einem [[zweiseitiger Test|zweiseitigen Test]] zu treffen.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Einseitiger_Test&diff=1238Einseitiger Test2018-05-29T12:30:42Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Einseitige Tests===<br />
<br />
Bei ''einseitigen Tests'' gibt es einen [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]], da zu große Abweichungen der [[Teststatistik]] <math>V\;</math> vom hypothetischen Wert <math>\theta_{0}</math> nur in eine Richtung gegen die [[Nullhypothese]]<br />
sprechen. <br />
<br />
Der [[Kritischer Wert|kritische Wert]] wird mit <math>c</math> symbolisiert.<br />
<br />
===Linksseitiger Test===<br />
<br />
* [[Nullhypothese|Null-]] und [[Alternativhypothese]]:<br />
<br />
: <math>H_{0}:\theta \geq \theta _{0}\qquad H_{1}:\theta <\theta _{0}</math><br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die kleiner als der [[Kritischer Wert|kritische Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\,|\;v<c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] zu erhalten, ist höchstens so groß wie das vorgegebene [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
: <math>P\left\{V<c\;|\;\vartheta _{0}\right\}\leq \alpha</math> <br />
<br />
* [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die größer bzw. gleich dem [[Kritischer Wert|kritischen Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v\geq c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] zu erhalten, ist mindestens <math>1-\alpha </math>:<br />
<br />
: <math>P\left\{V\geq c\;|\;\vartheta _{0}\right\}\geq 1-\alpha</math><br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples?P=stat/EinseitigerTest/EinseitigerTest.R&V=P&W=700&H=500" H="600"/> <br />
| Abb. 1: Verteilung der Teststatistik <math>V</math> unter <math>H_0</math> und Entscheidungsbereiche<br />
}}<br />
<br />
===Rechtsseitiger Test===<br />
<br />
* [[Nullhypothese|Null-]] und [[Alternativhypothese]]:<br />
<br />
: <math>H_{0}:\vartheta \leq \vartheta_{0} \qquad H_{1}: \vartheta > \vartheta_{0}</math><br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die größer als der [[Kritischer Wert|kritische Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v>c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich]] zu erhalten, ist höchstens so groß wie das vorgegebene [[Signifikanzniveau]] <math>\alpha</math>:<br />
<br />
: <math>P\left\{V>c\;|\;\vartheta _{0}\right\}\leq\alpha</math><br />
<br />
* [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]]:<br />
<br />
: Der [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der <math>H_{0}</math>]] besteht aus allen [[Realisation]]en <math>v</math> der [[Teststatistik]] <math>V\;</math>, die kleiner bzw. gleich dem [[Kritischer Wert|kritischen Wert]] <math>c</math> sind:<br />
<br />
: <math>\left\{v\;|\;v\leq c\right\}</math><br />
<br />
: Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich]] zu erhalten, ist mindestens <math>1-\alpha</math>:<br />
<br />
: <math>P\left\{V\leq c\;|\;\vartheta _{0}\right\}\geq 1-\alpha</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Testentscheidungen bei einem rechtsseitigen Test===<br />
<br />
Zur Veranschaulichung sei angenommen, dass<br />
<br />
* ein [[rechtsseitiger Test]] für einen [[Parameter]] <math>\vartheta</math> durchgeführt wird: <math>H_{0}: \vartheta \leq \vartheta_{0}</math> und <math>H_1: \vartheta > \vartheta_{0}</math><br />
* die [[Teststatistik]] <math>V\;</math> bei Gültigkeit der [[Nullhypothese]] [[Standardnormalverteilung|standardnormalverteilt]] ist.<br />
<br />
Der [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] wird dann durch alle Werte der [[Teststatistik]] <math>V\;</math> gebildet, für die <math>\{v|v>c\}</math> gilt. <br />
<br />
Die [[Wahrscheinlichkeit]], eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der <math>H_{0}</math>]] zu erhalten, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = P(V > c |\vartheta_{0})</math> und ist in der folgenden Abb. 2 (oben) durch die grüne Fläche gekennzeichnet.<br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples/stat_EinseitigerTest_EinseitigerTest_R00480004800000000000000_plot.html" /><br />
| Abb. 2: Signifikanzniveau, Entscheidungsbereiche (oben) und Überschreitungswahrscheinlichkeit (unten) beim rechtsseitigen Test<br />
}}<br />
<br />
Die [[Statistischer Test|Test]]entscheidung ist wie folgt: Ist der aus der [[Stichprobe]] berechnete [[Prüfwert]] ein<br />
[[Statistisches Element|Element]] des [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereiches der <math>H_{0}</math>]], so wird die [[Nullhypothese]] auf dem vorgegebenen [[Signifikanzniveau]] und basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> verworfen. <br />
<br />
Andernfalls besteht keine Veranlassung, <math>H_{0}</math> abzulehnen. Die [[Statistischer Test|Test]]entscheidung basiert somit auf einem Vergleich des [[Prüfwert]]es <math>v</math> mit den [[Entscheidungsbereiche]]n.<br />
<br />
Bei Verwendung [[Statistik|statistischer]] Software (z.B. R, STATA, SPSS, Matlab) wird ebenfalls der [[Prüfwert]] <math>v</math> auf der Grundlage der [[Stichprobe]] berechnet und im Output ausgewiesen. <br />
<br />
Zusätzlich wird die [[Überschreitungswahrscheinlichkeit]] dieses [[Prüfwert]]es <math>v</math> ausgegeben, d.h. die [[Wahrscheinlichkeit]] <math>P(V > v | \vartheta_{0})</math>, dass die [[Teststatistik]] <math>V\;</math> einen Wert annimmt, der größer als dieser berechnete [[Prüfwert]] <math>v</math> ist (bei Gültigkeit der [[Nullhypothese]] <math>H_{0}</math>). <br />
<br />
Diese [[Überschreitungswahrscheinlichkeit]] wird im Output [[Statistik|statistischer]] Software sehr unterschiedlich bezeichnet (z.B. als Significance, p-value, 1-tailed P bzw. 1-tailed Sig beim einseitigen Test bzw. 2-tailed P bzw. 2-tailed Sig beim [[zweiseitiger Test|zweiseitigen Test]]). <br />
<br />
Hier sei das Symbol <math>P</math> verwendet, so dass <math>P = P(V > v | \vartheta_{0})</math> gilt. Abb. 2 (unten) veranschaulicht diese [[Überschreitungswahrscheinlichkeit]] durch die himmelblaue Fläche.<br />
<br />
Der Nutzer der Software braucht nun nicht erst zu Tabellen der entsprechenden [[Verteilung (stochastisch)|Verteilung]] der [[Teststatistik]] <math>V\;</math> greifen, um den bzw. die [[Kritischer Wert|kritischen Werte]] und damit die [[Entscheidungsbereiche]] des [[Statistischer Test|Tests]] zu ermitteln. <br />
<br />
Im Output sind alle notwendigen Informationen für die [[Statistischer Test|Test]]entscheidung enthalten, die nunmehr auf dem Vergleich des vorgegebenen [[Signifikanzniveau]]s <math>\alpha</math> und der [[Überschreitungswahrscheinlichkeit]] <math>P</math> beruht. <br />
<br />
Das sei wie folgt gezeigt.<br />
<br />
* [[Ablehnungsbereich der Nullhypothese|Ablehnung der Nullhypothese]] <math>H_{0}</math><br />
<br />
: Ergibt sich aufgrund einer konkreten [[Stichprobe]] ein [[Prüfwert]] <math>v</math>, der weit von <math>\vartheta_{0}</math> entfernt liegt, dann ist die [[Überschreitungswahrscheinlichkeit]] <math>P = P(V > v | \vartheta_{0})</math> unter der [[Verteilung (stochastisch)|Verteilung]] von <math>H_{0}</math> sehr klein. <br />
<br />
: <math>v</math> ist ein für die Gültigkeit der [[Nullhypothese]] extremer Wert und die [[Nullhypothese]] erscheint unplausibel. <br />
<br />
: Ein solcher Wert <math>v</math> kommt eher unter der [[Alternativhypothese]] zustande, so dass auf einen signifikanten Unterschied zwischen <math>\vartheta_{0}</math> und <math>\vartheta</math> geschlossen wird, d.h. die [[Nullhypothese]] abgelehnt wird.<br />
<br />
: Entscheidungsregel:<br />
<br />
: Erhält man im Output der Software eine [[Überschreitungswahrscheinlichkeit]], für die <math>P\leq\alpha</math> gilt, impliziert dies, dass der [[Prüfwert]] <math>v</math> ein Element des [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereiches der <math>H_{0}</math>]] zum vorgegebenen [[Signifikanzniveau]] <math>\alpha</math> ist. Die [[Nullhypothese]] wird abgelehnt.<br />
<br />
: Bei dem hier demonstrierten [[Rechtsseitiger Test|rechtsseitigen Test]] wird diese Entscheidungsregel in der Abb. 3 deutlich.<br />
<br />
{{iframewiwi|<br />
<iframe k="wiwi" p="examples?P=stat/EinseitigerTest/EinseitigerTestEntscheidung.R&V=P&W=700&H=500" H="600"/> <br />
|Abb. 3: Signifikanzniveau und Überschreitungswahrscheinlichkeit bei Gültigkeit der <math>H_0</math><br />
}}<br />
<br />
* b) [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnung der Nullhypothese]]<br />
<br />
: Ergibt sich aufgrund einer konkreten [[Stichprobe]] ein [[Prüfwert]] <math>v</math>, der relativ nahe bei <math>\vartheta_{0}</math> liegt, dann ist die [[Überschreitungswahrscheinlichkeit]] <math>P = P(V > v |\vartheta_{0})</math> unter der [[Verteilung (stochastisch)|Verteilung]] von <math>H_{0}</math> groß. <br />
<br />
: <math>v</math> ist ein für die Gültigkeit der [[Nullhypothese]] plausibler Wert, die Abweichung zwischen <math>v</math> und <math>\vartheta_{0}</math> kann als zufällig angesehen werden. Die [[Nullhypothese]] wird in diesem Fall nicht abgelehnt.<br />
<br />
: Entscheidungsregel:<br />
<br />
: Ist <math>P > \alpha</math>, impliziert dies, dass der [[Prüfwert]] <math>v</math> ein Element des [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereiches der <math>H_{0}</math>]] ist. Die [[Nullhypothese]] wird nicht abgelehnt.<br />
<br />
: Mit den gleichen Regeln sind die [[Statistischer Test|Test]]entscheidungen bei einem [[Linksseitiger Test|linksseitigen Test]] bzw. einem [[zweiseitiger Test|zweiseitigen Test]] zu treffen.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Graphische_Darstellung_eindimensionaler_Verteilungen&diff=1237Graphische Darstellung eindimensionaler Verteilungen2018-05-29T12:28:22Z<p>Jacobdan: </p>
<hr />
<div>{{Univariate Statistik}}<br />
<br />
=={{PAGENAME}}==<br />
<br />
===Höhenproportionale Darstellung===<br />
<br />
Eine Darstellung wird als ''höhenproportional'' bezeichnet, wenn allein die Höhe bzw. Länge des Balkens bzw. Stabes eine Aussage über die darzustellende Größe trifft.<br />
<br />
===Flächenproportionale Darstellung===<br />
<br />
Eine Darstellung wird als ''flächenproportional'' bezeichnet, wenn die darzustellenden Größen als Flächen abgebildet werden, wobei sich die Flächeninhalte proportional zu den darzustellenden Größen verhalten.<br />
<br />
===Grafische Darstellung diskreter Merkmale===<br />
<br />
Für die ''grafische Darstellung der eindimensionalen Häufigkeitsverteilung diskreter Merkmale'' gibt es verschiedene Möglichkeiten: [[Säulendiagramm|Säulen-]] bzw. [[Balkendiagramm]], [[Kreisdiagramm]], [[Rechteckdiagramm|Rechteck-]] bzw. [[Flächendiagramm]], [[Stabdiagramm|Stab-]] bzw. [[Liniendiagramm]], [[Piktogramm]] oder [[Kartogramm]].<br />
<br />
====Säulen- oder Balkendiagramm====<br />
<br />
Das ''Säulen-'' oder ''Balkendiagramm'' dient der grafischen Darstellung der empirischen [[Häufigkeitsverteilung]] vor allem von [[Nominalskala|nominalskalierten]] und [[Ordinalskala|ordinalskalierten]] [[Merkmal]]en, aber auch von [[Metrische Skala|metrisch skalierten]] [[Diskretes Merkmal|diskreten Merkmalen]] mit wenigen [[Merkmalsausprägung]]en.<br />
<br />
Ein Balkendiagramm stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] als separaten Balken dar. Dazu werden auf der Abszissenachse die [[Merkmalsausprägung]]en und auf der Ordinatenachse die beobachtete [[Absolute Häufigkeit|absolute]] oder [[relative Häufigkeit]] der jeweiligen [[Merkmalsausprägung]] abgetragen.<br />
<br />
Im Allgemeinen handelt es sich hierbei um eine [[höhenproportionale Darstellung]].<br />
<br />
In der folgenden Grafik werden die [[relative Häufigkeit|relativen Häufigkeiten]] in Prozent verwendet:<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Saeule_R00480004800000000000000_plot.html" /><br />
<br />
====Kreisdiagramm====<br />
<br />
Ein ''Kreisdiagramm'' stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] durch die Aufteilung einer Kreisfläche in Sektoren dar.<br />
<br />
Im Allgemeinen handelt es sich um eine [[flächenproportionale Darstellung]].<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Kreis_R00480004800000000000000_plot.html" /><br />
====Rechteck- oder Flächendiagramm====<br />
<br />
Ein ''Rechteck-'' oder ''Flächendiagramm'' stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] durch die Aufteilung einer Fläche in einzelne Bereiche dar.<br />
<br />
Im Allgemeinen handelt es sich um eine [[flächenproportionale Darstellung]].<br />
<br />
In der folgenden Grafik werden die [[relative Häufigkeit|relativen Häufigkeiten]] in Prozent verwendet:<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Rechteck_R00480004800000000000000_plot.html" /><br />
<br />
====Stab- oder Liniendiagramm====<br />
<br />
Ein ''Stab-'' oder ''Liniendiagramm'' stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] durch die Höhe von Säulen dar (vgl. [[Säulendiagramm]]).<br />
<br />
Im Allgemeinen handelt es sich um eine [[höhenproportionale Darstellung]].<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Stab_R00480004800000000000000_plot.html" /><br />
<br />
====Piktogramm====<br />
<br />
Ein ''Piktogramm'' stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] mit unterschiedlich großen Bildsymbolen oder einer verschieden großen Anzahl von Bildsymbolen dar. Dabei muss die ausgewählte Größe des Bildsymbols bzw. die Anzahl der Bildsymbole die dafür stehende [[Statistische Häufigkeiten|Häufigkeit]] abbilden.<br />
<br />
[[Bild:STAT-Piktogramm.gif]]<br />
<br />
[[Bild:STAT-Piktogramm2.gif]]<br />
<br />
====Kartogramm====<br />
<br />
Ein ''Kartogramm'' stellt die [[Statistische Häufigkeiten|Häufigkeit]] jeder [[Merkmalsausprägung]] innerhalb einer Landkarte dar.<br />
<br />
[[Bild:STAT-Karte_wahlbeteiligung.gif]]<br />
<br />
===Grafische Darstellung stetiger Merkmale===<br />
<br />
====Histogramm====<br />
<br />
Die grafische Darstellung der [[Statistische Häufigkeiten|Häufigkeiten]] eines [[Stetiges Merkmal|stetigen]] [[Klassierung|klassierten]] [[Merkmal]]s durch rechteckige Flächen wird als ''Histogramm'' bezeichnet. Es eignet sich auch zur Darstellung der [[Statistische Häufigkeiten|Häufigkeiten]] [[Diskretes Merkmal|diskreter Merkmale]] mit sehr vielen [[Merkmalsausprägung]]en, da solche [[Merkmal]]e vielfach [[Klassierung|klassiert]] und als [[Quasi-stetiges Merkmal|(quasi-)stetige Merkmale]] behandelt werden.<br />
<br />
Die [[Klassengrenze]]n werden auf der Abszissenachse abgetragen. Über den [[Klasse]]n werden Rechtecke in Höhe der [[Häufigkeitsdichte]]n <math>\widehat{h}\left(x_{j}\right)</math> oder <math>\widehat{f}\left( x_{j}\right)</math> eingezeichnet.<br />
<br />
Die [[Klassenhäufigkeit]] wird durch die Fläche des Rechtecks über der jeweiligen [[Klasse]] repräsentiert ([[flächenproportionale Darstellung]]). Die Verwendung der [[Häufigkeitsdichte]]n ist unbedingt erforderlich, wenn ungleiche [[Klassenbreite]]n vorliegen. <br />
<br />
Wird jedoch für alle [[Klasse]]n eine gleiche [[Klassenbreite]] gewählt, kann auch eine [[höhenproportionale Darstellung]] verwendet werden, indem auf der Ordinatenachse die [[absolute Häufigkeit|absoluten]] bzw. [[relative Häufigkeit|relativen Häufigkeiten]] abgetragen und die Rechtecke über den [[Klasse]]n in Höhe der entsprechenden [[Statistische Häufigkeiten|Häufigkeiten]] eingezeichnet werden.<br />
<br />
Beispiel eines [[Histogramm]]s für 2000 [[Beobachtung]]en des monatlichen persönlichen Nettoeinkommens (in Euro, Daten aus ALLBUS 2010):<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_wages_dot_R00480004800000000000000_plot.html" /><br />
<br />
{{#iframe:mmstat|mmstat_de/histogram_simple}}<br />
<br />
====Stengel-Blatt-Diagramm====<br />
<br />
Ein ''Stengel-Blatt-Diagramm'' (engl. stem-and-leaf-diagram) ist eine halbgrafische Darstellung der Werte einer [[Statistische Reihen|Beobachtungsreihe]] eines [[metrische Skala|metrisch skalierten]] [[Merkmal]]s. Wie der Name vermuten lässt, besteht das Stengel-Blatt-Diagramm aus einem "Stamm" (stem) und "Blättern" (leaf). <br />
<br />
Abhängig von der Anzahl der [[Beobachtungswert]]e gibt es zwei Grundvarianten des Stengel-Blatt-Diagramms.<br />
<br />
Die erste Variante soll hier an einem kleinen Beispiel veranschaulicht werden. Die zweite Variante wird im Beispiel Netteinkommen weiter unten gezeigt.<br />
<br />
Beobachtungsreihe: 32,32,35,36,40,44,47,48,53,57,57,100,105<br />
<br />
<pre><br />
Frequency Stem & Leaf<br />
<br />
2,00 3 . 22<br />
2,00 3 . 56<br />
2,00 4 . 04<br />
2,00 4 . 78<br />
1,00 5 . 3 <br />
2,00 5 . 77<br />
2,00 Extremes (>=100)<br />
<br />
Stem width: 10,00<br />
Each leaf: 1 case(s)<br />
</pre><br />
<br />
Unterhalb des Diagramms wird die Stamm-Einheit (stem width) angegeben. Das obige Diagramm hat z.B. eine "stem width" von 10, was bedeutet, dass der Stamm die Zehner-Ziffern enthält und die Blätter die Einer-Ziffern. <br />
<br />
Der Stamm ist in diesem Beispiel auf zwei Zeilen aufgeteilt. Die erste Zeile, gekennzeichnet durch einen Stern (*), nimmt die Blätter von 0 bis 4, die zweite Zeile, gekennzeichnet durch einen Punkt (.), die Blätter von 5 bis 9 auf. <br />
<br />
So hat beispielsweise der [[Beobachtungswert]] 47 den Stamm 4 und das Blatt 7. Jedes Blatt steht für einen [[Beobachtungswert]] ("Each leaf: 1 case"). Der [[Beobachtungswert]] 32 (Stamm 3, Blatt 2) kommt zweimal vor. <br />
<br />
Weiterhin existieren zwei extrem große [[Beobachtungswert]]e (100 und 105), die als solche ausgewiesen sind.<br />
<br />
====Dotplot====<br />
<br />
Ein ''Dotplot'' ist eine zweidimensionale Darstellung eindimensionaler Daten, wobei auf der Abszissenachse der Bereich der beobachteten [[Merkmalswert]]e abgetragen wird.<br />
<br />
Die einzelnen [[Beobachtung]]en werden über dieser Achse als Punkte (oder anderes Symbol) eingezeichnet.<br />
<br />
Beispiel für 150 US-Stundenlöhne, wobei in dem oberen Teil der Grafik ein Dotplot für alle 150 [[Beobachtung]]en zusammen und im unteren Teil ein Dotplot mit der farbigen Trennung nach Männern und Frauen abgebildet ist.<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_wages_dot_R00480004800000000000000_plot.html" /><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Nettoeinkommen (Histogramm und Stengel-Blatt-Diagramm)===<br />
<br />
'''Histogramm'''<br />
<br />
{|<br />
|[[statistische Einheit]]:<br />
|befragte, in Privathaushalten lebende deutsche Staatsangehörige im Alter von mindestens 18 Jahren<br />
|-<br />
|statistisches [[Merkmal]]:<br />
|monatliches persönliches Nettoeinkommen (€)<br />
|-<br />
|Anzahl der [[Beobachtung]]en <math>n </math>: <br />
|2000<br />
|}<br />
<br />
Für die Erstellung jedes der nachfolgenden [[Histogramm]]e wird von einer gleichen [[Klassenbreite]] der Einkommens[[klasse]]n ausgegangen, so dass auf der Ordinatenachse die [[Absolute Häufigkeit|absoluten Häufigkeiten]] abgetragen wurden. <br />
<br />
Zur Erstellung von [[Histogramm]]en, die entsprechende Details erkennen lassen, musste die Maßstabseinteilung der Ordinatenachse mit kleiner werdender [[Klassenbreite]] verändert werden. Beim Vergleich der [[Histogramm]]e ist diese unterschiedliche [[Skalierung]] der Ordinatenachse zu beachten.<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_wages_dot_R00480004800000000000000_plot.html" /><br />
<br />
<br />
Die obenstehenden Grafiken verdeutlichen die Auswirkung unterschiedlicher [[Klassenbreite]]n auf das Erscheinungsbild. Durch das Variieren der [[Klassenbreite]]n soll erreicht werden, dass das [[Histogramm]] möglichst glatt (im Sinne eines gedachten Kurvenverlaufes durch die Höhe der Rechtecke über den [[Klassenmitte]]n) wird, ohne jedoch die Besonderheiten der Daten aus den Augen zu verlieren.<br />
<br />
Darstellung nach Geschlecht, bei einer [[Klassenbreite]] von 500 €:<br />
<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Beispiel_allbus_Geschlecht_R00480004800000000000000_plot.html" /><br />
<br />
'''Stengel-Blatt-Diagramm'''<br />
<br />
Das [[Stengel-Blatt-Diagramm]] wird für alle 2000 [[Beobachtung]]en angegeben.<br />
<br />
<pre><br />
BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE Stem-and-Leaf Plot<br />
<br />
Frequency Stem & Leaf<br />
<br />
24,00 0 . 00111111<br />
138,00 0 . 2222222222222333333333333333333333333333333333<br />
194,00 0 . 44444444444444444444444444444444445555555555555555555555555555555<br />
213,00 0 . 66666666666666666666666666666666666666777777777777777777777777777777777<br />
211,00 0 . 8888888888888888888888888888888888899999999999999999999999999999999999<br />
212,00 1 . 0000000000000000000000000000000000000000001111111111111111111111111111<br />
200,00 1 . 2222222222222222222222222222222222222223333333333333333333333333333<br />
181,00 1 . 4444444444444444444444444555555555555555555555555555555555555<br />
132,00 1 . 66666666666666666666666666677777777777777777<br />
88,00 1 . 88888888888888888899999999999<br />
110,00 2 . 0000000000000000000000000000000011111<br />
51,00 2 . 22222222222233333<br />
56,00 2 . 4444555555555555555<br />
23,00 2 . 6667777<br />
20,00 2 . 8888899<br />
46,00 3 . 0000000000000011<br />
15,00 3 . 22223<br />
86,00 Extremes (>=3400)<br />
<br />
Stem width: 1000<br />
Each leaf: 3 case(s)<br />
</pre><br />
<br />
Bei der obigen "großen" Version des [[Stengel-Blatt-Diagramm]]s ist jeder Stamm auf fünf Zeilen aufgeteilt. Die erste Zeile nimmt die Blätter 0 und 1, die zweite Zeile die Blätter 2 und 3, die dritte Zeile die Blätter 4 und 5, die vierte Zeile die Blätter 6 und 7 und die fünfte Zeile die Blätter 8 und 9 auf. <br />
<br />
Da die Stamm-Einheit (stem width) 1000 ist, sind die Blatt-Ziffern die Hunderter. Jedes Blatt beinhaltet 3 Fälle ([[Beobachtung]]en). Es gibt z.B. 8 befragte Personen mit einem Nettoeinkommen von 2400 bis unter 2500.<br />
<br />
Insgesamt werden 86 extrem große Werte angezeigt, von denen einige aufgelistet werden.<br />
<br />
"&" als Blatt beinhaltet eine restliche Anzahl von [[Beobachtung]]en - bei dem Stamm von 4 mit einem t sind z.B. 4 Fälle (befragte<br />
Personen) registriert. <br />
<br />
Davon haben 2 Personen (da jedes Blatt 2 Fälle angibt) ein monatliches Nettoeinkommen von 4200 bis unter 4300 bei der Befragung angegeben. <br />
<br />
Von den restlichen 2 Personen hat eine ein Nettoeinkommen von 4200 bis unter 4300 und die andere ein Nettoeinkommen 4300 bis unter 4400. <br />
<br />
Es kann also weder ein Blatt mit der Ziffer 2 noch ein Blatt mit der Ziffer 3 angegeben werden, da jedes (in diesem Beispiel) zwei Fälle repräsentiert. Dies wird durch "&" gekennzeichnet.<br />
<br />
===Stellung im Beruf (Kreisdiagramm und Säulendiagramm)===<br />
<br />
Die erwerbstätigen Personen in der Bundesrepublik Deutschland ([[statistische Einheit]]) wurden im April 1991 hinsichtlich ihrer Stellung im Beruf ([[Merkmal]] <math>X</math>; [[Nominalskala|nominalskaliert]]) untersucht.<br />
<br />
{| class="wikitable"<br />
!Stellung im Beruf <math> x_{j} </math><br />
!Erwerbstätige in 1000 <math> (x_{j}) </math><br />
!relative Häufigkeit <math> f\left( x_{j}\right) </math><br />
|- align="right"<br />
|align="left"|Arbeiter<br />
|14.568<br />
|0,389<br />
|- align="right"<br />
|align="left"|Angestellte<br />
|16.808<br />
|0,449<br />
|- align="right"<br />
|align="left"|Beamte<br />
|2.511 <br />
|0,067<br />
|- align="right"<br />
|align="left"|Selbständige<br />
|3.037<br />
|0,081<br />
|- align="right"<br />
|align="left"|Mithelfende Familienangehörige<br />
|522<br />
|0,014<br />
|- align="right"<br />
|align="left"|Summe <br />
|37.466<br />
|1,000<br />
|}<br />
<br />
Anhand der Tabelle lässt sich beispielsweise ersehen, dass 16.808.000 der untersuchten Personen in einem Angestelltenverhältnis arbeiten. Das entspricht einem Anteil von 44,9% an der Gesamtzahl aller Erwerbstätigen.<br />
<br />
Die Untersuchungsergebnisse lassen sich auch in grafischer Form, beispielsweise anhand eines [[Säulendiagramm]]s oder [[Kreisdiagramm]]s darstellen.<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Beispiel_Berufe_R00480004800000000000000_plot.html" /><br />
<br />
Aus den Grafiken lässt sich leicht der große Anteil erkennen, den die Arbeiter und Angestellten im Verhältnis zu den übrigen [[Merkmalsausprägung|Ausprägungen]] bilden.<br />
<br />
===Haushaltsgröße (Säulendiagramm)===<br />
<br />
Zur [[statistische Untersuchung|Untersuchung]] der Entwicklung der Haushaltsgrößen in den alten Bundesländern wurden diese zu verschiedenen Zeitpunkten des 20. Jahrhunderts statistisch erfasst.<br />
<br />
{| class="wikitable"<br />
|statistische Einheit:<br />
|Haushalte<br />
|-<br />
|statistisches Merkmal:<br />
|Haushaltsgröße<br />
|-<br />
|<br />
|kardinalskaliert, diskret<br />
|-<br />
|Häufigkeiten:<br />
|prozentual, relativ<br />
|}<br />
<br />
Die folgende [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] ermöglicht einen zahlenmäßigen Vergleich über die verschiedenen Zeitpunkte auf Grundlage der [[relative Häufigkeit|relativen Häufigkeiten]].<br />
<br />
{| class="wikitable"<br />
!Haushaltsgröße <math>X</math><br />
!1900<br />
!1925<br />
!1950<br />
!1990<br />
|- align="right"<br />
|align="left"|1<br />
|7,1<br />
|6,7<br />
|19,4<br />
|35,0<br />
|- align="right"<br />
|align="left"|2<br />
|14,7<br />
|17,7<br />
|25,3<br />
|30,2<br />
|- align="right"<br />
|align="left"|3<br />
|17,0<br />
|22,5<br />
|23,0<br />
|16,7<br />
|- align="right"<br />
|align="left"|4<br />
|16,8<br />
|19,7<br />
|16,2<br />
|12,8<br />
|- align="right"<br />
|align="left"|5 und mehr<br />
|44,4<br />
|33,3<br />
|16,1<br />
|5,3<br />
|- align="right"<br />
|align="left"|Summe<br />
|100,0<br />
|100,0<br />
|100,0<br />
|100,0<br />
|}<br />
<br />
Erleichtert wird dieser Vergleich durch die grafische Darstellung der [[relative Häufigkeit|relativen Häufigkeiten]] zu den verschiedenen Zeitpunkten in [[Säulendiagramm]]en.<br />
<br />
Die Diagramme verdeutlichen sehr anschaulich die Verschiebung der Haushaltsgröße vom Vielpersonenhaushalt zum Haushalt mit nur wenigen Mitgliedern im letzten Jahrhundert.<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Beispiel_Haushalt_R00480004800000000000000_plot.html" /><br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Beispiel_Haushalt_2_R00480004800000000000000_plot.html" /><br />
<br />
===Benzinverbrauch (Histogramm)===<br />
<br />
Von 74 verschiedenen Autotypen wurde der Benzinverbrauch in "miles per gallon" (mpg) gemessen - Umrechnung in l/100km: <math>\frac{3,785\cdot100}{x \cdot1,61}.</math><br />
<br />
Das Ergebnis der [[Statistische Untersuchung|Untersuchung]] lässt sich übersichtlich in Form einer [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] darstellen:<br />
<br />
{| class="wikitable" <br />
|Benzinverbrauch (MPG)<br />
'''<math>x_{j}^{u}\leq X < x_{j}^{o} </math>'''<br />
|absolute Häufigkeit<br />
'''<math>h\left( x_{j}\right) </math>'''<br />
|relative Häufigkeit<br />
'''<math>f\left( x_{j}\right) </math>'''<br />
|- align="right"<br />
|align="left" |von 12 bis unter 15 <br />
|8 <br />
|0,108 <br />
|- align="right"<br />
|align="left" |von 15 bis unter 18 <br />
|10 <br />
|0,135 <br />
|- align="right"<br />
|align="left" |von 18 bis unter 21 <br />
|20 <br />
|0,270 <br />
|- align="right"<br />
|align="left" |von 21 bis unter 24 <br />
|13 <br />
|0,176 <br />
|- align="right"<br />
|align="left" |von 24 bis unter 27 <br />
|12 <br />
|0,162 <br />
|- align="right"<br />
|align="left" |von 27 bis unter 30 <br />
|4 <br />
|0,054 <br />
|- align="right"<br />
|align="left" |von 30 bis unter 33 <br />
|3 <br />
|0,041 <br />
|- align="right"<br />
|align="left" |von 33 bis unter 36 <br />
|3 <br />
|0,041 <br />
|- align="right"<br />
|align="left" |von 36 bis unter 39 <br />
|0 <br />
|0,000 <br />
|- align="right"<br />
|align="left" |von 39 bis unter 42 <br />
|1 <br />
|0,013 <br />
|- align="right"<br />
|align="left" |'''Summe''' <br />
|74 <br />
|1.000<br />
|}<br />
<br />
Die [[Häufigkeitsverteilung]] lässt sich in Form eines [[Histogramm]]s mit der gleichen [[Klassenbreite]] wie in der [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] (3 Meilen) grafisch veranschaulichen. Auf der Ordinatenachse werden die [[Häufigkeitsdichte]]n abgetragen.<br />
<br />
<iframe k="wiwi" p="examples/stat_EindimensionaleHaeufigkeit_Eindimensional_Beispiel_Benzin_R00480004800000000000000_plot.html" /><br />
<br />
Sowohl aus der [[Häufigkeitstabelle (eindimensional)|Häufigkeitstabelle]] als auch aus dem [[Histogramm]] lässt sich erkennen, dass der größte Teil der untersuchten Autotypen mit einer Gallone 18 bis 21 Meilen zurücklegt.<br />
<br />
== Kriminalitätsraten (Interaktives Histogramm) ==<br />
<br />
Für verschiedene Variablen (u.a. Verbrechen pro 1000 Einwohner in 1986) pro Bundesstaat können Sie die Anzahl der Klassen variieren.<br />
<br />
<iframe k="mars" p="mmstat_en/histogram_simple/" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Chi-Quadrat-Unabh%C3%A4ngigkeitstest&diff=1236Chi-Quadrat-Unabhängigkeitstest2018-05-29T11:41:36Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Chi-Quadrat-Unabhängigkeitstest===<br />
<br />
Bei einem ''Chi-Quadrat-Unabhängigkeitstest'' wird geprüft, ob zwei [[Zufallsvariable]]n [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. Dieser [[Statistischer Test|statistische Test]] gehört zu den nichtparametrischen [[Statistischer Test|Tests]]. <br />
<br />
An das [[Skalenniveau]] der [[Zufallsvariable]]n werden keine Voraussetzungen gestellt.<br />
<br />
Es sei allgemein angenommen, dass zwei [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> gleichzeitig an <math>n</math> [[Statistische Einheit|statistischen Einheiten]] (<math>i=1,\ldots ,n</math>) beobachtet werden, wobei die Unabhängigkeit der<br />
Stichprobenziehungen vorausgesetzt wird ([[einfache Zufallsstichprobe]]). <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable]]n (darunter werden im weiteren summarisch [[Nominalskala|nominalskalierte]], [[Ordinalskala|ordinalskalierte]] sowie [[diskrete Zufallsvariable]]n mit sehr wenigen [[Ausprägung]]en verstanden), nehmen sie die [[Stichprobe]]n[[realisation]]en <math>x_{k}(k=1,\ldots ,K)</math> und <math>y_{j},\;(j=1,\ldots ,J)</math> an. <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[stetige Zufallsvariable]]n (darunter werden im weiteren auch die [[diskrete Zufallsvariable|diskreten Zufallsvariable]]n mit sehr vielen bzw. unendlich vielen [[Ausprägung]]en, d.h. die genannten [[Quasi-stetiges Merkmal|quasi-stetig]]en [[Zufallsvariable]]n, gefasst), muss eine Intervallbildung der [[Beobachtung|beobachtete]]n Werte in [[disjunkte Ereignisse|disjunkt]]e, aneinander angrenzende [[Klasse]]n erfolgen.<br />
<br />
<math>x_{k},\;(k=1,\ldots ,K)</math> und <math>y_{j},\;(j=1,\ldots ,J)</math> sind dann repräsentative [[Klasse]]nwerte (im Allgemeinen die<br />
[[Klassenmitte]]n) und <math>K</math> und <math>J</math> die Anzahl der gebildeten [[Klasse]]n. <br />
<br />
Eine geeignete Darstellungsform für die beobachtete gemeinsame [[Häufigkeitsverteilung]] der zwei [[Zufallsvariable]]n ist die [[Häufigkeitstabelle (zweidimensional)|zweidimensionale Häufigkeitstabelle]] (auch als [[Kontingenztabelle]] oder [[Kreuztabelle]] bezeichnet).<br />
<br />
[[Häufigkeitstabelle (zweidimensional)|Zweidimensionale Häufigkeitstabelle]]:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="right" colspan="2" |<math>x\quad y </math><br />
|align="center"|<math>y_{1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>y_{j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>y_{J}</math><br />
|align="center"|RV <math>x</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{1}</math><br />
|align="center"|<math>h_{11}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{1j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{1J}</math><br />
|align="center"|<math>h_{1\bullet}</math><br />
|-<br />
|align="center" colspan="2"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{k}</math><br />
|align="center"|<math>h_{k1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{kj}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{kJ}</math><br />
|align="center"|<math>h_{k\bullet}</math><br />
|-<br />
|align="center" colspan="2"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{K}</math><br />
|align="center"|<math>h_{K1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{Kj}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{KJ}</math><br />
|align="center"|<math>h_{K\bullet}</math><br />
|-<br />
|align="center" colspan="2"|RV <math>x</math><br />
|align="center"|<math>h_{\bullet 1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{\bullet j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{\bullet J}</math><br />
|align="center"|<math>h_{\bullet\bullet}=n</math><br />
|}<br />
<br />
<math>\,h_{kj}</math> bezeichnet die [[absolute Häufigkeit]] für das beobachtete Wertepaar <math>\left( x_{k},y_{j}\right)</math>, d.h. dass <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] und <math>Y\;</math> gleichzeitig den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] angenommen hat:<br />
<br />
<math>h_{kj}=h\left( \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\} \right)\; ; \quad k=1, \ldots,K, \quad j=1,\ldots , J</math><br />
<br />
Die letzte Spalte enthält die beobachtete [[Randverteilung (stochastisch)|Randverteilung]] (RV) von <math>X\;</math> mit den absoluten<br />
[[Randhäufigkeit]]en <math>h_{k\bullet}=h\left(X=x_{k}\right)\;;k=1,\ldots ,K</math>.<br />
<br />
<math>h_{k\bullet }</math> gibt an, wie oft <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] angenommen hat, wobei es gleichgültig ist, welchen Wert <math>Y\;</math> aufweist. <br />
<br />
Die letzte Zeile weist die beobachtete [[Randverteilung (stochastisch)|Randverteilung]] von <math>Y\;</math> mit den absoluten [[Randhäufigkeit]]en <math>h_{j\bullet }=h\left( Y=y_{j}\right)\;;j=1,\ldots ,J</math> aus. <br />
<br />
<math>h_{j\bullet }</math> gibt an, wie oft <math>Y\;</math> den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] angenommen hat, wobei es gleichgültig ist, welchen Wert <math>X\;</math> aufweist. <br />
<br />
Für die [[Häufigkeitstabelle (zweidimensional)|zweidimensionale Häufigkeitstabelle]] gelten folgende Beziehungen:<br />
<br />
<math>h_{k\bullet }=\sum_{j=1}^{J}h_{kj}\;;\quad k=1,\ldots ,K;</math><br />
<br />
<math>h_{\bullet j}=\sum_{k=1}^{K}h_{kj}\;;\quad j=1,\ldots ,J;</math><br />
<br />
<math>h_{\bullet \bullet }=\sum_{k=1}^{K}h_{k\bullet }=\sum_{j=1}^{J}h_{\bullet j}=\sum_{k=1}^{K}\sum_{j=1}^{J}h_{kj}=n</math>.<br />
<br />
Die [[Nullhypothese]] lautet beim Chi-Quadrat-Unabhängigkeitstest stets, dass die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> in der [[Grundgesamtheit]] [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. Die [[Alternativhypothese]] enthält das logische Pendant.<br />
<br />
<math>H_{0}</math>:<math>X\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}</math>:<math>X\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch abhängig]].<br />
<br />
Wenn die [[Nullhypothese]] gilt, dann ergibt sich nach dem [[Multiplikationssatz bei Unabhängigkeit]]<br />
<br />
<math>P\left( X=x_{k}\right\}\cap\left\{ Y=y_{j}\right)=P\left( X=x_{k}\right)\cdot P\left( Y=y_{j}\right)=p_{k\bullet}\cdot p_{\bullet j}= p_{kj}</math><br />
<br />
Dabei bezeichnen:<br />
<br />
<math>p_{kj}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] und <math>Y\;</math> gleichzeitig den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten<br />
[[Klasse]] annimmt;<br />
<br />
<math>p_{k\bullet}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] annimmt ([[Randwahrscheinlichkeit]] von <math>X\;</math>) und<br />
<br />
<math>p_{\bullet j}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>Y\;</math> den Wert <math>Y_{i}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] annimmt ([[Randwahrscheinlichkeit]] von <math>Y\;</math>).<br />
<br />
Das [[Hypothese]]npaar kann somit konkretisiert werden: <br />
<br />
<math>H_{0}:\;p_{kj}=p_{k\bullet}\cdot p_{\bullet j}\quad </math> für alle Paare <math>\left( k,j\right)</math><br />
<br />
<math>H_{1}: p_{kj}\neq p_{k\bullet}\cdot p_{\bullet j}\quad</math> für mindestens ein Paar <math>\left( k,j\right)</math><br />
<br />
Das [[Signifikanzniveau]] <math>\alpha</math> und der [[Stichprobenumfang]] <math>n</math> sind vor der Testdurchführung festzulegen.<br />
<br />
===Teststatistik des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Für die Bestimmung der [[Teststatistik]] wird von den [[Absolute Häufigkeit|absoluten Häufigkeiten]] ausgegangen. Der [[Statistischer Test|Test]] basiert auf dem Vergleich der in der [[Stichprobe]] beobachteten und der bei Gültigkeit der [[Nullhypothese]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]].<br />
<br />
Für die konkrete Stichprobe sind die gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <br />
<br />
<math>h_{kj}\;(k=1,\ldots ,K,\;j=1,\ldots J)</math><br />
<br />
in den Zellen der [[Häufigkeitstabelle (zweidimensional)|zweidimensionalen Häufigkeitstabelle]] gegeben. Da diese [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> Ergebnis eines [[Zufallsexperiment]]es sind, können sie von [[Stichprobe]] zu [[Stichprobe]] unterschiedliche Werte annehmen, d.h., sie sind [[Realisation]]en von [[Zufallsvariable]]n <math>H_{kj}\;</math>.<br />
<br />
Wenn die [[Nullhypothese]] gilt, ergeben sich die erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] als <math>e_{kj}=n\cdot p_{k\bullet}\cdot p_{\bullet j}</math>. <br />
<br />
Da die gemeinsamen [[Wahrscheinlichkeit]]en <math>p_{kj}</math> und die [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und<br />
<math>p_{\bullet j}</math> für alle <math>k</math> und <math>j</math> unbekannt sind, müssen sie aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden. <br />
<br />
[[Erwartungstreue]] und [[Konsistenz|konsistente]] [[Punktschätzung]]en für <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> sind die relativen [[Randhäufigkeit]]en <math>f_{k\bullet}=\frac{h_{k\bullet }}{n}</math> und <math>f_{\bullet j}=\frac{h_{\bullet j}}{n}</math>. <br />
<br />
Das beinhaltet, dass von festen [[Randhäufigkeit]]en der [[Häufigkeitstabelle (zweidimensional)|zweidimensionalen Häufigkeitstabelle]] ausgegangen wird. Damit erhält man [[Schätzung]]en für die unter <math>H_{0}</math> erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]]:<br />
<br />
<math>\widehat{e}_{kj}=n\cdot f_{k\bullet }\cdot f_{\bullet j}=n\cdot \frac{h_{k\bullet}}{n}\cdot \frac{h_{\bullet j}}{n}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
Der Vergleich zwischen den in der [[Stichprobe]] beobachteten und den bei Gültigkeit der [[Nullhypothese]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] baut auf den Differenzen <math>H_{kj}-\widehat{e}_{kj}\;(k=1,\ldots,K;\;j=1,\ldots J)</math> auf. <br />
<br />
Eine summarische Größe, die die Abweichung von der [[Nullhypothese]] bewertet, ist die [[Teststatistik]]<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
Bei Gültigkeit der [[Nullhypothese]] ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = (K - 1)\cdot(J - 1)</math> [[Freiheitsgrad]]en. <br />
<br />
Die [[Approximation]] an die [[Chi-Quadrat-Verteilung]] ist hinreichend, wenn <math>\widehat{e}_{kj}\geq 5</math> für alle <math>k,\; j</math> gilt. <br />
<br />
Ist diese Bedingungen nicht erfüllt, müssen vor der Anwendung des [[Statistischer Test|Tests]] benachbarte Werte bzw. [[Klasse]]n zusammengefaßt werden. <math>K</math> und <math>J</math> sind die Anzahlen der verbliebenen Werte bzw. [[Klasse]]n nach einer eventuell notwendigen Zusammenfassung.<br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>c</math> wird für <math>P(V \leq c) = 1- \alpha</math> und die Anzahl der [[Freiheitsgrad]]e <math>f</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] entnommen.<br />
<br />
===Entscheidungsbereiche des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Die [[Entscheidungsbereiche]] sind:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v>\chi_{1-\alpha ;(K-1)\cdot \left( J-1\right)}^{2}\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq \chi_{1-\alpha ;(K-1)\cdot\left(J-1\right)}^{2}\right\}</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> annimmt, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = P(V > \chi_{1-\alpha;f}^{2} | H_{0})</math>. <br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> annimmt, ist <math>P(V \leq \chi_{1-\alpha;f}^{2} | H_{0})=1-\alpha</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Chi-Quadrat_Chi-Quadrat-Unabh_R00480004800000000000000_plot.html" /><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> | [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math><br />
<br />
===Prüfwert des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Wenn die [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> gezogen wurde, können die [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> für alle beobachteten Wertepaare <math>\left( x_{k},y_{j}\right)</math> ermittelt, daraus die beobachteten [[Randhäufigkeit]]en für <math>X\,</math> und <math>Y\;</math> bestimmt und die erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>\widehat{e}_{kj}</math> berechnet werden. <br />
<br />
Ist die [[Approximation]]sbedingung nicht erfüllt, müssen Werte bzw. [[Klasse]]n geeignet zusammengefaßt und die Häufigkeiten <math>h_{kj}</math>, <math>h_{k\bullet }</math>, <math>h_{\bullet j}</math> und <math>\widehat{e}_{kj}</math> erneut bestimmt werden. <br />
<br />
Einsetzen von <math>h_{kj}</math> und für alle <math>k,\; j</math> in die [[Teststatistik]] führt zu einem [[Prüfwert]] <math>v</math>.<br />
<br />
===Entscheidungssituationen des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Wenn <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]]<br />
auf dem [[Signifikanzniveau]] <math>\alpha</math> und basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Es konnte [[Statistik|statistisch]] gezeigt werden, dass die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}| H_{0})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist.<br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
Wenn <math>v</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]] basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> nicht abgelehnt <math>(\mbox{''}H_{0}\mbox{''})</math>. <br />
<br />
Das [[Stichprobe]]nergebnis gibt keine Veranlassung, die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> zu verwerfen. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}| H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Herleitung des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
====Hypothesen====<br />
<br />
Die generelle Vorgehensweise bei Unabhängigkeitstests ist im Prinzip wie bei den [[Parametertest]]s. Es wird eine [[Teststatistik]]<br />
konstruiert, die die Informationen bei Gültigkeit der [[Nullhypothese]] sowie die Informationen aus der [[Zufallsstichprobe]] enthält und auf deren Basis eine Aussage über die [[Nullhypothese]] möglich ist. <br />
<br />
Die Verteilung der [[Teststatistik]] muss unter der [[Nullhypothese]] (zumindest [[Approximation|approximativ]]) bekannt sein. <br />
<br />
Auch bei Unabhängigkeitstests wird stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft und in Abhängigkeit von der Testentscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] mit der [[Wahrscheinlichkeit]] <math>P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)=\alpha</math> bzw. einen [[Fehler 2. Art]] mit der [[Wahrscheinlichkeit]] <math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right)=\beta</math> zu begehen. <br />
<br />
Mit dem vorgegebenen [[Signifikanzniveau]] kann die [[Wahrscheinlichkeit]] eines [[Fehler 1. Art|Fehlers 1. Art]] niedrig gehalten werden; die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] ist dagegen in der Regel nicht bekannt. <br />
<br />
Man wird deshalb bestrebt sein, die [[Nullhypothese]] abzulehnen, da dann die [[Statistik|statistische]] Sicherheit einer Fehlentscheidung bekannt ist.<br />
<br />
Wenn die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> in der [[Grundgesamtheit]] wirklich [[Unabhängigkeit (stochastisch)|unabhängig]] sind, dann ist zu erwarten, dass diese Tatsache im Prinzip auch in der [[Stichprobe]] zu beobachten ist. <br />
<br />
Im Prinzip bedeutet dabei, dass Abweichungen zwischen den beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> und den bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>e_{kj}</math> in der Regel immer auftreten werden. <br />
<br />
Zu entscheiden ist, ob die Abweichungen noch zufallsbedingt sind oder ob es sich um signifikante Abweichungen handelt. <br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen <math>X\;</math> und <math>Y\;</math> immer als <math>H_{0}</math> formuliert werden, um die erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können. <br />
<br />
Große Abweichungen zwischen beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> und den bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>e_{kj}</math> sprechen tendenziell gegen die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]], d.h. man wird die [[Nullhypothese]] ablehnen.<br />
<br />
Das dem Chi-Quadrat-Unabhängigkeitstest zugrunde liegende [[Hypothese]]npaar enthält die [[Wahrscheinlichkeit]]en <math>p_{kj}</math>, <math>p_{k\bullet }</math>, und <math>p_{\bullet j}</math> <math>(k=1,\ldots ,K;\;j=1,\ldots J)</math>. <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable]]n, beinhalten diese [[Wahrscheinlichkeit]]en, dass <math>X\;</math> und <math>Y\;</math> genau eine mögliche [[Realisation]] annehmen:<br />
<br />
<math>p_{kj}=P\left(\left\{X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}\right)</math><br />
<br />
<math>p_{k\bullet }=P\left( \left\{ X=x_{k}\right\} \right),\quad p_{\bullet j}=P\left( \left\{ Y=y_{j}\right\} \right)</math><br />
<br />
Für eine [[stetige Zufallsvariable]] ist die [[Wahrscheinlichkeit]], dass sie einen bestimmten Wert annimmt, jedoch stets Null. Daraus folgt die Notwendigkeit einer Intervallbildung der beobachteten Werte.<br />
<br />
Es bedeuten im [[stetige Zufallsvariable|stetigen]] Fall:<br />
<br />
<math>p_{kj}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> einen Wert aus der [[Klasse]] <math>\left( x_{k-1}^{*},x_{k}^{*}\right)</math> und die [[Zufallsvariable]] <math>Y\;</math> einen Wert aus der [[Klasse]] <math>\left(y_{j-1}^{*},y_{j}^{*}\right)</math> annimmt;<br />
<br />
<math>p_{k\bullet}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> einen Wert aus der [[Klasse]] <math>\left( x_{k-1}^{*},x_{k}^{*}\right)</math> annimmt ([[Randwahrscheinlichkeit]] von <math>X\;</math>) und<br />
<br />
<math>p_{\bullet j}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>Y\;</math> einen Wert aus der [[Klasse]] <math>\left( y_{j-1}^{*},y_{j}^{*}\right)</math> annimmt ([[Randwahrscheinlichkeit]] von <math>Y\;</math>):<br />
<br />
<math>p_{kj}=P\left( \left\{ x_{k-1}^{*}<X\leq x_{k}^{*}\right\}\cap\left\{y_{j-1}^{*}<Y\leq y_{j}^{*}\right\}\right)</math>,<br />
<br />
<math>p_{k\bullet}=P\left( x_{k-1}^{*}<X\leq x_{k}^{*}\right),\quad p_{\bullet j}=P\left( y_{j-1}^{*}<Y\leq y_{j}^{*}\right)</math><br />
<br />
Um diese Darstellung zu vereinfachen und mit dem [[Diskretes Merkmal|diskreten]] Fall zu vereinheitlichen, werden statt der [[Klasse]]n repräsentative [[Klasse]]nwerte (im Allgemeinen die [[Klassenmitte]]n) <math>x_{k},\left(k=1, \ldots K\right)</math> und <math>y_{j},\; \left( j=1, \ldots J\right)</math> verwendet. <math>K</math> und <math>J</math> sind die Anzahlen der jeweils gebildeten [[Klasse]]n.<br />
<br />
Es sei jedoch angemerkt, dass auch für eine [[diskrete Zufallsvariable]] eine [[Klasse]]nbildung vorgenommen werden kann, falls es die Problemstellung erfordert.<br />
<br />
====Teststatistik====<br />
<br />
Die Tatsache, dass die beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] [[Zufallsvariable]]n <math>H_{kj}\;</math> sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable|diskret]] oder [[stetige Zufallsvariable|stetig]] sind, so dass nur auf [[diskrete Zufallsvariable]]n Bezug genommen wird.<br />
<br />
Aus der [[Grundgesamtheit]] wird ein [[Statistisches Element|Element]] zufällig gezogen und festgestellt, ob das Wertepaar <math>\left( x_{k},y_{j}\right)</math> aufgetreten ist, d.h. ob das [[Ereignis]] <math>\left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\}</math> eingetreten ist oder nicht. <br />
<br />
Es gibt somit nur zwei mögliche Ergebnisse des [[Zufallsexperiment]]es. Die [[Wahrscheinlichkeit]] für das Eintreten des [[Ereignis]]ses <math>\left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\}</math> ist <math>p_{kj}</math> und die [[Wahrscheinlichkeit]] für das Nichteintreten <math>1 - p_{kj}</math>. <br />
<br />
Das [[Zufallsexperiment]] wird <math>n</math>-mal wiederholt, wobei die einzelnen Versuche [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander (da eine [[einfache Zufallsstichprobe]] vorausgesetzt wird) und damit die [[Wahrscheinlichkeit]]en <math>p_{kj}</math> konstant sind. Es liegt somit ein [[Bernoulli-Experiment]] vor.<br />
<br />
Bei <math>n</math>-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens des [[Ereignis]]ses <math>\left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\}</math>, d.h. die [[absolute Häufigkeit]] des Wertepaares <math>\left( x_{k},y_{j}\right)</math> in der [[Stichprobe]]. <br />
<br />
Diese Häufigkeit kann von [[Stichprobe]] zu [[Stichprobe]] unterschiedlich sein, so dass <br />
<br />
<math>H_{kj} =\{ \mbox{Anzahl des Auftretens von } \left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\} \mbox{ in einer einfachen Zufallsstichprobe vom Umfang } n\}</math> <br />
<br />
eine [[diskrete Zufallsvariable]] ist, die die Werte <math>0,\;\ldots,\; n</math> annehmen kann. <br />
<br />
Die [[Zufallsvariable]] <math>H_{kj}\;</math> ist [[Binomialverteilung|binomialverteilt]] mit den [[Parameter]]n <math>n</math> und <math>p_{kj}:\; H_{kj}\sim B\left( n;p_{kj}\right)</math>. <br />
<br />
Der [[Erwartungswert]] von <math>H_{kj}\;</math> ist <math>E\left[ H_{kj}\right] =n\cdot p_{kj}</math>.<br />
<br />
Bei Gültigkeit der [[Nullhypothese]], d.h. bei [[Unabhängigkeit (stochastisch)|stochastischer Unabhängigkeit]] von <math>X\;</math> und <math>Y\;</math>, ergibt sich nach dem [[Multiplikationssatz bei Unabhängigkeit]], dass die gemeinsame [[Wahrscheinlichkeit]] <math>p_{kj}</math> das Produkt der beiden [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> ist, d.h. <math>p_{kj}=p_{k\bullet }\cdot p_{\bullet j}</math>. <br />
<br />
Für die bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]]<br />
resultiert: <br />
<br />
<math>e_{kj}=n\cdot p_{kj}=n\cdot p_{k\bullet }\cdot p_{\bullet j}</math>. <br />
<br />
Diese Herleitung gilt für alle <math>k=1,\ldots ,K</math> und <math>j=1,\ldots J</math> gleichermaßen.<br />
<br />
Die [[Teststatistik]] basiert auf dem Vergleich der in der [[Stichprobe]] beobachteten und der bei Gültigkeit der [[Nullhypothese]] erwarteten<br />
gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]], wobei letztere wegen der unbekannten [[Wahrscheinlichkeit]]en aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind: <math>H_{kj}-\widehat{e}_{kj}</math>. <br />
<br />
Damit sich positive und negative Abweichungen nicht aufheben, erfolgt eine Quadrierung: <math>\left( H_{kj}-\widehat{e}_{kj}\right) ^{2}</math>. <br />
<br />
Mit der Division durch <math>\widehat{e}_{kj}</math> wird der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen. <br />
<br />
Eine Differenz <math>h_{kj}-\widehat{e}_{kj}=5</math> fällt bei <math>\widehat{e}_{kj}=10</math> stärker ins Gewicht als bei <math>\widehat{e}_{kj}=100</math>. <br />
<br />
Durch die Summation der normierten Abweichungen über alle Paare <math>(k, j)</math> ergibt sich eine Größe für die in der [[Stichprobe]] insgesamt enthaltenen Abweichungen, die die adäquate [[Teststatistik]] darstellt:<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
Da die <math>H_{kj}\;</math> [[Zufallsvariable]]n sind, ist auch <math>V\;</math> eine [[Zufallsvariable]]. <br />
<br />
Bei Gültigkeit der [[Nullhypothese]], hinreichend großem [[Stichprobenumfang]] <math>n</math> und Einhaltung der [[Approximation]]sbedingung ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = (K - 1)\cdot(J - 1)</math> [[Freiheitsgrad]]en. <br />
<br />
Ist die [[Approximation]]sbedingung nicht erfüllt, müssen vor der Anwendung des [[Statistischer Test|Tests]] benachbarte Werte bzw. [[Klasse]]n zusammengefasst werden, was dann auch im [[diskrete Zufallsvariable|diskreten]] Fall mit einer [[Klasse]]nbildung verbunden ist. <br />
<br />
<math>K</math> und <math>J</math> sind die Anzahl der verbliebenen Werte bzw. [[Klasse]]n nach einer eventuell notwendigen Zusammenfassung<br />
<br />
====Anzahl der Freiheitsgrade====<br />
<br />
Insgesamt sind <math>K\cdot J</math> [[Wahrscheinlichkeit]]en <math>p_{kj}</math> in der [[Zweidimensionale Häufigkeitsverteilung|zweidimensionalen Verteilung]] der [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> enthalten. <br />
<br />
Ein [[Freiheitsgrad]] geht grundsätzlich verloren, weil die [[Wahrscheinlichkeit]]en untereinander nicht [[Unabhängigkeit (stochastisch)|unabhängig]] sind. <br />
<br />
Wegen <math>\sum\nolimits_{k}\sum\nolimits_{j}p_{kj}=1</math> folgt, dass jede [[Wahrscheinlichkeit]] <math>p_{kj}</math> durch die anderen <math>K\cdot J - 1</math> [[Wahrscheinlichkeit]]en bestimmt ist. <br />
<br />
<math>f = K \cdot J - 1</math> wäre somit die Anzahl der [[Freiheitsgrad]]e, wenn sich bei Gültigkeit der [[Nullhypothese]] alle [[Wahrscheinlichkeit]]en <math>p_{kj}</math> aus den (bekannten) [[Randwahrscheinlichkeit]]en gemäß <math>p_{kj}=p_{k\bullet }\cdot p_{\bullet j}</math> bestimmen ließen. <br />
<br />
Die [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> sind jedoch unbekannt und müssen aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden, wodurch sich die Anzahl der [[Freiheitsgrad]]e weiter verringert. <br />
<br />
Die [[Randverteilung]] von <math>X\;</math> enthält <math>K</math> [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math>. Wegen <math>\sum\nolimits_{k}p_{k\bullet }=1</math> sind nur <math>K - 1</math> [[Wahrscheinlichkeit]]en <math>p_{k\bullet }</math> unbekannt und zu [[Schätzung|schätzen]]. <br />
<br />
Die [[Randverteilung]] von <math>Y\;</math> enthält <math>J</math> [[Randwahrscheinlichkeit]]en <math>p_{\bullet j }</math>. Wegen <math>\sum_{j}p_{\bullet j}=1</math> sind nur <math>J - 1</math> [[Wahrscheinlichkeit]]en <math>p_{\bullet j}</math> unbekannt und zu [[Schätzung|schätzen]]. <br />
<br />
Insgesamt sind damit <math>(K-1)+(J-1)</math> [[Randwahrscheinlichkeit]]en aus der [[Stichprobe]] zu [[Schätzung|schätzen]]. Somit folgt für die Anzahl der [[Freiheitsgrad]]e:<br />
<br />
<math>f=K\cdot J-1-\left[ \left( K-1\right) +\left( J-1\right) \right]=K\cdot J-K-J+1=\left( K-1\right) \cdot \left( J-1\right)</math><br />
<br />
Da in der [[Teststatistik]] die Terme <math>\frac{\left(H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math> nur positive Werte annehmen können, nimmt die [[Teststatistik]] <math>V\;</math> ebenfalls nur positive Werte an. <br />
<br />
Große Abweichungen <math>H_{kj}-\widehat{e}_{kj}</math> führen zu großen Werten von <math>V\;</math>. <br />
<br />
Somit führen nur große Werte von <math>V\;</math> zur [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]], während kleine Werte von <math>V</math> nicht gegen die [[Nullhypothese]] sprechen. Der Chi-Quadrat-Unabhängigkeitstest ist somit ein [[rechtsseitiger Test]].<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Mängel und Alter===<br />
<br />
Es wird vermutet, dass die Anzahl der festgestellten Mängel an einem Pkw und das Alter des Pkw [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Um diese Annahme zu überprüfen, wird ein Chi-Quadrat-Unabhängigkeitstest auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt.<br />
<br />
Für die [[Zufallsvariable]] <math>X\;</math>: "Anzahl der Mängel am Pkw" werden die [[Realisation]]en <math>x_{1}</math> = "kein Mangel", <math>x_{2}</math> = "1 Mangel" und <math>x_{3}</math> = "2 oder mehr Mängel" und <br />
<br />
für die [[Zufallsvariable]] <math>Y\;</math>: "Alter des Pkw" die [[Realisation]]en <math>y_{1}</math> = "bis einschließlich 1 Jahr", <math>y_{2}</math> = "über 1 Jahr bis einschließlich 2 Jahre" und <math>y_{3}</math> = "2 Jahre oder älter" betrachtet.<br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]]geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen <math>X</math> und <math>Y</math> als <math>H_{0}</math> formuliert werden, um die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können, so dass das [[Hypothese]]npaar lautet:<br />
<br />
<math>H_{0}:</math> <math>X\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:</math> <math>X\;</math>und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
bzw.<br />
<br />
<math>H_{0}:\;p_{kj}=p_{k\bullet }\cdot p_{\bullet j} </math> für alle Paare <math>\left( k,j\right)</math><br />
<br />
<math>H_{1}:\;p_{kj}\neq p_{k\bullet }\cdot p_{\bullet j}</math> für mindestens ein Paar <math>\left(k,j\right)</math><br />
<br />
====Teststatistik====<br />
<br />
Es wird die [[Teststatistik]] des Chi-Quadrat-Unabhängigkeitstests verwendet:<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]]ist mit der Anzahl der<br />
[[Freiheitsgrad]]e <math>f = (K - 1)\cdot(J - 1)</math>. <br />
<br />
Die [[Entscheidungsbereiche]] der [[Nullhypothese]] können erst nach Vorliegen der [[Stichprobe]] festgelegt werden, da<br />
<br />
* die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind,<br />
<br />
* erst dann die [[Approximation]]sbedingung überprüft werden kann und ersichtlich ist, ob Werte bzw. [[Klasse]]n zusammenzufassen sind,<br />
<br />
* erst danach die Anzahl der [[Freiheitsgrad]]e feststeht und der [[Kritischer Wert|kritische Wert]] aufgesucht werden kann.<br />
<br />
====Entscheidungsbereiche und Prüfwert====<br />
<br />
Bei einer konkreten Polizeikontrolle an verschiedenen Straßenstellen, wobei die Auswahl der Pkw zufällig erfolgte, wurde die Anzahl der Mängel und das Alter an 110 Pkw registriert. <br />
<br />
Die sich aus der [[Stichprobe]] ergebenden gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] und [[Randhäufigkeit]]en sind in der folgenden Tabelle enthalten. <br />
<br />
Gleichzeitig wurden in den Zellen dieser Tabelle die [[Schätzung|geschätzt]]en gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] bei Gültigkeit der [[Nullhypothese]] aufgenommen, die sich gemäß<br />
<br />
<math>\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
ergeben (gerundet auf eine Dezimalstelle).<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Mängelanzahl <math>(x_{k})</math><br />
|align="center" colspan="3"|Alter <math>(y_{j})</math><br />
|align="center" rowspan="2"|RV <math>X\;</math><br />
|-<br />
|align="center"|<math><1</math><br />
|align="center"|1-2<br />
|align="center"|2 oder älter<br />
|-<br />
|align="center" rowspan="2"|0<br />
|align="center"|beobachtet<br />
|align="center"|30<br />
|align="center"|14<br />
|align="center"|5<br />
|align="center"|49<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|26,7<br />
|align="center"|13,4<br />
|align="center"|8,9<br />
|align="center"|<br />
|-<br />
|align="center" rowspan="2"|1<br />
|align="center"|beobachtet<br />
|align="center"|18<br />
|align="center"|10<br />
|align="center"|4<br />
|align="center"|32<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|17,5<br />
|align="center"|8,7<br />
|align="center"|5,8<br />
|align="center"|<br />
|-<br />
|align="center" rowspan="2"|2 oder mehr<br />
|align="center"|beobachtet<br />
|align="center"|12<br />
|align="center"|6<br />
|align="center"|11<br />
|align="center"|29<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|15,8<br />
|align="center"|7,9<br />
|align="center"|5,3<br />
|align="center"|<br />
|-<br />
|align="center" colspan="2"| RV <math>Y\;</math><br />
|align="center"|60<br />
|align="center"|30<br />
|align="center"|20<br />
|align="center"|110<br />
|}<br />
<br />
Die [[Approximation]]sbedingung ist erfüllt, da alle <math>\widehat{e}_{kj}\geq 5</math> sind. Mit <math>K = 3</math> und <math>J = 3</math> folgt für die Anzahl der [[Freiheitsgrad]]e: <math>f = (K - 1)\cdot(J - 1) =2\cdot2= 4</math>. <br />
<br />
Für <math>P(V \leq c) = 0,95</math> und <math>f = 4</math> findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;(f)}^{2}=\chi_{0,95;4}^{2}=9,49</math>. <br />
<br />
Die [[Entscheidungsbereiche]] sind damit:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v>9,49\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq 9,49\right\}</math><br />
<br />
Als [[Prüfwert]] ergibt sich:<br />
<br />
<math>v=\frac{\left( 30-26,7\right)^{2}}{26,7}+\frac{\left( 14-13,4\right)^{2}}{13,4}+\ldots +\frac{\left( 11-5,3\right)^{2}}{5,3}=10,5</math><br />
<br />
====Testentscheidung====<br />
<br />
Da <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]] abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Auf einem [[Signifikanzniveau]] von <math>\alpha =0,05</math> und basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 110</math> konnte [[Statistik|statistisch]] bewiesen werden, dass die [[Zufallsvariable]]n <math>X\;</math>: "Anzahl der Mängel am Pkw" und <math>Y\;</math>: "Alter des Pkw" [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}|H_0)</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = 0,05</math>.<br />
<br />
===Umfrage===<br />
<br />
Bei einer Umfrage in den Jahren 1991 und 1996 wurde zufällig ausgewählten Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahre zum Befragungszeitpunkt die folgenden Fragen gestellt: <br />
<br />
1. "Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?"<br />
<br />
2. "Wie wird die wirtschaftliche Lage in Deutschland in einem Jahr sein?"<br />
<br />
Die Einschätzungen konnten die Befragten jeweils auf einer fünfteiligen Skala vornehmen:<br />
<br />
1. Frage: 1 - sehr gut, 2 - gut, 3 - teils gut / teils schlecht, 4 - schlecht, 5 - sehr schlecht<br />
<br />
2. Frage: 1 - wesentlich besser als heute, 2 - etwas besser, 3 - gleichbleibend, 4 - etwas schlechter, 5 - wesentlich schlechter.<br />
<br />
Der Inhalt der 1. Frage wird als [[Zufallsvariable]] <math>X_{1}:\;</math> "Gegenwärtige Wirtschaftslage" und der Inhalt der 2. Frage als [[Zufallsvariable]] <math>X_{2}:\;</math> "Zukünftige Wirtschaftslage" definiert, die die genannten 5 möglichen [[Realisation]]en annehmen können. <br />
<br />
Darüber hinaus wurde u.a. erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West-Berlin) oder aus den neuen Bundesländern (einschließlich Ost-Berlin) stammt. <br />
<br />
Dies sei die [[Zufallsvariable]] <math>Y\;</math>: "Erhebungsgebiet" mit den möglichen [[Realisation]]en <math>y_{1} =</math> "West" und <math>y_{2} = </math> "Ost".<br />
<br />
Es soll auf einem [[Signifikanzniveau]] von <math>\alpha =0,05</math> geprüft werden, ob die [[Zufallsvariable]]n <math>X_{1}\;</math> und <math>Y\;</math> bzw. <math>X_{2}\;</math> und <math>Y\;</math> in den Jahren 1991 bzw. 1996 [[Unabhängigkeit (stochastisch)|unabhängig]] sind.<br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen den beiden [[Zufallsvariable]]n als <math>H_{0}</math> formuliert werden, um die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können, so dass die [[Hypothese]]npaare lauten:<br />
<br />
<math>H_{0}:X_{1}\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:X_{1}\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
und<br />
<br />
<math>H_{0}:X_{2}\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:X_{2}\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
====Teststatistik====<br />
<br />
Es wird die [[Teststatistik (Chi-Quadrat-Unabhängigkeitstest)|Teststatistik des Chi-Quadrat-Unabhängigkeitstest]] verwendet<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] ist mit der Anzahl der<br />
[[Freiheitsgrad]]e <math>f = (K - 1)\cdot(J - 1)</math>. <br />
<br />
Die [[Entscheidungsbereiche]] der [[Nullhypothese]] können erst nach Vorliegen der [[Stichprobe]] festgelegt werden, da<br />
<br />
* die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind,<br />
<br />
* erst dann die [[Approximation]]sbedingung überprüft werden kann und ersichtlich ist, ob Werte zusammenzufassen sind,<br />
<br />
* erst danach die Anzahl der [[Freiheitsgrad]]e feststeht und der [[Kritischer Wert|kritische Wert]] aufgesucht werden kann.<br />
<br />
====Entscheidungsbereiche, Prüfwert und Testentscheidung====<br />
<br />
Die sich aus den [[Stichprobe]]n im Jahre 1991 und 1996 ergebenden gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] und [[Randhäufigkeit]]]en sind in den folgenden Tabellen 1 - 4 enthalten. <br />
<br />
Gleichzeitig werden in die Zellen dieser Tabellen die [[Schätzung|geschätzt]]en gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] bei Gültigkeit der [[Nullhypothese]], die sich gemäß<br />
<br />
<math>\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
ergeben (gerundet auf eine Dezimalstelle), und die Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> aufgenommen.<br />
<br />
<br />
Tabelle 1: Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1991<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|colspan="2" align="center" rowspan="2"|Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> <br />
|align="center" colspan="2" |Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{1}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|sehr gut<br />
|align="center"|beobachtet<br />
|align="center"|209<br />
|align="center"|165<br />
|align="center"|374<br />
|-<br />
|<br />
|align="center"|erwartet<br />
|align="center"|184,8<br />
|align="center"|189,2<br />
|<br />
|-<br />
|<br />
|align="center"|Differenz<br />
|align="center"|24,2<br />
|align="center"|-24,2<br />
|<br />
|-<br />
|align="center"|gut<br />
|align="center"|beobachtet<br />
|align="center"|744<br />
|align="center"|592<br />
|align="center"|1336<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|660,1<br />
|align="center"|675,9<br />
|<br />
|-<br />
|<br />
|align="center"|Differenz<br />
|align="center"|83,9<br />
|align="center"|-83,9<br />
|align="center"|<br />
|-<br />
|align="center"|teils/teils<br />
|align="center"|beobachtet<br />
|align="center"|431<br />
|align="center"|647<br />
|align="center"|1078<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|532,6<br />
|align="center"|545,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-101,6<br />
|align="center"|101,6<br />
|align="center"|<br />
|-<br />
|align="center"|schlecht<br />
|align="center"|beobachtet<br />
|align="center"|36<br />
|align="center"|39<br />
|align="center"|75<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|37,1<br />
|align="center"|37,9<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-1,1<br />
|align="center"|1,1<br />
|align="center"|<br />
|-<br />
|align="center"|sehr schlecht<br />
|align="center"|beobachtet<br />
|align="center"|4<br />
|align="center"|15<br />
|align="center"|19<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|9,4<br />
|align="center"|9,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-5,4<br />
|align="center"|5,4<br />
|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|1424<br />
|align="center"|1458<br />
|align="center"|2882<br />
|}<br />
<br />
<br />
Tabelle 2: Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1996<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{1}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
<br />
|-<br />
|align="center"|sehr gut<br />
|align="center"|beobachtet<br />
|align="center"|20<br />
|align="center"|6<br />
|align="center"|26<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|17,2<br />
|align="center"|8,8<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|2,8<br />
|align="center"|-2,8<br />
|align="center"|<br />
|-<br />
|align="center"|gut<br />
|align="center"|beobachtet<br />
|align="center"|264<br />
|align="center"|116<br />
|align="center"|380<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|251,3<br />
|align="center"|128,7<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|12,7<br />
|align="center"|-12,7<br />
|align="center"|<br />
|-<br />
|align="center"|teils/teils<br />
|align="center"|beobachtet<br />
|align="center"|1006<br />
|align="center"|557<br />
|align="center"|1563<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|1033,7<br />
|align="center"|529,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-27,7<br />
|align="center"|27,7<br />
|align="center"|<br />
|-<br />
|align="center"|schlecht<br />
|align="center"|beobachtet<br />
|align="center"|692<br />
|align="center"|335<br />
|align="center"|1027<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|679,2<br />
|align="center"|347,8<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|12,8<br />
|align="center"|-12,8<br />
|align="center"|<br />
|-<br />
|align="center"|sehr schlecht<br />
|align="center"|beobachtet<br />
|align="center"|141<br />
|align="center"|73<br />
|align="center"|214<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|141,5<br />
|align="center"|72,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,5<br />
|align="center"|0,5<br />
|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|2123<br />
|align="center"|1087<br />
|align="center"|3210<br />
|}<br />
<br />
<br />
Tabelle 3: Zukünftige Wirtschaftslage <math>(X_{2})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1991<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Zukünftige Wirtschaftslage <math>(X_{2})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{2}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|wesentlich besser<br />
|align="center"|beobachtet<br />
|align="center"|75<br />
|align="center"|203<br />
|align="center"|278<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|137,4<br />
|align="center"|140,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-62,4<br />
|align="center"|62,4<br />
|align="center"|<br />
|-<br />
|align="center"|etwas besser<br />
|align="center"|beobachtet<br />
|align="center"|449<br />
|align="center"|763<br />
|align="center"|1212<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|598,9<br />
|align="center"|613,1<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-149,9<br />
|align="center"|149,9<br />
|align="center"|<br />
|-<br />
|align="center"|gleichbleibend<br />
|align="center"|beobachtet<br />
|align="center"|684<br />
|align="center"|414<br />
|align="center"|1108<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|547,5<br />
|align="center"|560,5<br />
|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|136,5<br />
|align="center"|-136,5<br />
|align="center"|<br />
|-<br />
|align="center"|etwas schlechter<br />
|align="center"|beobachtet<br />
|align="center"|200<br />
|align="center"|62<br />
|align="center"|262<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|129,5<br />
|align="center"|132,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|70,5<br />
|align="center"|-70,5<br />
|<br />
|-<br />
|align="center"|wesentlich schlechter<br />
|align="center"|beobachtet<br />
|align="center"|16<br />
|align="center"|6<br />
|align="center"|22<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|10,9<br />
|align="center"|11,1<br />
|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|5,1<br />
|align="center"|-5,1<br />
|<br />
|-<br />
|colspan="2"|RV <math>Y\,</math><br />
|align="center"|1424<br />
|align="center"|1458<br />
|align="center"|2882<br />
|}<br />
<br />
<br />
Tabelle 4: Zukünftige Wirtschaftslage <math>(X_{2})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1996<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Zukünftige Wirtschaftslage <math>(X_{2})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|rowspan="2" align="center"|RV <math>X_{2}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|wesentlich besser<br />
|align="center"|beobachtet<br />
|align="center"|9<br />
|align="center"|6<br />
|align="center"|15<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|9,9<br />
|align="center"|5,1<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,9<br />
|align="center"|0,9<br />
|<br />
|-<br />
|align="center"|etwas besser<br />
|align="center"|beobachtet<br />
|align="center"|190<br />
|align="center"|131<br />
|align="center"|321<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|212,3<br />
|align="center"|108,7<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-22,3<br />
|align="center"|22,3<br />
|<br />
|-<br />
|align="center"|gleichbleibend<br />
|align="center"|beobachtet<br />
|align="center"|809<br />
|align="center"|444<br />
|align="center"|1253<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|828,7<br />
|align="center"|42,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-19,7<br />
|align="center"|19,7<br />
|<br />
|-<br />
|align="center"|etwas schlechter<br />
|align="center"|beobachtet<br />
|align="center"|960<br />
|align="center"|426<br />
|align="center"|1386<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|916,7<br />
|align="center"|469,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|43,3<br />
|align="center"|-43,3<br />
|<br />
|-<br />
|align="center"|wesentlich schlechter<br />
|align="center"|beobachtet<br />
|align="center"|155<br />
|align="center"|80<br />
|align="center"|235<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|155,4<br />
|align="center"|79,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,4<br />
|align="center"|0,4<br />
|align="center"|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|2123<br />
|align="center"|1087<br />
|align="center"|3210<br />
|}<br />
<br />
Für alle 4 durchzuführende [[Statistischer Test|Tests]] gilt:<br />
<br />
Die [[Approximation]]sbedingung ist erfüllt, da alle <math>\widehat{e}_{kj}\geq 5</math> sind. Mit <math>K = 5</math> und <math>J = 2</math> folgt für die Anzahl der [[Freiheitsgrad]]e: <math>f = (K - 1)\cdot(J - 1) = 4\cdot1=4</math>. <br />
<br />
Für <math>P(V \leq c) = 0,95</math> und <math>f = 4</math> findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;\left( K-1\right) \cdot \left( J-1\right)}^{2}=\chi_{0,95;4}^{2}=9,49</math>. <br />
<br />
Die [[Entscheidungsbereiche]] sind damit:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{v|v>9,49\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v\leq 9,49\right\}</math><br />
<br />
Als [[Prüfwert]]e und Testentscheidung ergeben sich:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Jahr<br />
|align="center"|[[Zufallsvariable]]n<br />
|align="center"|[[Prüfwert]] <math>v</math><br />
|align="center"|Testentscheidung<br />
|-<br />
|align="center"|1991<br />
|align="center"|<math>X_{1}, Y</math><br />
|align="center"|71,85<br />
|align="center"|<math>H_{1}</math><br />
|-<br />
|align="center"|1996<br />
|align="center"|<math>X_{1}, Y</math> <br />
|align="center"|6,15 <br />
|align="center"|<math>H_{0}</math><br />
|-<br />
|align="center"|1991<br />
|align="center"|<math>X_{2}, Y</math><br />
|align="center"|278,17<br />
|align="center"|<math>H_{1}</math><br />
|-<br />
|align="center"|1996<br />
|align="center"|<math>X_{2}, Y</math><br />
|align="center"|14,61<br />
|align="center"|<math>H_{1}</math><br />
|}<br />
<br />
====Interpretation====<br />
<br />
* Gegenwärtige Wirtschaftslage in Deutschland:<br />
<br />
: Während für 1991 auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> die [[Nullhypothese]] abgelehnt wird, d.h. [[Statistik|statistisch]] eine Abhängigkeit zwischen den [[Zufallsvariable]]n <math>X_{1}\;</math>: "Gegenwärtige Wirtschaftslage" und <math>Y\;</math>: "Erhebungsgebiet" nachgewiesen werden konnte, wird für das Jahr 1996 die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
: 1991 bewerteten die Befragten in den alten Bundesländern die gegenwärtige Wirtschaftslage tendenziell deutlich zufriedener als die Befragten in den neuen Bundesländern, was anhand der großen positiven Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> bei der sehr guten und guten Einschätzung in der Spalte West der Tabelle 1 zu erkennen ist. <br />
<br />
: Auch 1996 treten Differenzen zwischen <math>h_{kj}</math> und <math>\widehat{e}_{kj}</math> auf, aber sie sind in ihrer Gesamtheit nicht mehr signifikant. <br />
<br />
: Es hat offensichtlich eine Angleichung in den Einschätzungen der gegenwärtigen Wirtschaftslage zwischen West und Ost stattgefunden.<br />
<br />
* Zukünftige Wirtschaftslage in Deutschland:<br />
<br />
: Bezüglich der [[Zufallsvariable]]n <math>X_{2}\;</math>: "Zukünftige Wirtschaftslage" und <math>Y\;</math>: "Erhebungsgebiet" wird für beide Jahre die [[Nullhypothese]] der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> abgelehnt. <br />
<br />
: Hierbei sind es jedoch die Befragten in den neuen Bundesländern, die in beiden Jahren die zukünftige Wirtschaftslage tendenziell deutlich optimistischer bewerten als die Befragten in den alten Bundesländern. <br />
<br />
: Vergleicht man beide Jahre miteinander, so sind die Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> 1996 kleiner als 1991, was ebenfalls auf eine gewisse Annäherung in den Bewertungen zwischen West und Ost schließen lässt, jedoch sind sie auch 1996 in ihrer Gesamtheit noch [[Statistik|statistisch]] signifikant.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Chi-Quadrat-Unabh%C3%A4ngigkeitstest&diff=1235Chi-Quadrat-Unabhängigkeitstest2018-05-29T11:39:00Z<p>Jacobdan: </p>
<hr />
<div>{{Testtheorie}}<br />
<br />
==Grundbegriffe==<br />
<br />
===Chi-Quadrat-Unabhängigkeitstest===<br />
<br />
Bei einem ''Chi-Quadrat-Unabhängigkeitstest'' wird geprüft, ob zwei [[Zufallsvariable]]n [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. Dieser [[Statistischer Test|statistische Test]] gehört zu den nichtparametrischen [[Statistischer Test|Tests]]. <br />
<br />
An das [[Skalenniveau]] der [[Zufallsvariable]]n werden keine Voraussetzungen gestellt.<br />
<br />
Es sei allgemein angenommen, dass zwei [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> gleichzeitig an <math>n</math> [[Statistische Einheit|statistischen Einheiten]] (<math>i=1,\ldots ,n</math>) beobachtet werden, wobei die Unabhängigkeit der<br />
Stichprobenziehungen vorausgesetzt wird ([[einfache Zufallsstichprobe]]). <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable]]n (darunter werden im weiteren summarisch [[Nominalskala|nominalskalierte]], [[Ordinalskala|ordinalskalierte]] sowie [[diskrete Zufallsvariable]]n mit sehr wenigen [[Ausprägung]]en verstanden), nehmen sie die [[Stichprobe]]n[[realisation]]en <math>x_{k}(k=1,\ldots ,K)</math> und <math>y_{j},\;(j=1,\ldots ,J)</math> an. <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[stetige Zufallsvariable]]n (darunter werden im weiteren auch die [[diskrete Zufallsvariable|diskreten Zufallsvariable]]n mit sehr vielen bzw. unendlich vielen [[Ausprägung]]en, d.h. die genannten [[Quasi-stetiges Merkmal|quasi-stetig]]en [[Zufallsvariable]]n, gefasst), muss eine Intervallbildung der [[Beobachtung|beobachtete]]n Werte in [[disjunkte Ereignisse|disjunkt]]e, aneinander angrenzende [[Klasse]]n erfolgen.<br />
<br />
<math>x_{k},\;(k=1,\ldots ,K)</math> und <math>y_{j},\;(j=1,\ldots ,J)</math> sind dann repräsentative [[Klasse]]nwerte (im Allgemeinen die<br />
[[Klassenmitte]]n) und <math>K</math> und <math>J</math> die Anzahl der gebildeten [[Klasse]]n. <br />
<br />
Eine geeignete Darstellungsform für die beobachtete gemeinsame [[Häufigkeitsverteilung]] der zwei [[Zufallsvariable]]n ist die [[Häufigkeitstabelle (zweidimensional)|zweidimensionale Häufigkeitstabelle]] (auch als [[Kontingenztabelle]] oder [[Kreuztabelle]] bezeichnet).<br />
<br />
[[Häufigkeitstabelle (zweidimensional)|Zweidimensionale Häufigkeitstabelle]]:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="right" colspan="2" |<math>x\quad y </math><br />
|align="center"|<math>y_{1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>y_{j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>y_{J}</math><br />
|align="center"|RV <math>x</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{1}</math><br />
|align="center"|<math>h_{11}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{1j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{1J}</math><br />
|align="center"|<math>h_{1\bullet}</math><br />
|-<br />
|align="center" colspan="2"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{k}</math><br />
|align="center"|<math>h_{k1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{kj}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{kJ}</math><br />
|align="center"|<math>h_{k\bullet}</math><br />
|-<br />
|align="center" colspan="2"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>\vdots</math><br />
|align="center"|<math>\vdots</math><br />
|-<br />
|align="center" colspan="2"|<math>x_{K}</math><br />
|align="center"|<math>h_{K1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{Kj}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{KJ}</math><br />
|align="center"|<math>h_{K\bullet}</math><br />
|-<br />
|align="center" colspan="2"|RV <math>x</math><br />
|align="center"|<math>h_{\bullet 1}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{\bullet j}</math><br />
|align="center"|<math>\cdots</math><br />
|align="center"|<math>h_{\bullet J}</math><br />
|align="center"|<math>h_{\bullet\bullet}=n</math><br />
|}<br />
<br />
<math>\,h_{kj}</math> bezeichnet die [[absolute Häufigkeit]] für das beobachtete Wertepaar <math>\left( x_{k},y_{j}\right)</math>, d.h. dass <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] und <math>Y\;</math> gleichzeitig den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] angenommen hat:<br />
<br />
<math>h_{kj}=h\left( \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\} \right)\; ; \quad k=1, \ldots,K, \quad j=1,\ldots , J</math><br />
<br />
Die letzte Spalte enthält die beobachtete [[Randverteilung (stochastisch)|Randverteilung]] (RV) von <math>X\;</math> mit den absoluten<br />
[[Randhäufigkeit]]en <math>h_{k\bullet}=h\left(X=x_{k}\right)\;;k=1,\ldots ,K</math>.<br />
<br />
<math>h_{k\bullet }</math> gibt an, wie oft <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] angenommen hat, wobei es gleichgültig ist, welchen Wert <math>Y\;</math> aufweist. <br />
<br />
Die letzte Zeile weist die beobachtete [[Randverteilung (stochastisch)|Randverteilung]] von <math>Y\;</math> mit den absoluten [[Randhäufigkeit]]en <math>h_{j\bullet }=h\left( Y=y_{j}\right)\;;j=1,\ldots ,J</math> aus. <br />
<br />
<math>h_{j\bullet }</math> gibt an, wie oft <math>Y\;</math> den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] angenommen hat, wobei es gleichgültig ist, welchen Wert <math>X\;</math> aufweist. <br />
<br />
Für die [[Häufigkeitstabelle (zweidimensional)|zweidimensionale Häufigkeitstabelle]] gelten folgende Beziehungen:<br />
<br />
<math>h_{k\bullet }=\sum_{j=1}^{J}h_{kj}\;;\quad k=1,\ldots ,K;</math><br />
<br />
<math>h_{\bullet j}=\sum_{k=1}^{K}h_{kj}\;;\quad j=1,\ldots ,J;</math><br />
<br />
<math>h_{\bullet \bullet }=\sum_{k=1}^{K}h_{k\bullet }=\sum_{j=1}^{J}h_{\bullet j}=\sum_{k=1}^{K}\sum_{j=1}^{J}h_{kj}=n</math>.<br />
<br />
Die [[Nullhypothese]] lautet beim Chi-Quadrat-Unabhängigkeitstest stets, dass die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> in der [[Grundgesamtheit]] [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. Die [[Alternativhypothese]] enthält das logische Pendant.<br />
<br />
<math>H_{0}</math>:<math>X\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}</math>:<math>X\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch abhängig]].<br />
<br />
Wenn die [[Nullhypothese]] gilt, dann ergibt sich nach dem [[Multiplikationssatz bei Unabhängigkeit]]<br />
<br />
<math>P\left( X=x_{k}\right\}\cap\left\{ Y=y_{j}\right)=P\left( X=x_{k}\right)\cdot P\left( Y=y_{j}\right)=p_{k\bullet}\cdot p_{\bullet j}= p_{kj}</math><br />
<br />
Dabei bezeichnen:<br />
<br />
<math>p_{kj}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] und <math>Y\;</math> gleichzeitig den Wert <math>y_{j}</math> bzw. einen Wert aus der <math>j</math>-ten<br />
[[Klasse]] annimmt;<br />
<br />
<math>p_{k\bullet}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> den Wert <math>x_{k}</math> bzw. einen Wert aus der <math>k</math>-ten [[Klasse]] annimmt ([[Randwahrscheinlichkeit]] von <math>X\;</math>) und<br />
<br />
<math>p_{\bullet j}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>Y\;</math> den Wert <math>Y_{i}</math> bzw. einen Wert aus der <math>j</math>-ten [[Klasse]] annimmt ([[Randwahrscheinlichkeit]] von <math>Y\;</math>).<br />
<br />
Das [[Hypothese]]npaar kann somit konkretisiert werden: <br />
<br />
<math>H_{0}:\;p_{kj}=p_{k\bullet}\cdot p_{\bullet j}\quad </math> für alle Paare <math>\left( k,j\right)</math><br />
<br />
<math>H_{1}: p_{kj}\neq p_{k\bullet}\cdot p_{\bullet j}\quad</math> für mindestens ein Paar <math>\left( k,j\right)</math><br />
<br />
Das [[Signifikanzniveau]] <math>\alpha</math> und der [[Stichprobenumfang]] <math>n</math> sind vor der Testdurchführung festzulegen.<br />
<br />
===Teststatistik des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Für die Bestimmung der [[Teststatistik]] wird von den [[Absolute Häufigkeit|absoluten Häufigkeiten]] ausgegangen. Der [[Statistischer Test|Test]] basiert auf dem Vergleich der in der [[Stichprobe]] beobachteten und der bei Gültigkeit der [[Nullhypothese]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]].<br />
<br />
Für die konkrete Stichprobe sind die gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <br />
<br />
<math>h_{kj}\;(k=1,\ldots ,K,\;j=1,\ldots J)</math><br />
<br />
in den Zellen der [[Häufigkeitstabelle (zweidimensional)|zweidimensionalen Häufigkeitstabelle]] gegeben. Da diese [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> Ergebnis eines [[Zufallsexperiment]]es sind, können sie von [[Stichprobe]] zu [[Stichprobe]] unterschiedliche Werte annehmen, d.h., sie sind [[Realisation]]en von [[Zufallsvariable]]n <math>H_{kj}\;</math>.<br />
<br />
Wenn die [[Nullhypothese]] gilt, ergeben sich die erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] als <math>e_{kj}=n\cdot p_{k\bullet}\cdot p_{\bullet j}</math>. <br />
<br />
Da die gemeinsamen [[Wahrscheinlichkeit]]en <math>p_{kj}</math> und die [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und<br />
<math>p_{\bullet j}</math> für alle <math>k</math> und <math>j</math> unbekannt sind, müssen sie aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden. <br />
<br />
[[Erwartungstreue]] und [[Konsistenz|konsistente]] [[Punktschätzung]]en für <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> sind die relativen [[Randhäufigkeit]]en <math>f_{k\bullet}=\frac{h_{k\bullet }}{n}</math> und <math>f_{\bullet j}=\frac{h_{\bullet j}}{n}</math>. <br />
<br />
Das beinhaltet, dass von festen [[Randhäufigkeit]]en der [[Häufigkeitstabelle (zweidimensional)|zweidimensionalen Häufigkeitstabelle]] ausgegangen wird. Damit erhält man [[Schätzung]]en für die unter <math>H_{0}</math> erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]]:<br />
<br />
<math>\widehat{e}_{kj}=n\cdot f_{k\bullet }\cdot f_{\bullet j}=n\cdot \frac{h_{k\bullet}}{n}\cdot \frac{h_{\bullet j}}{n}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
Der Vergleich zwischen den in der [[Stichprobe]] beobachteten und den bei Gültigkeit der [[Nullhypothese]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] baut auf den Differenzen <math>H_{kj}-\widehat{e}_{kj}\;(k=1,\ldots,K;\;j=1,\ldots J)</math> auf. <br />
<br />
Eine summarische Größe, die die Abweichung von der [[Nullhypothese]] bewertet, ist die [[Teststatistik]]<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
Bei Gültigkeit der [[Nullhypothese]] ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = (K - 1)\cdot(J - 1)</math> [[Freiheitsgrad]]en. <br />
<br />
Die [[Approximation]] an die [[Chi-Quadrat-Verteilung]] ist hinreichend, wenn <math>\widehat{e}_{kj}\geq 5</math> für alle <math>k,\; j</math> gilt. <br />
<br />
Ist diese Bedingungen nicht erfüllt, müssen vor der Anwendung des [[Statistischer Test|Tests]] benachbarte Werte bzw. [[Klasse]]n zusammengefaßt werden. <math>K</math> und <math>J</math> sind die Anzahlen der verbliebenen Werte bzw. [[Klasse]]n nach einer eventuell notwendigen Zusammenfassung.<br />
<br />
Der [[Kritischer Wert|kritische Wert]] <math>c</math> wird für <math>P(V \leq c) = 1- \alpha</math> und die Anzahl der [[Freiheitsgrad]]e <math>f</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] entnommen.<br />
<br />
===Entscheidungsbereiche des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Die [[Entscheidungsbereiche]] sind:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v>\chi_{1-\alpha ;(K-1)\cdot \left( J-1\right)}^{2}\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq \chi_{1-\alpha ;(K-1)\cdot\left(J-1\right)}^{2}\right\}</math><br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> annimmt, entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = P(V > \chi_{1-\alpha;f}^{2} | H_{0})</math>. <br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Teststatistik]] <math>V\;</math> eine [[Realisation]] aus dem [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> annimmt, ist <math>P(V \leq \chi_{1-\alpha;f}^{2} | H_{0})=1-\alpha</math>.<br />
<br />
<iframe k="wiwi" p="examples/Chi-Quadrat_Chi-Quadrat-Unabh_R00480004800000000000000_plot.html" /><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> | [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math><br />
<br />
===Prüfwert des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Wenn die [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> gezogen wurde, können die [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> für alle beobachteten Wertepaare <math>\left( x_{k},y_{j}\right)</math> ermittelt, daraus die beobachteten [[Randhäufigkeit]]en für <math>X\,</math> und <math>Y\;</math> bestimmt und die erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>\widehat{e}_{kj}</math> berechnet werden. <br />
<br />
Ist die [[Approximation]]sbedingung nicht erfüllt, müssen Werte bzw. [[Klasse]]n geeignet zusammengefaßt und die Häufigkeiten <math>h_{kj}</math>, <math>h_{k\bullet }</math>, <math>h_{\bullet j}</math> und <math>\widehat{e}_{kj}</math> erneut bestimmt werden. <br />
<br />
Einsetzen von <math>h_{kj}</math> und für alle <math>k,\; j</math> in die [[Teststatistik]] führt zu einem [[Prüfwert]] <math>v</math>.<br />
<br />
===Entscheidungssituationen des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
Wenn <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]]<br />
auf dem [[Signifikanzniveau]] <math>\alpha</math> und basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Es konnte [[Statistik|statistisch]] gezeigt werden, dass die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}| H_{0})</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist.<br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha</math>.<br />
<br />
Wenn <math>v</math> in den [[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]] basierend auf der [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> nicht abgelehnt <math>(\mbox{''}H_{0}\mbox{''})</math>. <br />
<br />
Das [[Stichprobe]]nergebnis gibt keine Veranlassung, die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> zu verwerfen. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 2. Art]] <math>(\mbox{''}H_{0}\mbox{''}| H_{1})</math> zu begehen, wenn in Wirklichkeit die [[Alternativhypothese]] richtig ist.<br />
<br />
==Zusatzinformationen==<br />
<br />
===Herleitung des Chi-Quadrat-Unabhängigkeitstests===<br />
<br />
====Hypothesen====<br />
<br />
Die generelle Vorgehensweise bei Unabhängigkeitstests ist im Prinzip wie bei den [[Parametertest]]s. Es wird eine [[Teststatistik]]<br />
konstruiert, die die Informationen bei Gültigkeit der [[Nullhypothese]] sowie die Informationen aus der [[Zufallsstichprobe]] enthält und auf deren Basis eine Aussage über die [[Nullhypothese]] möglich ist. <br />
<br />
Die Verteilung der [[Teststatistik]] muss unter der [[Nullhypothese]] (zumindest [[Approximation|approximativ]]) bekannt sein. <br />
<br />
Auch bei Unabhängigkeitstests wird stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft und in Abhängigkeit von der Testentscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] mit der [[Wahrscheinlichkeit]] <math>P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)=\alpha</math> bzw. einen [[Fehler 2. Art]] mit der [[Wahrscheinlichkeit]] <math>P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right)=\beta</math> zu begehen. <br />
<br />
Mit dem vorgegebenen [[Signifikanzniveau]] kann die [[Wahrscheinlichkeit]] eines [[Fehler 1. Art|Fehlers 1. Art]] niedrig gehalten werden; die [[Wahrscheinlichkeit]] eines [[Fehler 2. Art|Fehlers 2. Art]] ist dagegen in der Regel nicht bekannt. <br />
<br />
Man wird deshalb bestrebt sein, die [[Nullhypothese]] abzulehnen, da dann die [[Statistik|statistische]] Sicherheit einer Fehlentscheidung bekannt ist.<br />
<br />
Wenn die [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> in der [[Grundgesamtheit]] wirklich [[Unabhängigkeit (stochastisch)|unabhängig]] sind, dann ist zu erwarten, dass diese Tatsache im Prinzip auch in der [[Stichprobe]] zu beobachten ist. <br />
<br />
Im Prinzip bedeutet dabei, dass Abweichungen zwischen den beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> und den bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>e_{kj}</math> in der Regel immer auftreten werden. <br />
<br />
Zu entscheiden ist, ob die Abweichungen noch zufallsbedingt sind oder ob es sich um signifikante Abweichungen handelt. <br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen <math>X\;</math> und <math>Y\;</math> immer als <math>H_{0}</math> formuliert werden, um die erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können. <br />
<br />
Große Abweichungen zwischen beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>h_{kj}</math> und den bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] <math>e_{kj}</math> sprechen tendenziell gegen die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]], d.h. man wird die [[Nullhypothese]] ablehnen.<br />
<br />
Das dem Chi-Quadrat-Unabhängigkeitstest zugrunde liegende [[Hypothese]]npaar enthält die [[Wahrscheinlichkeit]]en <math>p_{kj}</math>, <math>p_{k\bullet }</math>, und <math>p_{\bullet j}</math> <math>(k=1,\ldots ,K;\;j=1,\ldots J)</math>. <br />
<br />
Sind <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable]]n, beinhalten diese [[Wahrscheinlichkeit]]en, dass <math>X\;</math> und <math>Y\;</math> genau eine mögliche [[Realisation]] annehmen:<br />
<br />
<math>p_{kj}=P\left(\left\{X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}\right)</math><br />
<br />
<math>p_{k\bullet }=P\left( \left\{ X=x_{k}\right\} \right),\quad p_{\bullet j}=P\left( \left\{ Y=y_{j}\right\} \right)</math><br />
<br />
Für eine [[stetige Zufallsvariable]] ist die [[Wahrscheinlichkeit]], dass sie einen bestimmten Wert annimmt, jedoch stets Null. Daraus folgt die Notwendigkeit einer Intervallbildung der beobachteten Werte.<br />
<br />
Es bedeuten im [[stetige Zufallsvariable|stetigen]] Fall:<br />
<br />
<math>p_{kj}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> einen Wert aus der [[Klasse]] <math>\left( x_{k-1}^{*},x_{k}^{*}\right)</math> und die [[Zufallsvariable]] <math>Y\;</math> einen Wert aus der [[Klasse]] <math>\left(y_{j-1}^{*},y_{j}^{*}\right)</math> annimmt;<br />
<br />
<math>p_{k\bullet}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X\;</math> einen Wert aus der [[Klasse]] <math>\left( x_{k-1}^{*},x_{k}^{*}\right)</math> annimmt ([[Randwahrscheinlichkeit]] von <math>X\;</math>) und<br />
<br />
<math>p_{\bullet j}</math> die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>Y\;</math> einen Wert aus der [[Klasse]] <math>\left( y_{j-1}^{*},y_{j}^{*}\right)</math> annimmt ([[Randwahrscheinlichkeit]] von <math>Y\;</math>):<br />
<br />
<math>p_{kj}=P\left( \left\{ x_{k-1}^{*}<X\leq x_{k}^{*}\right\}\cap\left\{y_{j-1}^{*}<Y\leq y_{j}^{*}\right\}\right)</math>,<br />
<br />
<math>p_{k\bullet}=P\left( x_{k-1}^{*}<X\leq x_{k}^{*}\right),\quad p_{\bullet j}=P\left( y_{j-1}^{*}<Y\leq y_{j}^{*}\right)</math><br />
<br />
Um diese Darstellung zu vereinfachen und mit dem [[Diskretes Merkmal|diskreten]] Fall zu vereinheitlichen, werden statt der [[Klasse]]n repräsentative [[Klasse]]nwerte (im Allgemeinen die [[Klassenmitte]]n) <math>x_{k},\left(k=1, \ldots K\right)</math> und <math>y_{j},\; \left( j=1, \ldots J\right)</math> verwendet. <math>K</math> und <math>J</math> sind die Anzahlen der jeweils gebildeten [[Klasse]]n.<br />
<br />
Es sei jedoch angemerkt, dass auch für eine [[diskrete Zufallsvariable]] eine [[Klasse]]nbildung vorgenommen werden kann, falls es die Problemstellung erfordert.<br />
<br />
====Teststatistik====<br />
<br />
Die Tatsache, dass die beobachteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] [[Zufallsvariable]]n <math>H_{kj}\;</math> sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob <math>X\;</math> und <math>Y\;</math> [[diskrete Zufallsvariable|diskret]] oder [[stetige Zufallsvariable|stetig]] sind, so dass nur auf [[diskrete Zufallsvariable]]n Bezug genommen wird.<br />
<br />
Aus der [[Grundgesamtheit]] wird ein [[Statistisches Element|Element]] zufällig gezogen und festgestellt, ob das Wertepaar <math>\left( x_{k},y_{j}\right)</math> aufgetreten ist, d.h. ob das [[Ereignis]] <math>\left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\}</math> eingetreten ist oder nicht. <br />
<br />
Es gibt somit nur zwei mögliche Ergebnisse des [[Zufallsexperiment]]es. Die [[Wahrscheinlichkeit]] für das Eintreten des [[Ereignis]]ses <math>\left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\}</math> ist <math>p_{kj}</math> und die [[Wahrscheinlichkeit]] für das Nichteintreten <math>1 - p_{kj}</math>. <br />
<br />
Das [[Zufallsexperiment]] wird <math>n</math>-mal wiederholt, wobei die einzelnen Versuche [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander (da eine [[einfache Zufallsstichprobe]] vorausgesetzt wird) und damit die [[Wahrscheinlichkeit]]en <math>p_{kj}</math> konstant sind. Es liegt somit ein [[Bernoulli-Experiment]] vor.<br />
<br />
Bei <math>n</math>-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens des [[Ereignis]]ses <math>\left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\}</math>, d.h. die [[absolute Häufigkeit]] des Wertepaares <math>\left( x_{k},y_{j}\right)</math> in der [[Stichprobe]]. <br />
<br />
Diese Häufigkeit kann von [[Stichprobe]] zu [[Stichprobe]] unterschiedlich sein, so dass <br />
<br />
<math>H_{kj} =\{ \mbox{Anzahl des Auftretens von } \left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\} \mbox{ in einer einfachen Zufallsstichprobe vom Umfang } n\}</math> <br />
<br />
eine [[diskrete Zufallsvariable]] ist, die die Werte <math>0,\;\ldots,\; n</math> annehmen kann. <br />
<br />
Die [[Zufallsvariable]] <math>H_{kj}\;</math> ist [[Binomialverteilung|binomialverteilt]] mit den [[Parameter]]n <math>n</math> und <math>p_{kj}:\; H_{kj}\sim B\left( n;p_{kj}\right)</math>. <br />
<br />
Der [[Erwartungswert]] von <math>H_{kj}\;</math> ist <math>E\left[ H_{kj}\right] =n\cdot p_{kj}</math>.<br />
<br />
Bei Gültigkeit der [[Nullhypothese]], d.h. bei [[Unabhängigkeit (stochastisch)|stochastischer Unabhängigkeit]] von <math>X\;</math> und <math>Y\;</math>, ergibt sich nach dem [[Multiplikationssatz bei Unabhängigkeit]], dass die gemeinsame [[Wahrscheinlichkeit]] <math>p_{kj}</math> das Produkt der beiden [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> ist, d.h. <math>p_{kj}=p_{k\bullet }\cdot p_{\bullet j}</math>. <br />
<br />
Für die bei [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] erwarteten gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]]<br />
resultiert: <br />
<br />
<math>e_{kj}=n\cdot p_{kj}=n\cdot p_{k\bullet }\cdot p_{\bullet j}</math>. <br />
<br />
Diese Herleitung gilt für alle <math>k=1,\ldots ,K</math> und <math>j=1,\ldots J</math> gleichermaßen.<br />
<br />
Die [[Teststatistik]] basiert auf dem Vergleich der in der [[Stichprobe]] beobachteten und der bei Gültigkeit der [[Nullhypothese]] erwarteten<br />
gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]], wobei letztere wegen der unbekannten [[Wahrscheinlichkeit]]en aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind: <math>H_{kj}-\widehat{e}_{kj}</math>. <br />
<br />
Damit sich positive und negative Abweichungen nicht aufheben, erfolgt eine Quadrierung: <math>\left( H_{kj}-\widehat{e}_{kj}\right) ^{2}</math>. <br />
<br />
Mit der Division durch <math>\widehat{e}_{kj}</math> wird der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen. <br />
<br />
Eine Differenz <math>h_{kj}-\widehat{e}_{kj}=5</math> fällt bei <math>\widehat{e}_{kj}=10</math> stärker ins Gewicht als bei <math>\widehat{e}_{kj}=100</math>. <br />
<br />
Durch die Summation der normierten Abweichungen über alle Paare <math>(k, j)</math> ergibt sich eine Größe für die in der [[Stichprobe]] insgesamt enthaltenen Abweichungen, die die adäquate [[Teststatistik]] darstellt:<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
Da die <math>H_{kj}\;</math> [[Zufallsvariable]]n sind, ist auch <math>V\;</math> eine [[Zufallsvariable]]. <br />
<br />
Bei Gültigkeit der [[Nullhypothese]], hinreichend großem [[Stichprobenumfang]] <math>n</math> und Einhaltung der [[Approximation]]sbedingung ist die [[Teststatistik]] <math>V\;</math> [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>f = (K - 1)\cdot(J - 1)</math> [[Freiheitsgrad]]en. <br />
<br />
Ist die [[Approximation]]sbedingung nicht erfüllt, müssen vor der Anwendung des [[Statistischer Test|Tests]] benachbarte Werte bzw. [[Klasse]]n zusammengefasst werden, was dann auch im [[diskrete Zufallsvariable|diskreten]] Fall mit einer [[Klasse]]nbildung verbunden ist. <br />
<br />
<math>K</math> und <math>J</math> sind die Anzahl der verbliebenen Werte bzw. [[Klasse]]n nach einer eventuell notwendigen Zusammenfassung<br />
<br />
====Anzahl der Freiheitsgrade====<br />
<br />
Insgesamt sind <math>K\cdot J</math> [[Wahrscheinlichkeit]]en <math>p_{kj}</math> in der [[Zweidimensionale Häufigkeitsverteilung|zweidimensionalen Verteilung]] der [[Zufallsvariable]]n <math>X\;</math> und <math>Y\;</math> enthalten. <br />
<br />
Ein [[Freiheitsgrad]] geht grundsätzlich verloren, weil die [[Wahrscheinlichkeit]]en untereinander nicht [[Unabhängigkeit (stochastisch)|unabhängig]] sind. <br />
<br />
Wegen <math>\sum\nolimits_{k}\sum\nolimits_{j}p_{kj}=1</math> folgt, dass jede [[Wahrscheinlichkeit]] <math>p_{kj}</math> durch die anderen <math>K\cdot J - 1</math> [[Wahrscheinlichkeit]]en bestimmt ist. <br />
<br />
<math>f = K \cdot J - 1</math> wäre somit die Anzahl der [[Freiheitsgrad]]e, wenn sich bei Gültigkeit der [[Nullhypothese]] alle [[Wahrscheinlichkeit]]en <math>p_{kj}</math> aus den (bekannten) [[Randwahrscheinlichkeit]]en gemäß <math>p_{kj}=p_{k\bullet }\cdot p_{\bullet j}</math> bestimmen ließen. <br />
<br />
Die [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math> und <math>p_{\bullet j}</math> sind jedoch unbekannt und müssen aus der [[Stichprobe]] [[Schätzung|geschätzt]] werden, wodurch sich die Anzahl der [[Freiheitsgrad]]e weiter verringert. <br />
<br />
Die [[Randverteilung]] von <math>X\;</math> enthält <math>K</math> [[Randwahrscheinlichkeit]]en <math>p_{k\bullet }</math>. Wegen <math>\sum\nolimits_{k}p_{k\bullet }=1</math> sind nur <math>K - 1</math> [[Wahrscheinlichkeit]]en <math>p_{k\bullet }</math> unbekannt und zu [[Schätzung|schätzen]]. <br />
<br />
Die [[Randverteilung]] von <math>Y\;</math> enthält <math>J</math> [[Randwahrscheinlichkeit]]en <math>p_{\bullet j }</math>. Wegen <math>\sum_{j}p_{\bullet j}=1</math> sind nur <math>J - 1</math> [[Wahrscheinlichkeit]]en <math>p_{\bullet j}</math> unbekannt und zu [[Schätzung|schätzen]]. <br />
<br />
Insgesamt sind damit <math>(K-1)+(J-1)</math> [[Randwahrscheinlichkeit]]en aus der [[Stichprobe]] zu [[Schätzung|schätzen]]. Somit folgt für die Anzahl der [[Freiheitsgrad]]e:<br />
<br />
<math>f=K\cdot J-1-\left[ \left( K-1\right) +\left( J-1\right) \right]=K\cdot J-K-J+1=\left( K-1\right) \cdot \left( J-1\right)</math><br />
<br />
Da in der [[Teststatistik]] die Terme <math>\frac{\left(H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math> nur positive Werte annehmen können, nimmt die [[Teststatistik]] <math>V\;</math> ebenfalls nur positive Werte an. <br />
<br />
Große Abweichungen <math>H_{kj}-\widehat{e}_{kj}</math> führen zu großen Werten von <math>V\;</math>. <br />
<br />
Somit führen nur große Werte von <math>V\;</math> zur [[Ablehnungsbereich der Nullhypothese|Ablehnung der <math>H_{0}</math>]], während kleine Werte von <math>V</math> nicht gegen die [[Nullhypothese]] sprechen. Der Chi-Quadrat-Unabhängigkeitstest ist somit ein [[rechtsseitiger Test]].<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Mängel und Alter===<br />
<br />
Es wird vermutet, dass die Anzahl der festgestellten Mängel an einem Pkw und das Alter des Pkw [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Um diese Annahme zu überprüfen, wird ein Chi-Quadrat-Unabhängigkeitstest auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> durchgeführt.<br />
<br />
Für die [[Zufallsvariable]] <math>X\;</math>: "Anzahl der Mängel am Pkw" werden die [[Realisation]]en <math>x_{1}</math> = "kein Mangel", <math>x_{2}</math> = "1 Mangel" und <math>x_{3}</math> = "2 oder mehr Mängel" und <br />
<br />
für die [[Zufallsvariable]] <math>Y\;</math>: "Alter des Pkw" die [[Realisation]]en <math>y_{1}</math> = "bis einschließlich 1 Jahr", <math>y_{2}</math> = "über 1 Jahr bis einschließlich 2 Jahre" und <math>y_{3}</math> = "2 Jahre oder älter" betrachtet.<br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]]geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen <math>X</math> und <math>Y</math> als <math>H_{0}</math> formuliert werden, um die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können, so dass das [[Hypothese]]npaar lautet:<br />
<br />
<math>H_{0}:</math> <math>X\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:</math> <math>X\;</math>und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
bzw.<br />
<br />
<math>H_{0}:\;p_{kj}=p_{k\bullet }\cdot p_{\bullet j} </math> für alle Paare <math>\left( k,j\right)</math><br />
<br />
<math>H_{1}:\;p_{kj}\neq p_{k\bullet }\cdot p_{\bullet j}</math> für mindestens ein Paar <math>\left(k,j\right)</math><br />
<br />
====Teststatistik====<br />
<br />
Es wird die [[Teststatistik]] des Chi-Quadrat-Unabhängigkeitstests verwendet:<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]]ist mit der Anzahl der<br />
[[Freiheitsgrad]]e <math>f = (K - 1)\cdot(J - 1)</math>. <br />
<br />
Die [[Entscheidungsbereiche]] der [[Nullhypothese]] können erst nach Vorliegen der [[Stichprobe]] festgelegt werden, da<br />
<br />
* die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind,<br />
<br />
* erst dann die [[Approximation]]sbedingung überprüft werden kann und ersichtlich ist, ob Werte bzw. [[Klasse]]n zusammenzufassen sind,<br />
<br />
* erst danach die Anzahl der [[Freiheitsgrad]]e feststeht und der [[Kritischer Wert|kritische Wert]] aufgesucht werden kann.<br />
<br />
====Entscheidungsbereiche und Prüfwert====<br />
<br />
Bei einer konkreten Polizeikontrolle an verschiedenen Straßenstellen, wobei die Auswahl der Pkw zufällig erfolgte, wurde die Anzahl der Mängel und das Alter an 110 Pkw registriert. <br />
<br />
Die sich aus der [[Stichprobe]] ergebenden gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] und [[Randhäufigkeit]]en sind in der folgenden Tabelle enthalten. <br />
<br />
Gleichzeitig wurden in den Zellen dieser Tabelle die [[Schätzung|geschätzt]]en gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] bei Gültigkeit der [[Nullhypothese]] aufgenommen, die sich gemäß<br />
<br />
<math>\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
ergeben (gerundet auf eine Dezimalstelle).<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Mängelanzahl <math>(x_{k})</math><br />
|align="center" colspan="3"|Alter <math>(y_{j})</math><br />
|align="center" rowspan="2"|RV <math>X\;</math><br />
|-<br />
|align="center"|<math><1</math><br />
|align="center"|1-2<br />
|align="center"|2 oder älter<br />
|-<br />
|align="center" rowspan="2"|0<br />
|align="center"|beobachtet<br />
|align="center"|30<br />
|align="center"|14<br />
|align="center"|5<br />
|align="center"|49<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|26,7<br />
|align="center"|13,4<br />
|align="center"|8,9<br />
|align="center"|<br />
|-<br />
|align="center" rowspan="2"|1<br />
|align="center"|beobachtet<br />
|align="center"|18<br />
|align="center"|10<br />
|align="center"|4<br />
|align="center"|32<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|17,5<br />
|align="center"|8,7<br />
|align="center"|5,8<br />
|align="center"|<br />
|-<br />
|align="center" rowspan="2"|2 oder mehr<br />
|align="center"|beobachtet<br />
|align="center"|12<br />
|align="center"|6<br />
|align="center"|11<br />
|align="center"|29<br />
|-<br />
|align="center"|erwartet<br />
|align="center"|15,8<br />
|align="center"|7,9<br />
|align="center"|5,3<br />
|align="center"|<br />
|-<br />
|align="center" colspan="2"| RV <math>Y\;</math><br />
|align="center"|60<br />
|align="center"|30<br />
|align="center"|20<br />
|align="center"|110<br />
|}<br />
<br />
Die [[Approximation]]sbedingung ist erfüllt, da alle <math>\widehat{e}_{kj}\geq 5</math> sind. Mit <math>K = 3</math> und <math>J = 3</math> folgt für die Anzahl der [[Freiheitsgrad]]e: <math>f = (K - 1)\cdot(J - 1) =2\cdot2= 4</math>. <br />
<br />
Für <math>P(V \leq c) = 0,95</math> und <math>f = 4</math> findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;(f)}^{2}=\chi_{0,95;4}^{2}=9,49</math>. <br />
<br />
Die [[Entscheidungsbereiche]] sind damit:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v>9,49\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\;\left\{ v|v\leq 9,49\right\}</math><br />
<br />
Als [[Prüfwert]] ergibt sich:<br />
<br />
<math>v=\frac{\left( 30-26,7\right)^{2}}{26,7}+\frac{\left( 14-13,4\right)^{2}}{13,4}+\ldots +\frac{\left( 11-5,3\right)^{2}}{5,3}=10,5</math><br />
<br />
====Testentscheidung====<br />
<br />
Da <math>v</math> in den [[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}</math> fällt, wird die [[Nullhypothese]] abgelehnt <math>(\mbox{''}H_{1}\mbox{''})</math>. <br />
<br />
Auf einem [[Signifikanzniveau]] von <math>\alpha =0,05</math> und basierend auf einer [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 110</math> konnte [[Statistik|statistisch]] bewiesen werden, dass die [[Zufallsvariable]]n <math>X\;</math>: "Anzahl der Mängel am Pkw" und <math>Y\;</math>: "Alter des Pkw" [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]] sind. <br />
<br />
Bei dieser Entscheidung besteht die Möglichkeit, einen [[Fehler 1. Art]] <math>(\mbox{''}H_{1}\mbox{''}|H_0)</math> zu begehen, wenn in Wirklichkeit die [[Nullhypothese]] richtig ist. <br />
<br />
Die [[Wahrscheinlichkeit]] für einen [[Fehler 1. Art]] entspricht dem vorgegebenen [[Signifikanzniveau]] <math>\alpha = 0,05</math>.<br />
<br />
===Umfrage===<br />
<br />
Bei einer Umfrage in den Jahren 1991 und 1996 wurde zufällig ausgewählten Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahre zum Befragungszeitpunkt die folgenden Fragen gestellt: <br />
<br />
1. "Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?"<br />
<br />
2. "Wie wird die wirtschaftliche Lage in Deutschland in einem Jahr sein?"<br />
<br />
Die Einschätzungen konnten die Befragten jeweils auf einer fünfteiligen Skala vornehmen:<br />
<br />
1. Frage: 1 - sehr gut, 2 - gut, 3 - teils gut / teils schlecht, 4 - schlecht, 5 - sehr schlecht<br />
<br />
2. Frage: 1 - wesentlich besser als heute, 2 - etwas besser, 3 - gleichbleibend, 4 - etwas schlechter, 5 - wesentlich schlechter.<br />
<br />
Der Inhalt der 1. Frage wird als [[Zufallsvariable]] <math>X_{1}:\;</math> "Gegenwärtige Wirtschaftslage" und der Inhalt der 2. Frage als [[Zufallsvariable]] <math>X_{2}:\;</math> "Zukünftige Wirtschaftslage" definiert, die die genannten 5 möglichen [[Realisation]]en annehmen können. <br />
<br />
Darüber hinaus wurde u.a. erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West-Berlin) oder aus den neuen Bundesländern (einschließlich Ost-Berlin) stammt. <br />
<br />
Dies sei die [[Zufallsvariable]] <math>Y\;</math>: "Erhebungsgebiet" mit den möglichen [[Realisation]]en <math>y_{1} =</math> "West" und <math>y_{2} = </math> "Ost".<br />
<br />
Es soll auf einem [[Signifikanzniveau]] von <math>\alpha =0,05</math> geprüft werden, ob die [[Zufallsvariable]]n <math>X_{1}\;</math> und <math>Y\;</math> bzw. <math>X_{2}\;</math> und <math>Y\;</math> in den Jahren 1991 bzw. 1996 [[Unabhängigkeit (stochastisch)|unabhängig]] sind.<br />
<br />
Da stets die [[Nullhypothese]] [[Statistik|statistisch]] geprüft wird, muss die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] zwischen den beiden [[Zufallsvariable]]n als <math>H_{0}</math> formuliert werden, um die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] ermitteln zu können, so dass die [[Hypothese]]npaare lauten:<br />
<br />
<math>H_{0}:X_{1}\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:X_{1}\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
und<br />
<br />
<math>H_{0}:X_{2}\;</math> und <math>Y\;</math> sind [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
<math>H_{1}:X_{2}\;</math> und <math>Y\;</math> sind nicht [[Unabhängigkeit (stochastisch)|stochastisch unabhängig]].<br />
<br />
====Teststatistik====<br />
<br />
Es wird die [[Teststatistik (Chi-Quadrat-Unabhängigkeitstest)|Teststatistik des Chi-Quadrat-Unabhängigkeitstest]] verwendet<br />
<br />
<math>V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}</math><br />
<br />
die bei Gültigkeit der [[Nullhypothese]] [[Approximation|approximativ]] [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] ist mit der Anzahl der<br />
[[Freiheitsgrad]]e <math>f = (K - 1)\cdot(J - 1)</math>. <br />
<br />
Die [[Entscheidungsbereiche]] der [[Nullhypothese]] können erst nach Vorliegen der [[Stichprobe]] festgelegt werden, da<br />
<br />
* die gemeinsamen erwarteten [[Absolute Häufigkeit|absoluten Häufigkeiten]] aus der [[Stichprobe]] zu [[Schätzung|schätzen]] sind,<br />
<br />
* erst dann die [[Approximation]]sbedingung überprüft werden kann und ersichtlich ist, ob Werte zusammenzufassen sind,<br />
<br />
* erst danach die Anzahl der [[Freiheitsgrad]]e feststeht und der [[Kritischer Wert|kritische Wert]] aufgesucht werden kann.<br />
<br />
====Entscheidungsbereiche, Prüfwert und Testentscheidung====<br />
<br />
Die sich aus den [[Stichprobe]]n im Jahre 1991 und 1996 ergebenden gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] und [[Randhäufigkeit]]]en sind in den folgenden Tabellen 1 - 4 enthalten. <br />
<br />
Gleichzeitig werden in die Zellen dieser Tabellen die [[Schätzung|geschätzt]]en gemeinsamen [[Absolute Häufigkeit|absoluten Häufigkeiten]] bei Gültigkeit der [[Nullhypothese]], die sich gemäß<br />
<br />
<math>\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}</math><br />
<br />
ergeben (gerundet auf eine Dezimalstelle), und die Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> aufgenommen.<br />
<br />
<br />
Tabelle 1: Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1991<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|colspan="2" align="center" rowspan="2"|Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> <br />
|align="center" colspan="2" |Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{1}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|sehr gut<br />
|align="center"|beobachtet<br />
|align="center"|209<br />
|align="center"|165<br />
|align="center"|374<br />
|-<br />
|<br />
|align="center"|erwartet<br />
|align="center"|184,8<br />
|align="center"|189,2<br />
|<br />
|-<br />
|<br />
|align="center"|Differenz<br />
|align="center"|24,2<br />
|align="center"|-24,2<br />
|<br />
|-<br />
|align="center"|gut<br />
|align="center"|beobachtet<br />
|align="center"|744<br />
|align="center"|592<br />
|align="center"|1336<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|660,1<br />
|align="center"|675,9<br />
|<br />
|-<br />
|<br />
|align="center"|Differenz<br />
|align="center"|83,9<br />
|align="center"|-83,9<br />
|align="center"|<br />
|-<br />
|align="center"|teils/teils<br />
|align="center"|beobachtet<br />
|align="center"|431<br />
|align="center"|647<br />
|align="center"|1078<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|532,6<br />
|align="center"|545,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-101,6<br />
|align="center"|101,6<br />
|align="center"|<br />
|-<br />
|align="center"|schlecht<br />
|align="center"|beobachtet<br />
|align="center"|36<br />
|align="center"|39<br />
|align="center"|75<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|37,1<br />
|align="center"|37,9<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-1,1<br />
|align="center"|1,1<br />
|align="center"|<br />
|-<br />
|align="center"|sehr schlecht<br />
|align="center"|beobachtet<br />
|align="center"|4<br />
|align="center"|15<br />
|align="center"|19<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|9,4<br />
|align="center"|9,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-5,4<br />
|align="center"|5,4<br />
|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|1424<br />
|align="center"|1458<br />
|align="center"|2882<br />
|}<br />
<br />
<br />
Tabelle 2: Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1996<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Gegenwärtige Wirtschaftslage <math>(X_{1})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{1}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
<br />
|-<br />
|align="center"|sehr gut<br />
|align="center"|beobachtet<br />
|align="center"|20<br />
|align="center"|6<br />
|align="center"|26<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|17,2<br />
|align="center"|8,8<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|2,8<br />
|align="center"|-2,8<br />
|align="center"|<br />
|-<br />
|align="center"|gut<br />
|align="center"|beobachtet<br />
|align="center"|264<br />
|align="center"|116<br />
|align="center"|380<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|251,3<br />
|align="center"|128,7<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|12,7<br />
|align="center"|-12,7<br />
|align="center"|<br />
|-<br />
|align="center"|teils/teils<br />
|align="center"|beobachtet<br />
|align="center"|1006<br />
|align="center"|557<br />
|align="center"|1563<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|1033,7<br />
|align="center"|529,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-27,7<br />
|align="center"|27,7<br />
|align="center"|<br />
|-<br />
|align="center"|schlecht<br />
|align="center"|beobachtet<br />
|align="center"|692<br />
|align="center"|335<br />
|align="center"|1027<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|679,2<br />
|align="center"|347,8<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|12,8<br />
|align="center"|-12,8<br />
|align="center"|<br />
|-<br />
|align="center"|sehr schlecht<br />
|align="center"|beobachtet<br />
|align="center"|141<br />
|align="center"|73<br />
|align="center"|214<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|141,5<br />
|align="center"|72,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,5<br />
|align="center"|0,5<br />
|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|2123<br />
|align="center"|1087<br />
|align="center"|3210<br />
|}<br />
<br />
<br />
Tabelle 3: Zukünftige Wirtschaftslage <math>(X_{2})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1991<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Zukünftige Wirtschaftslage <math>(X_{2})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|align="center" rowspan="2"|RV <math>X_{2}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|wesentlich besser<br />
|align="center"|beobachtet<br />
|align="center"|75<br />
|align="center"|203<br />
|align="center"|278<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|137,4<br />
|align="center"|140,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-62,4<br />
|align="center"|62,4<br />
|align="center"|<br />
|-<br />
|align="center"|etwas besser<br />
|align="center"|beobachtet<br />
|align="center"|449<br />
|align="center"|763<br />
|align="center"|1212<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|598,9<br />
|align="center"|613,1<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-149,9<br />
|align="center"|149,9<br />
|align="center"|<br />
|-<br />
|align="center"|gleichbleibend<br />
|align="center"|beobachtet<br />
|align="center"|684<br />
|align="center"|414<br />
|align="center"|1108<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|547,5<br />
|align="center"|560,5<br />
|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|136,5<br />
|align="center"|-136,5<br />
|align="center"|<br />
|-<br />
|align="center"|etwas schlechter<br />
|align="center"|beobachtet<br />
|align="center"|200<br />
|align="center"|62<br />
|align="center"|262<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|129,5<br />
|align="center"|132,5<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|70,5<br />
|align="center"|-70,5<br />
|<br />
|-<br />
|align="center"|wesentlich schlechter<br />
|align="center"|beobachtet<br />
|align="center"|16<br />
|align="center"|6<br />
|align="center"|22<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|10,9<br />
|align="center"|11,1<br />
|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|5,1<br />
|align="center"|-5,1<br />
|<br />
|-<br />
|colspan="2"|RV <math>Y\,</math><br />
|align="center"|1424<br />
|align="center"|1458<br />
|align="center"|2882<br />
|}<br />
<br />
<br />
Tabelle 4: Zukünftige Wirtschaftslage <math>(X_{2})\;</math> und Erhebungsgebiet <math>(Y)\;</math> 1996<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" colspan="2" rowspan="2"|Zukünftige Wirtschaftslage <math>(X_{2})\;</math><br />
|align="center" colspan="2"|Erhebungsgebiet <math>(Y)\;</math><br />
|rowspan="2" align="center"|RV <math>X_{2}\;</math><br />
|-<br />
|align="center"|West<br />
|align="center"|Ost<br />
|-<br />
|align="center"|wesentlich besser<br />
|align="center"|beobachtet<br />
|align="center"|9<br />
|align="center"|6<br />
|align="center"|15<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|9,9<br />
|align="center"|5,1<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,9<br />
|align="center"|0,9<br />
|<br />
|-<br />
|align="center"|etwas besser<br />
|align="center"|beobachtet<br />
|align="center"|190<br />
|align="center"|131<br />
|align="center"|321<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|212,3<br />
|align="center"|108,7<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-22,3<br />
|align="center"|22,3<br />
|<br />
|-<br />
|align="center"|gleichbleibend<br />
|align="center"|beobachtet<br />
|align="center"|809<br />
|align="center"|444<br />
|align="center"|1253<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|828,7<br />
|align="center"|42,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-19,7<br />
|align="center"|19,7<br />
|<br />
|-<br />
|align="center"|etwas schlechter<br />
|align="center"|beobachtet<br />
|align="center"|960<br />
|align="center"|426<br />
|align="center"|1386<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|916,7<br />
|align="center"|469,3<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|43,3<br />
|align="center"|-43,3<br />
|<br />
|-<br />
|align="center"|wesentlich schlechter<br />
|align="center"|beobachtet<br />
|align="center"|155<br />
|align="center"|80<br />
|align="center"|235<br />
|-<br />
|align="center"|<br />
|align="center"|erwartet<br />
|align="center"|155,4<br />
|align="center"|79,6<br />
|align="center"|<br />
|-<br />
|align="center"|<br />
|align="center"|Differenz<br />
|align="center"|-0,4<br />
|align="center"|0,4<br />
|align="center"|<br />
|-<br />
|align="center" colspan="2"|RV <math>Y\;</math><br />
|align="center"|2123<br />
|align="center"|1087<br />
|align="center"|3210<br />
|}<br />
<br />
Für alle 4 durchzuführende [[Statistischer Test|Tests]] gilt:<br />
<br />
Die [[Approximation]]sbedingung ist erfüllt, da alle <math>\widehat{e}_{kj}\geq 5</math> sind. Mit <math>K = 5</math> und <math>J = 2</math> folgt für die Anzahl der [[Freiheitsgrad]]e: <math>f = (K - 1)\cdot(J - 1) = 4\cdot1=4</math>. <br />
<br />
Für <math>P(V \leq c) = 0,95</math> und <math>f = 4</math> findet man aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Chi-Quadrat-Verteilung]] den [[Kritischer Wert|kritischen Wert]] <math>c=\chi_{1-\alpha ;\left( K-1\right) \cdot \left( J-1\right)}^{2}=\chi_{0,95;4}^{2}=9,49</math>. <br />
<br />
Die [[Entscheidungsbereiche]] sind damit:<br />
<br />
[[Ablehnungsbereich der Nullhypothese|Ablehnungsbereich der]] <math>H_{0}:\; \left\{v|v>9,49\right\}</math><br />
<br />
[[Nichtablehnungsbereich der Nullhypothese|Nichtablehnungsbereich der]] <math>H_{0}:\; \left\{ v|v\leq 9,49\right\}</math><br />
<br />
Als [[Prüfwert]]e und Testentscheidung ergeben sich:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Jahr<br />
|align="center"|[[Zufallsvariable]]n<br />
|align="center"|[[Prüfwert]] <math>v</math><br />
|align="center"|Testentscheidung<br />
|-<br />
|align="center"|1991<br />
|align="center"|<math>X_{1}, Y</math><br />
|align="center"|71,85<br />
|align="center"|<math>H_{1}</math><br />
|-<br />
|align="center"|1996<br />
|align="center"|<math>X_{1}, Y</math> <br />
|align="center"|6,15 <br />
|align="center"|<math>H_{0}</math><br />
|-<br />
|align="center"|1991<br />
|align="center"|<math>X_{2}, Y</math><br />
|align="center"|278,17<br />
|align="center"|<math>H_{1}</math><br />
|-<br />
|align="center"|1996<br />
|align="center"|<math>X_{2}, Y</math><br />
|align="center"|14,61<br />
|align="center"|<math>H_{1}</math><br />
|}<br />
<br />
====Interpretation====<br />
<br />
* Gegenwärtige Wirtschaftslage in Deutschland:<br />
<br />
: Während für 1991 auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> die [[Nullhypothese]] abgelehnt wird, d.h. [[Statistik|statistisch]] eine Abhängigkeit zwischen den [[Zufallsvariable]]n <math>X_{1}\;</math>: "Gegenwärtige Wirtschaftslage" und <math>Y\;</math>: "Erhebungsgebiet" nachgewiesen werden konnte, wird für das Jahr 1996 die [[Nullhypothese]] nicht abgelehnt. <br />
<br />
: 1991 bewerteten die Befragten in den alten Bundesländern die gegenwärtige Wirtschaftslage tendenziell deutlich zufriedener als die Befragten in den neuen Bundesländern, was anhand der großen positiven Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> bei der sehr guten und guten Einschätzung in der Spalte West der Tabelle 1 zu erkennen ist. <br />
<br />
: Auch 1996 treten Differenzen zwischen <math>h_{kj}</math> und <math>\widehat{e}_{kj}</math> auf, aber sie sind in ihrer Gesamtheit nicht mehr signifikant. <br />
<br />
: Es hat offensichtlich eine Angleichung in den Einschätzungen der gegenwärtigen Wirtschaftslage zwischen West und Ost stattgefunden.<br />
<br />
* Zukünftige Wirtschaftslage in Deutschland:<br />
<br />
: Bezüglich der [[Zufallsvariable]]n <math>X_{2}\;</math>: "Zukünftige Wirtschaftslage" und <math>Y\;</math>: "Erhebungsgebiet" wird für beide Jahre die [[Nullhypothese]] der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] auf einem [[Signifikanzniveau]] von <math>\alpha = 0,05</math> abgelehnt. <br />
<br />
: Hierbei sind es jedoch die Befragten in den neuen Bundesländern, die in beiden Jahren die zukünftige Wirtschaftslage tendenziell deutlich optimistischer bewerten als die Befragten in den alten Bundesländern. <br />
<br />
: Vergleicht man beide Jahre miteinander, so sind die Differenzen <math>h_{kj}-\widehat{e}_{kj}</math> 1996 kleiner als 1991, was ebenfalls auf eine gewisse Annäherung in den Bewertungen zwischen West und Ost schließen lässt, jedoch sind sie auch 1996 in ihrer Gesamtheit noch [[Statistik|statistisch]] signifikant.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Chi-Quadrat-Verteilung&diff=1234Chi-Quadrat-Verteilung2018-05-29T11:36:20Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Chi-Quadrat-Verteilung===<br />
<br />
Gegeben seien <math>n</math> voneinander [[Unabhängigkeit (stochastisch)|unabhängige]] und identisch [[Standardnormalverteilung|standardnormalverteilte]] [[Zufallsvariable]]n <math>X_{1},\ldots ,X_{n} : X_{i}\sim N(0;1)</math> für <math>i=1,\ldots ,n</math>. <br />
<br />
Dabei bezeichnet <math>n</math> eine positive ganze Zahl.<br />
<br />
Die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>Y</math> als Summe der quadrierten [[Zufallsvariable]]n <math>X_{i}</math><br />
<br />
<math>Y=X_{1}^{2}+X_{2}^{2}+\dots X_{n}^{2}</math><br />
<br />
heißt ''Chi-Quadrat-Verteilung'' mit dem [[Parameter]] <math>f</math>, oder kurz <math>\chi ^{2}(f)\,</math>.<br />
<br />
Dieser [[Parameter]] <math>f</math> bezeichnet die Anzahl der [[Freiheitsgrad]]e. Der Wertebereich ist <math>Y>0</math>.<br />
<br />
Für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]] der chi-quadrat-verteilten [[Zufallsvariable]] <math>Y</math> gilt:<br />
<br />
<math>E[Y]=f\,</math> und <math>Var(Y)=2\cdot f\,</math>.<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Chi-Quadrat-Verteilung liegt für ausgewählte Werte des [[Parameter]]s <math>f</math> und ausgewählte [[Wahrscheinlichkeit]]en tabelliert vor.<br />
<br />
===Freiheitsgrad===<br />
<br />
Die Anzahl der ''Freiheitsgrade'' der Chi-Quadrat-Verteilung entspricht der Anzahl der [[Unabhängigkeit (stochastisch)|unabhängigen]] [[Zufallsvariable]]n, die in die Summenbildung eingehen. <br />
<br />
Sind die [[Zufallsvariable]]n <math>X_{i}\quad(i=1,\ldots ,n)</math> [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander, können sie ihre Werte völlig frei annehmen. <br />
<br />
Die Quadrierung der [[Zufallsvariable]]n und die Summenbildung ändert nichts an dieser Tatsache. <br />
<br />
In diesem Fall weist die Chi-Quadrat-verteilte Quadratsumme<br />
<br />
<math>Y=X_{1}^{2}+X_{2}^{2}+\ldots +X_{n}^{2}</math><br />
<br />
die Anzahl der Freiheitsgrade <math>f = n</math> auf.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Graphische Darstellung der Chi-Quadrat-Verteilung===<br />
<br />
Die Form der [[Dichtefunktion (eindimensional)|Dichtefunktion]] hängt von dem [[Parameter]] <math>f</math> ab. Für <math>f = 1</math> und <math>f = 2</math> fällt die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der Chi-Quadrat-Verteilung monoton. <br />
<br />
Für kleine Werte von <math>f</math> sind die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der Chi-Quadrat-Verteilung deutlich rechtsschief. <br />
<br />
Für wachsende Werte von <math>f</math> strebt die [[Dichtefunktion (eindimensional)|Dichte]] der Chi-Quadrat-Verteilung gegen die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der [[Normalverteilung]].<br />
<br />
Die folgende Abbildung zeigt die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der Chi-Quadrat-Verteilung für verschiedene [[Freiheitsgrad]]e <math>f</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Chi-Quadrat_Chi-Quadrat-Verteilung_R00480004800000000000000_plot.html" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Chi-Quadrat-Verteilung&diff=1233Chi-Quadrat-Verteilung2018-05-29T11:35:47Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Chi-Quadrat-Verteilung===<br />
<br />
Gegeben seien <math>n</math> voneinander [[Unabhängigkeit (stochastisch)|unabhängige]] und identisch [[Standardnormalverteilung|standardnormalverteilte]] [[Zufallsvariable]]n <math>X_{1},\ldots ,X_{n} : X_{i}\sim N(0;1)</math> für <math>i=1,\ldots ,n</math>. <br />
<br />
Dabei bezeichnet <math>n</math> eine positive ganze Zahl.<br />
<br />
Die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>Y</math> als Summe der quadrierten [[Zufallsvariable]]n <math>X_{i}</math><br />
<br />
<math>Y=X_{1}^{2}+X_{2}^{2}+\dots X_{n}^{2}</math><br />
<br />
heißt ''Chi-Quadrat-Verteilung'' mit dem [[Parameter]] <math>f</math>, oder kurz <math>\chi ^{2}(f)\,</math>.<br />
<br />
Dieser [[Parameter]] <math>f</math> bezeichnet die Anzahl der [[Freiheitsgrad]]e. Der Wertebereich ist <math>Y>0</math>.<br />
<br />
Für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]] der chi-quadrat-verteilten [[Zufallsvariable]] <math>Y</math> gilt:<br />
<br />
<math>E[Y]=f\,</math> und <math>Var(Y)=2\cdot f\,</math>.<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Chi-Quadrat-Verteilung liegt für ausgewählte Werte des [[Parameter]]s <math>f</math> und ausgewählte [[Wahrscheinlichkeit]]en tabelliert vor.<br />
<br />
===Freiheitsgrad===<br />
<br />
Die Anzahl der ''Freiheitsgrade'' der Chi-Quadrat-Verteilung entspricht der Anzahl der [[Unabhängigkeit (stochastisch)|unabhängigen]] [[Zufallsvariable]]n, die in die Summenbildung eingehen. <br />
<br />
Sind die [[Zufallsvariable]]n <math>X_{i}\quad(i=1,\ldots ,n)</math> [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander, können sie ihre Werte völlig frei annehmen. <br />
<br />
Die Quadrierung der [[Zufallsvariable]]n und die Summenbildung ändert nichts an dieser Tatsache. <br />
<br />
In diesem Fall weist die Chi-Quadrat-verteilte Quadratsumme<br />
<br />
<math>Y=X_{1}^{2}+X_{2}^{2}+\ldots +X_{n}^{2}</math><br />
<br />
die Anzahl der Freiheitsgrade <math>f = n</math> auf.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Graphische Darstellung der Chi-Quadrat-Verteilung===<br />
<br />
Die Form der [[Dichtefunktion (eindimensional)|Dichtefunktion]] hängt von dem [[Parameter]] <math>f</math> ab. Für <math>f = 1</math> und <math>f = 2</math> fällt die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der Chi-Quadrat-Verteilung monoton. <br />
<br />
Für kleine Werte von <math>f</math> sind die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der Chi-Quadrat-Verteilung deutlich rechtsschief. <br />
<br />
Für wachsende Werte von <math>f</math> strebt die [[Dichtefunktion (eindimensional)|Dichte]] der Chi-Quadrat-Verteilung gegen die [[Dichtefunktion (eindimensional)|Dichtefunktion]] der [[Normalverteilung]].<br />
<br />
Die folgende Abbildung zeigt die [[Dichtefunktion (eindimensional)|Dichtefunktion]]en der Chi-Quadrat-Verteilung für verschiedene [[Freiheitsgrad]]e <math>f</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Chi-Qudrat_Chi-Quadrat-Verteilung_R00480004800000000000000_plot.html" /></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Bravais%E2%80%93Pearson%E2%80%93Korrelationskoeffizient&diff=1232Bravais–Pearson–Korrelationskoeffizient2018-05-29T11:29:16Z<p>Jacobdan: </p>
<hr />
<div>{{Bivariate Statistik}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Variation (Streuung)===<br />
<br />
Unter ''Variation'' im Sinne der [[Streuung]]sbetrachtung wird die Abweichnung der [[Merkmalsausprägung]]en von ihrem [[Arithmetisches Mittel|arithmetischen Mittel]] betrachtet.<br />
<br />
===Gemeinsame Variation===<br />
<br />
Die [[Merkmalswert]]e werden in einem ersten Schritt zentriert:<br />
<br />
<math>{x_{i}^*}=x_{i}-\bar{x}</math><br />
<br />
<math>{y_{i}^*}=y_{i}-\bar{y}</math><br />
<br />
Die ''gemeinsame Variation'' beider [[Merkmal]]e ergibt sich als Produkt der Abweichungen der [[Beobachtung]]en vom [[Arithmetisches Mittel|arithmetischen Mittel]] (vgl. auch Berechnung der [[Kovarianz (empirisch)|empirischen Kovarianz]]):<br />
<br />
<math>\sum_{i=1}^{n} {x_{i}^*}{y_{i}^*}=\sum_{k=1}^{n}(x_{i}-\bar{x})(y_{i}- \bar{y})</math><br />
<br />
===Bravais-Pearson-Korrelationskoeffizient oder empirischer Korrelationskoeffizient===<br />
<br />
Die Stärke des Zusammenhanges zwischen zwei [[metrische Skala|metrisch skalierten]] [[Merkmal]]en <math>X\;</math> und <math>Y\;</math> wird durch die [[gemeinsame Variation]] der beiden [[Merkmal]]e bestimmt.<br />
<br />
Das Ausmaß der [[gemeinsame Variation|gemeinsamen Variation]] wird stark von der Maßeinheit der [[Merkmal]]e und der Anzahl der [[Beobachtung]]en beeinflusst<br />
<br />
So beträgt beispielsweise das [[Arithmetisches Mittel|arithmetische Mittel]] des einen [[Merkmal]]s <math>8</math> und der [[Beobachtungswert]] <math>10</math>, das [[Arithmetisches Mittel|arithmetische Mittel]] des anderen [[Merkmal]]s <math>1008</math> und der [[Beobachtungswert]] <math>1260</math>. <br />
<br />
Obwohl die Abweichung des ersten Wertes 2 und des zweiten Wertes dagegen 252 beträgt, ist die relative Abweichung vom [[Arithmetisches Mittel|arithmetischen Mittel]] bei beiden gleich 25%.<br />
<br />
Um vergleichbare Abweichungen der [[Merkmal]]e zu erreichen, wird eine Standardisierung der [[gemeinsame Variation|gemeinsamen Variation]] vorgenommen:<br />
<br />
<math>\frac{x_{i}-\bar{x}}{s_{x}}, \quad \frac{y_{i}-\bar{y}}{s_{y}}</math>, wobei <math>s_x</math> und <math>s_y</math> die [[Standardabweichung (empirisch)|empirischen Standardabweichung]]en von <math>X\;</math> und <math>Y\;</math> bezeichnen.<br />
<br />
Die Gleichung der [[gemeinsame Variation|gemeinsamen Variation]] verändert sich dadurch zu:<br />
<br />
<math>\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})}{s_{x}}\cdot\frac{(y_{i}-\bar{y})}{s_{y}}</math><br />
<br />
Diese Produktsumme wird abschließend durch die Anzahl der [[Beobachtung]]en dividiert, um deren Einfluss zu eliminieren.<br />
<br />
Damit ergibt sich der ''Bravais-Pearson-Korrelationskoeffizient'', der es erlaubt, die Stärke des [[linearer Zusammenhang|linearen Zusammenhanges]] zwischen zwei [[metrische Skala|metrisch skalierten]] [[Merkmal]]en <math>X\;</math> und <math>Y\;</math> zu messen:<br />
<br />
<math>r_{xy}=r_{yx}=\frac{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})}{n\cdot s_{x}\cdot s_{y}}=\frac{s_{xy}}{s_{x}\cdot s_{y}}</math><br />
<br />
Wie die Vereinfachung der obigen Gleichung zeigt, entspricht der Bravais-Pearson-Korrelationskoeffizient der gemeinsamen [[Streuung]] der beiden [[Merkmal]]e <math>X\;</math> und <math>Y\;</math> (= [[Kovarianz (empirisch)|empirische Kovarianz]]) normiert auf das Produkt der Einzel[[streuung]] (= [[Standardabweichung (empirisch)|empirische Standardabweichung]]) der [[Merkmal]]e.<br />
<br />
Der Bravais-Pearson-Korrelationskoeffizient lässt sich auch in der folgenden Form darstellen<br />
<br />
<math>r_{xy}=\frac{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})^{2}\cdot\sum_{i=1}^{n}\limits(y_{i}-\bar{y})^{2}}}</math><br />
<br />
<math>r_{xy}=\frac{n\cdot\sum_{i=1}^{n}\limits x_{i}\cdot y_{i}-\sum_{i=1}^{n}\limits x_{i}\cdot\sum_{i=1}^{n}\limits y_{i}}{\sqrt{\left[ n\cdot\sum_{i=1}^{n}\limits{x_{i}}^{2}-{\left( \sum_{i=1}^{n}\limits x_{i}\right) }^{2}\right]\cdot\left[ n\cdot\sum_{i=1}^{n}\limits{y_{i}}^{2}-{\left(\sum_{i=1}^{n}\limits y_{i}\right) }^{2}\right] }}</math><br />
<br />
===Korrelation oder linearer Zusammenhang===<br />
<br />
Perfekte Korrelation <math>(|r_{xy}| = 1)</math>:<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_R00480004800000000000000_plot.html" /><br />
<br />
Starke Korrelation <math>(|r_{xy}| > 0,5)</math>:<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_stark_R00480004800000000000000_plot.html" /><br />
<br />
Schwache Korrelation <math>(|r_{xy}| < 0,5)</math>:<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_schwach_R00480004800000000000000_plot.html" /><br />
<br />
Keine Korrelation <math>(r_{xy} = 0)</math>:<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_keine_R00480004800000000000000_plot.html" /><br />
Eine Korrelation Null entspricht "im Allgemeinen" einer kreisähnlichen Form der Punktwolke.<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Interpretation der Werte===<br />
<br />
* Der [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] nimmt nur Werte zwischen <math>-1</math> und <math>+1</math> an: <math>-1\leq r_{xy}\leq +1</math><br />
* Das Vorzeichen des [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] gibt Auskunft über die Richtung des Zusammenhanges<br />
** "<math>+</math>" entspricht einer positiven [[Korrelation]] (Proportionalität in der [[Streuung]])<br />
** "<math>-</math>" entspricht einer negativen [[Korrelation]] (umgekehrte Proportionalität in der [[Streuung]])<br />
* Liegen alle [[Beobachtungswert]]e auf einer Geraden, so ist der Betrag des [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] 1 (also <math>|\mbox{Koeff}|=1</math>). Je mehr sich der Betrag des [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] dem Wert <math>1</math> nähert, desto ausgeprägter ist ein [[linearer Zusammenhang]] zwischen den [[Merkmal]]en <math>X\;</math> und <math>Y\;</math> (analog umgekehrt).<br />
* Ein [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] von <math>0</math> bedeutet demgegenüber nur, dass kein [[linearer Zusammenhang]] zwischen den [[Merkmal]]en <math>X\;</math> und <math>Y\;</math> existiert. Es ist aber durchaus möglich, das zwischen beiden [[Merkmal]]en ein ausgeprägter nichtlinearer Zusammenhang besteht.<br />
* Die Richtung der Beeinflussung hat keinen Einfluss auf den Wert des [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizienten]]: <math>r_{xy}=r_{yx}</math><br />
<br />
===Unabhängigkeit===<br />
<br />
Sind die [[Merkmal]]e <math>X\;</math> und <math>Y\;</math> voneinander [[Unabhängigkeit (empirisch)|unabhängig]], nimmt der [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] den Wert <math>0</math> an.<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Jahresgewinn und Jahresmiete===<br />
<br />
An <math>n = 15</math> Unternehmen wurden die [[Merkmal]]e <math>Y\;</math> - Jahresgewinn (in Mio. €) und <math>X\;</math> - Jahresmiete für die<br />
EDV-Anlage (in 1000 €) beobachtet, deren [[Merkmalswert]]e in der folgenden Tabelle enthalten sind und in dem nachstehenden [[Scatterplot]] grafisch veranschaulicht werden.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|Unternehmen<br />
|align="center"|Jahresgewinn in Mio. €<br />
|align="center"|Jahresmiete in 1000 € <br />
|-<br />
|align="center"|<math>i</math><br />
|align="center"|<math>y_{i}</math><br />
|align="center"|<math>x_{i}</math><br />
|-<br />
|align="center"|1<br />
|align="center"|10<br />
|align="center"|30<br />
|-<br />
|align="center"|2<br />
|align="center"|15<br />
|align="center"|30<br />
|-<br />
|align="center"|3<br />
|align="center"|15<br />
|align="center"|100<br />
|-<br />
|align="center"|4<br />
|align="center"|20<br />
|align="center"|50<br />
|-<br />
|align="center"|5<br />
|align="center"|20<br />
|align="center"|100<br />
|-<br />
|align="center"|6<br />
|align="center"|25<br />
|align="center"|80<br />
|-<br />
|align="center"|7<br />
|align="center"|30<br />
|align="center"|50<br />
|-<br />
|align="center"|8<br />
|align="center"|30<br />
|align="center"|100<br />
|-<br />
|align="center"|9<br />
|align="center"|30<br />
|align="center"|250<br />
|-<br />
|align="center"|10<br />
|align="center"|35<br />
|align="center"|180<br />
|-<br />
|align="center"|11<br />
|align="center"|35<br />
|align="center"|330<br />
|-<br />
|align="center"|12<br />
|align="center"|40<br />
|align="center"|200<br />
|-<br />
|align="center"|13<br />
|align="center"|45<br />
|align="center"|400<br />
|-<br />
|align="center"|14<br />
|align="center"|50<br />
|align="center"|500<br />
|-<br />
|align="center"|15<br />
|align="center"|50<br />
|align="center"|600<br />
|}<br />
<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_miete_R00480004800000000000000_plot.html" /><br />
<br />
Aus den [[Beobachtungswert]]en ergeben sich folgende Ergebnisse:<br />
<br />
{|<br />
|<math>\overline{y}=30,</math> <br />
|<math>\sum_{i=1}^{15}\limits(y_{i}-\overline{y})^{2}=2250</math><br />
|-<br />
|<math>\overline{x}=200,</math><br />
|<math>\sum_{i=1}^{15}\limits(x_{i}-\overline{x})^{2}=457000</math><br />
|}<br />
<br />
<math>\sum_{i=1}^{15}\limits(x_{i}-\overline{x})\cdot(y_{i}-\overline{y})=28100</math><br />
<br />
<math>r_{xy}=\frac{28100}{\sqrt{457000\cdot 2250}}=0,8763</math><br />
<br />
Der [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] beträgt für dieses Beispiel 0,8763. Er weist damit auf einen starken [[linearer Zusammenhang|linearen Zusammenhang]] hin.<br />
<br />
===Mordrate und Bevölkerungsgröße===<br />
<br />
In den U.S.A. wurden 1985 verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt, darunter auch die "Mordrate" und die jeweilige "Bevölkerungsgröße".<br />
<br />
Der Zusammenhang zwischen der Mordrate und der Größe der Bevölkerung kann grafisch in einem [[Scatterplot]] sichtbar gemacht werden:<br />
<br />
<br />
<!--<br />
[[Bild:STAT-Scatterplot5.gif]]<br />
--><br />
<br />
Summe der Abweichungsprodukte zwischen "Bevölkerungsgröße" und "Mordrate":<br />
<br />
<math>\sum (x_{i}-\bar{x})\cdot(y_{i}-\bar{y})=260121,05</math><br />
<br />
Summe der quadratischen Abweichungen bei "Bevölkerungsgröße":<br />
<br />
<math>\sum(x_{i}-\bar{x})^{2}=1259033421,62</math><br />
<br />
Summe der quadratischen Abweichungen bei "Mordrate":<br />
<br />
<math>\sum(y_{i}-\bar{y})^{2}=725,54</math><br />
<br />
Der Korrelationskoeffizient ergibt sich damit als:<br />
<br />
<math>r=\frac{260121,05}{\sqrt{1259033421,62\cdot725,54}}=0,27</math><br />
<br />
Der [[Korrelationskoeffizient (empirisch)|Korrelationskoeffizient]] von 0,27 weist auf einen nur geringen positiven [[linearer Zusammenhang|linearen Zusammenhang]] hin.<br />
<br />
<iframe k="wiwi" p="examples/stat_BravaisPearson_BravaisPearson_bev_R00480004800000000000000_plot.html" /><br />
<!--==Interaktives Beispiel Zusammenhang==<br />
<br />
[[Bild:STAT-Flaggenknarre.gif|right]]<br />
In den U.S.A. wurden 1985 unter anderem verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt<br />
In den U.S.A. wurden 1985 unter anderem verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:<br />
<br />
{|<br />
|<math>X_1\;</math><br />
| -<br />
|land area<br />
|-<br />
|<math>X_2\;</math><br />
| -<br />
|Bevölkerungsgröße<br />
|-<br />
|<math>X_3\;</math><br />
| -<br />
|Mordrate<br />
|-<br />
|<math>X_4\;</math><br />
| -<br />
|rape<br />
|-<br />
|<math>X_5\;</math><br />
| -<br />
|robbery<br />
|-<br />
|<math>X_6\;</math><br />
| -<br />
|assault<br />
|-<br />
|<math>X_7\;</math><br />
| -<br />
|burglary<br />
|-<br />
|<math>X_8\;</math><br />
| -<br />
|larceny<br />
|-<br />
|<math>X_9\;</math><br />
| -<br />
|auto theft<br />
|-<br />
|<math>X_{10}\;</math><br />
| -<br />
|US states region number<br />
|-<br />
|<math>X_{11}\;</math><br />
| -<br />
|US states division number<br />
|}<br />
<br />
Die Variablen <math>X_{10}</math> und <math>X_{11}</math> haben die nachstehenden Ausprägungen:<br />
<br />
{|style="width:50%"<br />
|colspan="2"|'''<math>X_{10}</math> - region numbers'''<br />
|<br />
|colspan="2"|'''<math>X_{11}</math> - division numbers'''<br />
|-<br />
|1<br />
|Northeast<br />
|<br />
|1<br />
|New England<br />
|-<br />
|2<br />
|Midwest<br />
|<br />
|2<br />
|Mid Atlantic<br />
|-<br />
|3<br />
|South<br />
|<br />
|3<br />
|E N Central<br />
|-<br />
|4<br />
|West<br />
|<br />
|4<br />
|W N Central<br />
|-<br />
|<br />
|<br />
|<br />
|5<br />
|S Atlantic<br />
|-<br />
|<br />
|<br />
|<br />
|6<br />
|E S Central<br />
|-<br />
|<br />
|<br />
|<br />
|7<br />
|W S Central<br />
|-<br />
|<br />
|<br />
|<br />
|8<br />
|Mountain<br />
|-<br />
|<br />
|<br />
|<br />
|9<br />
|Pacific<br />
|}<br />
<br />
<br />
Dieses interaktive Beispiel erzeugt für zwei auszuwählende Variablen einen [[STAT-Glossar#Scatterplot|Scatterplot]] und berechnet den [[STAT-Glossar#Bravais-Pearson-Korrelationskoeffizient|Bravais-Pearson-Korrelationskoeffizienten]] zwischen beiden Variablen.<br />
--></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Binomialverteilung&diff=1231Binomialverteilung2018-05-29T11:19:55Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Bernoulli-Experiment===<br />
<br />
Ein [[Zufallsexperiment]] ist durch folgende Eigenschaften gekennzeichnet:<br />
<br />
* Es gibt nur zwei mögliche [[Ereignis]]se <math>\,A</math> und <math>\bar{A}</math><br />
* Die [[Wahrscheinlichkeit]]en des Eintretens der [[Ereignis]]se sind <math>\,P(A) = p</math> und <math>P(\bar{A})=1 -p </math><br />
<br />
Ein derartiges [[Zufallsexperiment]] heißt ''Bernoulli-Experiment''.<br />
<br />
===Binomialverteilung===<br />
<br />
Der ''Binomialverteilung'' liegt ein [[Bernoulli-Experiment]] zugrunde, bei dem entweder ein [[Ereignis]] <math>A</math> mit konstanter [[Wahrscheinlichkeit]] <math>p</math> oder das zu <math>A</math> [[Komplementärereignis|komplementäre Ereignis]] <math>\bar A</math> mit der [[Wahrscheinlichkeit]] <math>1 - p</math> eintreten kann. <br />
<br />
Dieses [[Zufallsexperiment]] wird <math>n</math>-mal wiederholt.<br />
<br />
Die [[diskrete Zufallsvariable]], welche die Anzahl des Eintretens von <math>A</math> bei <math>n</math>-maliger Durchführung des [[Zufallsexperiment]]es beinhaltet, heißt ''binomialverteilt'' mit den [[Parameter]]n <math>n</math> und <math>p</math>, wenn ihre [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] durch<br />
<br />
<math>f_{B}(x;n,p)=\begin{cases}{n \choose x} \cdot p^{x}\cdot (1-p)^{n-x}\quad & \mbox{, wenn } x=0,1,\dots ,n \\<br />
0\quad & \mbox{, sonst}\end{cases}</math><br />
<br />
gegeben ist. In Kurzform schreibt man <math>X \sim B(n;p)\,</math><br />
<br />
Für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] folgt<br />
<br />
<math>F_{B}(x;n,p) = \begin{cases}\sum\limits_{k=0}^x {n\choose k} \cdot p^k \cdot (1 - p)^{n-k} \quad & \mbox{, wenn }x \geq 0 \\<br />
0 \quad & \mbox{, wenn } x < 0<br />
\end{cases}</math><br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der Binomialverteilung <math>B(n;p)</math>:<br />
<br />
<math>E[X] = n \cdot p</math><br />
<br />
<math>Var(X) = n \cdot p \cdot (1 - p)</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Eigenschaften der Binomialverteilung===<br />
<br />
* Reproduktivitätseigenschaft:<br />
<br />
: Sind <math>X \sim B(n;p)\,</math> und <math>Y \sim B(m;p)\,</math> [[Unabhängigkeit (stochastisch)|unabhängige]] [[Zufallsvariable]]n, so ist die [[Zufallsvariable]] <math>Z = X + Y\,</math> ebenfalls binomialverteilt mit den [[Parameter]]n <math>n + m</math> und <math>p</math>, d.h. <math>Z \sim B(n+m;p)\,</math>.<br />
<br />
* Symmetrieeigenschaft:<br />
<br />
: Ist <math>X \sim B(n;p)\,</math> und <math>Y = n - X\,</math> dann gilt <math>Y \sim B(n;1-p)\,</math>.<br />
<br />
Für ausgewählte Werte der [[Parameter]] <math>n</math> und <math>p</math> (mit <math>p\leq 0.5</math>) liegt die Binomialverteilung tabelliert vor (z.B. Formelsammlung Statistik I+II).<br />
<br />
===Graphische Darstellung der Binomialverteilung===<br />
<br />
Da die Binomialverteilung eine [[diskrete Zufallsvariable|diskrete]] [[Verteilung (stochastisch)|Verteilung]] ist, erfolgt die grafische Darstellung der [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] als [[Stabdiagramm]] und die der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] als Treppenfunktion.<br />
<br />
Die folgende Abbildung zeigt zu verschiedenen Werten von <math>p</math>, bei gleichem <math>n</math>, die [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] der Binomialverteilung. <br />
<br />
Man erkennt, dass die [[Verteilung (stochastisch)|Verteilung]] für <math>p< 0,5 </math> linkssteil ist und zwar umso deutlicher, je kleiner <math>p</math> ist. <br />
<br />
Für <math>p = 0,5</math> ist die [[Verteilung (stochastisch)|Verteilung]] symmetrisch zum Wert <math>x = np</math>. <br />
<br />
Für <math>p> 0,5</math> erhält man rechtssteile [[Verteilung (stochastisch)|Verteilung]]en als "Spiegelbild" zu den entsprechenden linkssteilen [[Verteilung (stochastisch)|Verteilung]]en. <br />
<br />
<iframe k="wiwi" p="examples/stat_Binomialverteilung_Binomialverteilung_R00480004800000000000000_plot.html" /><br />
<br />
<!--<br />
[[Bild:STAT-Binomvert3.gif]]--><br />
<br />
===Approximation der Binomialverteilung durch Normalverteilung===<br />
<br />
Für sehr große Werte von <math>n</math> lässt sich die [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] durch die [[Dichtefunktion (eindimensional)|Dichtefunktion]] einer [[Normalverteilung]] mit <math>\mu = n\cdot p</math> und <math>\sigma^2 = n\cdot p\cdot (1-p)</math> approximieren.<br />
<br />
Diese Approximation ist umso besser, je näher <math>p</math> bei 0,5 liegt, und wird schlechter, je näher <math>p</math> bei 0 oder 1 liegt. <br />
<br />
Die theoretische Rechtfertigung liefert der [[Zentraler Grenzwertsatz|zentrale Grenzwertsatz]].<br />
<br />
===Herleitung der Binomialverteilung===<br />
<br />
Für jeden Versuch eines [[Bernoulli-Experiment]]es wird eine [[Zufallsvariable]] <math>X_{i}(i=1,\dots,n)</math> definiert, die nur die Werte 0 (für das Eintreten von <math>\bar{A}</math>) und 1 (für das Eintreten von <math>\,A</math>) annehmen kann. <br />
<br />
Gemäß den gegebenen [[Wahrscheinlichkeit]]en <math>\,P(A) = p</math> und <math>P(\bar{A})=1-p</math> weist jede [[Zufallsvariable]] <math>X_{i}</math> die<br />
[[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]] (Bernoulli-Verteilung)<br />
<br />
<math>f(x;p)=\begin{cases}p^{x}\cdot (1-p)^{1-x} & \mbox{, wenn } x=0,\;1 \\<br />
0 & \mbox{, sonst}\end{cases}</math><br />
<br />
mit <math>E[X_i] = p\,</math> und <math>Var(X_i)=p\cdot (1-p)</math> auf.<br />
<br />
Bei <math>n</math>-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens von <math>A</math>, so dass die [[Zufallsvariable]] <br />
<br />
<math>X =\{\mbox{Anzahl des Auftretens von A bei n Versuchen}\}</math> betrachtet wird:<br />
<br />
<math>X = \sum\limits_{i=1}^n X_i </math><br />
<br />
<math>X</math> ist eine Funktion (Linearkombination) von <math>n</math> [[Zufallsvariable]]n.<br />
<br />
Das [[Ereignis]] <math>X = x</math> tritt ein, wenn in der Folge der Versuche genau <math>x</math>-mal das [[Ereignis]] <math>A</math> und <math>(n - x)</math>-mal das [[Ereignis]] <math>\bar{A}</math> eintritt z.B. <br />
<br />
<math>A_{1}\cap A_{2}\cap \dots \cap A_{x}\cap \bar{A}_{x+1}\cap \bar{A}_{x+2}\cap\dots \cap \bar{A}_{n}</math>, also <math>x</math>-mal <math>A</math> und <math>(n-x)</math>-mal <math>\bar{A}</math>.<br />
<br />
Die Indizierung der [[Ereignis]]se gibt die Nummer des Versuchs an.<br />
<br />
Die [[Wahrscheinlichkeit]], dass die [[Zufallsvariable]] <math>X</math> die [[Realisation]] <math>x</math> bei dieser [[Ereignis]]folge annimmt, ist wegen der<br />
[[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der Versuche<br />
<br />
{|<br />
|<math>f(x)\,</math><br />
|<math>=P(X=x)=P(A_{1}\cap A_{2}\cap \dots \cap A_{x}\cap \bar{A}_{x+1}\cap \bar{A}_{x+2}\cap \dots \cap \bar{A}_{n})</math><br />
|-<br />
|<br />
|<math>=P(A_{1})\cdot P(A_{2})\cdot \ldots \cdot P(A_{x})\cdot P(\bar{A}_{x+1})\cdot P(\bar{A}_{x+2})\cdot \dots \cdot P(\bar{A}_{n})</math><br />
|-<br />
|<br />
|<math>=p\cdot p\cdot \ldots \cdot p\cdot (1-p)\cdot (1-p)\cdot \ldots \cdot (1-p)</math><br />
|-<br />
|<br />
|<math>=p^{x}\cdot (1-p)^{n-x}</math><br />
|}<br />
<br />
Es gibt jedoch nicht nur eine Folge von Versuchen, bei der genau <math>x</math>-mal das [[Ereignis]] <math>A</math> und <math>(n - x)</math>-mal das [[Ereignis]] <math>\bar{A}</math> eintritt. <br />
<br />
Die [[Wahrscheinlichkeit]] jeder dieser Folgen ist ebenfalls <math>f(x) = p^{x}\cdot (1-p)^{n-x}</math>.<br />
<br />
Die Anzahl der verschiedenen [[Ereignis]]folgen lässt sich mithilfe des [[Binomialkoeffizient]]en ermitteln, ist also durch die Anzahl der [[Kombination ohne Wiederholung|Kombinationen ohne Wiederholung]] gegeben:<br />
<br />
<math>{n \choose x}=\frac{n!}{x!\cdot (n-x)!}</math><br />
<br />
Aufgrund der [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der [[Ereignis]]folgen resultiert die [[Wahrscheinlichkeitsfunktion (eindimensional)|Wahrscheinlichkeitsfunktion]]<br />
<br />
<math>P(X=x)=f(x)={n \choose x }\cdot p^{x}\cdot (1-p)^{n-x}</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Urne===<br />
<br />
In einer Urne befinden sich 10 Kugeln, davon 3 weiße und 7 rote Kugeln.<br />
<br />
<math>A= \{\mbox{weiße Kugel}\};\; \bar{A}= \{\mbox{rote Kugel}\};\; P(A) = 0,3;\; P(\bar{A}) = 0,7</math><br />
<br />
Nach jeder Ziehung einer Kugel wird diese vor der nächsten Ziehung in die Urne zurückgelegt. Das Ziehen einer Kugel wird <math>n= 5</math> mal durchgeführt.<br />
<br />
Damit sind die Bedingungen eines [[Bernoulli-Experiment]]s erfüllt:<br />
<br />
* Es gibt nur zwei mögliche [[Ereignis]]se (rote oder weiße Kugel) als Ergebnis jeder Ziehung.<br />
* Die [[Wahrscheinlichkeit]]en sind konstant, denn durch das Zurücklegen bleibt die Gesamtzahl der Kugeln und die jeweilige Anzahl farbiger Kugeln unverändert.<br />
* Die Ziehungen sind durch das Zurücklegen [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander.<br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]], dass 2 weiße Kugeln auftreten, d.h. <math>P(X = 2)</math>.<br />
<br />
<math>X_i =</math>{Anzahl des Auftretens einer weißen Kugel bei der i-ten Ziehung} <br />
<br />
<math>P(X_i = 1) = 0,3;\; P(X_i = 0) = 0,7</math> für alle <math>i = 1,\; \ldots ,5</math><br />
<br />
Bei 5 Versuchen gibt es 5 [[Unabhängigkeit (stochastisch)|unabhängige]] [[Zufallsvariable]]n <math>X_{1},\;X_{2},\;X_{3},\;X_{4},\;X_{5}</math><br />
<br />
<math>X = \{\mbox{Anzahl des Auftretens weißer Kugeln bei n = 5 Ziehungen mit Zurücklegen}\}</math> <br />
<br />
<math>X = \sum\nolimits_i X_i</math><br />
<br />
<math>X \sim B(n;p) = B(5;0,3)\, </math><br />
<br />
Die Anzahl der möglichen voneinander verschiedenen [[Ereignis]]folgen von 2 weißen und 3 roten Kugeln beträgt:<br />
<br />
<math>{5\choose2} =\frac{5!}{2!\cdot 3!}=10</math><br />
<br />
Die gesuchte [[Wahrscheinlichkeit]] ist somit<br />
<br />
<math>P(X=2) = f_B(2;5;0,3) = {5\choose 2}\cdot 0,3^2 \cdot 0,7^3 = 0,3087</math><br />
<br />
Die folgende Tabelle enthält die [[Wahrscheinlichkeitsverteilung]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Binomialverteilung <math>B(5;0,3)</math>:<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
!align="center" |<math>x</math><br />
!align="center" |<math>f_B(x;5;0,3)</math><br />
!align="center" |<math>F_B(x;5;0,3)</math><br />
|-<br />
|align="center" |0<br />
|align="center" |0,1681<br />
|align="center" |0,1681<br />
|-<br />
|align="center" |1<br />
|align="center" |0,3601<br />
|align="center" |0,5282<br />
|-<br />
|align="center" |2<br />
|align="center" |0,3087<br />
|align="center" |0,8369<br />
|-<br />
|align="center" |3<br />
|align="center" |0,1323<br />
|align="center" |0,9692<br />
|-<br />
|align="center" |4<br />
|align="center" |0,0284<br />
|align="center" |0,9976<br />
|-<br />
|align="center" |5<br />
|align="center" |0,0024<br />
|align="center" |1,0000<br />
|}<br />
<br />
Die folgende Abbildung zeigt die [[Wahrscheinlichkeitsverteilung]] der Binomialverteilung <math>B(5;0,3)</math>:<br />
<br />
{|<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
WVert<- dbinom(c(0:5),5,0.3)<br />
plot(WVert, col="WHITE", xaxt="n",xpd=TRUE, xlim= c(0, 5), ylab="f(X)", xlab="X", font.lab=2, <br />
main="B(5;0,3)", las=1, font.axis=2 )<br />
axis(side=1, at=c(0:5), font.axis=2)<br />
lines(c(0:5), WVert, type="h", lwd=5, col="BLUE")<br />
</R><br />
|}<br />
<br />
Die Berechnung der gesuchten [[Wahrscheinlichkeit]] erfolgt über die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] in folgender Weise:<br />
<br />
{|<br />
|<math>f_{B}(2;5;0,3)\,</math><br />
|<math>=F_{B}(2;5;0,3)-F_{B}(1;5;0,3)\,</math><br />
|-<br />
|<br />
|<math>=0,8369-0,5282=0,3087\,</math><br />
|}<br />
<br />
Die [[Wahrscheinlichkeit]], bei <math>n = 5</math> [[Unabhängigkeit (stochastisch)|unabhängigen]] Ziehungen 2 weiße Kugeln zu ziehen, beträgt damit 0,3087.<br />
<br />
===Nebenjob===<br />
<br />
Entsprechend einer Erhebung unter den Studenten einer großen Universität habe sich ergeben, dass 65% der Studenten neben ihrem Studium einem Job nachgehen. <br />
<br />
Wie groß ist die [[Wahrscheinlichkeit]], dass von <math>n = 8</math> zufällig ausgewählten Studenten dieser Universität höchstens 4 Studenten einen<br />
Nebenjob haben?<br />
<br />
Die Bedingungen eines [[Bernoulli-Experiment]]s sind erfüllt:<br />
<br />
Es gibt nur zwei mögliche [[Ereignis]]se als Ergebnis jeder Auswahl:<br />
<br />
<math>A = \{\mbox{Student mit Nebenjob}\};\; \bar{A}=\{\mbox{Student ohne Nebenjob}\} ;\; P(A) = 0,65 ;\; P(\bar{A}) = 0,35</math>.<br />
<br />
Da die [[Grundgesamtheit|Gesamtheit]] der Studenten an dieser Universität als sehr groß vorausgesetzt wurde und da <math>n</math> sehr klein im Verhältnis zum Umfang <math>N</math> der [[Grundgesamtheit|Gesamtheit]] ist, kann trotzdem näherungsweise mit der Binomialverteilung gearbeitet werden. <br />
<br />
Die [[Wahrscheinlichkeit]]en können als konstant und die Ziehungen als unabhängig voneinander angesehen werden.<br />
<br />
Die interessierende [[Zufallsvariable]] ist <math>\,X = \{\mbox{Anzahl der Studenten mit einem Nebenjob}\}</math>. <br />
<br />
Sie ist <math>X \sim B(n;p) = B(8;0,65)\,</math> verteilt.<br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X \leq 4)</math>, d.h., der Wert der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] <math>F(4)</math>.<br />
<br />
Die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(8; 0,65)</math> liegt nicht tabelliert vor.<br />
<br />
Die Berechnung nach der Formel für die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist jedoch sehr aufwendig, da 5 [[Wahrscheinlichkeit]]en <math>f(x), x = 0,1,\;\ldots,\;4</math>, berechnet und dann aufsummiert werden müssen.<br />
<br />
Mit Hilfe eines Computers lässt sich aber die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(8; 0,65)</math> leicht generieren. Sie ist in der folgenden Tabelle in der 2. Spalte enthalten.<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
!align="center" |<math>x</math><br />
!align="center" |<math>B(8;0,65)</math><br />
!align="center" |<math>B(8;0,35)</math><br />
|-<br />
|align="center" |<math>0</math><br />
|align="center" |<math>0,0002</math><br />
|align="center" |<math>0,0319</math><br />
|-<br />
|align="center" |<math>1</math><br />
|align="center" |<math>0,0036</math><br />
|align="center" |<math>0,1691</math><br />
|-<br />
|align="center" |<math>2</math><br />
|align="center" |<math>0,0253</math><br />
|align="center" |<math>0,4278</math><br />
|-<br />
|align="center" |<math>3</math><br />
|align="center" |<math>0,1061</math><br />
|align="center" |<math>0,7064</math><br />
|-<br />
|align="center" |<math>4</math><br />
|align="center" |<math>0,2936</math><br />
|align="center" |<math>0,8939</math><br />
|-<br />
|align="center" |<math>5</math><br />
|align="center" |<math>0,5722</math><br />
|align="center" |<math>0,9747</math><br />
|-<br />
|align="center" |<math>6</math><br />
|align="center" |<math>0,8309</math><br />
|align="center" |<math>0,9964</math><br />
|-<br />
|align="center" |<math>7</math><br />
|align="center" |<math>0,9681</math><br />
|align="center" |<math>0,9998</math><br />
|-<br />
|align="center" |<math>8</math><br />
|align="center" |<math>1,0000</math><br />
|align="center" |<math>1,0000</math><br />
|}<br />
<br />
{|<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
x <- c(0:8)<br />
WVert<- dbinom(x, 8, 0.65)<br />
WVert2<- dbinom(x, 8, 0.35)<br />
plot(WVert, col="WHITE", xaxt="n", ylab="f(X)", ylim=c(0, 0.3), xlim=c(0, 8), xlab="X", font.lab=2, <br />
main="B(8;0,65) - blau B(8;0,35) - rot", las=1, font.axis=2,sub="Abb. 1: Wahrscheinlichkeitsfunktion der B(8;0,35) und der B(8;0,65)")<br />
lines(c(0:8)-0.1, WVert, type="h", lwd=5, col="BLUE")<br />
lines(c(0:8)+0.1, WVert2, type="h", lwd=5, col="RED")<br />
axis(side=1, at=c(0:8), font.axis=2)<br />
</R><br />
<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
x <- c(0:8)<br />
WVert<- pbinom(x, 8, 0.65)<br />
WVert2<- pbinom(x, 8, 0.35)<br />
plot(WVert, col="WHITE", xaxt="n", ylab="F(X)", ylim=c(0, 1), xlim=c(0, 8), xlab="X", font.lab=2, <br />
main="B(8;0,65) - blau B(8;0,35) - rot", las=1, font.axis=2,sub="Abb. 2: Verteilungsfunktion der B(8;0,35) und der B(8;0,65)")<br />
lines(c(0:8)-0.1, WVert, type="h", lwd=5, col="BLUE")<br />
lines(c(0:8)+0.1, WVert2, type="h", lwd=5, col="RED")<br />
axis(side=1, at=c(0:8), font.axis=2)<br />
</R><br />
|}<br />
<br />
Die [[Wahrscheinlichkeit]], dass bei einer zufälligen Auswahl von <math>n= 8</math> Studenten höchstens 4 Studenten einem Nebenjob nachgehen, beträgt 0,2936.<br />
<br />
Will man jedoch die Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Binomialverteilung verwenden, so macht man sich die Symmetrieeigenschaft der Binomialverteilung (siehe "Eigenschaften der Binomialverteilung") zunutze. <br />
<br />
Da <math>X =\{\mbox{Anzahl der Studenten mit einem Nebenjob}\} \sim B(8;0,65)\,</math> verteilt ist, folgt <br />
<br />
<math>\,Y = \{\mbox{Anzahl der Studenten ohne Nebenjob}\}</math>, d.h. <math>\,Y = n - X</math>, einer Binomialverteilung <math>\sim B(8;0,35)\,</math>. <br />
<br />
<math>X\leq 4</math>, d.h. <math> x = 0,\;1,\;2,\;3,\;4</math> entspricht <math>Y \geq 4</math>, d.h. <math>\,y = 8,\;7,\;6,\;5,\;4</math>.<br />
<br />
Statt der [[Wahrscheinlichkeit]] <math>P(X\leq 4)</math> ist <math>P(Y \geq 4)=1 - P(X \leq 3)</math> gesucht.<br />
<br />
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>B(8;0,65)</math>, siehe 3. Spalte der obigen Tabelle, findet man <math>P(Y\leq 3) = 0,7064</math> und somit<br />
<br />
<math>P(Y \leq 4) = 1 - 0,7064 = 0,2936</math>.<br />
<br />
===Hamburger===<br />
<br />
Eine TV-Werbung für Hamburger-Land beinhaltete folgende Aussage: "Unsere Umfrage zeigt, dass 75% der Leute ihre Hamburger am liebsten frittiert essen." <br />
<br />
In diesem TV-Spot trifft der Sprecher folgende Aussage: "Rufen Sie vier Hamburger-Land Fans an - höchstens einer von ihnen wird den Hamburger nicht frittiert<br />
wählen." <br />
<br />
Trifft diese Aussage so absolut zu?<br />
<br />
Die Bedingungen eines [[Bernoulli-Experiment]]s sind erfüllt:<br />
<br />
Es gibt nur zwei mögliche [[Ereignis]]se als Ergebnis jeder Auswahl:<br />
<br />
<math>A= \{\mbox{nicht frittierter Hamburger}\} ;\; \bar A = \{\mbox{frittierter Hamburger}\} ;\; P(A) = 0,25 ;\; P(\bar{A}) = 0,75</math>.<br />
<br />
Da die Gemeinschaft der Hamburgerland-Fans zweifelsohne als sehr groß angesehen werden kann, spielt es keine Rolle, ob die Auswahl mit oder ohne Zurücklegen erfolgt. <br />
<br />
Die [[Wahrscheinlichkeit]]en können somit als konstant und die Ziehungen als [[Unabhängigkeit (stochastisch)|unabhängig]] voneinander vorausgesetzt werden.<br />
<br />
Die [[Zufallsvariable]] <math>X = \{\mbox{Anzahl nicht frittierter Hamburger bei 4 Entscheidungen}\}</math> ist somit binomialverteilt mit den [[Parameter]]n <math>n =4</math> und <math>p = 0,25</math>;<br />
<br />
d.h. <math>X\sim B(4;0,25)\,</math><br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X\leq 1)</math><br />
<br />
Diese [[Wahrscheinlichkeit]] ergibt sich als<br />
<br />
<math>P(X\leq 1)=P(X=0)+P(X=1)=F_{B}(1;4;0,25)</math><br />
<br />
Die [[Wahrscheinlichkeit]] für das höchstens einmalige Auftreten des [[Ereignis]]ses "nicht frittierter Hamburger" ist die Summe der Einzel[[wahrscheinlichkeit]]en, dass "nicht frittierter Hamburger" von 4 zufällig ausgewählten Hamburgerland-Fans nicht oder einmal gewählt wird. <br />
<br />
Dies entspricht jedoch dem Wert der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der Binomialverteilung an der Stelle <math>X = 1</math>.<br />
<br />
Für <math>n = 4</math> und <math>p = 0,25</math> liegt die Binomialverteilung tabelliert vor (siehe folgende Tabelle).<br />
<br />
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center" |<math>\,x</math><br />
|align="center" |<math>\,f_B(x;4;0,25)</math><br />
|align="center" |<math>\,F_B(x;4;0,25)</math><br />
|-<br />
|align="center" |0<br />
|align="center" |0,3164<br />
|align="center" |0,3164<br />
|-<br />
|align="center" |1<br />
|align="center" |0,4219<br />
|align="center" |0,7383<br />
|-<br />
|align="center" |2<br />
|align="center" |0,2109<br />
|align="center" |0,9492<br />
|-<br />
|align="center" |3<br />
|align="center" |0,0469<br />
|align="center" |0,9961<br />
|-<br />
|align="center" |4<br />
|align="center" |0,0039<br />
|align="center" |1,0000<br />
|}<br />
<br />
{| <br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
x <- c(0:4)<br />
WVert<- dbinom(x, 4, 0.25)<br />
WVert2<- pbinom(x, 4, 0.25)<br />
plot(WVert, col="WHITE", xaxt="n", ylab="f(X), F(X)", ylim=c(0, 1), xlim=c(0, 4), xlab="X", font.lab=2, <br />
main="fB(4;0,25) - blau FB(4;0,25) - rot", las=1, font.axis=2)<br />
lines(c(0:4)-0.05, WVert, type="h", lwd=5, col="BLUE")<br />
lines(c(0:4)+0.05, WVert2, type="h", lwd=5, col="RED")<br />
axis(side=1, at=c(0:4), font.axis=2)<br />
</R><br />
|}<br />
<br />
Aus der letzten Spalte dieser Tabelle kann folgendes entnommen werden: <math>F_B(1;4;0.25)=0.7383</math>.<br />
<br />
Unter der Voraussetzung, dass die [[Wahrscheinlichkeit]]en <math>P(\mbox{frittierter Hamburger}) = 0,75</math> und <math>P(\mbox{nicht frittierter Hamburger})<br />
= 0,25 </math> aus der Umfrage auch für die Gesamtheit der Hamburgerland-Fans gültig ist, trifft die obige Aussage mit einer [[Wahrscheinlichkeit]] von 0,7383 zu.<br />
<br />
<!--==Interaktives Beispiel Binomialverteilung==<br />
<br />
<br />
Die Binomialverteilung hängt von den beiden [[Parameter]]n <math>n</math> und <math>p</math><br />
ab, die<br />
<br />
* ihre Gestalt,<br />
* ihre Lage, d.h den [[STAT-Glossar#Erwartungswert|Erwartungswert]] <math>E(X) = n\cdot p</math> und<br />
* ihre Streuung, d.h. <math>\sigma = \sqrt{np(1-p)}</math><br />
<br />
beeinflussen.<br />
<br />
Sie haben nunmehr zum einen die Möglichkeit, einen oder beide<br />
[[Parameter]] zu variieren, und erhalten als Output die grafische<br />
Darstellung der entsprechenden [[STAT-Glossar#Wahrscheinlichkeitsfunktion|Wahrscheinlichkeitsfunktion]] der<br />
B(n; p).<br />
<br />
Empfehlenswert ist, zunächst nur einen [[Parameter]] zu variieren<br />
und den anderen konstant zu halten, um dessen Wirkung auf die<br />
Binomialverteilung zu studieren.<br />
<br />
Weiterhin können Sie sich die Wahrscheinlichkeiten für<br />
spezielle Werte von <math>X</math> berechnen lassen.--><br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Approximation_von_Verteilungen&diff=1230Approximation von Verteilungen2018-05-29T11:01:21Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Approximation===<br />
<br />
''Approximation'' bedeutet, dass unter bestimmten Bedingungen statt der Ausgangs[[Verteilung (stochastisch)|verteilung]] eine einfacher handhabbare [[Verteilung (stochastisch)|Verteilung]] verwendet wird. <br />
<br />
Entsprechende Grenzwertsätze (z.B der [[Zentraler Grenzwertsatz|zentrale Grenzwertsatz]]) liefern die theoretischen Grundlagen für derartige Approximationen. <br />
<br />
Wird eine Ausgangs[[Verteilung (stochastisch)|verteilung]] durch eine Grenz[[Verteilung (stochastisch)|verteilung]] approximiert, so begeht man natürlich einen Fehler in dem Sinne, dass die [[Wahrscheinlichkeit]]en der Grenz[[Verteilung (stochastisch)|verteilung]] nicht exakt den [[Wahrscheinlichkeit]]en der Ausgangs[[Verteilung (stochastisch)|verteilung]] entsprechen. <br />
<br />
Man kann jedoch erwarten, dass der Fehler vernachlässigbar klein ist. Um dies zu erreichen, müssen entsprechende Kriterien für die Zulässigkeit der Approximation eingehalten werden. <br />
<br />
Im folgenden werden für ausgewählte [[Verteilung (stochastisch)|Verteilungen]] Approximationsmöglichkeiten angegeben, wobei die Kriterien als Faustregeln für eine hinreichend gute Approximation zu verstehen sind. <br />
<br />
In Abhängigkeit von der angestrebten "hinreichend guten" Approximation gibt es in der Literatur unterschiedliche Faustregeln.<br />
<br />
===Stetigkeitskorrektur===<br />
<br />
Eine ''Stetigkeitskorrektur'' wird bei der [[Approximation]] einer [[diskrete Zufallsvariable|diskrete]]n [[Verteilung (stochastisch)|Verteilung]] durch eine [[stetige Zufallsvariable|stetige]] [[Verteilung (stochastisch)|Verteilung]] angewandt. Grund hierfür ist eine genauere [[Approximation]].<br />
<br />
Eine Stetigkeitskorrektur ist notwendig, wenn<br />
<br />
*eine [[Binomialverteilung]],<br />
*eine [[Hypergeometrische Verteilung]] oder<br />
*eine [[Poisson-Verteilung]] durch eine [[Normalverteilung]] [[Approximation|approximiert]] wird<br />
:und<br />
*die [[Varianz (stochastisch)|Varianz]] der [[Normalverteilung]] <math>\sigma^2 \leq 9 </math> ist.<br />
<br />
Eine Stetigkeitskorrektur wird durchgeführt, indem<br />
<br />
*von der unteren Grenze 0,5 abgezogen wird<br />
*zu der oberen Grenze 0,5 hinzuaddiert wird<br />
<br />
===Approximation der Binomialverteilung===<br />
<br />
====Approximation durch die Normalverteilung====<br />
<br />
Dieser [[Approximation]] liegt der Grenzwertsatz von Laplace und De Moivre zugrunde.<br />
<br />
Es seien <math>X_{1},\ldots,X_{n}</math> [[Unabhängigkeit (stochastisch)|unabhängige]], [[Bernoulli-Experiment|Bernoulli]]-verteilte [[Zufallsvariable]]n mit <math>E[X_{i}]=p\,</math> und <math>Var(X_{i})=p\cdot(1-p)</math> für alle <math>i</math>. <br />
<br />
Dann ist <math>X=X_{1}+\ldots +X_{n}</math> eine <math>B(n,p)</math>-verteilte [[Zufallsvariable]] mit dem [[Erwartungswert]] <math>E[X] = n\cdot p</math> und der [[Varianz (stochastisch)|Varianz]] <math>Var(X) = n\cdot p\cdot(1-p)</math>.<br />
<br />
Für <math>n\rightarrow \infty </math>, konvergiert die [[Verteilung (stochastisch)|Verteilung]] der [[Standardisierung|standardisierten]] [[Zufallsvariable]]n<br />
<br />
<math>Z = \frac{X - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}}</math><br />
<br />
gegen die [[Standardnormalverteilung]] <math>N(0;1)</math>. <br />
<br />
Für großes <math>n</math> gilt: <math>X_n \approx N(n\cdot p;\sqrt{n\cdot p\cdot (1-p)})</math><br />
<br />
mit dem [[Erwartungswert]] <math>\mu = n\cdot p</math> und der [[Varianz (stochastisch)|Varianz]] <math>\sigma^2 =n\cdot p\cdot (1-p)</math>.<br />
<br />
Da die [[Binomialverteilung]] eine [[diskrete Zufallsvariable|diskrete]], die [[Normalverteilung]] eine [[stetige Zufallsvariable|stetige]] [[Verteilung (stochastisch)|Verteilung]] ist, sollte eine [[Stetigkeitskorrektur]] vorgenommen werden, um eine bessere [[Approximation]] zu erreichen:<br />
<br />
<math>P(X \leq x) = F_B(x;n,p) \approx \Phi \left(\frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)</math><br />
<br />
<math>P(X = x) = f_B(x;n,p) \approx \Phi \left( \frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right) - \Phi \left( \frac{x - 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)</math><br />
<br />
Faustregel für eine hinreichend gute [[Approximation]] der [[Binomialverteilung]]:<br />
<br />
<math>n\cdot p \geq 5</math> und <math>n\cdot (1-p)\geq 5</math>.<br />
<br />
====Approximation durch die Poisson-Verteilung====<br />
<br />
Da sich die [[Poisson-Verteilung]] aus der [[Binomialverteilung]] herleiten lässt, kann die [[Binomialverteilung]] durch die [[Poisson-Verteilung]] <math>PO(\lambda =n\cdot p)</math> [[Approximation|approximiert]] werden, wenn <math>n</math> sehr groß und die [[Wahrscheinlichkeit]] <math>p</math> des Eintretens des [[Ereignis]]ses klein ist.<br />
<br />
Faustregel für die [[Approximation]]: <math>n > 30</math> und <math>p \leq 0.05</math>.<br />
<br />
===Approximation der hypergeometrischen Verteilung===<br />
<br />
====Approximation durch die Normalverteilung====<br />
<br />
Ist <math>\frac{n\cdot M}{N}\geq 5,\; n\cdot (1-\frac{M}{N})\geq 5 </math> und <math>\frac{n}{M}\leq 0.05</math> so kann eine [[Hypergeometrische Verteilung|hypergeometrisch verteilte]] [[Zufallsvariable]] durch die [[Normalverteilung]] mit den [[Parameter]]n<br />
<br />
<math>E[X] = \mu = n \cdot \frac{M}{N} \quad Var(X) = \sigma^2 = n \cdot \frac{M}{N}\cdot\left(1-\frac{M}{N} \right)</math><br />
<br />
[[Approximation|approximiert]] werden. <br />
<br />
Auch hierbei ist die [[Stetigkeitskorrektur]] zu berücksichtigen.<br />
<br />
====Approximation durch die Binomialverteilung====<br />
<br />
Die [[Binomialverteilung]] und die [[hypergeometrische Verteilung]] unterscheiden sich vor allem durch das Zufallsauswahlmodell:<br />
<br />
Modell mit Zurücklegen bei der ersteren und Modell ohne Zurücklegen bei der letzteren. <br />
<br />
Je größer der Umfang <math>N</math> der [[Grundgesamtheit|Gesamtheit]] bei der [[Hypergeometrische Verteilung|hypergeometrischen Verteilung]] und die Anzahl <math>M</math> der Objekte mit einer interessierenden Eigenschaft wird, womit <math>\frac{M}{N}</math> gegen ein konstantes <math>p</math> strebt, umso weniger bedeutsam wird es, dass ohne Zurücklegen gezogen wird. <br />
<br />
Für <math>N\rightarrow\infty</math> (und <math>M \rightarrow\infty </math>) konvergiert die [[hypergeometrische Verteilung]] gegen die [[Binomialverteilung]].<br />
<br />
Daraus folgt: Für große <math>N</math> und <math>M</math> sowie einen kleinen Auswahlsatz <math>\frac{n}{N}</math> kann die [[hypergeometrische Verteilung]] durch eine [[Binomialverteilung]] mit <math>p = \frac{M}{N}</math> relativ gut [[Approximation|approximiert]] werden.<br />
<br />
Als Faustregel gilt: <math>\frac{n}{N}\leq 0,05</math>.<br />
<br />
===Approximation der Poisson-Verteilung durch die Normalverteilung===<br />
<br />
Da sich die [[Poisson-Verteilung]] mit <math>\lambda= n\cdot p</math> aus der [[Binomialverteilung]] herleiten lässt und die [[Binomialverteilung]] durch die [[Normalverteilung]] [[Approximation|approximiert]] werden kann, kann für großes <math>\lambda</math> die [[Poisson-Verteilung]] ebenfalls durch die [[Normalverteilung]] [[Approximation|approximiert]] werden.<br />
<br />
Ist <math>X\,</math> eine <math>PO(\lambda)</math>-verteilte [[Zufallsvariable]], dann gilt für großes <math>\lambda</math> die [[Approximation]] durch die<br />
[[Normalverteilung]] mit [[Erwartungswert]] <math>\mu =\lambda</math> und [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}=\lambda</math> (mit [[Stetigkeitskorrektur]]):<br />
<br />
<math>P(X \leq x) = F_{PO}(x;\lambda) \approx \Phi \left( \frac{x + 0.5 - \lambda}{\sqrt{\lambda}}\right)</math><br />
<br />
Faustregel zur Anwendung der [[Approximation]]: <math>\lambda \geq 10</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Steuerbescheide===<br />
<br />
Es sei aus jahrelanger Erfahrung bekannt, dass 10% der Steuerbescheide des Finanzamtes einer größeren Stadt fehlerhaft sind. <br />
<br />
Es werden zufällig 100 Steuerbescheide ausgewählt. <br />
<br />
Wie groß ist die [[Wahrscheinlichkeit]], dass 12 Steuerbescheide fehlerhaft sind?<br />
<br />
Im Ergebnis einer Ziehung können nur zwei mögliche [[Ereignis]]se auftreten: "fehlerhafter Steuerbescheid" und "korrekter Steuerbescheid". <br />
<br />
Aufgrund der postulierten Ausgangsbedingungen sind die [[Wahrscheinlichkeit]]en beider [[Ereignis]]se mit <math>p = 0,1</math> und <math>1- p = 0,9</math> <br />
konstant. <br />
<br />
Die [[Zufallsvariable]] <math>X =</math> "Anzahl der fehlerhaften Steuerbescheide unter 100 zufällig ausgewählten Steuerbescheiden" ist <math>B(n,p)=B(100;\;0,1))</math>-verteilt. <br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X=12)=f(12)</math>. Dafür ergibt sich:<br />
<br />
<math>f_{B}(12;\;100;\;0,1)={100\choose 12}\cdot 0,1^{12}\cdot 0,9^{88}=0,0988</math><br />
<br />
<math>f_{B}(12;\;100;\;0,1)</math> kann nicht mehr aus einer Tabelle der [[Binomialverteilung]] entnommen werden, sondern muss berechnet werden, was sehr umständlich ist. <br />
<br />
Da die Bedingungen einer [[Approximation]] durch die [[Normalverteilung]] mit <math>n\cdot p=10\geq 5</math> und <math>n\cdot(1-p)=90\geq 5</math> erfüllt sind, wird die gesuchte [[Wahrscheinlichkeit]] mittels einer <math>N(\mu ;\; \sigma)</math> [[Approximation|approximativ]] bestimmt. <br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der [[Binomialverteilung|binomialverteilten]] [[Zufallsvariable]] <math>X\,</math> sind:<br />
<br />
<math>\mu =n\cdot p=100\cdot 0,1=10</math> und <math>\sigma^{2}=n\cdot p\cdot(1-p)=100\cdot 0,1\cdot 0,9=9</math> so dass die [[Normalverteilung]] <math>N(10;\; 3)</math> zur [[Approximation]] verwendet wird, die in der folgenden Grafik gezeigt ist.<br />
<br />
Zur Erinnerung: Für eine [[stetige Zufallsvariable]] sind [[Wahrscheinlichkeit]]en als Flächen unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben, so dass die [[Wahrscheinlichkeit]] für irgendeinen exakten Wert, wie z.B. <math>x = 12</math>, gleich Null ist.<br />
<br />
Es wird deshalb 0,5 von 12 substrahiert und zu 12 addiert, was der [[Stetigkeitskorrektur]] entspricht. <br />
<br />
Statt <math>x = 12</math> für die [[diskrete Zufallsvariable]] wird das Intervall <math>11,5\leq x\leq 12,5</math> für die<br />
[[Normalverteilung|normalverteilte]] [[Zufallsvariable]] verwendet, und <math>f_{B}(12;\;100;\;0,1)</math> wird durch <math>P(11,5\leq x\leq 12,5)</math>, die Fläche unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] der <math>N(10;\; 3)</math> zwischen 11,5 und 12,5, [[Approximation|approximiert]].<br />
<br />
<iframe k="wiwi" p="examples/stat_Approximation_ApproximationVerteilungen_R00480004800000000000000_plot.html" /><br />
<br />
Da jedoch nur die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] <math>N(0; 1)</math> tabelliert<br />
vorliegt, wird <math>X\,</math> [[Standardisierung|standardisiert]]:<br />
<br />
<math>z_{1}=\frac{12,5-10}{3}=0,83\ \mbox{und}\ z_{2}=\frac{11,2-10}{3}=0,5</math><br />
<br />
Aus der Tabelle findet man für <math>\Phi(0,83)=0,7967</math> und <math>\Phi(0,5)=0,6915</math>, so dass sich ergibt:<br />
<br />
<math>P(11,5\leq x\leq 12,5)=\Phi (0,83)-\Phi(0,5)=0,7967-0,6915=0,1052</math><br />
<br />
Dies ist eine recht gute Annäherung an die exakte [[Wahrscheinlichkeit]] der [[Binomialverteilung]], denn der Fehler beträgt nur <math>0,1052 - 0,0988 = 0,0064</math>.<br />
<br />
Gleichzeitig ist aus den errechneten [[Wahrscheinlichkeit]]en zu entnehmen, dass<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], höchstens 12 fehlerhafte Steuerbescheide bei <math> n = 100</math> zufälligen Ziehungen zu erhalten, gleich<br />
<br />
: <math>P(X\leq 12)=\Phi (\frac{12+0,5-10}{3})=\Phi (0,83)=0,7967</math> ist.<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], mehr als 12 fehlerhafte Steuerbescheide bei <math>n = 100</math> zufälligen Ziehungen zu erhalten, gleich<br />
<br />
: <math>P(X>12)=1-\Phi (\frac{12+0,5-10}{3})=1-\Phi(0,83)=1-0,7967=0,2033 </math> ist.<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], wenigstens 12 fehlerhafte Steuerbescheide bei <math>n = 100</math> zufälligen Ziehungen zu erhalten, gleich <br />
<br />
: <math>P(X\geq 12)=1-\Phi (\frac{12-0,5-10}{3})=1-\Phi(0,5)=1-0,6915=0,3085 </math> ist.<br />
<br />
===Unwetterschaden===<br />
<br />
In einer Gemeinde habe im Durchschnitt 1 Haus von 100 Häusern jährlich einen Unwetterschaden. <br />
<br />
Wenn 100 Häuser in dieser Gemeinde sind, wie groß ist die [[Wahrscheinlichkeit]], dass genau 4 Häuser im Verlauf eines Jahres einen Unwetterschaden<br />
haben? <br />
<br />
Es gibt nur zwei mögliche [[Ereignis]]se "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". <br />
<br />
Die [[Wahrscheinlichkeit]] für das Eintreten der [[Ereignis]]se ist konstant mit <math>p = 0,01</math> bzw. <math>1 - p = 0,99</math>. <br />
<br />
Die [[Zufallsvariable]] <math>X\, =\{\mbox{Anzahl der Häuser mit Unwetterschaden}\}</math> ist <math>B(n, p) = B(100; 0,01)</math>-verteilt. <br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X = 4)</math>, für die sich (sehr umständlich zu berechnen)<br />
<br />
<math>P(X=4)=f_{B}(4;\,100;\,0,01)={100 \choose4}\cdot 0,01^{4}\cdot 0,99^{96}=0,01494</math><br />
<br />
ergibt. <br />
<br />
Da die Faustregeln einer [[Approximation]] durch die [[Poisson-Verteilung]] erfüllt sind, wird die gesuchte [[Wahrscheinlichkeit]] mittels der [[Poisson-Verteilung]] mit <math>\lambda = n\cdot p = 1</math> berechnet:<br />
<br />
<math>F_{PO}(4;\,1)=\frac{1^{4}}{4\,!}e^{-1}=0,01533</math><br />
<br />
Wie ersichtlich, besteht eine gute Übereinstimmung zwischen den [[Wahrscheinlichkeit]]en <math>f_{B}(4)</math> und <math>F_{PO}(4)</math>. Dies trifft für die gesamte [[Verteilung (stochastisch)|Verteilungen]] zu.<br />
<br />
<iframe k="wiwi" p="examples/stat_Approximation_Binomial_Poisson_R00480004800000000000000_plot.html" /><br />
<br />
{|border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>\,x</math><br />
|align="center"|<math>B(100;\;0,01)</math><br />
|align="center"|<math>\,PO(1)</math><br />
|-<br />
|align="center"|0<br />
|align="center"|0,36603<br />
|align="center"|0,36788<br />
|-<br />
|align="center"|1<br />
|align="center"|0,36973<br />
|align="center"|0,36788<br />
|-<br />
|align="center"|2<br />
|align="center"|0,18486<br />
|align="center"|0,18394<br />
|-<br />
|align="center"|3<br />
|align="center"|0,06100<br />
|align="center"|0,06131<br />
|-<br />
|align="center"|4<br />
|align="center"|0,01494<br />
|align="center"|0,01533<br />
|-<br />
|align="center"|5<br />
|align="center"|0,00290<br />
|align="center"|0,00307<br />
|-<br />
|align="center"|6<br />
|align="center"|0,00046<br />
|align="center"|0,00051<br />
|-<br />
|align="center"|7<br />
|align="center"|0,00006<br />
|align="center"|0,00007<br />
|-<br />
|align="center"|8<br />
|align="center"|0,00000<br />
|align="center"|0,00000<br />
|}<br />
<br />
Nach einem starken Unwetter sind von den 2000 Häusern der gesamten Region 300 Häuser beschädigt. <br />
<br />
Wie groß ist die [[Wahrscheinlichkeit]], dass sich unter 10 zufällig ausgewählten Häusern 2 beschädigte Häuser befinden?<br />
<br />
Es gibt wiederum nur zwei mögliche [[Ereignis]]se: "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". Es sind <math>N=2000</math>, <math>M=300</math> und <math>N-M=1700</math>. <br />
<br />
Die [[Zufallsvariable]] <math>X = \{\mbox{Anzahl der Häuser mit Unwetterschaden}\}</math> ist <math>H(N, M, n) = H(2000;\; 300;\; 10)</math>-verteilt.<br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X = 2)</math>, für die sich <math>P(X=2)=f_{H}(2)=\cfrac{{300 \choose2}\cdot{1700 \choose 8}}{{2000 \choose 10}}=0,2766</math> ergibt. <br />
<br />
Wie ersichtlich, ist die Berechnung sehr aufwendig. <br />
<br />
Da die Faustregeln einer [[Approximation]] durch die [[Binomialverteilung]] erfüllt sind, wird deshalb die gesuchte [[Wahrscheinlichkeit]] mittels der [[Binomialverteilung]] mit <math>p = \frac{M}{N} = 0,15</math> berechnet:<br />
<br />
<math>P(X=2)=f_{B}(2)={10 \choose 2}\cdot 0,15^{2}\cdot 0,85^{8}=0,2759</math><br />
<br />
Auch bei dieser [[Approximation]] entsteht ein vernachlässigbarer Fehler bei der Berechnung der [[Wahrscheinlichkeit]] mittels <math>B(10;\; 0,15)</math> statt mit der <math>H(2000;\; 300;\; 10)</math>.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Approximation_von_Verteilungen&diff=1229Approximation von Verteilungen2018-05-29T10:55:43Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Approximation===<br />
<br />
''Approximation'' bedeutet, dass unter bestimmten Bedingungen statt der Ausgangs[[Verteilung (stochastisch)|verteilung]] eine einfacher handhabbare [[Verteilung (stochastisch)|Verteilung]] verwendet wird. <br />
<br />
Entsprechende Grenzwertsätze (z.B der [[Zentraler Grenzwertsatz|zentrale Grenzwertsatz]]) liefern die theoretischen Grundlagen für derartige Approximationen. <br />
<br />
Wird eine Ausgangs[[Verteilung (stochastisch)|verteilung]] durch eine Grenz[[Verteilung (stochastisch)|verteilung]] approximiert, so begeht man natürlich einen Fehler in dem Sinne, dass die [[Wahrscheinlichkeit]]en der Grenz[[Verteilung (stochastisch)|verteilung]] nicht exakt den [[Wahrscheinlichkeit]]en der Ausgangs[[Verteilung (stochastisch)|verteilung]] entsprechen. <br />
<br />
Man kann jedoch erwarten, dass der Fehler vernachlässigbar klein ist. Um dies zu erreichen, müssen entsprechende Kriterien für die Zulässigkeit der Approximation eingehalten werden. <br />
<br />
Im folgenden werden für ausgewählte [[Verteilung (stochastisch)|Verteilungen]] Approximationsmöglichkeiten angegeben, wobei die Kriterien als Faustregeln für eine hinreichend gute Approximation zu verstehen sind. <br />
<br />
In Abhängigkeit von der angestrebten "hinreichend guten" Approximation gibt es in der Literatur unterschiedliche Faustregeln.<br />
<br />
===Stetigkeitskorrektur===<br />
<br />
Eine ''Stetigkeitskorrektur'' wird bei der [[Approximation]] einer [[diskrete Zufallsvariable|diskrete]]n [[Verteilung (stochastisch)|Verteilung]] durch eine [[stetige Zufallsvariable|stetige]] [[Verteilung (stochastisch)|Verteilung]] angewandt. Grund hierfür ist eine genauere [[Approximation]].<br />
<br />
Eine Stetigkeitskorrektur ist notwendig, wenn<br />
<br />
*eine [[Binomialverteilung]],<br />
*eine [[Hypergeometrische Verteilung]] oder<br />
*eine [[Poisson-Verteilung]] durch eine [[Normalverteilung]] [[Approximation|approximiert]] wird<br />
:und<br />
*die [[Varianz (stochastisch)|Varianz]] der [[Normalverteilung]] <math>\sigma^2 \leq 9 </math> ist.<br />
<br />
Eine Stetigkeitskorrektur wird durchgeführt, indem<br />
<br />
*von der unteren Grenze 0,5 abgezogen wird<br />
*zu der oberen Grenze 0,5 hinzuaddiert wird<br />
<br />
===Approximation der Binomialverteilung===<br />
<br />
====Approximation durch die Normalverteilung====<br />
<br />
Dieser [[Approximation]] liegt der Grenzwertsatz von Laplace und De Moivre zugrunde.<br />
<br />
Es seien <math>X_{1},\ldots,X_{n}</math> [[Unabhängigkeit (stochastisch)|unabhängige]], [[Bernoulli-Experiment|Bernoulli]]-verteilte [[Zufallsvariable]]n mit <math>E[X_{i}]=p\,</math> und <math>Var(X_{i})=p\cdot(1-p)</math> für alle <math>i</math>. <br />
<br />
Dann ist <math>X=X_{1}+\ldots +X_{n}</math> eine <math>B(n,p)</math>-verteilte [[Zufallsvariable]] mit dem [[Erwartungswert]] <math>E[X] = n\cdot p</math> und der [[Varianz (stochastisch)|Varianz]] <math>Var(X) = n\cdot p\cdot(1-p)</math>.<br />
<br />
Für <math>n\rightarrow \infty </math>, konvergiert die [[Verteilung (stochastisch)|Verteilung]] der [[Standardisierung|standardisierten]] [[Zufallsvariable]]n<br />
<br />
<math>Z = \frac{X - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}}</math><br />
<br />
gegen die [[Standardnormalverteilung]] <math>N(0;1)</math>. <br />
<br />
Für großes <math>n</math> gilt: <math>X_n \approx N(n\cdot p;\sqrt{n\cdot p\cdot (1-p)})</math><br />
<br />
mit dem [[Erwartungswert]] <math>\mu = n\cdot p</math> und der [[Varianz (stochastisch)|Varianz]] <math>\sigma^2 =n\cdot p\cdot (1-p)</math>.<br />
<br />
Da die [[Binomialverteilung]] eine [[diskrete Zufallsvariable|diskrete]], die [[Normalverteilung]] eine [[stetige Zufallsvariable|stetige]] [[Verteilung (stochastisch)|Verteilung]] ist, sollte eine [[Stetigkeitskorrektur]] vorgenommen werden, um eine bessere [[Approximation]] zu erreichen:<br />
<br />
<math>P(X \leq x) = F_B(x;n,p) \approx \Phi \left(\frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)</math><br />
<br />
<math>P(X = x) = f_B(x;n,p) \approx \Phi \left( \frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right) - \Phi \left( \frac{x - 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)</math><br />
<br />
Faustregel für eine hinreichend gute [[Approximation]] der [[Binomialverteilung]]:<br />
<br />
<math>n\cdot p \geq 5</math> und <math>n\cdot (1-p)\geq 5</math>.<br />
<br />
====Approximation durch die Poisson-Verteilung====<br />
<br />
Da sich die [[Poisson-Verteilung]] aus der [[Binomialverteilung]] herleiten lässt, kann die [[Binomialverteilung]] durch die [[Poisson-Verteilung]] <math>PO(\lambda =n\cdot p)</math> [[Approximation|approximiert]] werden, wenn <math>n</math> sehr groß und die [[Wahrscheinlichkeit]] <math>p</math> des Eintretens des [[Ereignis]]ses klein ist.<br />
<br />
Faustregel für die [[Approximation]]: <math>n > 30</math> und <math>p \leq 0.05</math>.<br />
<br />
===Approximation der hypergeometrischen Verteilung===<br />
<br />
====Approximation durch die Normalverteilung====<br />
<br />
Ist <math>\frac{n\cdot M}{N}\geq 5,\; n\cdot (1-\frac{M}{N})\geq 5 </math> und <math>\frac{n}{M}\leq 0.05</math> so kann eine [[Hypergeometrische Verteilung|hypergeometrisch verteilte]] [[Zufallsvariable]] durch die [[Normalverteilung]] mit den [[Parameter]]n<br />
<br />
<math>E[X] = \mu = n \cdot \frac{M}{N} \quad Var(X) = \sigma^2 = n \cdot \frac{M}{N}\cdot\left(1-\frac{M}{N} \right)</math><br />
<br />
[[Approximation|approximiert]] werden. <br />
<br />
Auch hierbei ist die [[Stetigkeitskorrektur]] zu berücksichtigen.<br />
<br />
====Approximation durch die Binomialverteilung====<br />
<br />
Die [[Binomialverteilung]] und die [[hypergeometrische Verteilung]] unterscheiden sich vor allem durch das Zufallsauswahlmodell:<br />
<br />
Modell mit Zurücklegen bei der ersteren und Modell ohne Zurücklegen bei der letzteren. <br />
<br />
Je größer der Umfang <math>N</math> der [[Grundgesamtheit|Gesamtheit]] bei der [[Hypergeometrische Verteilung|hypergeometrischen Verteilung]] und die Anzahl <math>M</math> der Objekte mit einer interessierenden Eigenschaft wird, womit <math>\frac{M}{N}</math> gegen ein konstantes <math>p</math> strebt, umso weniger bedeutsam wird es, dass ohne Zurücklegen gezogen wird. <br />
<br />
Für <math>N\rightarrow\infty</math> (und <math>M \rightarrow\infty </math>) konvergiert die [[hypergeometrische Verteilung]] gegen die [[Binomialverteilung]].<br />
<br />
Daraus folgt: Für große <math>N</math> und <math>M</math> sowie einen kleinen Auswahlsatz <math>\frac{n}{N}</math> kann die [[hypergeometrische Verteilung]] durch eine [[Binomialverteilung]] mit <math>p = \frac{M}{N}</math> relativ gut [[Approximation|approximiert]] werden.<br />
<br />
Als Faustregel gilt: <math>\frac{n}{N}\leq 0,05</math>.<br />
<br />
===Approximation der Poisson-Verteilung durch die Normalverteilung===<br />
<br />
Da sich die [[Poisson-Verteilung]] mit <math>\lambda= n\cdot p</math> aus der [[Binomialverteilung]] herleiten lässt und die [[Binomialverteilung]] durch die [[Normalverteilung]] [[Approximation|approximiert]] werden kann, kann für großes <math>\lambda</math> die [[Poisson-Verteilung]] ebenfalls durch die [[Normalverteilung]] [[Approximation|approximiert]] werden.<br />
<br />
Ist <math>X\,</math> eine <math>PO(\lambda)</math>-verteilte [[Zufallsvariable]], dann gilt für großes <math>\lambda</math> die [[Approximation]] durch die<br />
[[Normalverteilung]] mit [[Erwartungswert]] <math>\mu =\lambda</math> und [[Varianz (stochastisch)|Varianz]] <math>\sigma^{2}=\lambda</math> (mit [[Stetigkeitskorrektur]]):<br />
<br />
<math>P(X \leq x) = F_{PO}(x;\lambda) \approx \Phi \left( \frac{x + 0.5 - \lambda}{\sqrt{\lambda}}\right)</math><br />
<br />
Faustregel zur Anwendung der [[Approximation]]: <math>\lambda \geq 10</math><br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Steuerbescheide===<br />
<br />
Es sei aus jahrelanger Erfahrung bekannt, dass 10% der Steuerbescheide des Finanzamtes einer größeren Stadt fehlerhaft sind. <br />
<br />
Es werden zufällig 100 Steuerbescheide ausgewählt. <br />
<br />
Wie groß ist die [[Wahrscheinlichkeit]], dass 12 Steuerbescheide fehlerhaft sind?<br />
<br />
Im Ergebnis einer Ziehung können nur zwei mögliche [[Ereignis]]se auftreten: "fehlerhafter Steuerbescheid" und "korrekter Steuerbescheid". <br />
<br />
Aufgrund der postulierten Ausgangsbedingungen sind die [[Wahrscheinlichkeit]]en beider [[Ereignis]]se mit <math>p = 0,1</math> und <math>1- p = 0,9</math> <br />
konstant. <br />
<br />
Die [[Zufallsvariable]] <math>X =</math> "Anzahl der fehlerhaften Steuerbescheide unter 100 zufällig ausgewählten Steuerbescheiden" ist <math>B(n,p)=B(100;\;0,1))</math>-verteilt. <br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X=12)=f(12)</math>. Dafür ergibt sich:<br />
<br />
<math>f_{B}(12;\;100;\;0,1)={100\choose 12}\cdot 0,1^{12}\cdot 0,9^{88}=0,0988</math><br />
<br />
<math>f_{B}(12;\;100;\;0,1)</math> kann nicht mehr aus einer Tabelle der [[Binomialverteilung]] entnommen werden, sondern muss berechnet werden, was sehr umständlich ist. <br />
<br />
Da die Bedingungen einer [[Approximation]] durch die [[Normalverteilung]] mit <math>n\cdot p=10\geq 5</math> und <math>n\cdot(1-p)=90\geq 5</math> erfüllt sind, wird die gesuchte [[Wahrscheinlichkeit]] mittels einer <math>N(\mu ;\; \sigma)</math> [[Approximation|approximativ]] bestimmt. <br />
<br />
[[Erwartungswert]] und [[Varianz (stochastisch)|Varianz]] der [[Binomialverteilung|binomialverteilten]] [[Zufallsvariable]] <math>X\,</math> sind:<br />
<br />
<math>\mu =n\cdot p=100\cdot 0,1=10</math> und <math>\sigma^{2}=n\cdot p\cdot(1-p)=100\cdot 0,1\cdot 0,9=9</math> so dass die [[Normalverteilung]] <math>N(10;\; 3)</math> zur [[Approximation]] verwendet wird, die in der folgenden Grafik gezeigt ist.<br />
<br />
Zur Erinnerung: Für eine [[stetige Zufallsvariable]] sind [[Wahrscheinlichkeit]]en als Flächen unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben, so dass die [[Wahrscheinlichkeit]] für irgendeinen exakten Wert, wie z.B. <math>x = 12</math>, gleich Null ist.<br />
<br />
Es wird deshalb 0,5 von 12 substrahiert und zu 12 addiert, was der [[Stetigkeitskorrektur]] entspricht. <br />
<br />
Statt <math>x = 12</math> für die [[diskrete Zufallsvariable]] wird das Intervall <math>11,5\leq x\leq 12,5</math> für die<br />
[[Normalverteilung|normalverteilte]] [[Zufallsvariable]] verwendet, und <math>f_{B}(12;\;100;\;0,1)</math> wird durch <math>P(11,5\leq x\leq 12,5)</math>, die Fläche unter der [[Dichtefunktion (eindimensional)|Dichtefunktion]] der <math>N(10;\; 3)</math> zwischen 11,5 und 12,5, [[Approximation|approximiert]].<br />
<br />
<iframe k="wiwi" p="examples/stat_Approximation_ApproximationVerteilungen_R00480004800000000000000_plot.html" /><br />
<br />
Da jedoch nur die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]] <math>N(0; 1)</math> tabelliert<br />
vorliegt, wird <math>X\,</math> [[Standardisierung|standardisiert]]:<br />
<br />
<math>z_{1}=\frac{12,5-10}{3}=0,83\ \mbox{und}\ z_{2}=\frac{11,2-10}{3}=0,5</math><br />
<br />
Aus der Tabelle findet man für <math>\Phi(0,83)=0,7967</math> und <math>\Phi(0,5)=0,6915</math>, so dass sich ergibt:<br />
<br />
<math>P(11,5\leq x\leq 12,5)=\Phi (0,83)-\Phi(0,5)=0,7967-0,6915=0,1052</math><br />
<br />
Dies ist eine recht gute Annäherung an die exakte [[Wahrscheinlichkeit]] der [[Binomialverteilung]], denn der Fehler beträgt nur <math>0,1052 - 0,0988 = 0,0064</math>.<br />
<br />
Gleichzeitig ist aus den errechneten [[Wahrscheinlichkeit]]en zu entnehmen, dass<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], höchstens 12 fehlerhafte Steuerbescheide bei <math> n = 100</math> zufälligen Ziehungen zu erhalten, gleich<br />
<br />
: <math>P(X\leq 12)=\Phi (\frac{12+0,5-10}{3})=\Phi (0,83)=0,7967</math> ist.<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], mehr als 12 fehlerhafte Steuerbescheide bei <math>n = 100</math> zufälligen Ziehungen zu erhalten, gleich<br />
<br />
: <math>P(X>12)=1-\Phi (\frac{12+0,5-10}{3})=1-\Phi(0,83)=1-0,7967=0,2033 </math> ist.<br />
<br />
* die [[Approximation|approximierte]] [[Wahrscheinlichkeit]], wenigstens 12 fehlerhafte Steuerbescheide bei <math>n = 100</math> zufälligen Ziehungen zu erhalten, gleich <br />
<br />
: <math>P(X\geq 12)=1-\Phi (\frac{12-0,5-10}{3})=1-\Phi(0,5)=1-0,6915=0,3085 </math> ist.<br />
<br />
===Unwetterschaden===<br />
<br />
In einer Gemeinde habe im Durchschnitt 1 Haus von 100 Häusern jährlich einen Unwetterschaden. <br />
<br />
Wenn 100 Häuser in dieser Gemeinde sind, wie groß ist die [[Wahrscheinlichkeit]], dass genau 4 Häuser im Verlauf eines Jahres einen Unwetterschaden<br />
haben? <br />
<br />
Es gibt nur zwei mögliche [[Ereignis]]se "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". <br />
<br />
Die [[Wahrscheinlichkeit]] für das Eintreten der [[Ereignis]]se ist konstant mit <math>p = 0,01</math> bzw. <math>1 - p = 0,99</math>. <br />
<br />
Die [[Zufallsvariable]] <math>X\, =\{\mbox{Anzahl der Häuser mit Unwetterschaden}\}</math> ist <math>B(n, p) = B(100; 0,01)</math>-verteilt. <br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X = 4)</math>, für die sich (sehr umständlich zu berechnen)<br />
<br />
<math>P(X=4)=f_{B}(4;\,100;\,0,01)={100 \choose4}\cdot 0,01^{4}\cdot 0,99^{96}=0,01494</math><br />
<br />
ergibt. <br />
<br />
Da die Faustregeln einer [[Approximation]] durch die [[Poisson-Verteilung]] erfüllt sind, wird die gesuchte [[Wahrscheinlichkeit]] mittels der [[Poisson-Verteilung]] mit <math>\lambda = n\cdot p = 1</math> berechnet:<br />
<br />
<math>F_{PO}(4;\,1)=\frac{1^{4}}{4\,!}e^{-1}=0,01533</math><br />
<br />
Wie ersichtlich, besteht eine gute Übereinstimmung zwischen den [[Wahrscheinlichkeit]]en <math>f_{B}(4)</math> und <math>F_{PO}(4)</math>. Dies trifft für die gesamte [[Verteilung (stochastisch)|Verteilungen]] zu.<br />
<br />
{|<br />
|<R><br />
pdf(rpdf, width=7, height=7)<br />
<br />
a=dbinom(c(0:8), 100, 0.01)<br />
b=dpois(c(0:8),1)<br />
ab <- cbind(a,b)<br />
barplot(t(ab), beside=TRUE, col=c("red","darkblue"), ylim=c(0, 0.4), xlab="X", ylab="f(X)", font.lab=2)<br />
axis( side=1, at=3*c(1:9)-1, labels=c("0", "1", "2", "3", "4", "5", "6", "7", "8"), tick=FALSE)<br />
legend("topright",fill=c("red","darkblue"),c("B(100; 0,01)","PO(1)"), bty="n")<br />
<br />
</R><br />
|}<br />
<br />
{|border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"<br />
|align="center"|<math>\,x</math><br />
|align="center"|<math>B(100;\;0,01)</math><br />
|align="center"|<math>\,PO(1)</math><br />
|-<br />
|align="center"|0<br />
|align="center"|0,36603<br />
|align="center"|0,36788<br />
|-<br />
|align="center"|1<br />
|align="center"|0,36973<br />
|align="center"|0,36788<br />
|-<br />
|align="center"|2<br />
|align="center"|0,18486<br />
|align="center"|0,18394<br />
|-<br />
|align="center"|3<br />
|align="center"|0,06100<br />
|align="center"|0,06131<br />
|-<br />
|align="center"|4<br />
|align="center"|0,01494<br />
|align="center"|0,01533<br />
|-<br />
|align="center"|5<br />
|align="center"|0,00290<br />
|align="center"|0,00307<br />
|-<br />
|align="center"|6<br />
|align="center"|0,00046<br />
|align="center"|0,00051<br />
|-<br />
|align="center"|7<br />
|align="center"|0,00006<br />
|align="center"|0,00007<br />
|-<br />
|align="center"|8<br />
|align="center"|0,00000<br />
|align="center"|0,00000<br />
|}<br />
<br />
Nach einem starken Unwetter sind von den 2000 Häusern der gesamten Region 300 Häuser beschädigt. <br />
<br />
Wie groß ist die [[Wahrscheinlichkeit]], dass sich unter 10 zufällig ausgewählten Häusern 2 beschädigte Häuser befinden?<br />
<br />
Es gibt wiederum nur zwei mögliche [[Ereignis]]se: "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". Es sind <math>N=2000</math>, <math>M=300</math> und <math>N-M=1700</math>. <br />
<br />
Die [[Zufallsvariable]] <math>X = \{\mbox{Anzahl der Häuser mit Unwetterschaden}\}</math> ist <math>H(N, M, n) = H(2000;\; 300;\; 10)</math>-verteilt.<br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math>P(X = 2)</math>, für die sich <math>P(X=2)=f_{H}(2)=\cfrac{{300 \choose2}\cdot{1700 \choose 8}}{{2000 \choose 10}}=0,2766</math> ergibt. <br />
<br />
Wie ersichtlich, ist die Berechnung sehr aufwendig. <br />
<br />
Da die Faustregeln einer [[Approximation]] durch die [[Binomialverteilung]] erfüllt sind, wird deshalb die gesuchte [[Wahrscheinlichkeit]] mittels der [[Binomialverteilung]] mit <math>p = \frac{M}{N} = 0,15</math> berechnet:<br />
<br />
<math>P(X=2)=f_{B}(2)={10 \choose 2}\cdot 0,15^{2}\cdot 0,85^{8}=0,2759</math><br />
<br />
Auch bei dieser [[Approximation]] entsteht ein vernachlässigbarer Fehler bei der Berechnung der [[Wahrscheinlichkeit]] mittels <math>B(10;\; 0,15)</math> statt mit der <math>H(2000;\; 300;\; 10)</math>.</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Additionssatz&diff=1228Additionssatz2018-05-29T10:45:27Z<p>Jacobdan: </p>
<hr />
<div>=={{Vorlage:Überschrift}}==<br />
<br />
===Additionssatz der Wahrscheinlichkeitsrechnung===<br />
<br />
Sind <math> A </math> und <math> B </math> zwei beliebige [[Ereignis|Ereignisse]] eines [[Zufallsexperiment|Zufallsexperiments]], dann gilt <br />
<br />
<math> P\left( A \cup B \right)=P\left( A\right) +P\left( B\right) -P\left( A \cap B\right) </math>,<br />
<br />
was als ''Additionssatz der Wahrscheinlichkeitsrechnung'' bezeichnet wird.<br />
<br />
Die Erweiterung des Additionssatzes auf drei [[Ereignis]]se <math> A </math>, <math> B </math> und <math> C </math> lautet:<br />
<br />
<math> P\left( A \cup B \cup C\right) =P(A)+P(B)+P(C)-P \left( A \cap B\right) -P\left( A \cap C\right) -P \left( B \cap C\right) +P \left( A \cap B \cap C \right) </math><br />
<br />
[[Bild:venn_5.svg]]<br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Herleitung des Additionssatzes===<br />
<br />
*Das [[Ereignis]] <math>B</math> kann in die beiden [[disjunkte Ereignisse|disjunkten Ereignisse]] <math> A \cap B </math> und <math> \bar A \cap B </math> zerlegt werden, so dass gilt<br />
<br />
:<math> B= (A \cap B) \cup ( \bar A \cap B) </math><br />
<br />
:Das folgende [[Venn-Diagramm|Venn-Diagramm]] veranschaulicht die zugrunde liegenden [[Ereignis]]se.<br />
<br />
:[[Bild:venn_6.svg]]<br />
<br />
:Für die [[Wahrscheinlichkeit|Wahrscheinlichkeit]] <math> P(B) </math> erhält man nach [[Wahrscheinlichkeit nach Kolmogorov|Axiom 3]]<br />
<br />
:<math> P(B)=P[(A\cap B)\cup(\bar{A}\cap B)]=P(A\cap B)+P(\bar{A}\cap B) </math><br />
<br />
:und nach Umformung<br />
<br />
:<math>P(\bar{A}\cap B)=P(B)-P(A\cap B)</math><br />
<br />
*Das [[Ereignis]] <math> A \cup B </math> kann in die beiden [[Disjunkte Ereignisse|disjunkten Ereignisse]] <math> A </math> und <math>\bar A \cap B </math> zerlegt werden, so dass gilt<br />
<br />
:<math>A \cup B = A \cup(\bar A \cap B)</math><br />
<br />
<iframe k="wiwi" p="examples/stat_Additionssatz_Additionssatz_R00480004800000000000000_plot.html" /><br />
<br />
:Für die [[Wahrscheinlichkeit]] <math> P(A \cup B) </math> erhält man nach [[Wahrscheinlichkeit nach Kolmogorov|Axiom 3]]<br />
<br />
:<math>P(A \cup B) = P[A \cup(\bar A \cap B)] = P(A) + P(\bar A \cap B)</math><br />
<br />
:Setzt man das Ergebnis des ersten Abschnittes für <math>P(\bar A \cap B)</math> ein, folgt<br />
<br />
:<math>P(A \cup B) = P(A) + P(B) - P(A \cap B)</math>.<br />
<br />
:was zu beweisen war.<br />
<br />
:[[Bild:venn_7.svg]]<br />
<br />
=={{Vorlage:Beispiele}}==<br />
<br />
===Skatspiel===<br />
<br />
Ein Skatspiel hat 32 Karten. Darin sind vier Damen und acht Herzkarten enthalten.<br />
<br />
Gesucht sei die [[Wahrscheinlichkeit]], aus dem unsortierten Kartenstapel zufällig eine Dame oder eine Herzkarte zu ziehen.<br />
<br />
Für <math> A = {\mbox{Dame}}, \; B = {\mbox{Herzkarte}}</math> und <math> A\cap B = {\mbox{Herzdame}}</math> ergibt sich nach der [[Wahrscheinlichkeit nach Laplace|klassischen Definition der Wahrscheinlichkeit]]:<br />
<br />
* <math> P(A)=P\left( \mbox{Dame} \right) =\frac{4}{32} </math><br />
* <math> P(B)=P\left(\mbox{Herz}\right) =\frac{8}{32}</math><br />
* <math> P(A\cap B)=P(\mbox{Herzdame}) =\frac{1}{32}</math><br />
<br />
Gesucht ist die [[Wahrscheinlichkeit]] <math> P(A\cup B) </math><br />
<br />
Nach dem Additionssatz ergibt sich:<br />
<br />
{|<br />
|<math> P\left( A\cup B\right) </math><br />
|<math> =P\left(A\right) +P\left( B\right) -P\left( A\cap B\right) </math><br />
|-<br />
|<br />
|<math>= \frac{4}{32} + \frac{8}{32}- \frac{1}{32}= \frac{11}{32}</math><br />
|}<br />
<br />
Die [[Wahrscheinlichkeit]], aus dem unsortierten Kartenstapel zufällig eine Dame oder eine Herzkarte zu ziehen, beträgt <math> \frac{11}{32} </math>.<br />
<br />
[[Kategorie:Statistik I&II]]</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Normalverteilung&diff=1227Normalverteilung2018-05-28T13:17:48Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Normalverteilung oder Gauß-Verteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math> heißt ''normalverteilt'' mit den Parametern <math>\mu</math> und <math>\sigma</math>, abgekürzt <math>X\sim N(\mu,\sigma)\,</math>, wenn ihre [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben ist durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist gegeben durch:<br />
<br />
<math>F_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}\int\limits_{-\infty }^{x}e^{-(t-\mu)^{2}/2\sigma ^{2}}\;dt</math><br />
<br />
Aus der [[Dichtefunktion (eindimensional)|Dichtefunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist erkennbar, dass die ''Normalverteilung'' von den beiden [[Parameter]]n <math>\mu</math> und <math>\sigma</math> abhängt.<br />
<br />
Diese [[Parameter]] sind der [[Erwartungswert]] und die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Zufallsvariable]]n <math>X</math>.<br />
<br />
Die Normalverteilung wird auch als ''Gauß-Verteilung'' bezeichnet.<br />
<br />
Sie ist die wichtigste [[Stetiges Merkmal|stetige]] [[Verteilung (stochastisch)|Verteilung]], weil<br />
<br />
* bei vielen praktischen Anwendungen zumindest näherungsweise die Verteilungsgestalt einer Normalverteilung vorliegt;<br />
* sie eine approximative Bestimmung vieler anderer [[Verteilung (stochastisch)|Verteilungen]] ermöglicht;<br />
* sie bei einer Vielzahl von statistischen Maßzahlen als Verteilungsmodell unterstellt werden kann, wenn der [[Datensatz]] groß genug ist.<br />
<br />
Eine normalverteilte [[Zufallsvariable]] kann theoretisch alle Werte zwischen <math>-\infty</math> und <math>+\infty</math> annehmen, d.h. ihr Wertebereich ist nach oben und unten unbegrenzt.<br />
<br />
===Gauß'sche Glockenkurve===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] einer [[Gauß-Verteilung]] wird auch als ''Gauß'sche Glockenkurve'' bezeichnet. Sie ist gegeben durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Lineare Transformation===<br />
<br />
Sei <math>X</math> normalverteilt, <math>X\sim N\,(\mu ,\sigma )</math> und <math>Y</math> die durch eine Linearkombination erhaltene [[Zufallsvariable]] <math>Y = a + b\cdot X</math> mit <math>b\neq 0</math>, dann ist <math>Y</math> wieder normalverteilt mit <math>Y \sim N(a + b \mu,\;|b| \cdot \sigma)</math><br />
<br />
Durch die Linearkombination ändert sich der Verteilungstyp nicht. <br />
<br />
Die Werte der [[Parameter]] der transformierten [[Variable]]n ergeben sich dabei aus den Rechenregeln für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]]:<br />
<br />
<math>E[a + b\cdot X] = a + b \cdot E[X]</math><br />
<br />
<math>Var(a + b\cdot X) = b^2\cdot Var(X) = b^2\cdot {\sigma}^2</math>.<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Gegeben seien <math>n</math> [[Zufallsvariable]]n <math>X_1,X_2 \ldots,X_n</math> die identisch normalverteilt sind: <math>X_i \sim N(\mu_i,\sigma_i),\; E[X_i] = \mu_i,\; Var(X_i) = \sigma_i^2</math>.<br />
<br />
Die Summe [[Unabhängigkeit (stochastisch)|unabhängiger]], normalverteilter [[Zufallsvariable]]n <math>X_1, \ldots, X_n</math>, d.h.<br />
<br />
<math>Y = a_1X_1 + a_2X_2 + \ldots + a_nX_n</math> mit <math>a_i \neq 0</math> für mindestens ein <math>i</math>, ist wieder normalverteilt:<br />
<br />
<math>Y = \sum\limits_{i=1}^na_iX_i \sim N\left(\sum\limits_{i=1}^na_i\mu_i, \sqrt{\sum\limits_{i=1}^n a_i^2\sigma_i^2}\right)</math><br />
<br />
===Graphische Darstellung der Normalverteilung===<br />
<br />
Die folgende Grafik zeigt 5 [[Dichtefunktion (eindimensional)|Dichtefunktionen]] der Normalverteilung mit verschiedenen [[Parameter]]werten für <math>\mu</math> und <math>\sigma</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Dichte_R00480004800000000000000_plot.html" /><br />
<br />
Der [[Parameter]] <math>\mu</math> beeinflusst die Lage der [[Verteilung (stochastisch)|Verteilung]] über der Abszisse. <br />
<br />
Durch Veränderung von <math>\mu</math> verschiebt sich die komplette Kurve ohne Veränderung ihrer Gestalt. <br />
<br />
Durch Vergrößerung bzw. Verkleinerung des [[Parameter]]s <math>\sigma</math> wird die [[Dichtefunktion (eindimensional)|Dichtefunktion]] auseinandergezogen bzw. zusammengedrückt, gleichzeitig sinkt bzw. steigt das Maximum. <br />
<br />
Je größer <math>\sigma</math> ist, desto flacher und breiter ist die Kurve, je kleiner <math>\sigma</math> desto schmaler und höher ist die Kurve.<br />
<br />
Die nachfolgenden Abbildungen zeigen gesondert die [[Dichtefunktion (eindimensional)|Dichtefunktion]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(2;1)</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Dichtefunktion_N2_1_R00480004800000000000000_plot.html" align="left"/><br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Verteilungsfunktion_N2_1_R00480004800000000000000_plot.html" align="right"/><br />
<br />
<br />
<br />
===Weitere Eigenschaften der Normalverteilung===<br />
<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat ihr globales Maximum ([[Modus]]) im Punkte <math>x = \mu</math><br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist symmetrisch im Punkt <math>x = \mu</math>. Aus der Symmetrie folgt, dass auch der [[Median]] <math>x_{0.5}=\mu </math> ist.<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat an den Stellen <math>x_{1}=\mu -\sigma</math> und <math>x_{2}=\mu +\sigma </math> je einen Wendepunkt.<br />
* Für <math>x\rightarrow -\infty </math> und <math>x\rightarrow \infty </math> nähert sich die [[Dichtefunktion (eindimensional)|Dichtefunktion]] asymptotisch dem Wert 0.<br />
<br />
Die folgende Grafik zeigt diese Eigenschaften für die <math>N(2;1)</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Dichte_R00480004800000000000000_plot.html"/><br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Verteilung_R00480004800000000000000_plot.html"/></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Normalverteilung&diff=1226Normalverteilung2018-05-28T12:58:34Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Normalverteilung oder Gauß-Verteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math> heißt ''normalverteilt'' mit den Parametern <math>\mu</math> und <math>\sigma</math>, abgekürzt <math>X\sim N(\mu,\sigma)\,</math>, wenn ihre [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben ist durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist gegeben durch:<br />
<br />
<math>F_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}\int\limits_{-\infty }^{x}e^{-(t-\mu)^{2}/2\sigma ^{2}}\;dt</math><br />
<br />
Aus der [[Dichtefunktion (eindimensional)|Dichtefunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist erkennbar, dass die ''Normalverteilung'' von den beiden [[Parameter]]n <math>\mu</math> und <math>\sigma</math> abhängt.<br />
<br />
Diese [[Parameter]] sind der [[Erwartungswert]] und die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Zufallsvariable]]n <math>X</math>.<br />
<br />
Die Normalverteilung wird auch als ''Gauß-Verteilung'' bezeichnet.<br />
<br />
Sie ist die wichtigste [[Stetiges Merkmal|stetige]] [[Verteilung (stochastisch)|Verteilung]], weil<br />
<br />
* bei vielen praktischen Anwendungen zumindest näherungsweise die Verteilungsgestalt einer Normalverteilung vorliegt;<br />
* sie eine approximative Bestimmung vieler anderer [[Verteilung (stochastisch)|Verteilungen]] ermöglicht;<br />
* sie bei einer Vielzahl von statistischen Maßzahlen als Verteilungsmodell unterstellt werden kann, wenn der [[Datensatz]] groß genug ist.<br />
<br />
Eine normalverteilte [[Zufallsvariable]] kann theoretisch alle Werte zwischen <math>-\infty</math> und <math>+\infty</math> annehmen, d.h. ihr Wertebereich ist nach oben und unten unbegrenzt.<br />
<br />
===Gauß'sche Glockenkurve===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] einer [[Gauß-Verteilung]] wird auch als ''Gauß'sche Glockenkurve'' bezeichnet. Sie ist gegeben durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Lineare Transformation===<br />
<br />
Sei <math>X</math> normalverteilt, <math>X\sim N\,(\mu ,\sigma )</math> und <math>Y</math> die durch eine Linearkombination erhaltene [[Zufallsvariable]] <math>Y = a + b\cdot X</math> mit <math>b\neq 0</math>, dann ist <math>Y</math> wieder normalverteilt mit <math>Y \sim N(a + b \mu,\;|b| \cdot \sigma)</math><br />
<br />
Durch die Linearkombination ändert sich der Verteilungstyp nicht. <br />
<br />
Die Werte der [[Parameter]] der transformierten [[Variable]]n ergeben sich dabei aus den Rechenregeln für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]]:<br />
<br />
<math>E[a + b\cdot X] = a + b \cdot E[X]</math><br />
<br />
<math>Var(a + b\cdot X) = b^2\cdot Var(X) = b^2\cdot {\sigma}^2</math>.<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Gegeben seien <math>n</math> [[Zufallsvariable]]n <math>X_1,X_2 \ldots,X_n</math> die identisch normalverteilt sind: <math>X_i \sim N(\mu_i,\sigma_i),\; E[X_i] = \mu_i,\; Var(X_i) = \sigma_i^2</math>.<br />
<br />
Die Summe [[Unabhängigkeit (stochastisch)|unabhängiger]], normalverteilter [[Zufallsvariable]]n <math>X_1, \ldots, X_n</math>, d.h.<br />
<br />
<math>Y = a_1X_1 + a_2X_2 + \ldots + a_nX_n</math> mit <math>a_i \neq 0</math> für mindestens ein <math>i</math>, ist wieder normalverteilt:<br />
<br />
<math>Y = \sum\limits_{i=1}^na_iX_i \sim N\left(\sum\limits_{i=1}^na_i\mu_i, \sqrt{\sum\limits_{i=1}^n a_i^2\sigma_i^2}\right)</math><br />
<br />
===Graphische Darstellung der Normalverteilung===<br />
<br />
Die folgende Grafik zeigt 5 [[Dichtefunktion (eindimensional)|Dichtefunktionen]] der Normalverteilung mit verschiedenen [[Parameter]]werten für <math>\mu</math> und <math>\sigma</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Dichte_R00480004800000000000000_plot.html" /><br />
<br />
Der [[Parameter]] <math>\mu</math> beeinflusst die Lage der [[Verteilung (stochastisch)|Verteilung]] über der Abszisse. <br />
<br />
Durch Veränderung von <math>\mu</math> verschiebt sich die komplette Kurve ohne Veränderung ihrer Gestalt. <br />
<br />
Durch Vergrößerung bzw. Verkleinerung des [[Parameter]]s <math>\sigma</math> wird die [[Dichtefunktion (eindimensional)|Dichtefunktion]] auseinandergezogen bzw. zusammengedrückt, gleichzeitig sinkt bzw. steigt das Maximum. <br />
<br />
Je größer <math>\sigma</math> ist, desto flacher und breiter ist die Kurve, je kleiner <math>\sigma</math> desto schmaler und höher ist die Kurve.<br />
<br />
Die nachfolgenden Abbildungen zeigen gesondert die [[Dichtefunktion (eindimensional)|Dichtefunktion]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(2;1)</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Dichtefunktion_N2_1_R00480004800000000000000_plot.html"/><br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Verteilungsfunktion_N2_1_R00480004800000000000000_plot.html"/><br />
<br />
===Weitere Eigenschaften der Normalverteilung===<br />
<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat ihr globales Maximum ([[Modus]]) im Punkte <math>x = \mu</math><br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist symmetrisch im Punkt <math>x = \mu</math>. Aus der Symmetrie folgt, dass auch der [[Median]] <math>x_{0.5}=\mu </math> ist.<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat an den Stellen <math>x_{1}=\mu -\sigma</math> und <math>x_{2}=\mu +\sigma </math> je einen Wendepunkt.<br />
* Für <math>x\rightarrow -\infty </math> und <math>x\rightarrow \infty </math> nähert sich die [[Dichtefunktion (eindimensional)|Dichtefunktion]] asymptotisch dem Wert 0.<br />
<br />
Die folgende Grafik zeigt diese Eigenschaften für die <math>N(2;1)</math>.<br />
<br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Dichte_R00480004800000000000000_plot.html"/><br />
<iframe k="wiwi" p="examples/stat_Normalverteilung_Eigenschaften_Verteilung_R00480004800000000000000_plot.html"/></div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Normalverteilung&diff=396Normalverteilung2018-05-23T10:34:18Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Normalverteilung oder Gauß-Verteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math> heißt ''normalverteilt'' mit den Parametern <math>\mu</math> und <math>\sigma</math>, abgekürzt <math>X\sim N(\mu,\sigma)\,</math>, wenn ihre [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben ist durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist gegeben durch:<br />
<br />
<math>F_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}\int\limits_{-\infty }^{x}e^{-(t-\mu)^{2}/2\sigma ^{2}}\;dt</math><br />
<br />
Aus der [[Dichtefunktion (eindimensional)|Dichtefunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist erkennbar, dass die ''Normalverteilung'' von den beiden [[Parameter]]n <math>\mu</math> und <math>\sigma</math> abhängt.<br />
<br />
Diese [[Parameter]] sind der [[Erwartungswert]] und die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Zufallsvariable]]n <math>X</math>.<br />
<br />
Die Normalverteilung wird auch als ''Gauß-Verteilung'' bezeichnet.<br />
<br />
Sie ist die wichtigste [[Stetiges Merkmal|stetige]] [[Verteilung (stochastisch)|Verteilung]], weil<br />
<br />
* bei vielen praktischen Anwendungen zumindest näherungsweise die Verteilungsgestalt einer Normalverteilung vorliegt;<br />
* sie eine approximative Bestimmung vieler anderer [[Verteilung (stochastisch)|Verteilungen]] ermöglicht;<br />
* sie bei einer Vielzahl von statistischen Maßzahlen als Verteilungsmodell unterstellt werden kann, wenn der [[Datensatz]] groß genug ist.<br />
<br />
Eine normalverteilte [[Zufallsvariable]] kann theoretisch alle Werte zwischen <math>-\infty</math> und <math>+\infty</math> annehmen, d.h. ihr Wertebereich ist nach oben und unten unbegrenzt.<br />
<br />
===Gauß'sche Glockenkurve===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] einer [[Gauß-Verteilung]] wird auch als ''Gauß'sche Glockenkurve'' bezeichnet. Sie ist gegeben durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Lineare Transformation===<br />
<br />
Sei <math>X</math> normalverteilt, <math>X\sim N\,(\mu ,\sigma )</math> und <math>Y</math> die durch eine Linearkombination erhaltene [[Zufallsvariable]] <math>Y = a + b\cdot X</math> mit <math>b\neq 0</math>, dann ist <math>Y</math> wieder normalverteilt mit <math>Y \sim N(a + b \mu,\;|b| \cdot \sigma)</math><br />
<br />
Durch die Linearkombination ändert sich der Verteilungstyp nicht. <br />
<br />
Die Werte der [[Parameter]] der transformierten [[Variable]]n ergeben sich dabei aus den Rechenregeln für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]]:<br />
<br />
<math>E[a + b\cdot X] = a + b \cdot E[X]</math><br />
<br />
<math>Var(a + b\cdot X) = b^2\cdot Var(X) = b^2\cdot {\sigma}^2</math>.<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Gegeben seien <math>n</math> [[Zufallsvariable]]n <math>X_1,X_2 \ldots,X_n</math> die identisch normalverteilt sind: <math>X_i \sim N(\mu_i,\sigma_i),\; E[X_i] = \mu_i,\; Var(X_i) = \sigma_i^2</math>.<br />
<br />
Die Summe [[Unabhängigkeit (stochastisch)|unabhängiger]], normalverteilter [[Zufallsvariable]]n <math>X_1, \ldots, X_n</math>, d.h.<br />
<br />
<math>Y = a_1X_1 + a_2X_2 + \ldots + a_nX_n</math> mit <math>a_i \neq 0</math> für mindestens ein <math>i</math>, ist wieder normalverteilt:<br />
<br />
<math>Y = \sum\limits_{i=1}^na_iX_i \sim N\left(\sum\limits_{i=1}^na_i\mu_i, \sqrt{\sum\limits_{i=1}^n a_i^2\sigma_i^2}\right)</math><br />
<br />
===Graphische Darstellung der Normalverteilung===<br />
<br />
Die folgende Grafik zeigt 5 [[Dichtefunktion (eindimensional)|Dichtefunktionen]] der Normalverteilung mit verschiedenen [[Parameter]]werten für <math>\mu</math> und <math>\sigma</math>.<br />
<br />
<iframe k="wiwi" p="examples?P=stat/Normalverteilung/Normalverteilung_Dichte.R&V=P" /><br />
<br />
Der [[Parameter]] <math>\mu</math> beeinflusst die Lage der [[Verteilung (stochastisch)|Verteilung]] über der Abszisse. <br />
<br />
Durch Veränderung von <math>\mu</math> verschiebt sich die komplette Kurve ohne Veränderung ihrer Gestalt. <br />
<br />
Durch Vergrößerung bzw. Verkleinerung des [[Parameter]]s <math>\sigma</math> wird die [[Dichtefunktion (eindimensional)|Dichtefunktion]] auseinandergezogen bzw. zusammengedrückt, gleichzeitig sinkt bzw. steigt das Maximum. <br />
<br />
Je größer <math>\sigma</math> ist, desto flacher und breiter ist die Kurve, je kleiner <math>\sigma</math> desto schmaler und höher ist die Kurve.<br />
<br />
Die nachfolgenden Abbildungen zeigen gesondert die [[Dichtefunktion (eindimensional)|Dichtefunktion]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(2;1)</math>.<br />
<br />
{| <br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, dnorm(x, mean=2, sd=1), ylab="f(x)", col="darkgreen", main="Dichtefunktion der N(2; 1)", ylim=c(0.00,0.4), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
<br />
</R><br />
<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, pnorm(x, mean=2, sd=1), ylab="F(x)", col="darkgreen", main="Verteilungsfunktion der N(2; 1)", ylim=c(0.00,1.0), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
<br />
</R><br />
|}<br />
<br />
===Weitere Eigenschaften der Normalverteilung===<br />
<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat ihr globales Maximum ([[Modus]]) im Punkte <math>x = \mu</math><br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist symmetrisch im Punkt <math>x = \mu</math>. Aus der Symmetrie folgt, dass auch der [[Median]] <math>x_{0.5}=\mu </math> ist.<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat an den Stellen <math>x_{1}=\mu -\sigma</math> und <math>x_{2}=\mu +\sigma </math> je einen Wendepunkt.<br />
* Für <math>x\rightarrow -\infty </math> und <math>x\rightarrow \infty </math> nähert sich die [[Dichtefunktion (eindimensional)|Dichtefunktion]] asymptotisch dem Wert 0.<br />
<br />
Die folgende Grafik zeigt diese Eigenschaften für die <math>N(2;1)</math>.<br />
<br />
{|<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, dnorm(x, mean=2, sd=1), xaxt="n", ylab="f(x)", xlab="x", col="black", ylim=c(0.0,0.4), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
abline(v=1, lwd=2)<br />
abline(v=2, lwd=2)<br />
abline(v=3, lwd=2)<br />
axis(at=c(-2:6), side=1, tick=TRUE, labels=FALSE, lwd.ticks=2)<br />
<br />
</R><br />
<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, pnorm(x, mean=2, sd=1), xaxt="n", ylab="F(x)", xlab="x", col="black", ylim=c(0.0,1.0), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
abline(v=1, lwd=2)<br />
abline(v=2, lwd=2)<br />
abline(v=3, lwd=2)<br />
abline(h=0.5, lwd=2, lty=3)<br />
axis(at=c(-2:6), side=1, tick=TRUE, labels=TRUE, lwd.ticks=2)<br />
<br />
</R><br />
|}</div>Jacobdanhttps://wikis.hu-berlin.de/mmstat/w/index.php?title=Normalverteilung&diff=395Normalverteilung2018-05-20T09:21:24Z<p>Jacobdan: </p>
<hr />
<div>{{Verteilungsmodelle}}<br />
<br />
=={{Vorlage:Überschrift}}==<br />
<br />
===Normalverteilung oder Gauß-Verteilung===<br />
<br />
Eine [[stetige Zufallsvariable]] <math>X</math> heißt ''normalverteilt'' mit den Parametern <math>\mu</math> und <math>\sigma</math>, abgekürzt <math>X\sim N(\mu,\sigma)\,</math>, wenn ihre [[Dichtefunktion (eindimensional)|Dichtefunktion]] gegeben ist durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist gegeben durch:<br />
<br />
<math>F_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}\int\limits_{-\infty }^{x}e^{-(t-\mu)^{2}/2\sigma ^{2}}\;dt</math><br />
<br />
Aus der [[Dichtefunktion (eindimensional)|Dichtefunktion]] bzw. der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] ist erkennbar, dass die ''Normalverteilung'' von den beiden [[Parameter]]n <math>\mu</math> und <math>\sigma</math> abhängt.<br />
<br />
Diese [[Parameter]] sind der [[Erwartungswert]] und die [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Zufallsvariable]]n <math>X</math>.<br />
<br />
Die Normalverteilung wird auch als ''Gauß-Verteilung'' bezeichnet.<br />
<br />
Sie ist die wichtigste [[Stetiges Merkmal|stetige]] [[Verteilung (stochastisch)|Verteilung]], weil<br />
<br />
* bei vielen praktischen Anwendungen zumindest näherungsweise die Verteilungsgestalt einer Normalverteilung vorliegt;<br />
* sie eine approximative Bestimmung vieler anderer [[Verteilung (stochastisch)|Verteilungen]] ermöglicht;<br />
* sie bei einer Vielzahl von statistischen Maßzahlen als Verteilungsmodell unterstellt werden kann, wenn der [[Datensatz]] groß genug ist.<br />
<br />
Eine normalverteilte [[Zufallsvariable]] kann theoretisch alle Werte zwischen <math>-\infty</math> und <math>+\infty</math> annehmen, d.h. ihr Wertebereich ist nach oben und unten unbegrenzt.<br />
<br />
===Gauß'sche Glockenkurve===<br />
<br />
Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] einer [[Gauß-Verteilung]] wird auch als ''Gauß'sche Glockenkurve'' bezeichnet. Sie ist gegeben durch:<br />
<br />
<math>f_{NV}(x;\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi }}e^{-(x-\mu )^{2}/2\sigma ^{2}}\quad \mbox{, wenn } -\infty<x<+\infty ,\ \sigma >0</math><br />
<br />
=={{Vorlage:Überschrift_2}}==<br />
<br />
===Lineare Transformation===<br />
<br />
Sei <math>X</math> normalverteilt, <math>X\sim N\,(\mu ,\sigma )</math> und <math>Y</math> die durch eine Linearkombination erhaltene [[Zufallsvariable]] <math>Y = a + b\cdot X</math> mit <math>b\neq 0</math>, dann ist <math>Y</math> wieder normalverteilt mit <math>Y \sim N(a + b \mu,\;|b| \cdot \sigma)</math><br />
<br />
Durch die Linearkombination ändert sich der Verteilungstyp nicht. <br />
<br />
Die Werte der [[Parameter]] der transformierten [[Variable]]n ergeben sich dabei aus den Rechenregeln für den [[Erwartungswert]] und die [[Varianz (stochastisch)|Varianz]]:<br />
<br />
<math>E[a + b\cdot X] = a + b \cdot E[X]</math><br />
<br />
<math>Var(a + b\cdot X) = b^2\cdot Var(X) = b^2\cdot {\sigma}^2</math>.<br />
<br />
===Reproduktivitätseigenschaft===<br />
<br />
Gegeben seien <math>n</math> [[Zufallsvariable]]n <math>X_1,X_2 \ldots,X_n</math> die identisch normalverteilt sind: <math>X_i \sim N(\mu_i,\sigma_i),\; E[X_i] = \mu_i,\; Var(X_i) = \sigma_i^2</math>.<br />
<br />
Die Summe [[Unabhängigkeit (stochastisch)|unabhängiger]], normalverteilter [[Zufallsvariable]]n <math>X_1, \ldots, X_n</math>, d.h.<br />
<br />
<math>Y = a_1X_1 + a_2X_2 + \ldots + a_nX_n</math> mit <math>a_i \neq 0</math> für mindestens ein <math>i</math>, ist wieder normalverteilt:<br />
<br />
<math>Y = \sum\limits_{i=1}^na_iX_i \sim N\left(\sum\limits_{i=1}^na_i\mu_i, \sqrt{\sum\limits_{i=1}^n a_i^2\sigma_i^2}\right)</math><br />
<br />
===Graphische Darstellung der Normalverteilung===<br />
<br />
Die folgende Grafik zeigt 5 [[Dichtefunktion (eindimensional)|Dichtefunktionen]] der Normalverteilung mit verschiedenen [[Parameter]]werten für <math>\mu</math> und <math>\sigma</math>.<br />
<br />
<iframe k="wiwi" p="examples?P=stat/Normalverteilung/Normalverteilung_Dichte.R" /><br />
<br />
Der [[Parameter]] <math>\mu</math> beeinflusst die Lage der [[Verteilung (stochastisch)|Verteilung]] über der Abszisse. <br />
<br />
Durch Veränderung von <math>\mu</math> verschiebt sich die komplette Kurve ohne Veränderung ihrer Gestalt. <br />
<br />
Durch Vergrößerung bzw. Verkleinerung des [[Parameter]]s <math>\sigma</math> wird die [[Dichtefunktion (eindimensional)|Dichtefunktion]] auseinandergezogen bzw. zusammengedrückt, gleichzeitig sinkt bzw. steigt das Maximum. <br />
<br />
Je größer <math>\sigma</math> ist, desto flacher und breiter ist die Kurve, je kleiner <math>\sigma</math> desto schmaler und höher ist die Kurve.<br />
<br />
Die nachfolgenden Abbildungen zeigen gesondert die [[Dichtefunktion (eindimensional)|Dichtefunktion]] und die [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der <math>N(2;1)</math>.<br />
<br />
{| <br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, dnorm(x, mean=2, sd=1), ylab="f(x)", col="darkgreen", main="Dichtefunktion der N(2; 1)", ylim=c(0.00,0.4), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
<br />
</R><br />
<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, pnorm(x, mean=2, sd=1), ylab="F(x)", col="darkgreen", main="Verteilungsfunktion der N(2; 1)", ylim=c(0.00,1.0), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
<br />
</R><br />
|}<br />
<br />
===Weitere Eigenschaften der Normalverteilung===<br />
<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat ihr globales Maximum ([[Modus]]) im Punkte <math>x = \mu</math><br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] ist symmetrisch im Punkt <math>x = \mu</math>. Aus der Symmetrie folgt, dass auch der [[Median]] <math>x_{0.5}=\mu </math> ist.<br />
* Die [[Dichtefunktion (eindimensional)|Dichtefunktion]] hat an den Stellen <math>x_{1}=\mu -\sigma</math> und <math>x_{2}=\mu +\sigma </math> je einen Wendepunkt.<br />
* Für <math>x\rightarrow -\infty </math> und <math>x\rightarrow \infty </math> nähert sich die [[Dichtefunktion (eindimensional)|Dichtefunktion]] asymptotisch dem Wert 0.<br />
<br />
Die folgende Grafik zeigt diese Eigenschaften für die <math>N(2;1)</math>.<br />
<br />
{|<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, dnorm(x, mean=2, sd=1), xaxt="n", ylab="f(x)", xlab="x", col="black", ylim=c(0.0,0.4), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
abline(v=1, lwd=2)<br />
abline(v=2, lwd=2)<br />
abline(v=3, lwd=2)<br />
axis(at=c(-2:6), side=1, tick=TRUE, labels=FALSE, lwd.ticks=2)<br />
<br />
</R><br />
<br />
|<R output="display"><br />
pdf(rpdf,width=7,height=7)<br />
<br />
curve(from=-2, to=6, pnorm(x, mean=2, sd=1), xaxt="n", ylab="F(x)", xlab="x", col="black", ylim=c(0.0,1.0), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")<br />
abline(v=1, lwd=2)<br />
abline(v=2, lwd=2)<br />
abline(v=3, lwd=2)<br />
abline(h=0.5, lwd=2, lty=3)<br />
axis(at=c(-2:6), side=1, tick=TRUE, labels=TRUE, lwd.ticks=2)<br />
<br />
</R><br />
|}</div>Jacobdan