Regressionsanalyse: Unterschied zwischen den Versionen

Version vom 30. Mai 2018, 15:25 Uhr

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen

Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Regressionsanalyse

Das Ziel der Regressionsanalyse besteht in einer Beschreibung der mittleren Tendenz bzw. des durchschnittlichen Verlaufs der Abhängigkeit eines metrisch skalierten Merkmals $Y\;$ von ebenfalls metrisch skalierten Merkmalen $X_{1},X_{2},\ldots$ .

Es liegt eine einseitig gerichtete Abhängigkeit vor. Diese Abhängigkeit lässt sich in Form einer allgemeinen Regressionsfunktion wie folgt darstellen:

${\hat {y}}=f(x_{1},x_{2},\ldots )$

Das verwendete ${\hat {y}}$ bedeutet hierbei, dass die Regressionsfunktion den Beobachtungswerten $x_{1},x_{2},\ldots$ nicht den wahren Beobachtungswert $y$ zuordnet, sondern einen auf der Regressionsfunktion liegenden durchschnittlichen Wert ${\hat {y}}$ .

Regressionsfunktion

Eine Regressionsfunktion ist die Darstellung der mittleren statistischen Abhängigkeit einer endogenen Variablen von einer (oder mehreren) exogenen Variablen mittels einer Funktion auf der Basis von $n$ Beobachtungs daten der Variablen.

Im Weiteren werden die Ausführungen auf den Fall beschränkt, dass das Merkmal $Y\;$ nur von einem Merkmal $X\;$ abhängt.

Die Festlegung des Typs der Regressionsfunktion $f(x)$ erfolgt problemabhängig durch den Anwender.

Mögliche Funktionen sind beispielsweise:

Lineare Funktion:	${\hat {y}}=b_{0}+b_{1}\cdot x$
Quadratische Funktion:	${\hat {y}}=b_{0}+b_{1}\cdot x+b_{2}\cdot x^{2}$
Potenzfunktion:	${\hat {y}}=a\cdot x^{b}$
Exponentialfunktion:	${\hat {y}}=b_{0}\cdot {b_{1}}^{x}$
Logistische Funktion:	${\hat {y}}=l\cdot (1+e^{a+b\cdot x})$

Regressor, exogene, erklärende oder unabhängige Variable

Die Merkmale $X_{1},X_{2},\ldots$ werden als Regressor, exogene, erklärende oder unabhängige Variable bezeichnet.

Regressand, endogene, erklärte oder abhängige Variable

Das Merkmal $Y\;$ wird als Regressand, endogene, erklärte oder abhängige Variable bezeichnet.

Regresswert

Der Regresswert ${\hat {y_{i}}}$ stellt den Wert des Merkmals $Y\;$ dar, wenn die Abhängigkeit $Y\;$ von $X\;$ tatsächlich durch eine lineare Funktion repräsentiert werden kann.

Der Beobachtungswert ergibt sich zu:

$y_{i}={\hat {y_{i}}}+{\hat {u_{i}}}\quad i=1,\ldots ,n$

Restgröße bzw. Residuum

Die Differenz zwischen dem wahren Wert $y_{i}$ und dem Wert der Regressionsfunktion ${\hat {y_{i}}}$ wird als Restgröße oder Residuum ${\hat {u_{i}}}$ bezeichnet.

Sie enthält diejenigen Einflüsse, die nicht durch die Regressionsfunktion erfasst werden, d.h. diese Abweichung kann nicht durch die Einflüsse der exogenen Variablen erklärt werden.

${\hat {u_{i}}}=y_{i}-{\hat {y_{i}}}\quad (i=1,\ldots ,n)$

Beispiele

Regressand und Regressor

Beispiel für eine lineares Regressionsmodell mit der Arbeitszeit als Regressand und der Losgröße als Regressor:

Lineare und quadratische Funktion

$n=8$ vergleichbare Städte

$X\;$ - Anzahl der Bus-Streckenpläne, die am Beginn des Untersuchungszeitraumes kostenlos an die Einwohner verteilt wurden

$Y\;$ - Zuwachs an Fahrgästen während des Untersuchungszeitraumes

Stadt $i$	Fahrgastzuwachs $Y\;$ (in 1000)	Streckenpläne $X\;$ (in 1000)
1	0,60	80
2	6,70	220
3	5,30	140
4	4,00	120
5	6,55	180
6	2,15	100
7	6,60	200
8	5,75	160

Lineare Regressionsfunktion

${\widehat {y_{i}}}={\widehat {b_{0}}}+{\widehat {b_{1}}}\cdot x_{i}=-1,82+0,0435\cdot x_{i}$

${R_{yx}}^{2}=0,875$

Die Residuen streuen nicht zufällig um den Wert Null, sondern zeigen eine deutliche nichtlineare Tendenz. Das führt zu der Überlegung, statt einer linearen eine nichtlineare Regressionsfunktion zu verwenden.

Quadratische Regressionsfunktion

${\widehat {y_{i}}}={\widehat {b_{0}}}+{\widehat {b_{1}}}\cdot x_{i}+{{\widehat {b_{2}}}\cdot x_{i}}^{2}=-10,03+0,1642\cdot x_{i}-0,0004\cdot {x_{i}}^{2}$

${R_{yx}}^{2}=0,995$

@@ Zeile 72: / Zeile 72: @@
 Beispiel für eine [[lineares Regressionsmodell]] mit der Arbeitszeit als [[Regressand]] und der Losgröße als [[Regressor]]:
-{|
+<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf, width=7, height=7)
-x = c(30,20,60,80,40,50,60,30,70,60)
-y = c(73,50,128,170,87,108,135,69,148,132)
-model = lm(y~x)
-plot(x, y, xlab=paste("Losgr", "\u00F6", "\u00DF", "e", sep=""), ylab="Arbeitszeit", pch=8, yaxt="n", main="Lineare Regression")
-axis(2, at=c(50,100,150))
-abline(10, 2, col="green", lwd=2)
-</R>
-|}
 ===Lineare und quadratische Funktion===
@@ Zeile 141: / Zeile 128: @@
 <math>{R_{yx}}^{2}=0,875</math>
-{|
+<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_residuen_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf, width=14, height=7)
-x = c(80, 220, 140, 120, 180, 100, 200, 160)
-y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)
-model = lm(y~x)
-par(mfrow=c(1,2))
-plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Lineare Regression")
-axis(1, at=c(100,150,200))
-axis(2, at=c(0,2,4,6,8))
-abline(-1.816071, 0.043482, col="green", lwd=2)
-plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", pch=8)
-axis(1, at=c(100,150,200))
-axis(2, at=seq(-1,1,by=0.5))
-abline(0, 0, col="green", lwd=2)
-</R>
-|}
 Die [[Residuum|Residuen]] streuen nicht zufällig um den Wert Null, sondern zeigen eine deutliche nichtlineare Tendenz. Das führt zu der Überlegung, statt einer linearen eine nichtlineare [[Regressionsfunktion]] zu verwenden.
@@ Zeile 174: / Zeile 138: @@
 <math>{R_{yx}}^{2}=0,995</math>
-{|
+<iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_nichtlinear_residuen_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf, width=14, height=7)
-x = c(80, 220, 140, 120, 180, 100, 200, 160)
-w = x^2
-y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)
-model = lm(y~x+w)
-fun = function(x) { -10.03 + 0.1642*x - 0.0004*x^2 }
-par(mfrow=c(1,2))
-plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Quadratische Regression")
-axis(1, at=c(100,150,200))
-axis(2, at=c(0,2,4,6,8))
-s = seq(50,250,by=0.01)
-points(s, fun(s), type="l", col="green", lwd=2)
-plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", ylim=c(-1,1), pch=8)
-axis(1, at=c(100,150,200))
-axis(2, at=seq(-1,1,by=0.5))
-abline(0, 0, col="green", lwd=2)
-</R>
-|}