Regressionsanalyse

Aus MM*Stat

Version vom 14. Mai 2018, 22:50 Uhr von Germainf (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Regression}} =={{Vorlage:Überschrift}}== ===Regressionsanalyse=== Das Ziel der ''Regressionsanalyse'' besteht in einer Beschreibung der mittleren Tendenz…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen
Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Regressionsanalyse

Das Ziel der Regressionsanalyse besteht in einer Beschreibung der mittleren Tendenz bzw. des durchschnittlichen Verlaufs der Abhängigkeit eines metrisch skalierten Merkmals Y\; von ebenfalls metrisch skalierten Merkmalen X_{1},X_{2},\ldots.

Es liegt eine einseitig gerichtete Abhängigkeit vor. Diese Abhängigkeit lässt sich in Form einer allgemeinen Regressionsfunktion wie folgt darstellen:

\hat{y}=f(x_{1},x_{2},\ldots )

Das verwendete \hat{y} bedeutet hierbei, dass die Regressionsfunktion den Beobachtungswerten x_{1},x_{2},\ldots nicht den wahren Beobachtungswert y zuordnet, sondern einen auf der Regressionsfunktion liegenden durchschnittlichen Wert \hat{y}.

Regressionsfunktion

Eine Regressionsfunktion ist die Darstellung der mittleren statistischen Abhängigkeit einer endogenen Variablen von einer (oder mehreren) exogenen Variablen mittels einer Funktion auf der Basis von n Beobachtungsdaten der Variablen.

Im Weiteren werden die Ausführungen auf den Fall beschränkt, dass das Merkmal Y\; nur von einem Merkmal X\; abhängt.

Die Festlegung des Typs der Regressionsfunktion f(x) erfolgt problemabhängig durch den Anwender.

Mögliche Funktionen sind beispielsweise:

Lineare Funktion: \hat{y}=b_{0}+b_{1}\cdot x
Quadratische Funktion: \hat{y}=b_{0}+b_{1}\cdot x+b_{2}\cdot x^{2}
Potenzfunktion: \hat{y}=a\cdot x^{b}
Exponentialfunktion: \hat{y}=b_{0}\cdot {b_{1}}^{x}
Logistische Funktion: \hat{y}= l\cdot (1+e^{a+b\cdot x})

Regressor, exogene, erklärende oder unabhängige Variable

Die Merkmale X_1,X_2,\ldots werden als Regressor, exogene, erklärende oder unabhängige Variable bezeichnet.

Regressand, endogene, erklärte oder abhängige Variable

Das Merkmal Y\; wird als Regressand, endogene, erklärte oder abhängige Variable bezeichnet.

Regresswert

Der Regresswert \hat{y_{i}} stellt den Wert des Merkmals Y\; dar, wenn die Abhängigkeit Y\; von X\; tatsächlich durch eine lineare Funktion repräsentiert werden kann.

Der Beobachtungswert ergibt sich zu:

y_{i}=\hat{y_{i}}+\hat{u_{i}}\quad i=1,\ldots ,n

Restgröße bzw. Residuum

Die Differenz zwischen dem wahren Wert y_{i} und dem Wert der Regressionsfunktion \hat{y_{i}} wird als Restgröße oder Residuum \hat{u_{i}} bezeichnet.

Sie enthält diejenigen Einflüsse, die nicht durch die Regressionsfunktion erfasst werden, d.h. diese Abweichung kann nicht durch die Einflüsse der exogenen Variablen erklärt werden.

\hat{u_{i}}=y_{i}-\hat{y_{i}} \quad (i=1,\ldots ,n)

Beispiele

Regressand und Regressor

Beispiel für eine lineares Regressionsmodell mit der Arbeitszeit als Regressand und der Losgröße als Regressor:

<R output="display">

pdf(rpdf, width=7, height=7)

x = c(30,20,60,80,40,50,60,30,70,60) y = c(73,50,128,170,87,108,135,69,148,132) model = lm(y~x) plot(x, y, xlab=paste("Losgr", "\u00F6", "\u00DF", "e", sep=""), ylab="Arbeitszeit", pch=8, yaxt="n", main="Lineare Regression") axis(2, at=c(50,100,150)) abline(10, 2, col="green", lwd=2)

</R>

Lineare und quadratische Funktion

n= 8 vergleichbare Städte

X\; - Anzahl der Bus-Streckenpläne, die am Beginn des Untersuchungszeitraumes kostenlos an die Einwohner verteilt wurden

Y\; - Zuwachs an Fahrgästen während des Untersuchungszeitraumes

Stadt i Fahrgastzuwachs Y\;

(in 1000)

Streckenpläne X\;

(in 1000)

1 0,60 80
2 6,70 220
3 5,30 140
4 4,00 120
5 6,55 180
6 2,15 100
7 6,60 200
8 5,75 160

Lineare Regressionsfunktion

{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}=-1,82+0,0435\cdot x_{i}

{R_{yx}}^{2}=0,875

<R output="display">

pdf(rpdf, width=14, height=7)

x = c(80, 220, 140, 120, 180, 100, 200, 160) y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)

model = lm(y~x)

par(mfrow=c(1,2))

plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Lineare Regression") axis(1, at=c(100,150,200)) axis(2, at=c(0,2,4,6,8)) abline(-1.816071, 0.043482, col="green", lwd=2)

plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", pch=8) axis(1, at=c(100,150,200)) axis(2, at=seq(-1,1,by=0.5)) abline(0, 0, col="green", lwd=2)

</R>

Die Residuen streuen nicht zufällig um den Wert Null, sondern zeigen eine deutliche nichtlineare Tendenz. Das führt zu der Überlegung, statt einer linearen eine nichtlineare Regressionsfunktion zu verwenden.

Quadratische Regressionsfunktion

{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}+{\widehat{b_{2}}\cdot x_{i}}^{2}=-10,03+0,1642\cdot x_{i}-0,0004\cdot {x_{i}}^{2}

{R_{yx}}^{2}=0,995

<R output="display">

pdf(rpdf, width=14, height=7)

x = c(80, 220, 140, 120, 180, 100, 200, 160) w = x^2 y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)

model = lm(y~x+w)

fun = function(x) { -10.03 + 0.1642*x - 0.0004*x^2 }

par(mfrow=c(1,2))

plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Quadratische Regression") axis(1, at=c(100,150,200)) axis(2, at=c(0,2,4,6,8)) s = seq(50,250,by=0.01) points(s, fun(s), type="l", col="green", lwd=2)

plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", ylim=c(-1,1), pch=8) axis(1, at=c(100,150,200)) axis(2, at=seq(-1,1,by=0.5)) abline(0, 0, col="green", lwd=2)

</R>