|
|
(2 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) |
Zeile 1: |
Zeile 1: |
| {{Regression}} | | {{Regression}} |
| | {{SubpageToc|Beispiel: Quadratische Regression|Interaktives Beispiel: Kriminalitätsraten}} |
|
| |
|
| =={{Vorlage:Überschrift}}== | | =={{Vorlage:Überschrift}}== |
Zeile 72: |
Zeile 73: |
| Beispiel für eine [[lineares Regressionsmodell]] mit der Arbeitszeit als [[Regressand]] und der Losgröße als [[Regressor]]: | | Beispiel für eine [[lineares Regressionsmodell]] mit der Arbeitszeit als [[Regressand]] und der Losgröße als [[Regressor]]: |
|
| |
|
| {|
| | <iframe k="wiwi" p="examples/stat_LineareRegression_Lineare_Regression_R00480004800000000000000_plot.html" /> |
| |<R output="display">
| |
| | |
| pdf(rpdf, width=7, height=7)
| |
| | |
| x = c(30,20,60,80,40,50,60,30,70,60)
| |
| y = c(73,50,128,170,87,108,135,69,148,132)
| |
| model = lm(y~x)
| |
| plot(x, y, xlab=paste("Losgr", "\u00F6", "\u00DF", "e", sep=""), ylab="Arbeitszeit", pch=8, yaxt="n", main="Lineare Regression")
| |
| axis(2, at=c(50,100,150))
| |
| abline(10, 2, col="green", lwd=2)
| |
| | |
| </R>
| |
| |}
| |
| | |
| ===Lineare und quadratische Funktion===
| |
| | |
| <math>n= 8</math> vergleichbare Städte
| |
| | |
| <math>X\;</math> - Anzahl der Bus-Streckenpläne, die am Beginn des Untersuchungszeitraumes kostenlos an die Einwohner verteilt wurden
| |
| | |
| <math>Y\;</math> - Zuwachs an Fahrgästen während des Untersuchungszeitraumes
| |
| | |
| {| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
| |
| |align="center"|Stadt <math>i</math>
| |
| |align="center"|Fahrgastzuwachs <math>Y\;</math>
| |
| (in 1000)
| |
| |align="center"|Streckenpläne <math>X\;</math>
| |
| (in 1000)
| |
| |-
| |
| |align="center"|1
| |
| |align="center"|0,60
| |
| |align="center"|80
| |
| |-
| |
| |align="center"|2
| |
| |align="center"|6,70
| |
| |align="center"|220
| |
| |-
| |
| |align="center"|3
| |
| |align="center"|5,30
| |
| |align="center"|140
| |
| |-
| |
| |align="center"|4
| |
| |align="center"|4,00
| |
| |align="center"|120
| |
| |-
| |
| |align="center"|5
| |
| |align="center"|6,55
| |
| |align="center"|180
| |
| |-
| |
| |align="center"|6
| |
| |align="center"|2,15
| |
| |align="center"|100
| |
| |-
| |
| |align="center"|7
| |
| |align="center"|6,60
| |
| |align="center"|200
| |
| |-
| |
| |align="center"|8
| |
| |align="center"|5,75
| |
| |align="center"|160
| |
| |}
| |
| | |
| ====Lineare Regressionsfunktion====
| |
| | |
| <math>{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}=-1,82+0,0435\cdot x_{i}</math>
| |
| | |
| <math>{R_{yx}}^{2}=0,875</math>
| |
| | |
| {|
| |
| |<R output="display">
| |
| | |
| pdf(rpdf, width=14, height=7)
| |
| | |
| x = c(80, 220, 140, 120, 180, 100, 200, 160)
| |
| y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)
| |
| | |
| model = lm(y~x)
| |
| | |
| par(mfrow=c(1,2))
| |
| | |
| plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Lineare Regression")
| |
| axis(1, at=c(100,150,200))
| |
| axis(2, at=c(0,2,4,6,8))
| |
| abline(-1.816071, 0.043482, col="green", lwd=2)
| |
| | |
| plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", pch=8)
| |
| axis(1, at=c(100,150,200))
| |
| axis(2, at=seq(-1,1,by=0.5))
| |
| abline(0, 0, col="green", lwd=2)
| |
| | |
| </R>
| |
| |}
| |
| | |
| Die [[Residuum|Residuen]] streuen nicht zufällig um den Wert Null, sondern zeigen eine deutliche nichtlineare Tendenz. Das führt zu der Überlegung, statt einer linearen eine nichtlineare [[Regressionsfunktion]] zu verwenden.
| |
| | |
| ====Quadratische Regressionsfunktion====
| |
| | |
| <math>{\widehat{y_{i}}}={\widehat{b_{0}}}+{\widehat{b_{1}}}\cdot x_{i}+{\widehat{b_{2}}\cdot x_{i}}^{2}=-10,03+0,1642\cdot x_{i}-0,0004\cdot {x_{i}}^{2}</math>
| |
| | |
| <math>{R_{yx}}^{2}=0,995</math>
| |
| | |
| {|
| |
| |<R output="display">
| |
| | |
| pdf(rpdf, width=14, height=7)
| |
| | |
| x = c(80, 220, 140, 120, 180, 100, 200, 160)
| |
| w = x^2
| |
| y = c(0.6, 6.7, 5.3, 4.0, 6.55, 2.15, 6.6, 5.75)
| |
| | |
| model = lm(y~x+w)
| |
| | |
| fun = function(x) { -10.03 + 0.1642*x - 0.0004*x^2 }
| |
| | |
| par(mfrow=c(1,2))
| |
| | |
| plot(x, y, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab=paste("Zuwachs an Fahrg", "\u00E4", "sten (in 1000)", sep=""), pch=8, yaxt="n", xaxt="n", ylim=c(0,8), main="Quadratische Regression")
| |
| axis(1, at=c(100,150,200))
| |
| axis(2, at=c(0,2,4,6,8))
| |
| s = seq(50,250,by=0.01)
| |
| points(s, fun(s), type="l", col="green", lwd=2)
| |
| | |
| plot(x, model$resid, xlab=paste("Streckenpl", "\u00E4", "ne (in 1000)", sep=""), ylab="Residuen", xaxt="n", yaxt="n", main="Plot der Residuen", ylim=c(-1,1), pch=8)
| |
| axis(1, at=c(100,150,200))
| |
| axis(2, at=seq(-1,1,by=0.5))
| |
| abline(0, 0, col="green", lwd=2)
| |
| | |
| </R>
| |
| |}
| |
Grundbegriffe
Regressionsanalyse
Das Ziel der Regressionsanalyse besteht in einer Beschreibung der mittleren Tendenz bzw. des durchschnittlichen Verlaufs der Abhängigkeit eines metrisch skalierten Merkmals von ebenfalls metrisch skalierten Merkmalen
.
Es liegt eine einseitig gerichtete Abhängigkeit vor. Diese Abhängigkeit lässt sich in Form einer allgemeinen Regressionsfunktion wie folgt
darstellen:
Das verwendete bedeutet hierbei, dass die Regressionsfunktion den Beobachtungswerten nicht den wahren Beobachtungswert zuordnet, sondern einen auf der Regressionsfunktion liegenden durchschnittlichen Wert .
Regressionsfunktion
Eine Regressionsfunktion ist die Darstellung der mittleren statistischen Abhängigkeit einer endogenen Variablen von einer (oder mehreren) exogenen Variablen mittels einer Funktion auf der Basis von Beobachtungsdaten der Variablen.
Im Weiteren werden die Ausführungen auf den Fall beschränkt, dass das Merkmal nur von einem Merkmal abhängt.
Die Festlegung des Typs der Regressionsfunktion erfolgt problemabhängig durch den Anwender.
Mögliche Funktionen sind beispielsweise:
Lineare Funktion:
|
|
Quadratische Funktion:
|
|
Potenzfunktion:
|
|
Exponentialfunktion:
|
|
Logistische Funktion:
|
|
Regressor, exogene, erklärende oder unabhängige Variable
Die Merkmale werden als Regressor, exogene, erklärende oder unabhängige Variable bezeichnet.
Regressand, endogene, erklärte oder abhängige Variable
Das Merkmal wird als Regressand, endogene, erklärte oder abhängige Variable bezeichnet.
Regresswert
Der Regresswert stellt den Wert des Merkmals dar, wenn die Abhängigkeit von tatsächlich durch eine lineare Funktion repräsentiert werden kann.
Der Beobachtungswert ergibt sich zu:
Restgröße bzw. Residuum
Die Differenz zwischen dem wahren Wert und dem Wert der Regressionsfunktion wird als Restgröße oder Residuum bezeichnet.
Sie enthält diejenigen Einflüsse, die nicht durch die Regressionsfunktion erfasst werden, d.h. diese Abweichung kann nicht durch die Einflüsse der exogenen Variablen erklärt werden.
Beispiele
Regressand und Regressor
Beispiel für eine lineares Regressionsmodell mit der Arbeitszeit als Regressand und der Losgröße als Regressor: