Güte der Regression: Unterschied zwischen den Versionen

Aktuelle Version vom 14. September 2018, 10:14 Uhr

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen

Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Güte (Bestimmtheit) der Regression

Ist die Regressionsfunktion ermittelt, interessiert im Folgenden, wie gut die Regressionsfunktion an die Beobachtungswerte angepasst ist, wie gut sie diese repräsentiert.

Das Bestimmtheitsmaß ist eine für diese Untersuchung geeignete Maßzahl. Die Berechnung des Bestimmtheitsmaßes beruht auf der Aufspaltung der Varianz der abhängigen Variablen $Y\;$ .

Gemäß dem Ziel der Regression ist die Güte der Anpassung umso höher, je kleiner die Summe der quadratischen Abweichungen ist.

$\sum {(y_{i}-{\hat {y_{i}}})}^{2}=\sum {\hat {{u_{i}}^{2}}}\rightarrow min.$

Für die Varianz von $Y\;$ gilt:

$s_{y}^{2}={\frac {\sum _{i=1}^{n}{(y_{i}-{\bar {y}})}^{2}}{n}}$

Die Abweichung eines Beobachtungswertes $y_{i}$ vom Mittelwert ${\bar {y}}$ lässt sich zerlegen in die Abweichung des Beobachtungswertes vom Regresswert und die Abweichung des Regresswertes vom Mittelwert.

$y_{i}-{\bar {y}}=[(y_{i}-{{\hat {y_{i}}})}+({\hat {y_{i}}}-{\bar {y}})],\quad i=1,\cdots ,n$

Die Grafik veranschaulicht diese Zerlegung.

Analog lässt sich auch die Summe der quadratischen Abweichungen zerlegen:

$\sum _{i=1}^{n}{(y_{i}-{\bar {y}})}^{2}=\sum _{i=1}^{n}[{(y_{i}-{\hat {y_{i}}})}+({\hat {y_{i}}}-{\bar {y}})]^{2}$

$\sum _{i=1}^{n}{(y_{i}-{\bar {y}})}^{2}=\sum _{i=1}^{n}{(y_{i}-{\hat {y_{i}}})}^{2}+\sum _{i=1}^{n}{({\hat {y_{i}}}-{\bar {y}})}^{2}$

Werden beide Seiten der Gleichung durch $n$ dividiert, ergibt sich:

${\frac {\sum _{i}^{n}{(y_{i}-{\bar {y}})}^{2}}{n}}={\frac {\sum _{i=1}^{n}{(y_{i}-{\hat {y_{i}}})}^{2}}{n}}+{\frac {\sum _{i=1}^{n}{({\hat {y_{i}}}-{\bar {y}})}^{2}}{n}}$

${\frac {\sum _{i}^{n}{(y_{i}-{\bar {y}})}^{2}}{n}}={\frac {\sum _{i=1}^{n}{\hat {u_{i}}}^{2}}{n}}\cdot {\frac {\sum _{i=1}^{n}{({\hat {y_{i}}}-{\bar {y}})}^{2}}{n}}$

$S_{y}^{2}=S_{\hat {u}}^{2}+S_{\hat {y}}^{2}$

Die Gesamtvarianz von $Y\;$ ist gleich der Summe aus der Varianz der Residuen (nicht erklärter Teil der Varianz von $Y\;$ ) und dem durch die Regressionsfunktion erklärten Teil der Varianz von $Y\;$ .

Es folgt:

Je größer die durch das Modell erklärte Varianz ${{\hat {S_{\hat {y}}}}^{2}}$ ist, desto besser ist die Güte der Regressionsfunktion.

Je größer dagegen die Varianz der Residuen ${\hat {S_{\hat {u}}^{2}}}$ ist, desto größer ist der Einfluss anderer, nicht durch die Regressionsfunktion erklärter Einflüsse.

Bestimmtheitsmaß

Das Bestimmtheitsmaß ist definiert als Anteil der durch die Regressionsfunktion erklärten Varianz von $Y$ an der Gesamtvarianz von $Y$ :

$R_{yx}^{2}={\frac {\sum _{i=1}^{n}{\left({\hat {y_{i}}}-{\bar {y}}\right)}^{2}}{\sum _{i=1}^{n}{\left(y_{i}-{\bar {y}}\right)}^{2}}}={\frac {S_{\hat {y}}^{2}}{S_{y}^{2}}}$

Alternative Möglichkeiten zur Berechnung des Bestimmtheitsmaßes sind:

$R_{yx}^{2}={\frac {{\left[\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\cdot \left(x_{i}-{\bar {x}}\right)\right]}^{2}}{\sum _{i=1}^{n}{(y_{i}-{\bar {y}})}^{2}\cdot \sum _{i=1}^{n}{(x_{i}-{\bar {x}})}^{2}}}={\frac {S_{xy}^{2}}{S_{y}^{2}\cdot S_{x}^{2}}}$

$R_{xy}^{2}={\frac {{(n\cdot \sum _{i=1}^{n}x_{i}\cdot y_{i}-\sum _{i=1}^{n}x_{i}\cdot \sum _{i=1}^{n}y_{i})}^{2}}{\left[n\cdot \sum _{i=1}^{n}{x_{i}}^{2}-{\left(\sum _{i=1}^{n}x_{i}\right)}^{2}\right]\left[n\cdot \sum _{i=1}^{n}{y_{i}}^{2}-{\left(\sum _{i=1}^{n}y_{i}\right)}^{2}\right]}}$

Zusatzinformationen

Wertebereich des Bestimmtheitsmaßes: $0\leq R_{yx}^{2}\leq 1$

Je größer der Wert des Bestimmtheitsmaßes, desto besser ist die Anpassung der Regressionsfunktion an die Beobachtungswerte.

Liegen alle Beobachtungswerte auf der Regressionsgeraden, nimmt das Bestimmtheitsmaß den Wert 1 an. Die Gesamtvarianz von

Y\;

wird durch die Abhängigkeit von

X\;

erklärt. Es liegt eine vollständige funktionale Abhängigkeit vor.

Bei einem Bestimmtheitsmaß von 0 ist die Gesamtvarianz von

Y\;

identisch mit der nicht erklärten Varianz (Varianz der Residuen). Das Merkmal

X\;

hat keinen Einfluss auf das Merkmal

Y\;

.

$R_{xy}^{2}=R_{yx}^{2}$

Für eine lineare Regressionsfunktion entspricht das Bestimmtheitsmaß dem Quadrat des Korrelationskoeffizienten: $R_{yx}^{2}=r_{yx}^{2}$ .

Beispiele

Autotypen

Von 74 verschiedenen Autotypen wurden unter anderem folgende Merkmale erhoben:

$X_{1}\;$	-	price
$X_{2}\;$	-	mpg (miles per gallon)
$X_{3}\;$	-	headroom (in inches)
$X_{4}\;$	-	rear seat clearance (distance from front seat back to the rear seat, in inches)
$X_{5}\;$	-	trunk space (in cubic feet)
$X_{6}\;$	-	weight (in pound)
$X_{7}\;$	-	length (in inches)
$X_{8}\;$	-	turning diameter (clearance required to make a U-turn, in feet)
$X_{9}\;$	-	displacement (in cubic inches)

Die Abhängigkeit des Wendekreises $(X_{8})\;$ von der Länge $(X_{7})\;$ des Fahrzeugs lässt sich grafisch in Form eines Scatterplots veranschaulichen.

Jedes Fahrzeug wird in dem Scatterplot durch einen Punkt ( $x_{7},\;x_{8}$ ) dargestellt. Zusätzlich ist in dem Plot die Regressionsgerade (schwarz) eingezeichnet.

Die Regressionsanalyse liefert folgende Ergebnisse:

Die Regressionskonstante beträgt 7,1739. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; $b_{0}$ ist vor allem ein Ausgleichsparameter.

Mit jedem Längenzuwachs um eine Einheit (in diesem Fall ein inch) erhöht sich der Wendekreis um $b_{1}=0,1735$ feet.

Der Korrelationskoeffizient beträgt 0,90 - ein starker Zusammenhang zwischen Wendekreis und Fahrzeuglänge wird impliziert.

Zur Einschätzung der Güte der Anpassung der Regressionsfunktion an die Daten wird das Bestimmtheitsmaß ( $R^{2}$ ) verwendet.

Seine Berechnung beruht auf der Aufspaltung der Varianz der abhängigen Variablen (Wendekreis). Für die Berechnung des Bestimmtheitsmaßes wird die Gesamtvarianz (SS-Total), die nicht erklärte Varianz (SS-Residual) sowie die erklärte Varianz (SS-Regression) ermittelt und in folgende Formel eingesetzt:

R^{2}={\frac {\mbox{SS-Regression}}{\mbox{SS-Total}}}={\frac {\sum {({\widehat {y_{i}}}-{\bar {y}})}^{2}}{\sum {(y_{i}-{\bar {y}})}^{2}}}

Es ergibt sich ein Bestimmtheitsmaß von 0,81. Die Anpassung der linearen Regressionsfunktion an die Beobachtungswerte ist im Ergebnis recht gut.

Im Datenpunkt

x_{53}

beträgt die Fahrzeuglänge 192 inches, der dazugehörige beobachtete Wendekreis 38 feet. Die ermittelte Regressionsfunktion prognostiziert im Mittel für eine Fahrzeuglänge diesen Ausmaßes einen Wendekreis von 40,49 feet.

Kriminalitätsraten

In den U.S.A. wurden 1985 neben anderen Variablen verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:

$X_{1}\;$	-	land area
$X_{2}\;$	-	population
$X_{3}\;$	-	murder
$X_{4}\;$	-	rape
$X_{5}\;$	-	robbery
$X_{6}\;$	-	assault
$X_{7}\;$	-	burglary
$X_{9}\;$	-	auto-theft
$X_{10}\;$	-	US states region number
$X_{11}\;$	-	US states division number

Die Abhängigkeit der Überfallrate $(X_{5})\;$ von der Größe der Bevölkerung $(X_{2})\;$ lässt sich grafisch in Form eines Scatterplots veranschaulichen.

Jeder Bundesstaat wird in dem Scatterplot durch einen Punkt $(x_{2},\;x_{5})$ dargestellt. Zusätzlich ist in dem Plot die Regressionsgerade (schwarz) eingezeichnet.

Die Regressionsanalyse liefert folgende Ergebnisse:

Die Regressionskonstante beträgt 48,1134. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; $b_{0}$ ist vor allem ein Ausgleichsparameter.

Mit jedem Anstieg der Bevölkerung um eine Einheit (in diesem Fall 1.000 Personen) steigt die Überfallrate um $b_{1}=0,0112$ .

Der Korrelationskoeffizient beträgt 0,62 - ein Zusammenhang zwischen Überfallrate und Bevölkerungsgröße wird impliziert.

Zur Einschätzung der Güte der Anpassung der Regressionsfunktion an die Daten wird das Bestimmtheitsmaß $(R^{2})$ verwendet.

Seine Berechnung beruht auf der Aufspaltung der Varianz der abhängigen Variablen (Überfallrate).

Für die Berechnung des Bestimmtheitsmaßes wird die Gesamtvarianz (SS-Total), die nicht erklärte Varianz (SS-Residual) sowie die erklärte Varianz (SS-Regression) ermittelt und in folgende Formel eingesetzt:

R^{2}={\frac {\mbox{SS-Regression}}{\mbox{SS-Total}}}={\frac {\sum {({\widehat {y_{i}}}-{\bar {y}})}^{2}}{\sum {(y_{i}-{\bar {y}})}^{2}}}=1-{\frac {\mbox{SS-Residual}}{\mbox{SS-Total}}}

Es ergibt sich ein Bestimmtheitsmaß von 0,39. Die Anpassung der linearen Regressionsfunktion an die Beobachtungswerte ist im Ergebnis relativ gering.

Im Datenpunkt $x_{37}$ beträgt die Größe der Bevölkerung 16370 (Tsd.), die dazugehörige beobachtete Überfallrate 134,1. Die ermittelte Regressionsfunktion prognostiziert im Mittel für eine Bevölkerung dieser Größe eine Überfallrate von 231,66.

@@ Zeile 24: / Zeile 24: @@
 Die Grafik veranschaulicht diese Zerlegung.
-{|
+<iframe k="wiwi" p="examples/stat_GueteRegression_Zerlegung_1_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf, width=7, height=7)
-par(font=2)
-par(mar=c(2,1,2,1)+0.1)
-c=1.4
-plot(2.5, 3, pch=4, col="red", lwd=2, xaxt="n", yaxt="n", xlim=c(0,6), ylim=c(0,4.5), xlab="", ylab="", axes=F, cex=2)
-arrows(0, 0, 0, 4.7, code = 2, xpd = TRUE, angle=20, length=0.15)
-arrows(0, 0, 6.2, 0, code = 2, xpd = TRUE, angle=20, length=0.15)
-lines(c(0,6), c(1, 3.4), lwd=3, col="green")
-mtext("X", side=1, line=0, at=6.3, cex=c)
-mtext("Y", side=2, line=0, at=4.8, las=2, cex=c)
-arrows(2.5, 2, 2.5, 3, code=3, angle=20, length=0.1)
-arrows(2.5, 1.6, 2.5, 2, code=3, angle=20, length=0.1)
-arrows(3.55, 1.6, 3.55, 3, code=3, angle=20, length=0.1)
-lines(c(0, 4), c(3, 3))
-lines(c(0, 2.5), c(2, 2))
-lines(c(0, 5), c(1.6, 1.6))
-mtext(expression(bold(y["i"])), side=2, line=0, at=3, las=2, cex=c)
-mtext(expression(bold(hat(y)["i"])), side=2, line=0, at=2, las=2, cex=c)
-mtext(expression(bold(bar(y))), side=2, line=0, at=1.6, las=2, cex=c)
-mtext(expression(bold(X["i"])), side=1, line=0, at=2.5, cex=c)
-points(c(2.5,0,0,0), c(0,1.6,2,3), pch=15, cex=0.8)
-text(5.5, 3.7, expression(bold(hat(y) * "=" * b["0"] * "+" * b["1"]*x)), cex=c)
-text(2, 2.5, expression(bold(y["i"] * "-" * hat(y)[i] * "=" * hat(u)["i"])), cex=c)
-text(3.9, 2.1, expression(bold(y["i"] * "-" * bar(y))), cex=c)
-text(2.8, 1.8, expression(bold(hat(y)["i"] * "-" * bar(y))), cex=c)
-</R>
-|}
 Analog lässt sich auch die Summe der quadratischen Abweichungen zerlegen:
@@ Zeile 160: / Zeile 124: @@
 Jedes Fahrzeug wird in dem [[Scatterplot]] durch einen Punkt (<math>x_7,\; x_8</math>) dargestellt. Zusätzlich ist in dem Plot die [[Regressionsgerade]] (schwarz) eingezeichnet.
-{|
+<iframe k="wiwi" p="examples/stat_GueteRegression_Scatterplot_Fahrzeuge_R00480004801536916343475_plot.html" />
-|<R output="display">
-pdf(rpdf, width=14, height=7)
-	par(mar=c(5, 4, 4, 2) + 0.1)
-	par(mfrow=c(1,2))
-	x = c(186, 173, 168, 189, 174, 177, 196, 222, 218, 170, 200, 207, 200, 221, 204, 204, 163, 212, 193, 200, 179, 197, 170, 165, 170, 184, 163, 206, 216, 220, 161, 147, 179, 172, 149, 233, 230, 201, 154, 169, 221, 217, 212, 198, 195, 220, 198, 198, 218, 200, 180, 206, 192, 170, 157, 165, 182, 201, 214, 198, 201, 199, 203, 179, 142, 164, 174, 165, 175, 155, 155, 156, 172, 193)
-	y = c(40, 40, 35, 37, 36, 34, 40, 43, 43, 34, 42, 43, 42, 44, 43, 45, 34, 43, 41, 41, 40, 43, 35, 32, 34, 38, 35, 46, 48, 46, 36, 33, 42, 36, 34, 51, 48, 41, 33, 39, 48, 45, 44, 41, 43, 43, 42, 42, 42, 43, 40, 43, 38, 37, 37, 36, 38, 44, 42, 42, 45, 40, 43, 41, 34, 36, 36, 35, 36, 35, 35, 36, 36, 37)
-	plot(c(0,0), xlim=c(135, 245), ylim=c(31, 52), xlab="length", ylab="turn - diam", font.lab=2, cex.lab=1.4, las=1); #summary(lm(y~x))
-	lines(rep(x[53], 2), c(30, 7.1739+0.1735*x[53]), col="blue", lwd=2)
-	lines(c(130, x[53]), rep(y[53], 2), col="cyan", lwd=2)
-	lines(c(130, x[53]), rep(7.1739+0.1735*x[53], 2), col="blue", lwd=2)
-	points(x[-53], y[-53], pch=16, col="red", cex=1.25)
-	abline(7.1739, 0.1735, lwd=3)
-	points(x[53], y[53], pch=19, cex=2, col="green3")
-	text(202, 38, expression(x[53]), cex=1.75)
-	par(mar=rep(0,4))
-	plot.new()
-	par(cex=1.1)
-	text(0.05, 0.85, "Regressionsfunktion", pos=4)
-	text(0.05, 0.80, "turn-diam = 7.1739 + 0.1735 * length", pos=4)
-	text(0.05, 0.65, "Korrelationskoeffizient r = 0.90", pos=4)
-	text(0.05, 0.50, "SS-Total", pos=4); text(0.33, 0.5, "= 1361.96", pos=4)
-	text(0.05, 0.45, "SS-Residual", pos=4); text(0.33, 0.45, "= 259.06", pos=4)
-	text(0.05, 0.40, "SS-Regression", pos=4); text(0.33, 0.40, "= 1102.90", pos=4)
-	text(0.05, 0.35, "SS-Total", pos=4); text(0.33, 0.35, "= SS-Regression + SS-Residual", pos=4)
-	text(0.05, 0.20, paste("Bestimmtheitsma\u00DF"), pos=4)
-	text(0.40, 0.20, expression(R^2), pos=4)
-	text(0.44, 0.20, paste(" = 0.81"), pos=4)
-</R>
-|}
 Die [[Regressionsanalyse]] liefert folgende Ergebnisse:
@@ Zeile 270: / Zeile 194: @@
 Jeder Bundesstaat wird in dem [[Scatterplot]] durch einen Punkt <math>(x_2,\; x_5)</math> dargestellt. Zusätzlich ist in dem Plot die [[Regressionsgerade]] (schwarz) eingezeichnet.
-{|
+<iframe k="wiwi" p="examples/stat_GueteRegression_Scatterplot_Kriminalitaet_R00480004801536916413192_plot.html" />
-|<R output="display">
-pdf(rpdf, width=14, height=7)
-	par(mar=c(5, 4, 4, 2) + 0.1)
-	par(mfrow=c(1,2))
-	x = c(1164, 998, 535, 5822, 968, 3174, 17783, 7562, 11853, 10744, 5499, 11535, 9088, 4775, 4193, 2884, 5029, 685, 708, 1606, 2450, 622, 4392, 5706, 1936, 6255, 3347, 5976, 11366, 3726, 4762, 4021, 2613, 2359, 4481, 3301, 16370, 826, 1005, 509, 3231, 1450, 3187, 1645, 936, 4409, 2687, 26365, 521, 1054)
-	y = c(12.6, 12.1, 7.6, 99.5, 78.3, 70.4, 443.3, 169.4, 106, 145.9, 107.5, 251.1, 346.6, 33.1, 89.1, 28.6, 200.8, 6.5, 17.1, 57.3, 75.1, 105.5, 338.6, 92, 27.3, 53, 60.1, 95.8, 186.1, 72.8, 82, 50.3, 19, 45.6, 140.8, 54.9, 134.1, 22.3, 20.5, 22, 129.1, 66.1, 120.2, 53.1, 188.4, 93.5, 102.5, 206.9, 71.8, 63.3)
-	plot(x, y, pch="", xlab="population * E^3", ylab="robbery * E^2", font.lab=2, cex.lab=1.4, xaxt="n", yaxt="n"); #summary(lm(y~x))
-	axis(1, at=seq(0,25000,by=5000), label=seq(0,25,by=5))
-	axis(2, at=seq(0,400,by=100), label=seq(0,4,by=1), las=2)
-	lines(rep(x[37], 2), c(-10, 48.1134+0.0112*x[37]), col="blue", lwd=2)
-	lines(c(-700, x[37]), rep(y[37], 2), col="cyan", lwd=2)
-	lines(c(-700, x[37]), rep(48.1134+0.0112*x[37], 2), col="blue", lwd=2)
-	points(x[-37], y[-37], pch=16, col="red", cex=1.25)
-	abline(48.1134, 0.0112, lwd=3)
-	points(x[37], y[37], pch=19, cex=2, col="green3")
-	text(18000, 125, expression(x[37]), cex=1.75)
-	par(mar=rep(0,4))
-	plot.new()
-	par(cex=1.1)
-	text(0.05, 0.85, "Regressionsfunktion", pos=4)
-	text(0.05, 0.80, "robbery = 48.1134 + 0.0112 * popul.", pos=4)
-	text(0.05, 0.65, "Korrelationskoeffizient r = 0.62", pos=4)
-	text(0.05, 0.50, "SS-Total", pos=4); text(0.33, 0.5, "= 407495.40", pos=4)
-	text(0.05, 0.45, "SS-Residual", pos=4); text(0.33, 0.45, "= 249210.77", pos=4)
-	text(0.05, 0.40, "SS-Regression", pos=4); text(0.33, 0.40, "= 158284.63", pos=4)
-	text(0.05, 0.35, "SS-Total", pos=4); text(0.33, 0.35, "= SS-Regression + SS-Residual", pos=4)
-	text(0.05, 0.20, paste("Bestimmtheitsma\u00DF"), pos=4)
-	text(0.40, 0.20, expression(R^2), pos=4)
-	text(0.44, 0.20, paste(" = 0.39"), pos=4)
-</R>
-|}
 Die [[Regressionsanalyse]] liefert folgende Ergebnisse: