Análisis de regresión unidimensional

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Función de regresión lineal unidimensional

Una función de regresión lineal simple tiene la siguiente forma: \hat{y_i} = b_0 +b_1x_i \quad    i=1, \ldots,n En esta ecuación, x_i representa los valores observados de la variable aleatoria X (fija) y b_0 e b_1 son todavía parámetros desconocidos de la regresión. Los valores observados y_i (i=1, \ldots ,n) se pueden obtener sumando el residuo \hat
{u_i} y el valor de la regresión \hat {y_i} (como se puede ver en el gráfico): y_i = \hat{y_i} + \hat{u_i} = b_0+b_1x_i+\hat{u_i} \quad i=1,\ldots,n Es folimg297.gif Parámetros de la regresión Los parametros de una función de regresión lineal simple tienen el siguiente significado:

  • b_0 - término constante (intercepto)

    Describe la intersección de la línea de regresión correspondiente con el eje de ordenadas y tiene el mismo valor que la variable Y en ese punto.

  • b_1 - coeficiente lineal (pendiente)

    Caracteriza la pendiente de la correspondiente linea de regresión. Nos dice en cuantas unidades se modifica la variable alatoria Y cuando se produce un incremento de una unidad en la valor de la variable X.

Estimación de los parámetros de regresión Para estimar los parámetros de la regresión, se deben satisfacer dos condiciones. Primera condición Las desviaciones de los valores de la regresión \hat {y_i} respecto a los valores observados y_i son de media igual a cero, esto es \sum_{i=1}^{n}(y_i-\hat{y_i})=\sum_{i=1}^{n}\hat{u_i}=0 \bar{\hat{u}}=\frac{1}{n}\sum_{i=1}^{n} \hat{u_i}=0 Sin embargo, esta condición se satisface para infinitas lineas de regresión, particularmente, aquellas que pasan por el punto \bar x ,\bar y del conjunto formado por todas las observaciones. Más aún, esta condición por si misma no lleva a una única linea de regresión. Es folimg302.gif Segunda condición Buscamos una linea de regresión tal que la dispersión (varianza) de los correspondientes residuos {s^2}_{\hat{u}}=\frac
{1}{n-2}\sum_{i=1}^{n}{(\hat{u_i}-\bar{\hat{u}})}^2 es mínima en comparación con todas las otras posibles lineas de regresión. La primera condición \bar{\hat{u}}=0 implica {s^2}_{\hat{u}}=\frac{1}{n-2}\sum_{i=1}^{n}{(\hat{u_i}-0)}^2
    =\frac{1}{n-2}\sum_{i=1}^{n}\hat{{u_i}^2}=\frac{1}{n-2}\sum_{i=1}^{n}{(y_i-\hat{y_i})}^2. En la siguiente figura se muestra la segunda condición: Es folimg305.gif Los cuadrados dibujados en el gráfico se corresponden con los residuos al cuadrado y se minimizará el área total de cuadrados. Por lo tanto, el método usado para la minimización se llama método de mínimos cuadrados (MC). El método de mínimos cuadrados minimiza la suma de cuadrados de las desviaciones de los valores de la regresión respecto a los valores observados (suma de cuadrados residuales—SCR) \sum_{i=1}^{n}{(y_i-\hat{y_i})}^2 \rightarrow min.\quad \mid\hat{y_i}=b_0+b_1x_i. La función de minimización tiene dos varibles desconocidas (b_0 y b_1). S(b_0,b_1)=\sum_{i=1}^{n}{(y_i-b_0-b_1x_i)}^2\rightarrow min. \quad \hat{y_i}=b_0 + b_1
x_i Para encontrar un mínimo, se igualan a cero las primeras derivadas parciales. S(b_0,b_1)= \sum_{i=1}^{n}(y_i-b_0-b_1 x_i)^2 \rightarrow min. \frac{\partial S(b_0,b_1)}{\partial b_0}=-2\sum_{i=1}^{n}(y_i-b_0-b_1x_i)\doteq 0 \frac{\partial S(b_0,b_1)}{\partial b_1}=-2\sum_{i=1}^{n}(y_i-b_0-b_1x_i)x_i\doteq 0 Para verificar si la solución es realmente un mínimo, se debe evaluar las segundas derivadas parciales. \frac{{\partial}^2S(b_0,b_1)}{\partial {b_0}^2}=2n > 0 \frac{{\partial}^2S(b_0,b_1)}{\partial {b_1}^2}=2\sum_{i=1}^{n} {x_i}^2 > 0 Como las segundas derivadas son positivas, el óptimo encontrado es un mínimo. Las primeras derivadas (igualadas a cero) se denominan equaciones normales, de las que se pueden calcular los parámetros de la regresión como solución de las ecuaciones. nb_0+ b_1\sum_{i=1}^{n}x_i=\sum_{i=1}{n}y_i b_0 \sum_{i=1}^{n}x_i + b_1 \sum_{i=1}^{n}{x_i}^2=\sum_{i=1}^{n}x_i y_i Las ecuaciones normales se pueden resolver mediante algebra lineal (regla de Cramer): b_0=\frac{\left | \begin{array}{ll}
                    \sum y_i & \sum x_i \\
                    \sum x_i y_i & \sum {x_i}^2 \\
                \end{array} \right |
             }{\left| \begin{array}{ll}
                    n & \sum x_i \\
                    \sum x_i & \sum {x_i}^2 \\
                \end{array} \right |}
        = \frac{\sum y_i \sum {x_i}^2 - \sum x_i \sum x_i y_i}{n \sum {x_i}^2 - \sum x_i \sum x_i} b_1=\frac{\left | \begin{array}{ll}
                        n & \sum y_i \\
                        \sum x_i & \sum x_i y_i \\
                        \end{array} \right |
            }{\left | \begin{array}{ll}
                        n & \sum x_i \\
                        \sum x_i & \sum {x_i}^2 \\
                \end{array} \right |} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}{n\sum{x_i}^2 - \sum x_i \sum x_i} Dividiendo las dos ecuaciones por n, tenemos una fórmula adecuada para el cálculo de los parámetros de la regresión: \begin{align}
      b_0 + b_1 \bar x           &=& \bar y    \\
      b_0\bar x + b_1 \bar {x^2} &=& \overline{xy}\end{align} Para la constante b_0, tenemos: b_0 = \bar y - b_1 \bar x Para el coeficiente lineal b_1, tenemos: \begin{align}
   (\bar y - b_1\bar x)\bar x + b_1 \bar{x^2} &=& \overline{xy} \\
        b_1(\bar{x^2}- {\bar x }^2) &=& \bar {xy} - \overline{x} \bar{y}\\
        b_1 {S_X}^2 &=& S_{XY} \\
        b_1 &=& \frac {S_{XY}}
                  {{S_X}^2}\end{align} Propiedades:

  • La varianza de X debe ser mayor que cero: {S_X}^2 > 0

  • De las ecuaciones normales se puede ver que:  (\bar x, \bar y) \rightarrow para  x_i = \bar x es  \hat{y_i}=\bar y \hat{y_i}= b_0 + b_1 x_i = \bar y + b_1 (x_i - \bar x ) = \bar y

  • Combinando el resultado de análisis de correlación y el de regresión, es posible obtener el coeficiente lineal b_1 de la manera siguiente:

    b_1 = \frac {S_{xy}}
              {{S_x}^2},
      \quad
     r_{xy}=\frac {S_{xy}}
                  {S_x S_y} \Rightarrow b_1=r_{xy} \frac {S_y}
                                {S_x}

  • La regresión (y|x) de y en x no se corresponde con la regresión (x|y) de x en y.

    b_0 = \bar y - b_1 \bar x {b_0}^* = \bar x - {b_1}^* \bar y
    b_1 = \frac { S_{XY}} { {S_X}^2} {b_1}^* = \frac { S_{XY}} { {S_Y}^2}

Ejemplo: X- Producción Y- Tiempo trabajado n=10 ciclos de producción en una empresa

i  x_i  y_i x_iy_i  {x_i}^2  {y_i}^2  \hat {y_i}  \hat{u_i}
1 30 73 2190 900 5329 70 3
2 20 50 1000 400 2500 50 0
3 60 128 7680 3600 16384 130 -2
4 80 170 1360 6400 28900 170 0
5 40 87 3480 1600 7569 90 -3
6 50 108 5400 2500 11664 110 -2
7 60 135 8100 3600 18225 130 5
8 30 69 2070 900 4761 70 -1
9 70 148 10360 4900 21904 150 -2
10 60 132 72920 3600 17424 130 2
\sum 500 1100 61800 28400 134660 1100 0

Cálculo de las variables auxiliares (media,varianza y desviación típica):

 \bar x =  50  s^2_x = 3400/10 = 340 s_x = 18,44
 \bar y =  110  s_x^2=13660/10=13366 s_y =  36,96

La Covarianza y el coeficiente de correlación son: s_{xy}= 6800/10=680  \quad r_{xy}=680/(18.44 \cdot 36.96)= 0.9977 De estos valores, podemos calcular los coeficientes de la regresión b_0 y b_1 : b_1=680/340=2 b_0=110-2 \cdot 50 = 10 Como resultado, se obtiene la linea de regresión: \hat {y_i}=10+2x_i Es folnode4 i 03.gif Es folnode4 i 04.gif

Calidad (de ajuste) de la linea de regresión

una vez que se ha estimado la linea de regresión, es útil saber como de bien se aproxima esta linea de regresión a los valores observados, como de buena es la representación de los datos medianate la linea de regresión. Una medida que puede describir la calidad de la representación es el denominado coeficiente de determinación. Su cálculo se basa en la descomposición de la varianza de la variable dependiente Y. Cuanto menor sea la suma de cuadrados residuales, mejor es la calidad (del ajuste) de la linea de regresión. \sum {(y_i - \hat {y_i})}^2 = \sum \hat{ {u_i}^2} \rightarrow min. Para la varianza de Y: {s_y}^2 = \frac {\sum_{i=1}^{n} {(y_i-\bar y)}^2}
                   {n} Las desviciones de los valores observados y_i respecto a la media aritmética \bar
y se pueden descomponer en dos partes: las desviaciones de los valores observados y_i respecto a los valores de la regresión y las desviaciones de los valores de la regresión respecto a la media. y_i -\bar y = (y_i- \hat {y_i}+ \hat {y_i}-\bar y), \quad i=1,\cdots,n Esta descomposición se puede ver en la siguiente figura: Es folimg340.gif Análogamente, la suma de las desviaciones al cuadrado pueden ser descompuestas en: \sum_{i=1}^{n} {(y_i- \hat y)}^2 = \sum_{i=1}^{n} [ {(y_i - \hat{y_i} )} + \sum_{i=1}^{n}(\hat{y_i}-\bar y )  ]^2 \sum_{i=1}^{n} {(y_i - \bar y)}^2  = \sum_{i=1}^{n} {(y_i - \hat{y_i})}^2 + \sum_{i=1}^{n} {(\hat{y_i}- \bar y)}^2 Dividendo ambas partes de la ecuación por n, se obtiene: \frac {\sum_{i}^{n}{(y_i- \bar y)}^2
}
         {n}
  = \frac {\sum_{i=1}^{n} {(y_i - \hat {y_i})}^2 }
           {n}
  + \frac  { \sum_{i=1}^{n} {(\hat{y_i}-\bar y)}^2                  }
           {n} \frac {\sum_{i}^{n} {(y_i-\bar y)}^2    }
         {n}
   = \frac {\sum_{i=1}^{n} {\hat{u_i}}^2  }
           {n}
   + \frac {\sum_{i=1}^{n} {(\hat {y_i}- \bar{y})}^2}
           {n} {S_y}^2 = {S_{\hat u}}^2 + {S_{\hat y}}^2 La varianza total de Y es igual a la suma de la varianza residual (la parte no explicada de la varianza de Y) y la parte de la varianza de Y que es explicada por la función de regresión. Se cumple:

  • Cuanto mayor es la parte de la varianza \hat{S_{\hat y}^2} explicada por el modelo, mejor es la función de regresión.
  • Por el contrario, cuanto mayor es la varianza residual \hat{{S_u}^2}, peor es la función de regresión.

El coeficiente de determinación El coeficiente de determinación se define como el cociente entre la varianza Y explicada por la función de regresión y la varianza total de Y. R_{yx}^2= \frac { \sum_{i=1}^{n} {(\hat {y_i}- \bar y)}^2}
                       {  \sum_{i=1}^{n} {( y_i - \bar y)}^2}
               = \frac{{S_{\hat y}}^2 }
                      { {S_y}^2} Una forma alternativa de calcular el coeficiente es: R_{yx}^2 = \frac { {[ \sum_{i=1}^{n} (y_i - \bar y)( x_i - \bar x) ]}^2 }
                      {  \sum_{i=1}^{n} {(y_i- \bar y)}^2     \sum_{i=1}^{n} {(x_i-\bar x)}^2 } R_{xy}^2 = \frac{ {(n\sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n}x_i \sum_{i=1}^{n} y_i )}^2 }
                     {  [n\sum_{i=1}^{n}{x_i}^2 - {(\sum_{i=1}^{n} x_i)}^2 ]  [ n\sum_{i=1}^{n} {y_i}^2 - {(\sum_{i=1}^{n} y_i
                     )}^2]  } Características:

  • El coeficiente de determinación tiene el siguiente dominio:  0 \leq R_{yx}^2 \leq 1

    Cuanto mayor es el coeficiente de determinación, mejor explica la función de regresión los valores observados.

    Si todos los valores observados se situan sobre la línea de regresión, el coeficiente de determinación es igual a 1. La varianza total de Y puede ser explicada por la variable X. Y depende completamente de X.
    Si el coeficiente de determinación es cero, la varianza total de Y es idéntica a la virianza no explicada (la varianza residual). La variable aleatoria X no tiene ninguna influencia en Y.

  •  R_{xy}^2 = R_{yx}^2

  • Para una función de regresión lineal, el coeficiente de deternación se corresponde con el coeficiente de correlación al cuadrado: R_{yx}^2=r_{yx}^2.

Ejemplo: Para la dependencia anteriormente descrita entre tiempo de trabajo y producción, el coeficiente de correlación y el de determinación son: {r_{yx}}^2= 0.9977 {R_{yx}}^2=0.9954

Función de regresión no lineal unidimensional

Ejemplo n=8 ciudades cotejables X - El número de planos del transporte público que se reparten de forma gratuita entre los habitantes de una ciudad al principio del periodo analizado. Y - incremento de ciudadanos que utilizan el transporte público durante el tiempo analizado.

Ciudad i Incremento Y planos de transporte público X
(en 1000) (en 1000)
1 0.60 80
2 6.70 220
3 5.30 140
4 4.00 120
5 6.55 180
6 2.15 100
7 6.60 200
8 5.75 160

Regresión lineal \hat {y_i}= b_0 +b_1 x_i =- 1.82 + 0.0435 x_i {R_{yx}}^2=0.875 Es folnode4 i 20.gif los residuos no se distribuyen de forma aleatoria respecto a cero, tienen cierto comportamiento claramente no lineal. Por lo tanto, sería interesante usar un modelo de regresión no lineal en lugar del modelo lineal. Regresión cuadrática – polinomio de segundo orden \hat{y_i}= b_0 + b_1 x_i + b_2 {x_i}^2 =- 10.03 + 0.1642 x_i - 0.0004 {x_i}^2 {R_{yx}}^2=0.995 Es folnode4 i 21.gif Utilizando este ejemplo interactivo, puedes estima una función de regresión unidimensional para dos variables de los siguientes grupos de datos disponibles. El programa genera un diagrama de dispersión al que añade una linea de regresión. Después, se calcula la función de regresión, el coeficiente de correlación y el .

Datos de Criminalidad en USA

Se obtuvieron los siguientes datos de crimenes en USA durante 1995 Es folnode4 b k 1 3.gif

X1 - area territorial
X2 - población
X3 - asesinato
X4 - violación
X5 - robo
X6 - asalto
X7 - allanamiento
X8 - latrocinio
X9 - robo de cochea
X10 - número región del estado de US
X11 - número división del estado de US

Los valores de las variables X10 y X11 son:

X10 número región del estado X11 número división del estado
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Car data

Los siguientes datos fueron obtenidos para 74 modelos de coches:

X1 - precio
X2 - mpg (millas por galón)
X3 - altura (en pulgadas)
X4 - distancia entre asientos (distancia entre asiento delantero y trasero, en pulgadas)
X5 - espacio del maletero (en pies cúbicos)
X6 - peso (en libras)
X7 - longitud (en pulgadas)
X8 - diámetro de giro(distancia requerida para hacer un giro en U, en pies)
X9 - desplazamiento (en pulgadas cúbicas)

Se obtuvieron los siguientes datos de crimenes en USA durante 1995

X1 - area territorial
X2 - población
X3 - asesinato
X4 - violación
X5 - robo
X6 - asalto
X7 - allanamiento
X8 - latrocinio
X9 - robo de cochea
X10 - número región del estado de US
X11 - número división del estado de US

Se puede mostrar la dependencia de robo (X5) respecto a la población (X2) del estado mediante un diagrama de dispersión. Cada estado es representado en el diagrama por un punto (X2,X5). Más aún, se muestra en el gráfico una linea de regresión (pintada en negro). Es folnode4 i lev1 2 1.gif El análisis de regresión proporciona los siguientes resultados:

  • La constante de la regresión (intercepto) es 48.1134. En estes caso, no tiene sentido interpretar este número; b_0 es una especie de parámetro de compensación.

  • El incremento en la población del estado en una unidad (esto es, en 1,000 habitantes) supone un incremento de los robos de b_1 = 0.0112.

  • El coeficiente de correlación es 0.62—esto implica una dependencia entre la población y el número de robos.

  • Para estimar el ajuste de la función de regresión, se usa el coeficiente de determinación. Su cálculo se basa en la descomposición de la varianza de la variable dependiente. Para su cálculo, podemos usar la varianza total (SC-total), la varianza no explicada (residual) (SC-residual), y la varianza explicada de la regresión (SC-explicada). Utilizando la fórmula

    R^2=\frac{SS-Regression}
            {SS-Total}
      =\frac{\sum{(\hat{y_i}-\bar{y})}^2}
            {\sum {(y_i-\bar y)}^2},

    tenemos que el coeficiente de determinación es igual a 0.39. La línea de regresión caracteriza los valores observados no muy bien, la potencia explicativa del modelo es pequeña.

La observación x(37) corresponde a una población de 16,370 mil y a un número de robos de 134.1. La función de regresión estimada para este estado predice u número de robos de 231.66. Aviso: El ejemplo interactivo te permitirá, también, representar (graficamente) la dependencia de otras variables. se recogieron las siguientes medidas para 74 tipos diferentes de coches:

X1 - precio
X2 - mpg (millas por galón)
X3 - altura (en pulgadas)
X4 - distancia entre asientos (distancia entre asiento delantero y trasero, en pulgadas)
X5 - espacio del maletero (en pies cúbicos)
X6 - peso (en libras)
X7 - longitud (en pulgadas)
X8 - diámetro de giro(distancia requerida para hacer un giro en U, en pies)
X9 - desplazamiento (en pulgadas cúbicas)

Mediante un diagrama de dispersión se muestra la dependencia de diámetro de giro (X8) respecto a longitud (X7) del coche. Cada coche se representa en el diagrama mediante un punto (X7,X8). Además, se representa la linea de regresión (dibujada en negro). Es folnode4 i lev1 1 1.gif El análisis de regresión muestra los siguientes resultados:

  • La constante de la regresión (intercepto) es 7.1739. En este caso, no tiene sentido comentar este número; b_0 es un tipo de parámetro de compensación.

  • Un incremento en la longitud de una unidad (esto es, por una pulgada en este caso) implica un incremento en el diámetro de giro de b_1 = 0.1735 pies.

  • El coficiente de correlación es 0.90—esto implica que hay una dependencia fuerte entre la longitud y el diámetro de giro.

  • Para estimar el ajuste de la función de regresión, se usa el coeficiente de determinación. Su cálculo se basa en la descomposición de la variable dependiente. Para el cálculo, están disponibles la varaianza total (SC-Total), la varianza no explicada (residual) (SC-Residual), y la varianza de la regresión (SC-Explicada). Usando la fórmula

    R^2=\frac{SS-Regression}
            {SS-Total}
      =\frac{\sum{(\hat{y_i}-\bar{y})}^2}
            {\sum {(y_i-\bar y)}^2},

    obtenemos que el coeficiente de determinación es 0.81. La línea de regresión caracteriza bastante bien los valores observados.

La observación x(53) corresponde con una longitud de coche de 192 pulgadas y un diámetro de giro de 38 pies. La función de regresión para un coche con esta longitud paredice un diámetro de giro de 40.49 pies. Aviso: El ejemplo interactivo te permitirá representar (gráficamente) la dependencia con otras variables. Ahora, examinamos el ingreso neto mensual y el gasto mensual 10 hogares de dos personas cada uno.

Hogar 1 2 3 4 5 6 7 8 9 10
Ingreso neto en DM x_i 3,500 5,000 4,300 6,100 1,000 4,800 2,900 2,400 5,600 4,100
Gasto en DMy_i 2,000 3,500 3,100 3,900 900 3,000 2,100 1,900 2,900 2,100

Las observaciones se muestran en el siguiente diagrama de dispersión. Se puede ver que el ingreso neto de un hogar tiene una influencia positva en el gasto de ese hogar y que esta dependencia puede ser estimada mediante una función de regresíon lineal. Es folnode4 i k 1 1.gif Queremos encontrar la función de regresión lineal que describe el gasto de un hogar como una función del ingreson neto de ese hogar. Para estimar el modelo de regresión lineal, son necesarios algunos cálculos auxiliares.

HH x_i y_i x_i \cdot y_i {x_i}^2 {y_i}^2
1 3,500 2,000 7,000,000 12,250,000 4,000,000
2 5,000 3,500 17,500,000 25,000,000 12,250,000
3 4,3000 3,100 13,330,000 18,490,000 9,610,000
4 6,100 3,900 23,790,000 37,210,000 15,210,000
5 1,000 3900 900,000 1,000,000 810,000
6 4,800 3,000 14,400,000 23,040,000 9,000,000
7 2,900 2,100 6,090,000 8,410,000 4,410,000
8 2,4000 1,900 4,560,000 5,760,000 3,610,000
9 5,600 2,900 16,240,000 31,360,000 8,410,000
10 4,100 2,100 8,610,000 16,810,000 4,410,000
Sum 39,700 25,400 112,420,000 179,330,000 71,720,000

utilizando las fórmulas, los parámetros de la regresón b_0 y b_1 se calculan del siguiente modo: \begin{align}
 b_0 &=& \frac{\sum y_i \sum {x_i}^2 - \sum x_i \sum x_i y_i}
              {n\sum {x_i}^2-\sum x_i \sum x_i} \\
     &=& \frac{(25,400 \cdot 179,330,000)-(39,700 \cdot 112,420,000)}
              {(10 \cdot 179,330,000)-(39,700 \cdot 39,700)}\\
     &=&  423.13\\
 b_1 &=& \frac{n \sum x_i y_i - \sum x_i \sum y_i}
              {n \sum {x_i}^2 - \sum x_i \sum x_i}\\
     &=& \frac{(10 \cdot 112,420,000)-(39,700 \cdot 25,400)}
              {(10 \cdot 179,330,000)-(39,700 \cdot 39,700)}\\
     &=& 0.5332         \\\end{align} Por lo tanto, la función de regresión es \hat {y_i} = 423.13 + 0.5332 \cdot x_i Gasto = 423.13 + 0.5332 \cdot Ingres neto Se puede dibujar la linea de regresión en el : Es folnode4 i k 1 2.gif La pendiente de la linea se corresponde con la propensión al consumo: un incremento en el ingreso neto de un marco alemán (1 DM) supone de media un incremento de 0.53 DM en el gasto de un determinado hogar. Una vez que se han calculado las desviaciones típicas de x e y y su covarianza, se puede obtener el : r_{xy}= \frac{S_{xy}}
                {S_x S_y}
          = \frac{1,286,900}
                 {1,553.5 \cdot 894.68}
          = 0.926 Muestra una fuerte dependencia entre el ingreso neto de los hogares y el gasto de estos. La calidad del ajuste de la regresión se evalua mediante el . Es el cociente entre la varianza explicada por la función de regresión y la varianza total del gasto Y: R^2= \frac {\sum{(\hat{y_i}-\bar y)}^2}
              {\sum{(y_i-\bar y)}^2}
       = \frac{6,175,715.85}
              {7,204,000.00}
      = 0.857 El coeficiente de determinación muestra que el 86% de la variación del gasto de los hogares puede ser explicada mediante una dependencia lineal respecto al ingreso neto de los hogares.