Relación entre variables con escala métrica (correlación, coefcientes de correlación)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La variación común de las dos variables X e Y (medidas ambas en escala métrica) determina la fortaleza de la relación entre las dos variables. La variación en el sentido de dispersión es la desviación de las realizaciones respecto a sus medias. En un primer paso, se centran las observaciones: \ast{x_i}=x_i - \bar{x} \ast{y_j}=y_j - \bar{y} La variación común de ambas variables es el producto de las desviaciones de las observaciones respecto a sus medias (ver cálculo de la covarianza): \sum^n_{i=1}\ast{x_i}\ast{y_j}=\sum^n_{i=1}(x_i-\bar{x})(y_j-\bar{y}) La escala con que se miden las variables y el número de observaciones tienen un gran efecto en la variación común. La media de una variable es por ejemplo 8 y el valor observado 10, la media de la otra variable es 1008 y el valor observado es 1260. Aunque la desviación del primer valor es 2 y la del segundo es 252, la desviación relativa del valor de la media es en ambos casos 25%. A fin de obtener desviaciones similares en las variables, realizamos la siguiente estandarización: (x_i
-
\bar{x})/s_x (y_j - \bar{y})/s_y Por lo tanto, la ecuación superior se modifica a: \sum^n_{i=1}\frac{(x_i
-\bar{x})}{s_x}\frac{(y_j
-\bar{y})}{s_y} Dividimos esta suma o producto por el número de observaciones a fin de eliminar su influencia. De esta forma, obtenemos el coeficiente de correlación de Bravais-Pearson que nos permite medir elv vigor de la relación lineal entre las variables X e Y, ambas medidas en una escala métrica: r_{yx}=r_{xy}=\frac{\sum^n_{i=1}\limits(x_i-\bar{x})(y_j-\bar{y})}{n\cdot
s_x\cdot s_y}=\frac{s_{xy}} {s_x\cdot s_y} La simplificación de la ecuación superior muestra que el coeficiente de correlación de Bravais- Pearson es igual a la variación común de ambas variables X e Y (= covarianza) estandarizada por el producto de las desviaciones típicas de cada variable. El coeficiente de correlación de Bravais-Pearson también se escribe como: r_{yx}=\frac{\sum^n_{i=1}\limits
(x_i-\bar{x})(y_j-\bar{y})} {\sqrt{\sum^n_{i=1}\limits(x_i-\bar{x})^2
\sum^n_{i=1}\limits(y_j-\bar{y})^2}} r_{yx}=\frac{n \sum^n_{i=1}\limits x_i y_i -
\sum^n_{i=1}\limits x_i \sum^n_{i=1}\limits y_i} {\sqrt{\left
[n\sum^n_{i=1}\limits {x_i}^2 - {\left(\sum^n_{i=1}\limits x_i
\right)}^2\right] \left[n \sum^n_{i=1}\limits {y_i}^2 -
{\left(\sum^n_{i=1}\limits y_i\right)}^2\right]}}

propiedades del coeficiente de correlación:

  • el coeficiente de correlación sólo toma valores entre -1 y +1: -1<=r_{xy}<=1

  • el signo del coeficiente de correlación nos dice la dirección de la relación

    • “+” se corresponde con una correlación positiva (variación proporcional)

    • “-” se corresponde con una correlación negativa (variación proportional inversa)

  • si todas las observaciones estubieran sobre una linea recta, el coeficiente de correlación sería \|1\|.

    Cuanto más cerca esté el coeficiente de correlación del valor \|1\|, más pronunciada es la relación entre las variables X e Y.

  • si las variables X e Y son independientes, el coeficiente de corelación es igual a 0.

    Por otra parte, un coeficiente de correlación de 0 sólo indica que no hay relación lineal entre las variables X e Y. Pero es muy posible que exista una relación no lineal entre ellas.

  • el coeficiente de correlación es simétrico: r_{xy}=r_{yx}

Relación de correlación y la nube de puntos de las observaciones de X e Y

correlación perfecta (coeficiente de correlación = \|1\|)

Es folimg250.gif Es folimg251.gif

correlación fuerte (coeficiente de correlación > \|0.5\|)

Es folimg252.gif Es folimg253.gif

correlación debil (coeficiente de correlación < \|0.5\|)

Es folimg254.gif Es folimg255.gif

Ausencia de correlación (coeficiente de correlación = 0)

Es folimg256.gif

Una correlación de 0 corresponde “en general” con algún tipo de nube de puntos circular.

ejemplo:

En n=15 empresas, se observaron las variables Y- ganancia anual (en Mio. DM) y X- alquiler anual en elementos informáticos (en 100 DM). Puedes ver los valores en la siguiente tabla. También se muestran gráficamente en el siguiente diagrama de dispersión.

Empresa ganacia anual en mil. DM alquiler anual en 1000 DM
i y_i x_i
1 10 30
2 15 30
3 15 100
4 20 50
5 20 100
6 25 80
7 30 50
8 30 100
9 30 250
10 35 180
11 35 330
12 40 200
13 45 400
14 50 500
15 50 600

Es folimg257.gif

De las observaciones, se obtienen los siguientes resultados: l l \overline{y}=30 (Mio. DM), & \sum^{15}_{i=1}\limits
(y_i-\overline{y})^2=2250
\overline{x}=200 (1000 DM), & \sum^{15}_{i=1}\limits
(x_i-\overline{x})^2=457000
\sum^{15}_{i=1}\limits
(x_i-\overline{x})(y_i-\overline{y})=28100 r_{xy}=\frac{28100} {\sqrt{457000 \cdot 2250}}=0,8763 El coeficiente de correlación en este ejemplo es 0,8763, Lo que indica una relación lineal fuerte.

Es folnode4 b k 1 3.gif

En 1985, se recopiló la información de las siguientes variables de actividad criminal en cada uno de los 50 estados de U.S.A.:

X1 - area territorial
X2 - población
X3 - asesinato
X4 - violación
X5 - robo
X6 - asalto
X7 - allanamiento
X8 - latrocinio
X9 - robo de cochea
X10 - número región del estado de US
X11 - número división del estado de US

Los valores de las variables X10 y X11 son:

X10 número región del estado X11 número división del estado
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Este ejemplo interactivo nos permitirá seleccionar dos variables para las que se obtendrá un diagrama de dispersión y el coeficiente de correlación de Bravais-Pearson.
En 1985, se recogieron datos de actividad criminal en 50 estados de U.S.A.. La relación entre el porcentaje de asesinatos y el tamaño de la población se puede observar mediante un :

Es folnode4 e k 1 1.gif

Las distintas sumas de errores al cuadrado (ESM) se calculan del siguiente modo: Suma de productos de las observaciones de la “población” y “asesinato”: ESM(población \mid asesinato) = \sum (x_i
-
\bar x)(y_i - \bar y) = 260.121,05 Suma de cuadrados de las desviaciones de “población”: ESM(population)=\sum(x_i - \bar x) = 1.259.033.421,62 Suma de cuadrados de las desviaciones de “asesinato": ESM(murder)= \sum (y_i - \bar y) = 725,54 El coeficiente de correlación es igual a  r=\frac{260.121,05}
          {\sqrt{1.259.033.421,62 \cdot 725,54}}  = 0,27 El coeficiente de correlación de 0,27 indica una relación positiva debil.