Parámetros de la distribución bidimensional

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Para la distribución marginal y condicionada se pueden usar los parámetros de localización y dispersión de igual forma que en las distribuciones unidimensionales (ver capítulo anterior), dado que de hecho, son distribuciones unidimensionales.

Covarianza

La covarianza es un parámetro especial de las distribuciones bidimensionales que mide la variación común de las dos variables X e Y medidas en una escala métrica. La covarianza de una distribución de frecuencia bidimensional con frecuencias absolutas h(x_i;y_j) y frecuencias relativas f(x_i;y_j)\ (i=1,\dots,m;j=1,\dots,r)

se puede calcular como: \begin{align}
Cov(X,Y)=s_{xy} &=&{1\over n} \sum_{i-1}^m\sum^r_{j-1}(x_i-\bar{x})(y_j-\bar{y})\cdot h_{ij}\\
 &=& \sum^m_{i-1}\sum^r_{j-1}(x_i-\bar{x})(y_j-\bar{y})\cdot f_{ij}\end{align}

A diferencia de la varianza, la covarianza puede tomar valores negativos. propiedades

  • si las variables X e Y son independientes, la covarianza es cero.

    Esto no es cierto en sentido contrario: Si la covarianza entre las variables X e Y es cero no implica que sean independientes.

  • La contribución de una realización (x_i;y_j) a la varianza es positiva si las diferencias x_i-\bar{x} e y_j-\bar{y} tienen el mismo signo. Es negativa si las diferencias x_i-\bar{x} e y_j-\bar{y} tienen signos opuestos.

  • La covarianza de una varible por si misma es igual a la varianza de esta variable: s_x^2=s_{xx}=Cov(X,X)

  • transformación lineal: S=a+bX, T=c+dY Cov(S,T)=Cov(a+bX, c+dY)=b\cdot d\cdot Cov(X,Y)

Variables independientes La independencia significa que la distribución de una variable no depende de las realizaciones de la otra. Si dos variables X e Y son independientes:

  1. Todas las distribuciones condicionadas de X (Y) son iguales a la correspondiente distribución marginal, para la distribución condicionada de X: f(x_i|y_j)=f(x_i|y_k)=f(x_i)para todo j,k=1,\dots,r y para todo i=1,\dots,m

    y para la distribución condicionada de Y: f(y_j|x_i)=f(y_j|x_h)=f(y_j)para todo i,h=1,\dots,m y para todo j=1,\dots,r.

  2. La frecuencia relativa de la ocurrencia de ambos valores x_i e y_j de las variables X e Y es igual al producto de sus frecuncias relativas marginales: f(x_i|y_j)=f(x_i)=\frac{f(x_i,y_j)}{f(y_j)}

    \rightarrow f(x_i,y_j)=f(x_i)\cdot f(y_j)

    f(y_j|x_i)=f(y_j)=\frac{f(x_i,y_j)}{f(x_i)}

    \rightarrow f(x_i,y_j)=f(x_i)\cdot f(y_j)

    Una forma análoga de representación usando las frecuencias absolutas es: h(x_i,y_j)=\frac{h(x_i)\cdot
h(y_j)}{n}

    Esto se cumple para todo i=1,\dots,m y j=1,\dots,r.

Si no, las dos variables X son Y empíricamente dependientes. Rara vez se usa la covarianza como un parámetro autónomo. Es más que nada una cantidad auxiliar que se usará para el cálculo de otros parámetros (ver correlación en el párrafo siguiente). Para n = 15 empresas se recogieron las variables Y - ganancias anuales (en Mio. DM) y X - alquiler anual de equipo informático (en 1000 DM). Las posibles realizaciones de estas variables se dan en las columnas 2 y 3 de la siguiente tabla. Unternehmen Jahresgewinn in Mio. DM Jahresmiete in 1000 DM

empresa ganacia anual alquiler anual
i y_i x_i y_i-\bar{y} x_i-\bar{x} (y_i-\bar{y})(x_i-\bar{x})
1 10 30 -20 -170 3400
2 15 30 -15 -170 2550
3 15 100 -15 -100 1500
4 20 50 -10 -150 1500
5 20 100 -10 -100 1000
6 25 80 -5 -120 600
7 30 50 0 -150 0
8 30 100 0 -100 0
9 30 250 0 50 0
10 35 180 5 -20 -100
11 35 330 5 130 650
12 40 200 10 0 0
13 45 400 15 200 3000
14 50 500 20 300 6000
15 50 600 20 400 8000

?’Cómo de grande es la variación (respecto a sus respectivas medias) que las variables X e Y tienen en común en estas 15 empresas ? Las medias muestrales de las variables son: \bar{y}=30(mil.DM) \bar{x}=200(tis.DM) La Columna 4 de la tabla contiene las desviaciones de la variable Y respecto a su media muestral mientras que para la variable X se recogen en la columna 5. La covarianza se calcula de acuerdo con la siguiente fórmula: \begin{align}
Cov(X,Y)=s_{xy}&=&\frac{1}{n}\sum^m_{i=1}\sum^r_{j=1}(x_i-\bar{x})(y_j-\bar{y})\cdot h_{ij} \\
&=& \sum^m_{i=1}\sum^r_{j=1}(x_i-\bar{x})(y_j-\bar{y})\cdot f_{ij}\end{align} El producto de las desviaciones para cada una de las empresas se muestra en la columna 6 de la tabla. La covarianza es la suma de los elementos de la columna. Cov(X,Y)=s_{xy}=28100. Si las variables X e Y son independientes su covarianza es igual a cero. Esto es: Cov(X,Y)=s_{xy}=0 Demostración: \begin{align}
 s_{xy}&=&\sum^m_{i=1}\sum^r_{i=1}(x_i - \bar{x})(y_j-\bar{y})\cdot f_{ij}
\\ &=&
\sum^m_{i=1}\sum^r_{j=1}(x_i-\bar{x})(y_j-\bar{y})\cdot f_{i\cdot}f_{\cdot j} \\ &=&
\left\{\sum^m_{i=1}(x_i-\bar{x})f_{j\cdot}\right\}\left\{\sum^r_{j-1}(y_j-\bar{y})f_{\cdot j}\right\} \\ &=&
\left\{\sum^m_{i=1}x_i f_{j\cdot}-\bar{x}\sum^m_{i=1}f_{j\cdot}\right\}\left\{\sum^r_{j-1}y_j f_{\cdot j}
-\bar{y}\sum^r_{j=1}f_{\cdot j}\right\}\\
&=&(\bar{x}-\bar{x})(\bar{y}-\bar{y}) = 0\end{align}