Medidas de variación

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Las diferentes medidas de localización perfiladas en las secciones anteriores no son suficientes para una buena descripción de datos unidimensionales. Podemos ver un ejemplo a continuación: El gasto mensual en tiempo libre durante las vacaciones (en DM):

  • datos de 10 hogares con dos personas: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630 mostrados en el eje:

    Es folimg133.gif

  • datos de 10 hogares de cuatro personas: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490 mostrados en el eje:

    Es folimg134.gif

La media aritmética \bar{X} es en ambos casos igual a 404 DM, pero los gráficos muestran diferencias visibles entre las dos distribuciones. Para los hogares de cuatro personas los valores estan más concentrados entorno al centro (en este caso la media) que para los hogares con sólo dos individuos, es decir, la dispersión o variación es menor. Las medidas de variación miden la variabilidad de los datos. Junto con las medidas de localización (como la media, mediana y moda) proporcionan una descripción bastante razonable de los datos unidimensionales.  Intuitivamente, nos gustaría medidas de dispersión que tuvieran la propiedad de que si se añade una constante a todas los datos, la medida no se viese afectada por dicho cambio.  Una segunda propiedad es que si los datos se encontraran bastante dispersos, por ejemplo debido a la multiplicación de todos ellos por una constante mayor que uno,  la medida de dispersión se viese incrementada.

Rango

El rango es la medida de dispersión más sencilla:

(1) Datos no Agrupados:

El rango (R) se define como la diferencia entre el valor observado mayor y el menor R=x_{max}-x_{min}=x_{(n)}-x_{(1)} donde x_{(1)},\dots,x_{(n)} son los datos ordenados, es decir, los estadísticos ordenados. (2) Datos Agrupados: Para datos agrupados, el rango (R) se define como la diferencia entre el límite superior de la última (mayor) clase x_{k}^{u} y el límite inferior de la primera (menor) clase x_{1}^{l}: R=x_{k}^{u}-x_{1}^{l}

Propiedades:

  • para una transformación lineal tenemos: y_{i}=a+bx_{i}\longrightarrow R_{y}=|b|R_{x}

    Se puede ver que el hecho de añadir una constante a que simplemente traslada los datos no afecta a esta medida de variabilidad.

Rango intercuartílico

El rango intercuartílico es la diferencia entre el tercer cartil x_{0,75} y el primer cuartil x_{0,25}: QA=x_{0.75}-x_{0.25} El rango intercuartílico es la amplitud de la región central, la cual captura el 50 % de las observacines. El rango intercuartílico relativo a la mediana se define como QA_{r}
=QA/x_{0.5}.

Propiedades:

  • robustez frente a valores extremos (outliers)

  • transformación lineal: y_{i}=a+bx_{i}\longrightarrow QA_{y}=|b|QA_{x}

    De nuevo, el hecho de sumar una constante a no afecta a esta medida de variabilidad.

Desviación absoluta media (DAM)

La media de las desviaciones absolutas de los valores observados con respecto a un punto fijo \mathbf{\ }c se denomina desviación absoluta media y se denota como d. El punto fijo  c puede ser cualquier valor. Normalmente, se selecciona una de las medidas de localización; habitualmente la media \bar{x} o la mediana x_{0.5}. Del mismo modo que el rango y el rango intercuartílico, el hecho de añadir una constante a todos los datos no afecta a esta medida.  La multiplicación por una constante reescala la medida por el valor absoluto de dicha constante.  Cualquiera de las formulas que se muestran debajo pueden ser utilizadas para datos no agrupados.  Si los datos han sido agrupados se puede utilizar la segunda formula donde x_{j} son los puntos medios de las clases o categorías, h(x_{j}) y f(x_{j}) son las frecuencias absolutas y relativas: d=\frac{1}{n}\sum\limits_{i=1}^{n}|x_{i}-c| d=\frac{1}{n}\sum\limits_{j=1}^{k}|x_{j}-c|h(x_{j})=\sum\limits_{j=1}
^{k}|x_{j}-c|f(x_{j})

Propiedades:

  • La propiedad de optimalidad de la mediana implica que la mediana es un valor que minimiza la desviación absoluta media. Por lo tanto, cualquier otro valor que se utilice parac implicará un valor más alto para esta medida.
  • Ejemplo: Valores observados: 2, 5, 9, 20, 22, 23, 29x_{0.5}=20,\ d(x_{0.5})=8,29\bar{x}=15.71,\ d(\bar
{x})=8.90
  • para una transformación lineal de los datos: y_{i}=a+bx_{i}\longrightarrow
d_{y}=|b|d_{x}

La varianza y la desviación típica

La media de las desviaciones al cuadrado de los valores observados con respecto un determinado punto  c se denomina error cuadrático medio (ECM) o la desviación cuadrática media. El punto c  puede ser elegido como se quiera. MQ(c)=\frac{1}{n}\sum\limits_{i=1}^{n}(x_{i}-c)^{2} MQ(c)=\frac{1}{n}\sum\limits_{j=1}^{k}(x_{j}-c)^{2}h(x_{j})=\sum
\limits_{j=1}^{k}(x_{j}-c)^{2}f(x_{j})

La varianza

Si elegimos el punto c como la media \bar{x}, entonces el ECM se denomina varianza . La varianza de las observaciones se denota como s^{2} y se calcula del siguiente modo. s^{2} = \frac{1}{n} \sum\limits_{i=1}^{n} (x_{i} - \bar{x})^{2} = \frac{1}{n}
\sum\limits_{i=1}^{n} x_{i}^{2} - \bar{x}^{2} s^{2} = \frac{1}{n} \sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2} h(x_{j}) =
\sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2} f(x_{j})

Desviación típica

La desviación típica (s) se define como la raiz cuadrada de la varianza. s = \sqrt{s^{2}} = \sqrt{\frac{1}{n} \sum\limits_{i=1}^{n} (x_{i} - \bar
{x})^{2}} s = \sqrt{\frac{1}{n} \sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2} h(x_{j})} =
\sqrt{\sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2} f(x_{j})} La varianza s^{2} (y por lo tanto la desviación típica s) son siempre iguales o mayores que 0. Una varianza igual a cero implica que las observaciones  son todas idénticas y consecuentemente no existe ningun tipo de variabilidad.

Propiedades:

  • El error cuadrático medio respecto a \bar{x} (la varianza) es menor que el error cuadrático medio respecto a cualquier otro punto c.

    Este resultado se puede probar de la siguiente forma :

    ECM(c)=\frac{1}{n}\sum\limits_{i=1}^{n}(x_{i}-c)^{2}=\frac{1}{n}
\sum\limits_{i=1}^{n}(x_{i}-\bar{x}+\bar{x}-c)^{2}= =\frac{1}{n}\left[  \sum\limits_{i=1}^{n}(x_{i}-\bar{x})^{2}+2(\bar{x}
-c)\sum\limits_{i=1}^{n}(x_{i}-\bar{x})+n(\bar{x}-c)^{2}\right]  = =\frac{1}{n}\sum\limits_{i=1}^{n}(x_{i}-\bar{x})^{2}+(\bar{x}-c)^{2}
=s^{2}+(\bar{x}-c)^{2}

    El segundo término de la segunda linea desaparece porque \sum\limits_{i=1}^{n}
(x_{i}-\bar{x})=0  Esta fórmula implica que el error cuadrático medio ECM(c) es siempre mayor o igual que la varianza.  La igualdad solo se produce si y sólo si c=\bar{x}.

    Ejemplo: Valores observados: 2, 5, 9, 20, 22, 23, 29

  • x_{0.5}=20\qquad ECM(x_{0.5})=109.14\ \

  • \bar{x}=15.71\qquad ECM(\bar{x})=Varianza=90.78

  • para transformaciones lineales : y_{i}=a+bx_{i}\longrightarrow
s_{y}^{2}=b^{2}s_{x}^{2},\ s_{y}=|b|s_{x}

  • Estandarización:  restando la media y dividiendo por la desviación típica se genera una nueva serie de datos que tienen media cero y varianza igual a uno.  sea: z_{i}=a+bx_{i}, donde \ a=-\bar{x}/s_{x}
,\ b=1/s_{x}  entonces z_{i}=\frac{x_{j}-\bar{x}}{s_{x}} \longrightarrow\bar{z}=0,\quad s_{z}^{2}=1

Teorema: (agrupamiento)

Supongamos que las observaciones (datos) estan divididos en r  grupos con n_{i}\,\,i=1,..,r  observaciones.  Supongamos también que las medias y varianzas de dichos grupos son conocidas. Para obtener la varianza s^{2} de todos los datos agrupados se puede utilizar: s^{2}=\sum\limits_{i=1}^{r}\frac{n_{i}}{n}s_{i}^{2}+\sum\limits_{i=1}^{r}
\frac{n_{i}}{n}(\bar{x_{i}}-\bar{x})^{2} \bar{x_{1}},\dots,\bar{x_{r}} son las medias aritméticas de los gruposs_{1}^{2},\dots,s_{r}^{2} son las varianzas de los gruposn_{1},\dots,n_{r} son el número de observaciones de los grupos, n=n_{1}+\dots+n_{r}

Descomposición de la Varianza

La fórmula superior muest1ra como la varianza puede ser descompuesta en dos partes:Varianza Total = Varianza dentro de grupos + varianza entre los grupos.

Coeficiente de Variación:

Con el fin de comparar la desviación típica de distintas distribuciones, vamos a introducir una medida de dispersión relativa (relativa a la media), que se denomina coeficiente de variación . El coeficiente de variación expresa la variación como un porcentaje de la media: v=s/\bar{x}\,\,\,\;\;\bar{x}>0

Ejemplo:

Los valores medios y las desviaciones típicas de los dos conjuntos de observaciones son:\bar{x}_{1}=250\quad 
s_{1}=10\bar{x}_{2}=750\quad s_{2}=30 Comparando las desviaciones típicas, se puede afirmar que la variación en el segundo grupo es tres veces mayor que la variación en el primero. Pero, en este caso sería recomendable comparar los coeficientes de variación ya que los datos tienen medias muy diferentes:v_{1}
=10/250=0.04v_{2}=30/750=0.04 La dispersión relativa de los dos conjuntos de datos es la misma. Este ejemplo interactivo nos va a permitir representar la distribución unidimensional para la variable seleccionada (puedes seleccionar de dos conjuntos de datos) mediante diagrama de barras. En la nube de puntos superior, se muestran los siguientes estadísticos: El rango (verde), la media aritmética (negro) y la desviación típica (rojo). En el gráfico inferior se muestra el rango (verde), la mediana (negro) y el recorrido intercuartílico (magenta).

Datos de criminalidad en USA

Datos de varios tipos de crimenes cometidos en USA fueron recogidos para el año 1985:

Es folnode4 b k 1 3.gif

X1 - area territorial
X2 - población
X3 - asesinato
X4 - violación
X5 - robo
X6 - asalto
X7 - allanamiento
X8 - latrocinio
X9 - robo de cochea
X10 - número región del estado de US
X11 - número división del estado de US

Los valores de las variables X10 y X11 son:

X10 número región del estado X11 número división del estado
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Datos de automóviles

Los siguientes datos fueron recogidos para 74 tipos de coches:

X1 - precio
X2 - mpg (millas por galón)
X3 - altura (en pulgadas)
X4 - distancia entre asientos (distancia entre asiento delantero y trasero, en pulgadas)
X5 - espacio del maletero (en pies cúbicos)
X6 - peso (en libras)
X7 - longitud (en pulgadas)
X8 - diámetro de giro(distancia requerida para hacer un giro en U, en pies)
X9
- desplazamiento (en pulgadas cúbicas)

Es folnode3 d k 1 2.gif

Se ha recogido el precio en USD de 74 tipos de coches en 1985. Los datos se muestran en las siguientes nubes de puntos. El panel superior muestra el rango (verde), la media aritmetica (negro) y la desviación típica (rojo). El gráfico inferior nos da le rango (verde), mediana (negro) y el (magenta).

Es folnode3 f lev1 1.gif

media aritmética: 4618.38
mediana: 4618
rango 2690
rango intercuartílico 795.5
desviación típica 614.04

Durante una revisión de los datos, se descubrió que uno se habia introducido con error. el valor correcto de 15962 USD fue introducido incorrectamente como 5962 USD. El siguiente gráfico contiene los resultados correctos:

Es folnode3 f lev1 2.gif

media aritmética: 4753.51
mediana: 4618
rango 12690
rango intercuartílico 795.5
desviación típica 1447.93

Está claro que el rango se incrementa, ya que es una función de los valores extremos. El valor del rango intercuartílico no se ve afectado debido a que ninguno de los precios dentro de este rango se ve alterado. La desviación típica se incrementa significativamente. La razón es que la desviación típica se calcula para todas las observaciones e implica el cálculo del cuadrado de las desviaciones, lo cual implica que sea muy sensible a valores extremos (outliers). Tras cierto tiempo, se repitió la investigación. Los resultados se presentan en el siguiente gráfico:

Es folnode3 f lev1 3.gif

media aritmética: 6192.28
mediana: 5091.50
rango 12615
rango intercuartílico 2077
desviación típica 2938.06

Ahora, existe un número de coches caros cuyos precios difieren substancialmente con respecto a los coches de precio menor. Por lo tanto el precio es asimétrico hacia la derecha. Para distribuciones asimétricas, la desviación típica suele ser mayor que el rango intercuartílico. Se recogió el precio de las pizzas Dr. Oetker en 20 supermercados de Berlin:3.99; 4.50; 4.99; 4.79; 5.29; 5.00; 4.19; 4.90; 4.99; 4.79; 4.90; 4.69; 4.89; 4.49; 5.09; 4.89; 4.99; 4.29; 4.49; 4.19

  • El precio medio de una pizza en estos 20 supermercados es 4.27 DM (= mean)

  • El precio mediano es 4.84 DM (= mediana)

  • La diferencia entre el precio mayor y el menor es 1.30 DM (= rango)

  • Si la DAM se calcula sobre la media es 0.29 DM (= MAD ) si se calcula entorno a la mediana es 0.28 DM (= MAD ).

  • el 50 % de todos los precios estan en el intervalo 4.49 DM (cuartil x_{0.25}) y 4.99 DM (cuartil x_{0.75}),

    Este intervalo es de una amplitud 0.50 DM (= rango intercuartílico ).

  • Error cuadrático medio entorno a la media es 0.12241 DM^{2} (= varianza ), la raiz cuadrada de la varianza es 0.34987 DM (= desviación típica ).

Es folnode3 f k 1.gif