Descripción Numérica de las Distribuciones de Frecuencia Unidimensionales

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Los estadísticos son números que resumen las características particulares de los datos.  Formalmente, un estadístico es una función de los datos.  Son usados para medir las distintas características, como el hecho de donde estan localizados los datos generalmente (medidas de localización), el grado en el que se encuentran dispersos (medidas de dispersión), si se encuentran simétricamente distribuidos, el grado de correlación existente entre ellos y asi sucesivamente.  En las siguientes secciones consideraremos diferentes medidas de localización y dispersión.  Estas medidas pueden ser utilizadas para comparar diferentes conjuntos de datos.

Medidas de localización

Además de informar de donde se encuentran localizados o concentrados los datos, las suministran una referencia sobre la que las observaciones individuales pueden ser valoradas.

Moda

El valor que ocurre con más frecuencia en el conjunto de datos recibe el nombre de moda o valor modal. Si la variable es discreta, la moda es simplemente el valor con una mayor frecuencia. Para , medidos con la suficiente exactitud, sin embargo, muchas observaciones tienden a ser bastante distintas, lo que implica que el concepto de moda no tiene sentido.  Pero, agrupando los datos, se puede determinar el intervalo modal o clase modal , es decir, la clase con la mayor frecuencia. Moda datos cualitativos o discretos es \underset{x_{j}}{\arg\max}\;\;f\left(  x_{j}\right)  \} Moda para datos continuos agrupados El intervalo modal o clase modal es la clase con una frecuencia relativa mayor. Como un intervalo contiene infinitos número, tenemos que introducir una convención bajo la cual un único número dentro de la clase es seleccionado para representar a la moda.  La convención más simple consiste en usar el punto medio de cada clase.  Un ajuste alternativo, y a su vez más técnico, implica la selección de un punto que se encuentre en aquel entorno con una mayor densidad de observaciones.  Se define del siguiente modo: x_{D}=x_{j}^{u}+\frac{\widehat{f}\left(  x_{j}\right)  -\widehat{f}\left(
x_{j-1}\right)  }{2\cdot\widehat{f}\left(  x_{j}\right)  -\widehat{f}\left(
x_{j-1}\right)  -\widehat{f}\left(  x_{j+1}\right)  }\cdot\left(  x_{j}
^{u}-x_{j}^{l}\right)  \quad,\text{ donde}

x_{j}^{l},x_{j}^{u} extremo inferior/superior de la clase modal
\widehat{f}\left(  x_{j}\right)  distribución de frecuencia de la clase modal
\widehat{f}\left(  x_{j-1}\right)  distribución de frecuencia de la clase anterior a la clase modal
\widehat{f}\left(  x_{j+1}\right)  distribucion de frecuencia de la clase siguiente a la clase modal

Ejemplo: Vida de 100 bombillas

j X: Vida (horas) h\left( x_{j}\right)  f\left(  x_{j}\right) \widehat{f}\left( x_{j}\right)  \cdot10^{-4} F\left(
x_{j}\right)
1 0\leq X<100 1 0.01 1 0.01
2 100\leq X<500 24 0.24 6 0.25
3 500\leq X<1000 45 0.45 9 0.70
4 1000\leq X<2000 30 0.30 3 1.00
Total 100 1.00

Clase Modal: [500,1000)Moda aproximada por el punto medio de la clase modal: 0.5\cdot\left(
x_{j}^{u}-x_{j}^{l}\right) =750 horasUtilizando la fórmula superior que mueve al punto medio en la dirección de aquel entorno donde la densidad de las observaciones es mas alta se obtiene:x_{D}=500+\frac{9-6}{18-6-3}\cdot500=666\,2/3

Cuantiles

Dado unos datos x_{1},x_{2},\ldots,x_{n}, supongamos que ordenamos los datos de menor a mayor obteniendo la siguiente secuencia ordenada x_{(1)},x_{(2)}
,\ldots,x_{(n)}.. Llamaremos a los elementos de esta secuencia los estadísticos ordenados de los datos.  A partir de los estadísticos ordenados uno puede inmediatamente localizar el tercer valor más grande,  el valor más pequeño y asi sucesivamente. Sea p un número entre cero y uno, y piensa en p como en una proporción de los datos. Un valor que divide la secuencia de estadísticos ordenados en dos subsecuencias conteniendo la primera \left(  p\cdot n\right)
y la última \left( \left( 1-p\right)  \cdot n\right)  observaciones se llama el p-cuantil., Lo denotaremos por x_{p}. Equivalentemente, podriamos pensar en x_{p} .como el valor tal que el p\% de los datos son menores que él y el (1-p)\% de los datos son superiores. Cuantiles para datos no agrupados

  • Si n\cdot p no es un número entero y k es el entero más pequeño que satisface k>n\cdot p, entonces si definimos x_{p}=x_{(k)}. El cuantil es de este modo la observacion con rango k, x_{(k)}.
  • Si, k=n\cdot p es un número entero tomaremos x_{p\text{ }} como el punto medio entre x_{(k)}.y x_{(k+1)} .

Cuantiles para datos agrupados Para datos que se encuentran agrupados en clases, realizaremos interpolaciones entre los límites de las clases para obtener un p-cuantil: x_{p}=x_{j}^{l}+\frac{p-F\left(  x_{j}^{l}\right)  }{f\left(  x_{j}\right)
}\cdot\left(  x_{j}^{u}-x_{j}^{l}\right) Aqui, x_{j}^{l}, x_{j}^{u} y f\left(  x_{j}\right)  son el límite inferior, límite superior y frecuencia relativa de la clase que contiene al p-esimo cuantil. La frecuencia relativa acumulada de la clase que precede a la clase del cuantil se denota como F\left( x_{j}^{l}\right)  . El cuantil x_{p} puede ser definido usando interpolación. El principio de la interpolación para la cantidad p = F(x_{p}) puede ser comprendido facilmente a partir de los siguietes gráficos:

Es folimg85.gif Es folimg86.gif

Algunos cuantiles especiales:

  • deciles – Las observaciones ordenadas son divididas en diez partes iguales. p=s/10,s=1,\dots,9--\text{ deciles: }x_{0.1},x_{0.2}
,\dots,x_{0.9}
  • quintiles – Las observaciones ordenadas son divididas en cinco partes iguales. p=r/5,r=1,2,3,4--\text{ quintiles: }x_{0.2},x_{0.4}
,x_{0.6},x_{0.8}
  • cuartiles – Las observaciones ordenadas son divididas en cuatro partes iguales. p=q/4,q=1,2,3--\text{ cuartiles: }x_{0.25},x_{0.5},x_{0.75}

Mediana (valor central) El valor que divide a las observaciones ordenadas en dos partes iguales, se llama la mediana x_{z}=x_{0.5}. La mediana es mucho menos sensible a valores extremos en las observaciones que otras medidas como la media que veremos a continuación. La mediana x_{z} se corresponde con el segundo cuartil x_{0.5}. (1) Datos no agrupados

  • para n impar : x_{0.5} = x_{(\frac{n+1}{2})}
  • para n para : x_{0.5}=(x_{(n/2)}+x_{(n/2+1)})/2. Es simplemente el punto medio de las dos observaciones más centrales.

(2) Variables agrupadas La mediana para datos agrupados está definida como el punto medio de la clase que contiene la proporción central de los datos.   Formalmente, sea x_{j}^{l} y x_{j}^{u} los límites inferior y superior de la clase para la cual F(x_{j-1}^{u})=F(x_{j}^{l})\leq5.  entonces x_{0.5}=x_{j}^{l}+\frac{0.5-F(x_{j}^{l})}{f(x_{j})}\cdot(x_{j}^{u}-x_{j}^{l}) La mediana puede ser determinada facilmente a partir del gráfico de la la función de distribción ya que F(x_{0.5})=0.5, vease los siguientes gráficos.

Es folimg94.gif Es folimg95.gif

Propiedades de la mediana (de variables numéricas):

  • optimalidad \sum\limits_{i=1}^{n}|x_{i}-x_{0.5}|=\sum\limits_{j=1}^{k}|x_{j}-x_{0.5}|\cdot
f(x_{j})\rightarrow min.

    La mediana es óptima en el sentido de que minimiza la suma de las desviaciones absolutas de las observaciones respecto a un punto que se encuentra en el medio de los datos.

  • transformación lineal y_{i}=a+bx_{i}\longrightarrow y_{0.5}
=a+bx_{0.5}

    Si los datos han sufrido una transformación lineal, entonces la mediana está alterada por la misma transformación lineal.

Ejemplo: Ingreso mensual de hogares, 1988, FRG (hasta 25 000 DM):

Rango de Ingreso Proporción de hogares: Función de distribución empírica:
(DM) f(x) F(x)
1 - 800 0.044 0.044
800 - 1400 0.166 0.210
1400 - 3000 0.471 0.681
3000 - 5000 0.243 0.924
5000 - 25000 0.076 1.000

La representación de la función de distribución empírica y de los cuartiles:

Es folimg99.gif

Cálculo de cuartiles: La función de distribución empírica (tercera columna de la tabla) muestra que tanto el primer cuartil x_{0.25},\ p=0.25 como el segundo cuartil x_{0.5},\ p=0.50 pertenecen al tercer grupo (3000-5000 DM).  Mediante interpolación obetenemos que. \mathbf{x_{0.25} = 1400 + 1600 \cdot\frac{0.25 - 0.21}{0.471} = 1535.88 DM } \mathbf{x_{0.50} = 1400 + 1600 \cdot\frac{0.50 - 0.21}{0.471} = 2385.14 DM } \mathbf{x_{0.75} = 3000 + 2000 \cdot\frac{0.75 - 0.681}{0.243} = 3567.90 DM } la interpretación: Primer cuartil: El 25% de los hogares tienen un ingreso neto mensual que no excede los 1535.88 DM y 75 % de los hogares tienen ingresos superiores a 1535.88 DM. Segundo cuartil: El 50% de los hogares tienen ingresos menores que 2385.14 DM y el 50% de los hogares tienen ingresos mayores que 2385.14 DM. Tercer cuartil: El 75% de los hogares tienen ingresos menores que 3567.90 DM y el 25% de los hogares tienen ingresos que superan los 3567.90 DM. Lo anterior implica que el 50% de los hogares tienen ingresos netos entre 1535.88 DM y 3567.90 DM.

Media aritmética

Notación: \bar X La media aritmética , o promedio se obtiene sumando todas las observaciones y dividiendola por n.  La media aritmética es sensible a valores extremos. En particular, un valor extremo tiende a ”empujar” la media aritmética en su dirección. La media puede ser calculada de varias formas, utilizando los datos originales, utilizando la distribución de frecuencia y usando la distribución de frecuencia relativa.  Para datos discretos, cada método nos lleva a la misma solución numérica. Cálculo utilizando datos originales: \mathbf{\bar{x}=\frac{1}{n}\sum\limits_{i=1}^{n}x_{i}} Cálculo utilizando las frecuencias  y la distribución de frecuencia relativa: \mathbf{\bar{x} = \frac{1}{n} \sum\limits_{j=1}^{k} x_{j} h(x_{j}) =
\sum\limits_{j=1}^{k} x_{j} f(x_{j})} Propidades de la media aritmética:

  • centro de gravedad:  La suma de las desviaciones de los datos con respecto a la media aritmética es igual a cero.\mathbf{\sum\limits_{i=1}^{n}
(x_{i}-\bar{x})=0 \sum\limits_{j=1}^{k}(x_{j}-\bar{x})h(x_{j})=0}
  • suma de cuadrados mínima:  La suma de cuadrados de las desviaciones de los datos con respecto a la media aritmética es menor que la suma al cuadrado de las desviaciones respecto a cualquier otro valor c.\mathbf{\sum\limits_{i=1}^{n}(x_{i}-\bar
{x})^{2}<\sum\limits_{i=1}^{n}(x_{i}-c)^{2}}\mathbf{{\sum
\limits_{j=1}^{k}(x_{j}-\bar{x})^{2}h(x_{j})<\mathbf{\sum\limits_{j=1}^{k}
}(x_{j}-c)^{2}h(x_{j})}}
  • datos agrupados:   Supongamos que los datos observados estan en conjuntos disjuntos D_{1},D_{2},\dots,D_{r}, y que la media aritmética \bar{x}_{p} para cada uno de ellos es conocida. Entonces la media aritmética de todos los valores observados (considerados como un único conjunto) puede ser calculada utilizando la siguiente fórmula \bar{x}=\frac{1}{n}\sum\limits_{p=1}^{r}\bar{x}_{p}n_{p}
\,\,\,\,\,\,\;\;\;\;n=\sum\limits_{p=1}^{r}n_{p} donde n_{p} se refiere al número de observaciones en el p-esimo grupo (p=1,\dots,r).
  • transformación lineal: y_{i}=a+bx_{i}\longrightarrow\bar{y}=a+b\bar{x}
  • suma: z_{i} = x_{i} + y_{i} \longrightarrow\bar{z} = \bar{x} + \bar{y}

Ejemplo 1: Ingreso mensual de los hogares (IMH) en 1998 en FRG:

IMH en DM Proporción de hogares f(x) F(x)
1 - 800 0.044 0.044
800 - 1400 0.166 0.210
1400 - 3000 0.471 0.681
3000 - 5000 0.243 0.924
5000 - 25000 0.076 1.000

El cálculo de la media aritmética utilizando los puntos medios de los grupos: \bar{x}=400\cdot0.044+1100\cdot0.166+2200\cdot0.471+4000\cdot0.243+15000\cdot
0.076=17.6+182.6+1036.2+972+1140=3348.4\text{ DM.} La media aritmética 3348.4 DM es mayor que la mediana calculada anteriormente (2385.14 DM). Esto puede ser explicado por el hecho de que la media aritmética es más sensible a los valores grandes de ingreso. Los valores altos desplazan la media aritmética pero no influyen en la mediana. Ejemplo 2: Ingreso mensual de 716 personas.

\bar{x} 1881.40 DM
x_{0.25} 1092.50 DM
x_{0.50} 1800.DM
x_{0.75} 2400.DM
’moda’ 2000.DM

El ejemplo interactivo siguiente nos va a permitir visualizar distribuciones de frecuencia unidimensionales en la forma de diagrama de barras para diferentes variables. Los posibles valores son mostrados a lo largo del eje horizontal. La mediana (rojo) y la media aritmética (magenta) son mostradas graficamente y numéricamente. Datos de Crimen en US Se obtuvieron los siguientes datos de crimen en USA durante 1995

Es folnode4 b k 1 3.gif

X1 - area territorial
X2 - población
X3 - asesinato
X4 - violación
X5 - robo
X6 - asalto
X7 - allanamiento
X8 - latrocinio
X9 - robo de coche
X10 - número región del estado de US
X11 - número división del estado de US

Los valores de las variables X10 y X11 son:

X10 número región del estado X11 número división del estado
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Datos de automóviles

Los siguientes datos fueron obtenidos para 74 modelos de coches:

X1 - precio
X2 - mpg (millas por galón)
X3 - altura (en pulgadas)
X4 - distancia entre asientos (distancia entre asiento delantero y trasero, en pulgadas)
X5 - espacio del maletero (en pies cúbicos)
X6 - peso (en libras)
X7 - longitud (en pulgadas)
X8 - diámetro de giro(distancia requerida para hacer un giro en U, en pies)
X9
- desplazamiento (en pulgadas cúbicas)

Es folnode3 d k 1 2.gif

Este conjunto de datos contiene precios (en USD) de 74 coches. La distribución de precios se realiza utilizando un diagrama de barras.  La variable precio está en el eje horizontal.  Los datos están dispuestos de forma aleatoria en la dirección vertical para una mejor visualización La mediana es representada en rojo y la media aritmética en magenta. Como puede verse, los dos valores casi coinciden,

Es folnode3 d k 1.gif

Para distribuciones simétricas, la mediana y la media aritmética son identicas. Esto parece que es la situación de nuestro ejemplo. Sin embargo, durante una revisión de los datos, se descubrió que uno de los datos no habia sido introducido correctamente. El valor 15 962 USD fue cambiado de forma incorrecta por 5 962 USD. El siguiente gráfico contiene los valores correctos:

Es folnode3 d k 2.gif

La mediana (debido a su robustez) no cambia, pero por otra parte, la media aritmética se ha incrementado significativamente, ya que es sensible a valores extremos. Las medidas fueron tomadas de nuevo despues de cierto tiempo con los siguientes resultados

Es folnode3 d k 3.gif

Ahora, existe un número de coches relativamente más caros.  La distribución de los precios es ahora asimétrica hacia la derecha. Estas observaciones más extremas mueven la media hacia la derecha mucho mas que a la mediana.  De este modo, en distribuciones asimétricas por la derecha, la media aritmética es mayor que la mediana.