Función de Distribución Empírica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La función de distribución empírica puede ser construida para datos que tienen una ordenación numérica natural. Si h\left(  x_{j}\right)  es la frecuencia absoluta de las observaciones de una variable discreta, entonces la frecuencia absoluta (o número) de observaciones que no superan dicho valor se denomina la frecuencia absoluta acumulada: H\left(  x_{j}\right)  =\sum_{s=1}^{j}h\left(  x_{s}\right)  ,\qquad
j=1,\ldots,k La frecuencia acumulada relativa se calcula como: F\left(  x_{j}\right)  =\frac{H\left(  x_{j}\right)  }{n}=\sum_{s=1}
^{j}f\left(  x_{s}\right)  ,\qquad j=1,\ldots,k Si la variable es continua y los datos estan agrupados en k clases, entonces las definiciones superiores se pueden aplicar, excepto que ahora debemos interpretar H(x_{j}) como la frecuencia de observaciones que no superan el límite superior de la clase j-esima.

Función de Distribución Empírica para Datos Discretos

Para la frecuencia relativa acumulada tenemos F\left(  x\right)  =\left\{
\begin{array}
[c]{ll}
0 & \text{ si }x<x_{1}\\
\sum_{s=1}^{j}f\left(  x_{s}\right)  & \text{ si }x_{j}\leq x<x_{j+1}\,,\quad
j=2,\ldots,k\\ 1 & \text{ si }x_{k}\leq x
\end{array}
\right. El gráfico de la función de distribución empírica es una función escalera monotonamente creciente, la altura de cada peldaño se corresponde con la en los puntos de ’salto’ x_{j}. Ejemplo: Número de personas en un hogar, 1990 datos

# personas por hogar f\left(
x_{j}\right)  F\left(  x_{j}\right)
1 0.350 0.350
2 0.302 0.652
3 0.167 0.819
4 0.128 0.947
\geq5 0.053 1.000

Es folimg58.gif

Si se crean funciones de distribución empíricas, no se está perdiendo información acerca de las frecuencias relativas de las observaciones, y por lo tanto se puede deshacer el proceso de acumulación: f\left(  x_{j}\right)  = F\left(  x_{j}\right)  -F\left(  x_{j-1}\right)  \, ,
\quad\text{si } j=1,\ldots,k \, ; F\left(  x_{0}\right)  =0 Supongamos que x_{l}<x_{u} son dos valores que la variable discreta puede tomar.  Entonces, el número o frecuencia de observaciones que toman un valor entre x_{l} y x_{u} se puede calcular como: F\left(  x_{u-1}\right)  -F\left(  x_{l}\right)

Función de Distribución Empírica para Datos Continuos Agrupados

Como para los datos discretos, la función de distribución empírica para datos continuos agrupados es una función de las frecuencias relativas acumuladas.  Pero en este caso, mas que usar una función escalera, lo que se hace es dibujar las frecuencias acumuladas en relación de los límites superiores de cada clase, para a continuación, unir los puntos con lineas rectas. Matemáticamente, la función de distribución empírica se puede escribir como:  F\left(  x \right)  = \left\{
\begin{array}
[c]{ll}
0 & \text{ si }x<x_{1}^{l}\\
\sum_{i=1}^{j-1}f\left(  x_{i}\right)  + \frac{x-x_{j}^{l}}{x_{j}^{u}
-x_{j}^{l}} \cdot f\left(  x_{j}\right)  & \text{ si } x_{j}^{l}\leq x<
x_{j}^{u}\, , \quad j=1,\ldots, k\\ 1 & \text{ si }x_{k}^{u}\leq x
\end{array}
\right. La razón de interpolar con lineas rectas es que se puede esperar que la distribución de puntos dentro de cada clase sea aproximadamente uniforme. Ejemplo: Vida de 100 bombillas

Elemento estadístico: bombillas
Variable estadística: vida en horas, variable metríca
Tamaño muestral n: 100
X: Vida (horas) h\left(
x_{j}\right)  f\left(  x_{j}\right)  H\left(
x_{j}\right)  F\left(  x_{j}\right)
0\leq
X<100 1 0.01 1 0.01
100\leq X<500 24 0.24 25 0.25
500\leq X<1000 45 0.45 70 0.70
1000\leq X<2000 30 0.30 100 1.00
Total 100 1.00

La función de distribución correspondiente:

Es folimg65.gif

Como se ha mencionado anteriormente, las lineas rectas que conectan los extremos de las clases reflejan interpolaciones lineales motivadas por el supuesto de que las observaciones estan distribuidas uniformemente dentro de cada clase. Vamos a ver esto, representando la parte variable de la función de distribución para x_{j}^{l}\leq x<x_{j}^{u}, \sum _{i=1}^{j-1}f\left( x_{i}\right) +\frac{x-x_{j}^{l}}{x_{j}^{u}-x_{j}^{l}}, para un intervalo fijo (clase) \left[ x_{j}^{l},x_{j}^{u}\right) ]. Evaluando en el límite inferior de la clase se tiene F\left( x_{j}^{l}\right)
=\sum_{i=1}^{j-1}f\left(  x_{i}\right)  +\frac{x_{j}^{l}-x_{j}^{l}}{x_{j}
^{u}-x_{j}^{l}}=\sum_{i=1}^{j-1}f\left(  x_{i}\right)  . Podemos substituir F\left(  x_{j}^{l}\right)  por \sum_{i=1}^{j-1}f\left(
x_{i}\right)  en la formula para la distribución de frecuencia, y se obtiene F\left(  x\right)  = F\left(  x_{j}^{l}\right)  + \frac{x-x_{j}^{l}}{x_{j}
^{u}-x_{j}^{l}} \quad\text{si }x_{j}^{l}\leq x< x_{j}^{u}\, , \quad
j=1,\ldots, k El siguiente gráfico representa el segmento lineal intra-clase

Es folimg67.gif

Es folnode3 b k 1 2.gif

El consumo de gasolina de 74 coches ha sido medido en millas por galón (MPG). Las mediciones son mostradas en una acumulada:

X: Consumo de gasolina Frecuencias Absol. Frecuencias Relat. Frecuencias Relat. Acumul.
(MPG) h\left(  x_{j}\right)  f\left(  x_{j}\right)  F\left(
x_{j}\right)
12\leq X<15 8 0.108 0.108
15\leq X<18 10 0.135 0.243
18\leq X<21 20 0.270 0.513
21\leq X<24 13 0.176 0.689
24\leq X<27 12 0.162 0.851
27\leq X<30 4 0.054 0.905
30\leq X<33 3 0.041 0.946
33\leq X<36 3 0.041 0.987
36\leq X<39 0 0.000 0.987
39\leq X<41 1 0.013 1.000
12\leq X<41 74 1.000

La función de distribución correspondiente:

Es folnode3 c k 2.gif

De nuevo, la interpolación lineal del límite inferior de las clases parte del supuesto de una distribución uniforme dentro de cada clase. La amplitud de las clases y los límites son construidos de modo que nos aproximemos a este supuesto lo más posible.  Esto nos permitirá conservar tanta información como sea posible acerca de la forma de los datos. Varias afirmaciones pueden extraerse a partir de la tabla anterior, por ejemplo: el 68.9 por ciento de los coches no pueden viajar más de 24 millas por galón.

Es folnode3 c k 1 2.gif

Las notas que 20 estudiantes han obtenido en el examen de estadística son: 2,2,4,1,3,2,5,4,2,4,3,2,5,1,3,2,2,3,5,4 La tabla de frecuencia nos da información acerca de la distribución de los datos:

X: nota Frecuencia Absoluta Frecuencia Relativa Frecuencia Relativa Acumulada
h\left(  x_{j}\right)  f\left(  x_{j}\right)  F\left(
x_{j}\right)
1 2 0.10 0.10
2 7 0.35 0.45
3 4 0.20 0.65
4 4 0.20 0.85
5 3 0.15 1.00

El gráfico de la frecuencias relativas acumuladas presenta la siguiente forma:

Es folnode3 c k 1.gif

Obsérvese que el gráfico (y por lo tanto la función) son continuas por la derecha. Cada círculo indica el valor de la función en el punto de salto. En el gráfico superior, el eje x recorre todos los números reales dentro de un rango, a pesar de que la variable aleatoria no toma otros valores que \{1,2,3,4,5\}. Por razones teóricas, la definición de función de distribución tambien asigna números (cero y uno, respectivamente) a los valores [1,5]. Se pueden deducir varias afirmaciones a partir de los datos resumidos en la tabla de frecuencia, por ejemplo.

  • El 65 por ciento de los estudiantes han alcanzado al menos una nota de 3.
  • El 15 por ciento (1.00-0.85) de los estudiantes alcanzaron la nota de 5.