Distribución de frecuencia para datos continuos

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Dada una muestra x_{1},x_{2},\ldots,x_{n} de una variable continua X  podemos agrupar los datos en k categorias o clases donde los extremos de cada clase se denotan como x_{1}^{l},x_{1}^{u}=x_{2}^{l},x_{2}^{u}=x_{3}^{l},\ldots,x_{k}^{u} y la amplitud del intervalo viene dada como \Delta x_{j}=x_{j}^{u}-x_{j}^{l} (j=1,\ldots,k).   Véase que el extremo superior de una clase es igual al extremo inferior de la clase siguiente. Una observación x_{i} pertenece a la clase j, si x_{j}^{l}\leq x_{i}<x_{j}
^{u}. Puesto que dentro de una categoria existe un rango bastante amplio de posibles valores, nos centraremos unicamente en el punto medio y lo denotaremos por x_{j}.  (Comparar esta situación con la del caso de los datos discretos donde x_{j} se refería al valor de la categoría.) Una vez más, el subindice j corresponde a la categoría x_{j}\,,\,\,j=1,...,k y el subindice i  se refiere a las observaciones x_{i}\,\,,i=1,...,n.

Tabla de frecuencias

Una tabla de frecuencias para proporciona la distribución de frecuencias sobre todas las clases.

Clase # Clases Frecuencia Absoluta Frecuencia Relativa
1 x_{1}^{l}\leq X<x_{1}^{u} h\left(  x_{1}\right)  f\left(
x_{1}\right)
2 x_{2}^{l}\leq X<x_{2}^{u} h\left(  x_{2}\right)  f\left(
x_{2}\right)
\vdots \vdots \vdots \vdots
j x_{j}^{l}\leq X<x_{j}^{u} h\left(  x_{j}\right)  f\left(
x_{j}\right)
\vdots \vdots \vdots \vdots
k x_{k}^{l}\leq X<x_{k}^{u} h\left(  x_{k}\right)  f\left(
x_{k}\right)
Total n 1

Presentación Gráfica

Histograma

En un histograma, los datos continuos, que han sido agrupados en categorías, son representados por rectangulos. Los extremos de las clases se muestran en el eje horizontal. Como es posible que las clases tengan amplitudes diferentes, no podemos representar simplemente las frecuencias mediante la altura de las barras como se hizo para el caso del histograma de frecuencia. Debemos corregir cada categoría por su amplitud.  Los rectangulos son construidos de tal forma que su área es igual a la correspondiente frecuencia absoluta o relativa. \widehat{h}\left(  x_{j}\right)  \cdot\Delta x_{j}=\frac{h\left(
x_{j}\right)  }{x_{j}^{u}-x_{j}^{l}}\cdot\left(  x_{j}^{u}-x_{j}^{l}\right)
=h\left(  x_{j}\right) o \widehat{f}\left(  x_{j}\right)  \cdot\Delta x_{j}=\frac{f\left(
x_{j}\right)  }{x_{j}^{u}-x_{j}^{l}}\cdot\left(  x_{j}^{u}-x_{j}^{l}\right)
=f\left(  x_{j}\right) Si las amplitudes de las clases son idénticas, entonces las frecuencias son también proporcionales a las alturas de los rectángulos. Los rectángulos se dibujan de forma contigua unos con otros, reflejando los extremos de clase que son comunes x_{j}^{u}=x_{j+1}^{l}. Ejemplo: histograma de 716 observaciones de ingreso mensual (DM): Es fe 22 1.gif

Representación Tronco-Hoja

En la representación tronco-hoja los datos no son resumidos utilizando objetos geométricos. Los valores son ordenados de forma que den una imagen preliminar de la estructura de los datos. El principio que se aplica es similar al aplicado en el diagrama de barras, pero los valores que pertenecen a una determinada categoria son recogidos horizontalmente en lugar de ser representados mediante barras verticales. Las categorías o clases son establecidas mediante la división de las observaciones numéricas en dos partes: uno o más de los dígitos delanteros componen el tronco, el resto de dígitos son denominados hoja. Todas las observaciones con los mismos dígitos en el tronco pertenecen a la misma clase. Las frecuencias de las clases son proporcionales a la longitud de las lineas. Este principio es mejor entendido si se aplica a datos reales.  Considerese la siguiente colección de observaciones : 32,32,35,36,40,44,47,48,53,57,57,100,105 Los ’troncos’ consisten en los siguientes ’dígitos delanteros’: 3,4,5,10.  Corresponden al número que sale de dividir el número entre “diez”.  El diagrama tronco-hoja resultante se muestra a continuación.. r|r|l Frecuencia & Troncos & Hojas
4 & 3 & 2256
4 & 4 & 0478
3 & 5 & 377
2 & 10 & 05
Mostrando los datos gráficamente (o, como en este caso, cuasi-graficamente), podemos extraer más información relevante que en otro caso.  ( El cerebro humano es comparativamente eficiente en almacenar y comparar formatos visuales.) El gráfico superior tronco-hoja parece bastante simple. Vamos a intentar refinarlo. Se puede lograr esto dividiendo cada una de las filas de los troncos en dos, la primera para los siguientes digitos que estan en el rango de 1 a 4, y la segunda para los de 5 a 9. Marcaremos el primer grupo con l para bajo, y el segundo con h para alto. En el gráfico tronco-hoja resultante los datos aparecen aproximadamente uniformemente distribuidos: r|rc|l Frecuencia & & Hojas
2 & 3 & l & 22
2 & 3 & h & 56
2 & 4 & l & 04
2 & 4 & h & 78
1 & 5 & l & 3
2 & 5 & h & 77
1 & 10 & l & 0
1 & 10 & h & 5
Todavía parece que existe un aparente hueco entre los troncos 5 y 10.   Esta es efectivamente una de las ventajas de los gráficos y es que son útiles tanto en dar una idea de la concentración de datos en determinadas regiones asi como divisar observaciones extremas o extraordinarias. Denominando por 100 y 105 los valores extremos, ahora, obtenemos una util mejora en el gráfico tronco-hoja:

Frecuencia Hojas
2 3 l 22
2 3 h 56
2 4 l 04
2 4 h 78
1 5 l 3
2 5 h 77

Para un ejemplo con datos que representa una estructura más rica de concentración y una estructura de troncos mas detallada ver

Gráfico de puntos

Los gráficos de puntos (o nube de puntos) son usados para representar gráficamente conjuntos de datos pequeños. Para cada observación, un ”punto” (un círculo o cualquier otro símbolo) es dibujado. Algunos datos toman los mismos valores. Esta igualdad implica una ’sobrerepresentación’ y esto distorsionaría la representación de las frecuencias. Por lo tanto, los puntos estan diseminados en la dimensión vertical de forma aleatoria. El eje de ordenadas contiene de este modo números diseminados de forma uniforme en el intervalo [0,1]. A condición de que el tamaño de los símbolos sea suficientemente pequeño para un tamaño de muestra dado, ahora, resulta complicado que los puntos se solapen unos con otros. Ejemplo:Los datos consisten en 150 observaciones de salarios estudiantiles en USA. En la parte superior del panel, se muestra un gráfico de puntos para las 150 observaciones. En la parte inferior, se usan colores para diferenciar el género de las personas. Ya que las perturbaciones aleatorias en la dimensión vertical son diferentes en los dos paneles, los puntos estan localizados en posiciones ligeramente diferentes. Es folimg49.gif En este ejemplo interactivo las observaciones de una variable son resumidas en un histograma. Tu puedes elegir la variable que se va a representar a partir de tres diferentes bases de datos. También puedes modificar el tamaño de las clases. Es folnode3 b k 1 2.gif El consumo de gasolina de 74 coches ha sido medido en millas por galón (MPG). Las mediciones se muestran en la :

X: Consumo de Gasolina (MPG) Frecuencias Absolutas Frecuencias Relativas
h\left(  x_{j}\right)  f\left(  x_{j}\right)
12\leq X<15 8 0.108
15\leq X<18 10 0.135
18\leq X<21 20 0.270
21\leq X<24 13 0.176
24\leq X<27 12 0.162
27\leq X<30 4 0.054
30\leq X<33 3 0.041
33\leq X<36 3 0.041
36\leq X<39 0 0.000
39\leq X<41 1 0.013
12\leq X<41 (Total) 74 1.000

Utilizando una amplitud de clase constante de 3 MPG, la frecuencia de distribución se muestra en el siguiente histograma. Es folnode3 b k 1.gif Como resulta evidente, tanto para la tabla de frecuencia como para el histograma, la proporción mas amplia de coches está en la categoría 18-21 MPG.

Datos

Elementos estadísticos: personas con nacionalidad alemana, residentes en casas privadas, edad mínima 18
Variable estadística: ingreso neto mensual
tamaño muestral n 716

Histograma

En el siguiente histograma, las clases son niveles de ingreso con la misma amplitud.

Amplitud: 800 DM Amplitud: 500 DM
Es fe 22 2.gif
Amplitud: 250 DM Amplitud: 100 DM
Es fe 22 4.gif

Si se reduce el tamaño medio de las clases (y por lo tanto se incrementa el número de clases) esto nos proporciona un dibujo más detallado de la distribución del ingreso. Observese como las frecuencias absolutas disminuyen cuando las amplitudes de las clases se vuelven mas reducidas. Más aun, si se incrementa el número de clases disminuye la suavidad del gráfico. Aparecen huecos adiccionales cuanto mas imformación se muestra acerca de los datos. En el hecho de elegir la amplitud de la clase estamos poniendo en una balanza dos criterios: la información esencial acerca de la población que puede ser facilmente expresada en un gráfico suave, con pocas clases, y la gran cantidad de detalles contenida en un histograma con un número de clases grande. Histogramas separados por género utilizando una amplitud de 500 DM:

Hombre, n=451 Mujer, n=265
Es fe 22 6.gif

Diagrama tronco-hoja

El siguiente gráfico “tronco-hoja” muestra el ingreso de las 716 observaciones. lr@c@l Frecuencia & Tronco & y & Hoja
2 & 0 & * & 1
21 & 0 & t & 2233333333
35 & 0 & f & 44444444555555555
47 & 0 & s & 66666666666666667777777
41 & 0 & . & 88888888888899999999
45 & 1 & * & 0000000000000000111111
38 & 1 & t & 2222222222222233333
63 & 1 & f & 4444444444455555555555555555555
45 & 1 & s & 6666666666667777777777
72 & 1 & . & 88888888888888888888888889999999999
78 & 2 & * & 00000000000000000000000000000001111111
46 & 2 & t & 22222222222222333333333
32 & 2 & f & 444555555555555
28 & 2 & s & 66666667777777
23 & 2 & . & 88888889999
28 & 3 & * & 00000000000011
10 & 3 & t & 2233
16 & 3 & f & 44555555
8 & 3 & s & 6677
5 & 3 & . & 88
12 & 4 & * & 00000&
4 & 4 & t & 2&
14 &
3 &

Este gráfico tronco-hoja está más detallado que el dibujado anterior. Los troncos, especificados por el término inicial, estan divididos en cinco subclases, correspondientes a los distintos valores en el primero de los dígitos que va a continuación, es decir, dígito hoja: La primera linea de cada tronco, denotada por *, muestra todas las hojas comenzando por el 0 o 1, el segundo (t) los que comienzan por 2 o 3, y asi sucesivamente. Asi como la amplitud del tronco se especifica que es 1000, el primer dígito hoja cuenta las centenas. Con el fin de condesar la muestra, cada dos observaciones que pertenecen a la misma clase (esto es, son el mismo dígito hoja) estan representadas por sólo un número (hoja). Por ejemplo, seis de las 716 personas encuestadas ganan entre 2400 y 2500 marcos, denotando por ‘444’ en la linea ‘2 f’. El símbolo (&) denota pares de observaciones que abarcan los dos hojas representadas por cada linea. Por ejemplo, 4 personas ganan entre 4200 y 4400 marcos. De acuerdo con la idea de que cada hoja representa dos casos, hay dos personas con ingresos netos en el intervalo [4200,4300). Las otras dos personas, simbolizadas por &, serían mostradas por la secuencia ‘23’, si una hoja representa una observación. Por lo tanto, una de las dos personas pertenece al nivel de ingresos [4200,4300), y la otra al nivel [4300,4400). Observese que los 17 valores ‘extremos’ son mostrados separadamente para resaltar su alejamiento con respecto las clases más condensadas.