Tabla de frecuencia bidimensional

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Sean: Variable X con valores x_i \, (i= 1,\dots,m)
variable Y con valores y_j \,(j=1,\dots,r)

Realizaciones m \cdot r

(x_i,y_j)={(X=x_i)\ \bigcap\ (Y=y_j)} El número de posibles valores es igual al máximo de las combinaciones de las posibles realizaciones de las dos variables (producto entre el número de valores de la variable X y el número de valores de la variable Y).

Frecuencia absoluta

La frecuencia absoluta es el número de unidades estadísticas que presentan la combianción de valores (x_i,y_j) h(x_i,y_j)=h_{ij}

Frecuencia relativa

La frecuencia relativa es la proporción de observaciones con la combinación especíifca de valores (x_i,y_j) f(x_i,y_j)=f_{ij}=h(x_i,y_j)/n

propiedades:

\sum^m_{i=1}\sum^r_{j=1}h(x_i,y_j)=n, \sum^m_{i=1}\sum^r_{j=1}f(x_i,y_j)=1 Una distribución de frecuencia bidimensional es el número total de todas las posibles combinaciones asi como sus frecuencias relativas y absolutas.

Tabla de contingencia:

La tabla de contingencia es la forma apropiada de representar la distribución de frecuencia común de dos variables nominales o ordinales (DM= distribución marginal):

Variable X DM X
y_i \cdots y_j \cdots y_r
x_1 h_{11} \cdots h_{1j} \cdots h_{1r} h_{1 \cdot}
\vdots \vdots \ddots \vdots \ddots \vdots \vdots
x_i h_{i1} \cdots h_{ij} \cdots h_{ir} h_{i \cdot}
\vdots \vdots \ddots \vdots \ddots \vdots \vdots
MD Y h_{}\cdot 1 \cdots h_{}\cdot j \cdots h_{\cdot r} h_{\cdot \cdot=n}

Ejemplo:

tabla de contingencia de 5x3 X - ocupación (medida en escala nominal) Y - actividad deportiva (medida en una escala nominal) n = 1000 trabajadores

ocupación X DM X
rara vez a veces regularmente
trabajador 240 120 70 430
asalariado 160 90 90 340
funcionario 30 30 30 90
agricultor 37 7 6 50
autoempleado 40 32 18 90
DM Y 570 279 214 1000

Tabla de correlación bidimensional

La tabla de correlación bidimensional es la forma apropiada de representar la distribución de frecuencia común de dos variables que están medidas con escala métrica:

i Variable X Variable Y
1 x_1 y_1
\vdots \vdots \vdots
i x_i y_i
\vdots \vdots \vdots
n x_n y_n

ejemplo:

Determinamos el ingreso neto mensual (medido con escala métrica) y el gasto en consumo (medido con escala métrica) de 10 hogares de dos personas:

hogar (i) 1 2 3 4 5 6 7 8 9 10
ingreso neto en DM (x_i) 3.500 5.000 4.300 6.100 1.000 4.800 2.900 2.400 5.600 4.100
gasto en consumo en DM (y_i) 2.000 3.500 3.100 3.900 900 3.000 2.100 1.900 2.900 2.100

Tienes la oportunidad de generar una distribución de frecuencia bidimensional, utilizando las variables de alguno de los siguientes conjuntos de datos:

Estudio

Para 107 estudiantes, se recogieron las siguientes variables: especialidad, género, edad, número de semestres, nacionalidad, situación social (muy buena/buena, satisfactoria, mala), situación psicológica (muy inestable, inestable, estable, muy estable) y situación en sus estudios (muy buena/buena, satisfactoria, mala).

Información

se preguntó a 941 personas se se subscribían a una revista. Al mismo tiempo, se recogieron las siguientes variables: situación laboral (empleado, no empleado), edad (usando los grupos de edades 18 - 29, 30 - 39, 40 - 49), educación (menos que bachillerato, bachillerato, universidad)

Gasolineras

Se observaron 700 gasolineras. Para describir su localización, se observó el tamaño de la ciudad (“pequeña" si menos de 100000, “grande" si al menos 100000 residentes) y el tipo carretera (nacional/autopista, carretara regional, calle principal). Más aún, también se observó el tipo de servicio (servicio completo, servicio medio) y las ventas (pequeñas, medias, grandes). Primero, se te pedirá que selecciones un grupo de datos. Después, para los datos elegidos, se mostrará en la pantalla las distribución de frecuencia bidimensional de las varibles elegidas. La base de datos de unos grandes almacenes tiene las siguientes variables recogidas para n
= 165 clientes elegidos aleatoriamente: lcl Variable& & posibles realizaciones

X genero & &1- hombre
& &2- mujer

Y método de pago & &1- metálico
& &2- tarjeta ATM
& &3- tarjeta de crédito

Z residencia & &1- Berlin
& &2- no en Berlín
A continuación, se muestra las tres posibles tablas de distribución de frecuencia bidimensional de estos datos. Se dan las frecuencias absolutas h_{ij} y frecuencias relativas f_{ij} (en paréntesis y redondedas a tres decimales). La distribución de frecuencia bidimensional de las varibles género y método de pago es una tabla de contingencia de 2\times3.

género (X) DM X
(y_1) (y_2) (y_3)
hombre (x_1) 31 (0,188) 32(0,194) 23(0,139 86 (0,521)
mujer (x_2) 30 (0,182) 29(0,176) 20 (0,121) 79 (0,479)
DM Y 61 (0,370) 61(0,370) 43 (0,260) 165

La tabla de frecuencia bidimensional para las variables género y residencia es una tabla de contingencia de 2\times2.

género (X) DM X
Berlín (z_1) no en Berlín (z_2)
hombre (x_1) 50 (0,303) 36 (0,218) 86 (0,521)
mujer (x_2) 37 (0,224) 42 (0,255) 79(0,429)
DM Y 87 (0,527) 78 (0,473) 165 (1,00)

La distribución de frecuencia bidimensional de las variables residencia y método de pago es una tabla de contingencia de 2\times3.

residencia (Z) DM X
(y_1) (y_2) (y_3)
Berlín (z_1) 44 (0,267) 22(0,133) 21(0,127) 87(0,527)
no en Berlín (z_2) 17(0,103) 39(0,237) 22(0,133) 78(0,473)
DM Y 62(0,370) 61(0,370) 43(0,260) 165(1,00)

Para n = 100 personas elegidas aleatoriamente se ha determinado quien fuma y si tienen cáncer de pulmón. Las variables son X - Fumador con resultados x_1 = si y x_2 = no Y - Cáncer de pulmón con resultados y_1 = si e y_2 = no La distribución de frecuencia bidimensional es una tabla de contingencia de 2\times2

cáncer de pulmón cáncer de pulmón DMX
Si(y_1) No(y_2)
Fumador si (x_1) 10 15 25 (h_{1 \cdot})
fumador no (x_2) 5 70 75 (h_2 \cdot)
MD Y 15 (h_{\cdot 1)} 85 (h_{\cdot 2}) 100 (n)

Los números de la tabla tiene el siguiente significado: Entre los fumadores hay 10 casos de cáncer de pulmón, y entre los no fumadores sólo 5 casos. Entre todas las personas encuestadas hay 25 fumadores, y 85 de los entrevitados no tienen cáncer de pulmón.

Realizaciones bidimensionales:

La variable X toma los valores x_i y simultaneamente la variable Y toma los valores y_j. El número total de posibles realizaciones es m \cdot si la variable X tiene m posibles resultados y la variable Y tiene r posibles realizaciones.

frecuencia absoluta:

Número de unidades estadísticas que toman los valores x_i e y_j.

frecuencia relativa:

Fracción de las unidades estadísticas que toman los valores x_i e y_j como proporción de n, el número de elemento en la población o la muestra. La forma apropiada de representar gráficamente una distribución de frecuencia bidimensional de variables nominal- y ordinal o varibles métricas o discretas que tienen pocas posibles realizaciones es la tabla de contingencia-. Sus celdas contienen o bien la frecuencia relativa o la absoluta. La distribución marginal es distribución respectiva de las varibles X e Y.