Relação entre Variáveis Nominais (Contingência)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


O ponto de partida para a análise das relações entre duas variáveis nominais e é a distribuição de freqüência conjunta de e colocada em uma tabela de contingência, incluindo as freqüências absolutas ou as freqüências relativas . Como nós mostramos na seção ”características de distribuições bi-dimensionais”, a freqüência relativa para a aparência conjunta de realizações e – no caso de independência – é igual ao produto das freqüências relativas da distribuição marginal de ambas as variáveis: and Nós podemos calcular agora uma quantidade auxiliar - a contingência quadrática, representada por :   Os numeradores das somas acima formam os desvios quadráticos das freqüências absolutas (relativas) observadas a partir das freqüências absolutas (relativas) esperadas (se as variáveis forem independentes). Divindindo-se pelas freqüências absolutas (relativas) esperadas (se as variáveis forem independentes) nós obtemos uma estandardização. Nós usamos a contingência quadrática para calcular o coeficiente de contingência da seguinte maneira: O coeficiente de contingência fornece uma medida de força para a relação entre variáveis nominais.  ; onde . Se o coeficiente de contingência iguala a zero, nós temos independência estatística. O coeficiente de contingência quase nunca alcança 1, mesmo quando existe um relacionamento perfeito entre ambas as variáveis, porque o tamanho amostral é sempre maior que 0 e, portanto, o denominador é sempre maior que o numerador. Para resolver este problema e para ser capaz de alcançar um valor 1 no caso de um relacionamento perfeito, nós usamos freqüentemente o coeficiente de contingência corrigido, que é calculado da seguinte maneira:

Exemplo:

Nós queremos analizar se existe um relacionamento entre fumar e câncer de pulmão. Nós usamos a seguinte tabela de contingência:

DM
sim () não ()
fumantes () 10 15 25
não fumantes () 5 70 75
DM 15 85 100

O coeficiente de contingência corrigido de 0.53 é uma evidência para um relacionamento entre fumar e câncer de pulmão. Agora você tem a oportunidade de gerar uma distribuição de freqüência usando as variáveis de um dos seguintes conjuntos de dados:

Estudo

Para 107 esudante, as seguintes variáveis foram gravadas: área de estudo, sexo, idade, número de semestres, cidadania, situação social (muito boa/boa, satisfatória, ruim), situação psicológica (muito instável, instável, estável, muito estável) e avaliação dos seus estudos (muito bom/bom, satisfatório, ruim).

Informações

941 pessoas foram perguntadas se elas são assinantes de uma revista. Ao mesmo tempo, as seguintes variáveis foram gravadas: status de emprego (empregado, desempregado), idade (usando grupos de idade 18-29, 30-39, 40-49), educação (escola primária, escola secundária, terceiro grau, universidade).

Postos de gasolina

700 postos de gasolina foram observados. Para descrever sua localização, tamanho da cidade (“pequena” caso menor que 100.000, ou “grande” caso pelo menos 100.000 habitantes) e o tipo de rua (rodovia, estrada municipal, rua principal) foram gravados. Além do mais, o tipo de serviço (serviço completo, serviço de auto-atendimento) e vendas (baixa, média, alta) foram observados. Primeiramente, você irá ter que selecionar uma das variáveis dos conjuntos de dados. Então, para cada conjunto escolhido, as distribuições de freqüência bi-dimensionais para as variáveis selecionadas terão que ser mostradas na janela de resultados, assim como a estatística e os . A conjunto de dados “lojas de departamento” contém as seguintes variáveis gravadas para clientes aleatoriamente selecionados:

Variável relalizações possíveis
sexo - masculino
- feminino
método de pagamento - dinheiro
- cartão de débito
- cartão de crédito
residência - Berlim
- fora de Berlim

Abaixo, as três distribuições de freqüência bi-dimensionais possíveis que podem ser construídas destes dados são dadas. Freqüências absolutas e freqüências relativas (em parênteses e arredondadas para três casas decimais) são dadas. A distribuição de freqüência bi-dimensional para as variáveis sexo e método de pagamento é uma tabela de contingência 23.

sexo DM
masculino 31 (0.188) 32 (0.194) 23 (0.139 86 (0.521)
feminino 30 (0.182) 29 (0.176) 20 (0.121) 79 (0.479)
DM 61 (0.370) 61 (0.370) 43 (0.260) 165 (1.00)
Estatística 0.08
Coeficiente de contingência 0.02
Coeficiente de contingência corrigido 0.03

O coeficiente de contingência corrigido de 0.03 mostra que existe apenas um fraco relacionamento entre sexo e método de pagamento. A distribuição de freqüência bi-dimensional para as variáveis sexo e residência é uma tabela de contingência 22.

sexo DM
Berlim fora de Berlim
masculino 50 (0.303) 36 (0.218) 86 (0.521)
feminino 37 (0.224) 42 (0.255) 79 (0.429)
DM 87 (0.527) 78 (0.473) 165 (1.00)
Estatística 2.11
Coeficiente de contingência 0.11
Coeficiente de contingência corrigido 0.16

O coeficiente de contingência corrigido de 0.16 mostra que existe apenas um fraco relacionamento entre sexo e residência. A freqüência de distribuição bi-dimensional para as variáveis residência e método de pagamento é uma tabela de contingência 23.

residência DM
Berlim 44 (0.267) 22 (0.133) 21 (0.127) 87 (0.527)
fora de Berlim 17 (0.103) 39 (0.237) 22 (0.133) 78 (0.473)
DM 61 (0.370) 61 (0.370) 43 (0.260) 165 (1.00)
Estatística 16.27
Coeficiente de contingência 0.30
Coeficiente de contingência corrigido 0.42

O coeficiente de contingência corrigido de 0.42 – sendo consideravelmente maior que nos dois casos anteriores – mostra que existe um relacionamento médio forte entre residência e método de pagamento.