Análisis continuo y categórico de datos variables

9

Tengo tres variables:

  • distancia (continuo, rango variable infinito negativo a infinito positivo)
  • isLand (categórico discreto / booleano, rango variable 1 o 0)
  • ocupantes (categórico discreto, rango variable 0-7)

Quiero responder las siguientes preguntas estadísticas:

  • Cómo comparar distribuciones que tienen variables categóricas y continuas. Por ejemplo, me gusta determinar si la distribución de datos de la distancia frente a los ocupantes varía según el valor de isLand.
  • Dadas dos de las tres variables, ¿puedo predecir la tercera usando alguna ecuación?
  • ¿Cómo puedo determinar la independencia con más de dos variables?
Elpezmuerto
fuente
1
Recomiendo que divida esto en tres preguntas separadas.
Shane
En realidad, ahora que leo esto un poco más de cerca, veo que la respuesta para cada uno está muy relacionada.
Shane
Sentí que el meollo de la pregunta es comparar dos distribuciones diferentes, solo que enumero tres formas diferentes de hacerlo.
Elpezmuerto
Porque occupantslo que tienes es una variable ordinal, por lo que no lo consideraría categórico. Especialmente con 8 valores, es casi continuo.
Mike Dunlavey

Respuestas:

5

Recomendaría leer sobre modelos logísticos o log-lineales en particular, y métodos de análisis de datos categóricos en general. Las notas en el siguiente curso son bastante buenas para empezar: Análisis de datos discretos . El libro de texto de Agresti es bastante bueno. También puede considerar Kleinbaum para un comienzo rápido.

ars
fuente
De hecho, tengo el libro de texto de Agresti en mi escritorio en este momento y lo he estado usando. El problema es que no sabía qué metodología específica debería estar usando.
Elpezmuerto
2
@Elpezmuerto Muy brevemente, para complementar la respuesta de @ars, la pregunta 1 se puede responder con un diagrama condicional o enrejado, por ejemplo, algo así como dist ~ occ | isLandusar Lattice o ver la coplot()función en el vcdpaquete; esto es para fines exploratorios; la pregunta 2 requiere un modelo de predicción; dependiendo de la variable que considere como su resultado, puede ser una regresión logística (por ejemplo, si Y = isLand), una regresión lineal (por ejemplo, si Y = distancia), o directamente un modelo log-lineal que le permite clasificar su medición continua; la pregunta 3 es claramente un modelo log-lineal como lo sugiere @ars.
chl
1
@Elpezmuerto @ars Gracias al trabajo de Laura Thompson, el libro de Agresti también está disponible en R, j.mp/9fXheu :-)
chl
2
@chl: ¡es un gran descubrimiento! Gracias. @Elpezmuerto: Hay una serie de ejemplos en Agresti sobre los cangrejos: estoy bastante seguro de que hay una variable continua (¿tamaño de cangrejo?) Junto con un color (rango) y un booleano (no se puede recordar). Muy cerca de su caso, probablemente sea instructivo leer esos ejemplos que abarcan al menos 2 capítulos (un capítulo es regresión logística, creo).
ars
@ars Estos son esp. capítulos 4 y 5, con el ancho y el peso del caparazón como variables continuas y la condición de la columna vertebral como otra variable categórica (ordinal), utilizada en Poisson y la regresión logística :)
chl
2
  1. Para examinar la relación entre un factor continuo y categórico, un buen comienzo es usar diagramas de recuadros, contiguos a la izquierda, categóricos en la parte inferior. ¿Son diferentes los medios? Use ANOVA para verificar.

  2. Para examinar la relación entre factores categóricos, un buen comienzo es usar un diagrama de mosaico, así como una tabla de contingencia. Puede agrupar primero y luego hacer parcelas separadas.

  3. Para predecir los ocupantes, la regresión logística ordinal es probablemente el mejor camino a seguir.

  4. Para predecir isLand, la regresión logística (binomial) debería ser suficiente.

  5. Para predecir la distancia, la regresión OLS funcionará.

Neil McGuigan
fuente