Tengo tres variables:
- distancia (continuo, rango variable infinito negativo a infinito positivo)
- isLand (categórico discreto / booleano, rango variable 1 o 0)
- ocupantes (categórico discreto, rango variable 0-7)
Quiero responder las siguientes preguntas estadísticas:
- Cómo comparar distribuciones que tienen variables categóricas y continuas. Por ejemplo, me gusta determinar si la distribución de datos de la distancia frente a los ocupantes varía según el valor de isLand.
- Dadas dos de las tres variables, ¿puedo predecir la tercera usando alguna ecuación?
- ¿Cómo puedo determinar la independencia con más de dos variables?
categorical-data
continuous-data
Elpezmuerto
fuente
fuente
occupants
lo que tienes es una variable ordinal, por lo que no lo consideraría categórico. Especialmente con 8 valores, es casi continuo.Respuestas:
Recomendaría leer sobre modelos logísticos o log-lineales en particular, y métodos de análisis de datos categóricos en general. Las notas en el siguiente curso son bastante buenas para empezar: Análisis de datos discretos . El libro de texto de Agresti es bastante bueno. También puede considerar Kleinbaum para un comienzo rápido.
fuente
dist ~ occ | isLand
usar Lattice o ver lacoplot()
función en elvcd
paquete; esto es para fines exploratorios; la pregunta 2 requiere un modelo de predicción; dependiendo de la variable que considere como su resultado, puede ser una regresión logística (por ejemplo, si Y = isLand), una regresión lineal (por ejemplo, si Y = distancia), o directamente un modelo log-lineal que le permite clasificar su medición continua; la pregunta 3 es claramente un modelo log-lineal como lo sugiere @ars.Para examinar la relación entre un factor continuo y categórico, un buen comienzo es usar diagramas de recuadros, contiguos a la izquierda, categóricos en la parte inferior. ¿Son diferentes los medios? Use ANOVA para verificar.
Para examinar la relación entre factores categóricos, un buen comienzo es usar un diagrama de mosaico, así como una tabla de contingencia. Puede agrupar primero y luego hacer parcelas separadas.
Para predecir los ocupantes, la regresión logística ordinal es probablemente el mejor camino a seguir.
Para predecir isLand, la regresión logística (binomial) debería ser suficiente.
Para predecir la distancia, la regresión OLS funcionará.
fuente