¿Usando ANOVA en porcentajes?

13

Tengo una tabla con cuatro grupos (4 grupos de IMC) como variable independiente (factor). Tengo una variable dependiente que es "porcentaje de tabaquismo materno en el embarazo".

¿Es permisible usar ANOVA para esto o tengo que usar chi-cuadrado o alguna otra prueba?

dibujó
fuente

Respuestas:

21

Hay una diferencia entre tener una variable binaria como su variable dependiente y tener una proporción como su variable dependiente.

  • Variable dependiente binaria :

    • Esto suena como lo que tienes. (es decir, cada madre fumaba o no fumaba)
    • En este caso no usaría ANOVA. La regresión logística con alguna forma de codificación (quizás codificación ficticia) para la variable predictora categórica es la opción obvia si está conceptualizando la variable binaria como la variable dependiente (de lo contrario, podría hacer chi-cuadrado).
  • Proporción como variable dependiente :

    • Esto no suena como lo que tienes. (es decir, no tiene datos sobre la proporción del tiempo de vigilia total que una madre fumaba durante el embarazo en una muestra de mujeres embarazadas que fumaban).
    • En este caso, ANOVA y los enfoques de modelo lineal estándar en general pueden o no ser razonables para sus propósitos. Vea la respuesta de @Ben Bolker para una discusión de los problemas.
Jeromy Anglim
fuente
Para una variable dependiente binaria, en el caso de que solo tenga datos de resumen para las proporciones binarias (es decir, # en los grupos A, B y C, y el # de éxitos en el grupo A, B y C), y no los datos en bruto reales, ¿cómo podemos usar la regresión logística? Solo estoy familiarizado con su uso con los datos sin procesar.
Bryan
15

Depende de qué tan cerca estén las respuestas dentro de los diferentes grupos a 0 o 100%. Si hay muchos valores extremos (es decir, muchos valores acumulados en 0 o 100%), esto será difícil. (Si no conoce los "denominadores", es decir, el número de sujetos a partir de los cuales se calculan los porcentajes, entonces no puede usar enfoques de tabla de contingencia de todos modos). Si los valores dentro de los grupos son más razonables, puede transformar el variable de respuesta (p. ej. clásica arcsine-square-root o quizás logit transform). Hay una variedad de enfoques gráficos (preferidos) y de prueba de hipótesis nulas (menos preferidos) para decidir si sus datos transformados cumplen adecuadamente los supuestos de ANOVA (homogeneidad de varianza y normalidad, el primero más importante que el segundo). Pruebas gráficas: gráficos de caja (homogeneidad de varianza) y gráficos QQ (normalidad) [este último debe hacerse dentro de los grupos o en los residuos]. Pruebas de hipótesis nulas: por ejemplo, prueba de Bartlett o Fligner (homogeneidad de varianza), Shapiro-Wilk, Jarque-Bera, etc.

Ben Bolker
fuente
11

Debe tener los datos sin procesar, de modo que la variable de respuesta sea 0/1 (no humo, humo). Entonces puede usar la regresión logística binaria. No es correcto agrupar el IMC en intervalos. Los puntos de corte no son correctos, probablemente no existan, y no está probando oficialmente si el IMC está asociado con el tabaquismo. Actualmente está probando si el IMC con gran parte de su información descartada está asociado con el tabaquismo. Encontrará que especialmente los intervalos externos de IMC son bastante heterogéneos.

Frank Harrell
fuente
2
@Frank: ¿por qué "no es correcto" agrupar el IMC? Esto parece perfectamente razonable, siempre y cuando los resultados se interpreten adecuadamente. Bien podría estar probando, por ejemplo, si tener "bajo peso", "peso saludable", "sobrepeso" y "obesidad" están asociados con el tabaquismo, donde estos términos se definen por los rangos de IMC. No veo "mal" aquí.
probabilidadislogica
Creo que el OP está trabajando con un conjunto de datos de instrucción común y puede no tener el IMC sin procesar. Si bien generalmente no es ideal para discretizar regresores continuos, no es "incorrecto". Incluso puede ser útil recurrir a esto cuando sospechamos que las mediciones son ruidosas y no hay otro recurso. De hecho, la hipótesis real que nos gustaría probar es si la obesidad está relacionada con fumar; El IMC es solo una forma de medir la obesidad (y tiene sus problemas por lo que entiendo).
JMS
44
Incluso cuando las mediciones son ruidosas, analizar variables como continuas es superior. La categorización del IMC crea más problemas de los que pueden solucionar diferentes opciones de análisis. De hecho, las estimaciones sobre la categorización ya no tienen una interpretación científica. Una cantidad científica es aquella que tiene un significado fuera del experimento actual. Encontrará que las estimaciones grupales (por ejemplo, las probabilidades de registro de que Y = 1 para intervalos altos frente a bajos de X) son funciones de todo el conjunto de IMC observados. Por ejemplo, si agregara un IMC más alto o extremadamente bajo a la muestra, los "efectos" se harían más fuertes.
Frank Harrell
Para aquellos que han instalado R y RStudio, se puede encontrar una demostración interactiva en biostat.mc.vanderbilt.edu/BioMod - vea la marca verde NUEVA. Debe cargar el script en RStudio y también instalar el paquete Hmisc.
Frank Harrell
"Incluso cuando las mediciones son ruidosas, analizar las variables como continuas es superior" Esto es simplemente incorrecto (la generalidad, es decir, generalmente es cierto). Imagine que tiene una covariable continua donde el error en su medición aumenta con su magnitud, por ejemplo. Por supuesto, lo mejor que puede hacer es modelar el error u obtener mejores mediciones, etc. Pero decir que es incorrecto es simplemente una declaración demasiado fuerte como para hacerla.
JMS
3

Si elige hacer un ANOVA ordinario en datos proporcionales, es crucial verificar la suposición de variaciones de error homogéneas. Si (como es común con los datos porcentuales), las variaciones de error no son constantes, una alternativa más realista es intentar la regresión beta, que puede explicar esta heterocedasticidad en el modelo. Aquí hay un documento que discute varias formas alternativas de tratar con una variable de respuesta que es un porcentaje o proporción: http://www.ime.usp.br/~sferrari/beta.pdf

Si usa R, el paquete betareg puede ser útil.

Will Townes
fuente