Tengo una tabla con cuatro grupos (4 grupos de IMC) como variable independiente (factor). Tengo una variable dependiente que es "porcentaje de tabaquismo materno en el embarazo".
¿Es permisible usar ANOVA para esto o tengo que usar chi-cuadrado o alguna otra prueba?
Depende de qué tan cerca estén las respuestas dentro de los diferentes grupos a 0 o 100%. Si hay muchos valores extremos (es decir, muchos valores acumulados en 0 o 100%), esto será difícil. (Si no conoce los "denominadores", es decir, el número de sujetos a partir de los cuales se calculan los porcentajes, entonces no puede usar enfoques de tabla de contingencia de todos modos). Si los valores dentro de los grupos son más razonables, puede transformar el variable de respuesta (p. ej. clásica arcsine-square-root o quizás logit transform). Hay una variedad de enfoques gráficos (preferidos) y de prueba de hipótesis nulas (menos preferidos) para decidir si sus datos transformados cumplen adecuadamente los supuestos de ANOVA (homogeneidad de varianza y normalidad, el primero más importante que el segundo). Pruebas gráficas: gráficos de caja (homogeneidad de varianza) y gráficos QQ (normalidad) [este último debe hacerse dentro de los grupos o en los residuos]. Pruebas de hipótesis nulas: por ejemplo, prueba de Bartlett o Fligner (homogeneidad de varianza), Shapiro-Wilk, Jarque-Bera, etc.
fuente
Debe tener los datos sin procesar, de modo que la variable de respuesta sea 0/1 (no humo, humo). Entonces puede usar la regresión logística binaria. No es correcto agrupar el IMC en intervalos. Los puntos de corte no son correctos, probablemente no existan, y no está probando oficialmente si el IMC está asociado con el tabaquismo. Actualmente está probando si el IMC con gran parte de su información descartada está asociado con el tabaquismo. Encontrará que especialmente los intervalos externos de IMC son bastante heterogéneos.
fuente
Si elige hacer un ANOVA ordinario en datos proporcionales, es crucial verificar la suposición de variaciones de error homogéneas. Si (como es común con los datos porcentuales), las variaciones de error no son constantes, una alternativa más realista es intentar la regresión beta, que puede explicar esta heterocedasticidad en el modelo. Aquí hay un documento que discute varias formas alternativas de tratar con una variable de respuesta que es un porcentaje o proporción: http://www.ime.usp.br/~sferrari/beta.pdf
Si usa R, el paquete betareg puede ser útil.
fuente