Tengo datos clasificados cruzados en una tabla de 2 x 2 x 6. Llamemos a las dimensiones response
, A
y B
. Encajo una regresión logística a los datos con el modelo response ~ A * B
. Un análisis de la desviación de ese modelo dice que ambos términos y su interacción son significativos.
Sin embargo, al observar las proporciones de los datos, parece que solo 2 o más niveles B
son responsables de estos efectos significativos. Me gustaría probar para ver qué niveles son los culpables. En este momento, mi enfoque es realizar 6 pruebas de chi-cuadrado en tablas de 2 x 2 response ~ A
, y luego ajustar los valores de p de esas pruebas para comparaciones múltiples (usando el ajuste de Holm).
Mi pregunta es si hay un mejor enfoque para este problema. ¿Existe un enfoque de modelado más basado en principios o un enfoque de comparación de prueba de chi-cuadrado múltiple?
Respuestas:
Debes buscar en "particionar chi-cuadrado". Esto es similar en lógica a la realización de pruebas post-hoc en ANOVA. Le permitirá determinar si su prueba general significativa es atribuible principalmente a diferencias en categorías particulares o grupos de categorías.
Un rápido google apareció en esta presentación, que al final discute métodos para particionar chi-cuadrado.
http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf
fuente
El enfoque sin principios es descartar los datos desproporcionados, volver a ajustar el modelo y ver si las razones de probabilidad logit / condicional para la respuesta y A son muy diferentes (controlando para B). Esto podría decirle si hay motivo de preocupación. Agrupar los niveles de B es otro enfoque. En líneas más basadas en principios, si le preocupan las proporciones relativas que inducen la paradoja de Simpson, puede analizar las razones de probabilidades condicionales y marginales de respuesta / A y ver si se invierten.
Para evitar comparaciones múltiples en particular, lo único que se me ocurre es usar un modelo jerárquico que tenga en cuenta los efectos aleatorios en todos los niveles.
fuente
No sé exactamente cuáles son sus objetivos, o por qué son lo que son. Pero en lugar de las pruebas de hipótesis, generalmente recomiendo centrar la atención en las predicciones y los intervalos de confianza.
fuente
La prueba post hoc puede ajustarse a su problema. La función chisqPostHoc () en las pruebas R para diferencias significativas entre todos los pares de poblaciones en una prueba de chi-cuadrado. Aunque no lo he usado, este enlace puede ser útil. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html
Otra alternativa puede ser la función chisq.desc () del paquete EnQuireR.
fuente