¿Hay alguna referencia que legitime el uso de la prueba z sin agrupar para comparar dos proporciones?

8

La prueba z para comparar dos proporciones es z=p^1p^2Var(p^1p^2) . Por lo general, se define que

Var(p^1p^2)=p^(1p^)(1/n1+1/n2),

dónde

p^=n1p^1+n2p^2n1+n2.

¿Hay alguna referencia escrita que me legitime para usar la varianza no agrupada, es decir

Var(p^1p^2)=p^1(1p^1)n1+p^2(1p^2)n2?
vidrioso
fuente

Respuestas:

8

Hay bastante discusión sobre esto en el sitio AP .

Puede usar cualquier estadística que desee, siempre que tenga claro lo que hace y observe la distribución nula adecuada para calcular los valores p o umbrales.

Pero algunas estadísticas son mejores que otras; en este caso, estaría buscando (a) distribución nula fácilmente calculada y (b) potencia para detectar la diferencia.

Pero no sé por qué favorecería la varianza no agrupada sobre la varianza agrupada para la prueba, aunque podría ser preferible al calcular un intervalo de confianza para la diferencia.

Karl
fuente
+1 Esa fue una buena discusión que encontraste. Sin embargo, parece no llegar realmente a abordar la cuestión, que es si de alguna manera la estadística combinada podría corregirse para obtener el tamaño de prueba deseado y, tal vez, producir mayor potencia. Para resolver este problema, he proporcionado una respuesta por separado.
whuber
Su enlace no va a una discusión; va a una página con el punto de vista de Charles Peltier. No estoy seguro de por qué esta es la respuesta seleccionada, ya que no responde nada para mí. Use cualquier estadística que no sea lo suficientemente concreta.
Jarad
2
@Jarad Una definición de la palabra "discusión" es "un tratamiento detallado de un tema en particular"; a eso me refería. La respuesta seleccionada es elegida por la persona que hace la pregunta. Al "usar cualquier estadística que desee", me refería a la parte de la pregunta "... referencia que me legitima ...".
Karl
9

La varianza no agrupada tiende a ser demasiado pequeña. Esto se debe a que, bajo la hipótesis nula, seguirá habiendo variación por azar en las dos proporciones observadas, aunque las probabilidades subyacentes son iguales. Esta variación aleatoria contribuye a la varianza agrupada pero no a la varianza no agrupada.

Como resultado, para la estadística no agrupada ni siquiera tiene aproximadamente una distribución normal estándar. Por ejemplo, cuando y las verdaderas probabilidades son ambas , la varianza de es solo lugar de . Al usar tablas de la distribución normal estándar, obtendrá valores p incorrectos: tenderán a ser artificialmente pequeños, rechazando con demasiada frecuencia el valor nulo cuando la evidencia no está realmente allí.z n1=n21/2z1/21

Sin embargo, uno se pregunta si esto podría corregirse. Puede. La pregunta es si un valor corregido de , basado en estimaciones no agrupadas, podría tener un mayor poder para detectar desviaciones de la hipótesis nula. Algunas simulaciones rápidas sugieren que este no es el caso: la prueba agrupada (en comparación con una prueba no agrupada ajustada correctamente) tiene una mejor oportunidad de rechazar el valor nulo siempre que el valor nulo sea falso. Por lo tanto, no me he molestado en elaborar la fórmula para la corrección no agrupada; Parece inútil.z

En resumen, la prueba no agrupada es incorrecta, pero con una corrección adecuada, puede hacerse legítima. Sin embargo, parece ser inferior a la prueba combinada.

whuber
fuente
Usted dice "Por ejemplo, cuando y las verdaderas probabilidades son ambas 1/2, la varianza de z es solo 1/2 en lugar de 1." Pero si la varianza no agrupada es demasiado pequeña, la varianza de z debería ser demasiado grande, y creo que sería solo un poco demasiado grande. n1=n2
Karl
Perdóname pero no puedo seguir tu ejemplo. ¿Por qué la varianza de debería ser 1? ¿Qué valores asume para y ? zp^1p^2
vidrioso
@glassy tiene (asintóticamente) la varianza unitaria por construcción : la diferencia se ha estandarizado dividiéndola por su varianza estimada. zp1^p1^
whuber
No quiero molestarte, pero realmente no entiendo por qué si tiene una unidad de variación por construcción, afirmas que su variación puede ser . Me parece que su varianza es igual a en un caso y en el otro. Lo siento, no entiendo cómo estas cantidades tienen una proporción de 2: 1. De hecho, en el caso son lo mismo. z1/2p^(1p^)2np^1(1p^1)n+p^2(1p^2)np^1=p^2
vidrioso
No estoy de acuerdo en absoluto. ¿Por qué no decir también que la construcción del intervalo de confianza para la diferencia entre dos proporciones contradice la distribución normal? De hecho, primero: en cualquier caso, no puede tener la distribución , porque no es una media (o suma o combinación lineal) de variables aleatorias normales. Por el contrario, converge directamente a la distribución normal cuando diverge (o y , si lo prefiere). Segundo: los estimadores de varianza agrupados y no agrupados son correctos y consistentes. ztnn1n2
vidrioso