Tengo un conjunto de datos de información de clientes de teléfonos celulares con dos columnas. La primera columna contiene la determinada categoría en la que se encuentra una cuenta (A, B o C) y la segunda columna contiene un valor binario para determinar si esa cuenta se ha cancelado. p.ej
A | cancelled
C | active
B | active
A | cancelled
lo que quiero hacer es proponer algún tipo de prueba de hipótesis para probar si la relación de cuentas de tipo A, B y C es diferente para cuentas activas frente a cuentas canceladas, la hipótesis nula es que son las mismas. Entonces, es como una prueba de hipótesis para proporciones, excepto que no sé cómo hacer esto para 3 valores
hypothesis-testing
equivalence
usuario1893354
fuente
fuente
Respuestas:
es decir, todas las proporciones son iguales entre sí. Ahora en su caso su hipótesis nula es la siguiente:
Ahora para realizar la necesitamos calcular el siguiente estadístico de prueba: El valor del estadístico de prueba esχ2
dónde
En su caso, ya que podemos considerar este problema como la siguiente tabla:n=6
Ahora, una vez que tenemos la estadística de prueba, tenemos dos opciones de cómo proceder para completar nuestra prueba de hipótesis.
Opción 1) Podemos comparar nuestra prueba static con el valor crítico apropiado bajo la hipótesis nula. Es decir, si es verdadero, entonces una estadística de una tabla de contingencia con filas y columnas debería tener una con grados de libertad. Después de calcular nuestro valor crítico si tenemos que , rechazaremos la hipótesis nula. Obviamente si entonces no podemos rechazar la hipótesis nula. H 0 χ 2 R C χ 2 ( R - 1 ) × ( C - 1 ) χ ∗ χ 2 > χ ∗ χ 2 ≤ χ ∗χ2 H0 χ2 R C χ2 (R−1)×(C−1) χ∗ χ2>χ∗ χ2≤χ∗
Gráficamente (todos los números están formados) esto es lo siguiente:
En el gráfico, si nuestro estadístico de prueba corresponde al estadístico de prueba azul, no podríamos rechazar la hipótesis nula ya que este estadístico de prueba no cae dentro de la región crítica (es decir, ) Alternativamente, el estadístico de prueba verde cae dentro de la región crítica, por lo que rechazaríamos la hipótesis nula si hubiéramos calculado el estadístico de prueba verde.χ 2 < χ ∗χ2 χ2<χ∗
Gráficamente tenemos eso
donde el valor p se calcula como el área que es mayor que nuestra estadística de prueba (el área sombreada en azul en el ejemplo).
fuente