Recopilo muestras muy grandes (> 1,000,000) de datos categóricos cada día y quiero ver que los datos se vean "significativamente" diferentes entre días para detectar errores en la recopilación de datos.
Pensé que usar una prueba de buen ajuste (en particular, una prueba G) sería un buen ajuste (juego de palabras) para esto. La distribución esperada viene dada por la distribución del día anterior.
Pero, debido a que mis tamaños de muestra son tan grandes, la prueba tiene un poder muy alto y emite muchos falsos positivos. Es decir, incluso una fluctuación diaria muy pequeña dará un valor p cercano a cero.
Terminé multiplicando mi estadística de prueba por alguna constante (0.001), que tiene la buena interpretación de muestrear los datos a esa velocidad. Este artículo parece estar de acuerdo con este enfoque. Ellos dijeron eso:
Chi cuadrado es más confiable con muestras de entre aproximadamente 100 a 2500 personas
Estoy buscando algunos comentarios más autorizados sobre esto. O quizás algunas soluciones alternativas a los falsos positivos al ejecutar pruebas estadísticas en grandes conjuntos de datos.
fuente
Respuestas:
La prueba está devolviendo el resultado correcto. Las distribuciones no son las mismas día a día. Esto, por supuesto, no te sirve de nada. El problema que enfrenta se conoce desde hace mucho tiempo. Ver: Karl Pearson y RA Fisher en Pruebas estadísticas: un intercambio de 1935 de la naturaleza
En cambio, podría mirar hacia atrás a los datos anteriores (ya sea el suyo o de otro lugar) y obtener la distribución de los cambios diarios para cada categoría. Luego verifica si es probable que haya ocurrido el cambio actual dada esa distribución. Es difícil responder más específicamente sin conocer los datos y los tipos de errores, pero este enfoque parece más adecuado para su problema.
fuente
Avancemos y matemos a la vaca sagrada del 5%.
Usted (correctamente) señaló que el problema es el poder exuberante de la prueba. Es posible que desee recalibrarlo hacia un poder más relevante, como decir un valor más tradicional del 80%:
p + δ / √pag1= p2= p3= p4 4= p5 5= 0.2 p + δ/ n--√= ( 0.198 , 0.202 , 0.2 , 0.2 , 0.2 ) n = 106 6 δ= ( - 2 , + 2 , 0 , 0 , 0 ) k =
Sin embargo, tenga en cuenta que las aproximaciones, tanto para la nula como para la alternativa, pueden funcionar mal en las colas, vea esta discusión .
fuente
En estos casos, mi profesor sugirió calcular la V de Cramér, que es una medida de asociación basada en la estadística de chi-cuadrado. Esto debería darle la fuerza y ayudarlo a decidir si la prueba es hipersensible. Pero, no estoy seguro de si puede usar la V con el tipo de estadística que devuelven las pruebas G2.
Esta debería ser la fórmula para V:
fuente
Un enfoque sería hacer que las pruebas de bondad de ajuste sean más significativas al realizarlas en bloques de datos más pequeños.
fuente