Bondad de ajuste para muestras muy grandes

12

Recopilo muestras muy grandes (> 1,000,000) de datos categóricos cada día y quiero ver que los datos se vean "significativamente" diferentes entre días para detectar errores en la recopilación de datos.

Pensé que usar una prueba de buen ajuste (en particular, una prueba G) sería un buen ajuste (juego de palabras) para esto. La distribución esperada viene dada por la distribución del día anterior.

Pero, debido a que mis tamaños de muestra son tan grandes, la prueba tiene un poder muy alto y emite muchos falsos positivos. Es decir, incluso una fluctuación diaria muy pequeña dará un valor p cercano a cero.

Terminé multiplicando mi estadística de prueba por alguna constante (0.001), que tiene la buena interpretación de muestrear los datos a esa velocidad. Este artículo parece estar de acuerdo con este enfoque. Ellos dijeron eso:

Chi cuadrado es más confiable con muestras de entre aproximadamente 100 a 2500 personas

Estoy buscando algunos comentarios más autorizados sobre esto. O quizás algunas soluciones alternativas a los falsos positivos al ejecutar pruebas estadísticas en grandes conjuntos de datos.

tskuzzy
fuente
3
Es una buena pregunta Sin embargo, no existe una base objetivamente compatible para su enfoque ad hoc . Eso no significa que funcionará mal, pero sugiere que hay mejores procedimientos. Para encontrarlos, sería útil si pudiera editar esta pregunta para explicar qué tipos de errores está tratando de identificar, incluyendo qué tan grandes podrían ser, cuántos de ellos podrían ocurrir y cuáles son las consecuencias de (a) no identificar algunos de los errores y (b) marcar los datos correctos como errores.
whuber
2
Desde un punto de vista matemático, una prueba de bondad de ajuste con muy grande está perfectamente bien, es solo que la hipótesis nula correspondiente no es muy interesante: ¿por qué querría hacer una pregunta de "sí / no" cuando puede obtener una respuesta de "cuánto"? En su caso, diariamente, puede estimar el cambio en la proporción para cada categoría, agregar un intervalo de confianza en cada una y ver si no alcanzan una región de tolerancia predefinida alrededor de 0.n
Michael M
El uso de términos como 'significativo' y 'falso positivo' parece estar en desacuerdo con el significado estadístico de esos términos, especialmente si está haciendo la prueba correctamente *. Le sugiero que evite esos términos a menos que los use estrictamente en el sentido técnico. Su problema básico es usar pruebas de hipótesis en situaciones donde puede tener poco sentido hacerlo; en inglés simple, no técnico, ¿cuál es su verdadera pregunta de interés? * (en particular, usar el día anterior como la 'población' no es correcto, si no permite su variabilidad, generalmente es tan variable como hoy)
Glen_b -Reinstate Monica el

Respuestas:

4

La prueba está devolviendo el resultado correcto. Las distribuciones no son las mismas día a día. Esto, por supuesto, no te sirve de nada. El problema que enfrenta se conoce desde hace mucho tiempo. Ver: Karl Pearson y RA Fisher en Pruebas estadísticas: un intercambio de 1935 de la naturaleza

En cambio, podría mirar hacia atrás a los datos anteriores (ya sea el suyo o de otro lugar) y obtener la distribución de los cambios diarios para cada categoría. Luego verifica si es probable que haya ocurrido el cambio actual dada esa distribución. Es difícil responder más específicamente sin conocer los datos y los tipos de errores, pero este enfoque parece más adecuado para su problema.

Matraz
fuente
4

Avancemos y matemos a la vaca sagrada del 5%.

Usted (correctamente) señaló que el problema es el poder exuberante de la prueba. Es posible que desee recalibrarlo hacia un poder más relevante, como decir un valor más tradicional del 80%:

  1. Decida el tamaño del efecto que desea detectar (p. Ej., Cambio de 0.2%)
  2. Decida el poder que es lo suficientemente bueno para usted para que no esté dominado (por ejemplo,1β=80%)
  3. Vuelva a partir de la teoría existente del examen de Pearson para determinar el nivel que haría práctico su examen.

p + δ / p1=p2=p3=p4=p5=0.2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λN(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

Sin embargo, tenga en cuenta que las aproximaciones, tanto para la nula como para la alternativa, pueden funcionar mal en las colas, vea esta discusión .

StasK
fuente
2

En estos casos, mi profesor sugirió calcular la V de Cramér, que es una medida de asociación basada en la estadística de chi-cuadrado. Esto debería darle la fuerza y ​​ayudarlo a decidir si la prueba es hipersensible. Pero, no estoy seguro de si puede usar la V con el tipo de estadística que devuelven las pruebas G2.

Esta debería ser la fórmula para V:

ϕc=χ2n(k1)

nkk

wal
fuente
0

Un enfoque sería hacer que las pruebas de bondad de ajuste sean más significativas al realizarlas en bloques de datos más pequeños.

α=0.05α

α

CJ Stoneking
fuente
¿Podría por favor explicar en qué sentido este enfoque sería "más significativo"?
whuber
Es significación estadística versus significación del mundo real. Al usar 10 ^ 3 en lugar de 10 ^ 6 muestras, el poder de una sola prueba se reduce deliberadamente, por lo que los rechazos de la hipótesis nula tenderán a corresponder a una gran falta de ajuste. Esto hace que el resultado de una sola prueba sea más significativo porque al OP no le importan las "fluctuaciones diarias menores". Para 10 ^ 6 muestras, la prueba siempre puede rechazar H0 debido a diferencias menores, por lo que no está claro si el resultado de una prueba representa información significativa.
CJ Stoneking
1
Gracias: su comentario plantea cuestiones interesantes e importantes que comienzan a influir en lo que creo que es la verdadera pregunta subyacente; a saber, ¿cómo se deben medir las diferencias entre los datos para detectar errores y qué tan importante sería una diferencia? Aunque su respuesta puede ser apropiada en algunas circunstancias, parece poco probable que detecte efectivamente muchos de los tipos de errores que podrían ocurrir en los datos y también deja abierta la pregunta (natural) de qué tamaño de bloques de datos se deben usar.
whuber
@whuber, ¿se puede redefinir el problema de tal manera que el nulo y su desviación sean invariantes en el tamaño de los datos pero busquen alguna representación cualitativa?
Vass