He leído que la prueba de Kolmogorov-Smirnov no debe usarse para evaluar la bondad de ajuste de una distribución cuyos parámetros se han estimado a partir de la muestra.
¿Tiene sentido dividir mi muestra en dos y usar la primera mitad para la estimación de parámetros y la segunda para la prueba KS?
Gracias por adelantado
estimation
fitting
kolmogorov-smirnov
sortega
fuente
fuente
Respuestas:
El mejor enfoque es calcular su valor crítico del valor p por simulación. El problema es que cuando calcula los parámetros a partir de los datos en lugar de utilizar valores hipotéticos, la distribución del estadístico KS no sigue la distribución nula.
En su lugar, puede ignorar los valores p de la prueba KS y simular un conjunto de conjuntos de datos de la distribución candidata (con un conjunto significativo de parámetros) del mismo tamaño que sus datos reales. Luego, para cada conjunto, calcule los parámetros y realice la prueba de KS utilizando los parámetros estimados. Su valor p será la proporción de estadísticas de prueba de los conjuntos simulados que son más extremas que para sus datos originales.
fuente
La división de muestras tal vez podría reducir el problema con la distribución de la estadística, pero no la elimina.
Su idea evita el problema de que las estimaciones serán "demasiado cercanas" en relación con los valores de la población porque se basan en la misma muestra.
No estás evitando el problema de que todavía son estimaciones. La distribución de la estadística de prueba no es la tabulada.
En este caso, aumenta la tasa de rechazo bajo nulo, en lugar de reducirlo drásticamente.
Una mejor opción es usar una prueba donde los parámetros no se suponen conocidos, como Shapiro Wilk.
Si está casado con un tipo de prueba de Kolmogorov-Smirnov, puede adoptar el enfoque de la prueba de Lilliefors.
Es decir, usar el estadístico KS pero hacer que la distribución del estadístico de prueba refleje el efecto de la estimación de parámetros: simule la distribución del estadístico de prueba bajo la estimación de parámetros. (Ya no es libre de distribución, por lo que necesita nuevas tablas para cada distribución).
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors usó la simulación para el caso normal y el caso exponencial, pero puede hacerlo fácilmente para cualquier distribución específica; en algo así como R es cuestión de momentos simular 10,000 o 100,000 muestras y obtener una distribución de la estadística de prueba bajo nulo.
[Una alternativa podría ser considerar el Anderson-Darling, que tiene el mismo problema, pero que, a juzgar por el libro de D'Agostino y Stephens ( Técnicas de bondad de ajuste ) parece ser menos sensible a él. Podrías adaptar la idea de Lilliefors, pero sugieren un ajuste relativamente simple que parece funcionar bastante bien.]
Pero todavía hay otros enfoques; Hay familias de pruebas suaves de bondad de ajuste, por ejemplo (ver el libro de Rayner y Best) que en varios casos específicos pueden tratar con la estimación de parámetros.
* el efecto aún puede ser bastante grande, tal vez más grande de lo que normalmente se consideraría aceptable; Momo tiene razón al expresar preocupación al respecto. Si una tasa de error tipo I más alta (y una curva de potencia más plana) es un problema, ¡entonces esto puede no ser una mejora!
fuente
Me temo que eso no resolvería el problema. Creo que el problema no es que los parámetros se estimen a partir de la misma muestra, sino de cualquier muestra. La derivación de la distribución nula habitual de la prueba KS no tiene en cuenta ningún error de estimación en los parámetros de la distribución de referencia, sino que los ve como dados. Véase también Durbin 1973, que analiza estos temas detenidamente y ofrece soluciones.
fuente