Los datos: a
los fines de esta pregunta / comunicación, podemos suponer que los datos se ven como rnbinom(1000,size=0.1,prob=0.01)
en R, lo que genera una muestra aleatoria de 1,000 observaciones de una distribución binomial negativa (con una size=0.1
probabilidad de éxito prob=0.01
). Esta es la parametrización donde la variable aleatoria representa el número de fallas antes del size
número de éxitos. La cola es larga y 1,000 observaciones no son muchos datos.
El problema: me han dado algunos datos (entero en {1,2, ....}) [ver arriba] (1,500 puntos de datos) y me han pedido que encuentre la distribución y las estimaciones de "mejor ajuste" de cualquier parámetro. No sé nada más sobre los datos. Soy consciente de que esta no es una muestra muy grande para datos con una cola larga. Más datos es una posibilidad.
Lo que he hecho: he considerado usar una prueba de razón de probabilidad ajustando dos distribuciones diferentes a los datos, pero no creo que esto se aplique (como en, no puedo determinar los valores p críticos apropiados) a menos que las dos distribuciones estén anidadas ...
Luego consideré usar una prueba de Kolmogorov-Smirnov (ajustada para datos discretos) pero, de todos modos, en R, se quejó de que no podía calcular un valor p para "datos con vínculos".
¿Cuál es la mejor manera para mí de probar / determinar el ajuste de diferentes distribuciones en este contexto? Aquí hay algunas otras cosas que he considerado:
- Solicite (lotes) más datos. ¿Pero esto ayudará? ¿Podré usar resultados asintóticos, por ejemplo?
- ¿Considera algún esquema bootstrap / re-sample / monte-carlo? Si es así, ¿hay una referencia estándar que pueda / deba leer para aprender cómo hacer esto correctamente? Gracias
fuente