Obviamente tengo una distribución de valores bimodal, que busco ajustar. Los datos pueden ajustarse bien con 2 funciones normales (bimodal) o con 3 funciones normales. Además, hay una razón física plausible para ajustar los datos con 3.
Cuantos más parámetros se introduzcan, más perfecto será el ajuste, ya que con suficientes constantes, uno puede " adaptarse a un elefante ".
Aquí está la distribución, ajustada con la suma de 3 curvas normales (gaussianas):
Estos son los datos para cada ajuste. No estoy seguro de qué prueba debería aplicar aquí para determinar el ajuste. Los datos constan de 91 puntos.
1 función normal:
- RSS: 1.06231
- X ^ 2: 3.1674
- F. Prueba: 0.3092
2 funciones normales:
- RSS: 0.010939
- X ^ 2: 0.053896
- F.Test: 0.97101
3 funciones normales:
- RSS: 0.00536
- X ^ 2: 0.02794
- F. Prueba: 0.99249
¿Cuál es la prueba estadística correcta que se puede aplicar para determinar cuál de estos 3 ajustes es mejor? Obviamente, el ajuste de la función normal 1 es inadecuado. Entonces, ¿cómo puedo discriminar entre 2 y 3?
Para agregar, estoy haciendo esto principalmente con Excel y un pequeño Python; Todavía no estoy familiarizado con R u otros lenguajes estadísticos.
R
ruta). Algunos criterios de selección de modelo se mencionan en esta respuesta . Finalmente, es posible que desee considerar métodos de conjunto , que cubrí brevemente en esta respuesta , que también contiene un enlace a información centrada en Python. Puede encontrar más detalles sobre la selección del modelo y el promedio en esta respuesta .Respuestas:
Aquí hay dos formas de abordar el problema de seleccionar su distribución:
Para la comparación del modelo, use una medida que penalice el modelo según el número de parámetros. Los criterios de información hacen esto. Use un criterio de información para elegir qué modelo retener, elija el modelo con el criterio de información más bajo (por ejemplo, AIC). La regla general para comparar si una diferencia en AIC es significativa es si la diferencia en el AIC es mayor que 2 (esta no es una prueba de hipótesis formal, consulte Prueba de la diferencia en AIC de dos modelos no anidados ).
Si desea una prueba de hipótesis formal, puede proceder al menos de dos maneras. Podría decirse que la más fácil es ajustar sus distribuciones usando parte de su muestra y luego probar si las distribuciones residuales son significativamente diferentes usando una prueba de Chi-cuadrado o Kolgomorov-Smirnov en el resto de los datos. De esta manera, no está utilizando los mismos datos para ajustar y probar su modelo como AndrewM mencionó en los comentarios.
También podría hacer una prueba de razón de probabilidad con un ajuste a la distribución nula. Una versión de esto se describe en Lo Y. et al. (2013) "Prueba de la cantidad de componentes en la mezcla normal". Biometrika pero no tengo acceso al artículo, así que no puedo proporcionarle más detalles sobre cómo hacer esto exactamente.
De cualquier manera, si la prueba no es significativa, conserve la distribución con la menor cantidad de parámetros, si es significativa, elija la que tenga la mayor cantidad de parámetros.
fuente