¿Cómo seleccionar el mejor ajuste sin sobreajustar los datos? Modelado de una distribución bimodal con N funciones normales, etc.

Obviamente tengo una distribución de valores bimodal, que busco ajustar. Los datos pueden ajustarse bien con 2 funciones normales (bimodal) o con 3 funciones normales. Además, hay una razón física plausible para ajustar los datos con 3.

Cuantos más parámetros se introduzcan, más perfecto será el ajuste, ya que con suficientes constantes, uno puede " adaptarse a un elefante ".

Aquí está la distribución, ajustada con la suma de 3 curvas normales (gaussianas):

Distribución con

Estos son los datos para cada ajuste. No estoy seguro de qué prueba debería aplicar aquí para determinar el ajuste. Los datos constan de 91 puntos.

1 función normal:

RSS: 1.06231
X ^ 2: 3.1674
F. Prueba: 0.3092

2 funciones normales:

RSS: 0.010939
X ^ 2: 0.053896
F.Test: 0.97101

3 funciones normales:

RSS: 0.00536
X ^ 2: 0.02794
F. Prueba: 0.99249

¿Cuál es la prueba estadística correcta que se puede aplicar para determinar cuál de estos 3 ajustes es mejor? Obviamente, el ajuste de la función normal 1 es inadecuado. Entonces, ¿cómo puedo discriminar entre 2 y 3?

Para agregar, estoy haciendo esto principalmente con Excel y un pequeño Python; Todavía no estoy familiarizado con R u otros lenguajes estadísticos.

distributions normal-distribution model-selection overfitting MurphysLab
fuente

Se ha sugerido que use el chi cuadrado reducido X ^ 2 / (Nn-1) donde N es el número de puntos de datos yn es el número de parámetros ajustados. Sin embargo, la pequeña pentalidad (+/- 3) en relación con el número de puntos de datos (91) no parece intuitivamente una penalización particularmente pronunciada por agregar otro gaussiano.

MurphysLab

Es posible que desee verificar esta respuesta (en caso de que decida seguir la Rruta). Algunos criterios de selección de modelo se mencionan en esta respuesta . Finalmente, es posible que desee considerar métodos de conjunto , que cubrí brevemente en esta respuesta , que también contiene un enlace a información centrada en Python. Puede encontrar más detalles sobre la selección del modelo y el promedio en esta respuesta .

Aleksandr Blekh

Respuestas:

Aquí hay dos formas de abordar el problema de seleccionar su distribución:

Para la comparación del modelo, use una medida que penalice el modelo según el número de parámetros. Los criterios de información hacen esto. Use un criterio de información para elegir qué modelo retener, elija el modelo con el criterio de información más bajo (por ejemplo, AIC). La regla general para comparar si una diferencia en AIC es significativa es si la diferencia en el AIC es mayor que 2 (esta no es una prueba de hipótesis formal, consulte Prueba de la diferencia en AIC de dos modelos no anidados ).

$2k - 2ln(L)$ $k$ $L$ $L = \max\limits_{\theta} L(\theta |x)$ $L(\theta |x) = Pr(x|\theta)$ $\Pr(x|\theta)$ $x$ $\theta$
Si desea una prueba de hipótesis formal, puede proceder al menos de dos maneras. Podría decirse que la más fácil es ajustar sus distribuciones usando parte de su muestra y luego probar si las distribuciones residuales son significativamente diferentes usando una prueba de Chi-cuadrado o Kolgomorov-Smirnov en el resto de los datos. De esta manera, no está utilizando los mismos datos para ajustar y probar su modelo como AndrewM mencionó en los comentarios.

También podría hacer una prueba de razón de probabilidad con un ajuste a la distribución nula. Una versión de esto se describe en Lo Y. et al. (2013) "Prueba de la cantidad de componentes en la mezcla normal". Biometrika pero no tengo acceso al artículo, así que no puedo proporcionarle más detalles sobre cómo hacer esto exactamente.

De cualquier manera, si la prueba no es significativa, conserve la distribución con la menor cantidad de parámetros, si es significativa, elija la que tenga la mayor cantidad de parámetros.

Chris Novak
fuente

@Momo gracias, cambió eso y agregó la ecuación para AIC

Chris Novak

No estoy 100% seguro, pero el AIC estándar puede no funcionar como se espera en los modelos de mezclas, ya que las diferentes configuraciones de las mezclas pueden producir el mismo modelo.

Cagdas Ozgenc

Lo que quise decir es que puedes intercambiar los 2 gaussianos (estableciendo la media / varianza de 1st a 2nd y 2nd a the 1st y también para los wights mixtos) y aún así obtener el mismo modelo. Hasta donde sé, AIC no funciona como se esperaba en tales situaciones.

Cagdas Ozgenc

@CagdasOzgenc Entiendo su punto de vista, pero parece que se demostró que AIC y BIC estándar son adecuados para la selección de modelos en modelos de mezcla gaussiana, ver por ejemplo el documento projecteuclid.org/download/pdf_1/euclid.aos/1176348772

Chris Novak

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$