Medidas de complejidad del modelo.

19

¿Cómo podemos comparar la complejidad de dos modelos con el mismo número de parámetros?

Edición 19/09 : para aclarar, la complejidad del modelo es una medida de lo difícil que es aprender de datos limitados. Cuando dos modelos se ajustan igualmente bien a los datos existentes, un modelo con menor complejidad dará menos errores en los datos futuros. Cuando se usan aproximaciones, técnicamente esto no siempre es cierto, pero está bien si tiende a ser cierto en la práctica. Diversas aproximaciones dan diferentes medidas de complejidad

Yaroslav Bulatov
fuente
¿Puedes dar más información sobre qué atributos están disponibles sobre los modelos?
shabbychef
Esta es una pregunta abierta, así que mi pregunta sería: ¿qué tipo de atributos necesito para poder medir la complejidad? En el nivel más básico, un modelo de probabilidad es un conjunto de distribuciones de probabilidad, y ajusto el modelo a los datos seleccionando el miembro más adecuado
Yaroslav Bulatov, el
3
¿Qué es, precisamente, la "complejidad"? (¡Esta no es una pregunta frívola!) En ausencia de una definición formal, no podemos esperar hacer comparaciones válidas de algo.
whuber
Eso es lo que estoy preguntando esencialmente
Yaroslav Bulatov
2
¿Pero no puede al menos darnos una pista sobre qué aspecto de un modelo está tratando de capturar en la palabra "complejidad"? Sin eso, esta pregunta es demasiado ambigua para admitir una respuesta razonable.
whuber

Respuestas:

12

Además de las diversas medidas de Longitud mínima de descripción (por ejemplo, probabilidad máxima normalizada, aproximación de información de Fisher), hay otros dos métodos que vale la pena mencionar:

  1. Bootstrap paramétrico . Es mucho más fácil de implementar que las exigentes medidas de MDL. Un buen artículo es de Wagenmaker y colegas:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P. e Iverson, GJ (2004). Evaluación de la imitación del modelo utilizando el bootstrap paramétrico . Revista de Psicología Matemática , 48, 28-50.
    El abstracto:

    Presentamos un procedimiento de muestreo general para cuantificar el mimetismo del modelo, definido como la capacidad de un modelo para dar cuenta de los datos generados por un modelo competidor. Este procedimiento de muestreo, llamado método de ajuste cruzado bootstrap paramétrico (PBCM; cf. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), genera distribuciones de diferencias en la bondad de ajuste esperado bajo cada uno de los modelos de la competencia. En la versión informada de datos del PBCM, los modelos generadores tienen valores de parámetros específicos obtenidos ajustando los datos experimentales bajo consideración. Las distribuciones de diferencias informadas por los datos se pueden comparar con la diferencia observada en la bondad del ajuste para permitir una cuantificación de la adecuación del modelo. En la versión no informada de datos del PBCM, Los modelos generadores tienen un rango relativamente amplio de valores de parámetros basados ​​en el conocimiento previo. La aplicación de los datos informados y los datos no informados PBCM se ilustra con varios ejemplos.

    Actualización: Evaluación de la imitación del modelo en inglés simple. Usted toma uno de los dos modelos de la competencia y elige aleatoriamente un conjunto de parámetros para ese modelo (ya sea información informada o no). Luego, produce datos de este modelo con el conjunto de parámetros seleccionados. A continuación, permite que ambos modelos se ajusten a los datos producidos y comprueba cuál de los dos modelos candidatos ofrece el mejor ajuste. Si ambos modelos son igualmente flexibles o complejos, el modelo a partir del cual usted produjo los datos debería ajustarse mejor. Sin embargo, si el otro modelo es más complejo, podría dar un mejor ajuste, aunque los datos se obtuvieron del otro modelo. Repite esto varias veces con ambos modelos (es decir, deje que ambos modelos produzcan datos y observe cuál de los dos se ajusta mejor). El modelo que "sobreajusta" los datos producidos por el otro modelo es el más complejo.

  2. Validación cruzada : también es bastante fácil de implementar. Ver las respuestas a esta pregunta . Sin embargo, tenga en cuenta que el problema con esto es que la elección entre la regla de corte de muestra (dejar uno, K-fold, etc.) no tiene principios.

Henrik
fuente
Realmente no entiendo el "mimetismo del modelo", pero la validación cruzada parece posponer la tarea de evaluar la complejidad. Si utiliza datos para elegir sus parámetros y su modelo como en la validación cruzada, la pregunta relevante se convierte en cómo estimar la cantidad de datos necesarios para que este "meta" -fitter funcione bien
Yaroslav Bulatov
@Yaroslaw: Realmente no entiendo su problema con la validación cruzada, pero para ser honesto, no soy un experto allí. Sin embargo, realmente me gustaría hacer un punto para medir el mimetismo del modelo. Por lo tanto, vea mi respuesta actualizada.
Henrik
4

Creo que dependería del procedimiento de ajuste del modelo real. Para una medida generalmente aplicable, puede considerar los Grados de libertad generalizados descritos en Ye 1998 , esencialmente la sensibilidad del cambio de las estimaciones del modelo a la perturbación de las observaciones, que funciona bastante bien como una medida de la complejidad del modelo.

ars
fuente
Hm ... el artículo tiene que ver con la regresión, me pregunto si esto puede usarse para la estimación de probabilidad discreta. Además, no entiendo realmente la motivación que da por ello: gdf es un grado de sensibilidad de los parámetros a pequeños cambios en los datos, pero ¿por qué es importante? Podría elegir una parametrización diferente donde los pequeños cambios en los parámetros en la parametrización original corresponden a grandes cambios en la nueva parametrización, por lo que parecerá más sensible a los datos, pero es el mismo modelo
Yaroslav Bulatov,
Yaroslav:> * Podría elegir una parametrización diferente donde los pequeños cambios en los parámetros en la parametrización original corresponden a grandes cambios en la nueva parametrización, por lo que parecerá más sensible a los datos * ¿puede dar un ejemplo (que implica un estimador afín equivalente)? Gracias,
user603
1
El DoF en regresión lineal se resuelve en la traza de la matriz del sombrero o la suma de las sensibilidades, por lo que la motivación / concepto no está tan lejos. Tibshirani y Knight propusieron el Criterio de inflación de covarianza que analiza las covarianzas de las estimaciones del modelo en lugar de las sensibilidades. El GDF parece haberse aplicado en una serie de procedimientos modelo, como el umbral del carro y la wavelet (el documento de Ye sobre la selección del modelo adaptativo tiene más detalles), y en métodos conjuntos para controlar la complejidad, pero no conozco ningún caso de estimación discreta. Podría valer la pena ...
ars
No sé acerca de los "estimadores equivalentes afines", pero supongamos que dependemos de un estimador de máxima verosimilitud. Sea q = f (p) donde f es alguna biyección. Supongamos que p0, q0 representan la estimación MLE en la parametrización correspondiente. p0, q0 tendrán diferentes variaciones asintóticas, pero en términos de datos de modelado, son equivalentes. Entonces, la pregunta se reduce a: ¿en qué parametrización es la sensibilidad de los parámetros representativa del riesgo esperado?
Yaroslav Bulatov
4

La longitud mínima de descripción (MDL) y la longitud mínima de mensaje (MML) ciertamente valen la pena.

En lo que respecta a MDL, un documento simple que ilustra el procedimiento de Máxima Verosimilitud Normalizada (NML) así como la aproximación asintótica es:

S. de Rooij y P. Grünwald. Un estudio empírico de selección de modelo de longitud de descripción mínima con complejidad paramétrica infinita. Revista de psicología matemática, 2006, 50, 180-192

Aquí, observan la complejidad del modelo de una distribución Geométrica versus una distribución de Poisson. Un excelente tutorial (gratuito) sobre MDL se puede encontrar aquí .

Alternativamente, aquí se puede encontrar un documento sobre la complejidad de la distribución exponencial examinada con MML y MDL . Desafortunadamente, no hay un tutorial actualizado sobre MML, pero el libro es una referencia excelente y muy recomendable.

emakalic
fuente
1
He leído ese documento y parece que la Complejidad estocástica soluciona el problema de no poder distinguir entre modelos de las mismas dimensiones, pero introduce el problema de que a veces no es capaz de distinguir entre modelos de diferentes dimensiones. A la distribución geométrica se le asigna una complejidad infinita, ¡seguramente no es lo que esperaríamos de un modelo tan simple!
Yaroslav Bulatov
Muy buen punto sobre la complejidad estocástica infinita (SC). Existen soluciones al problema del SC infinito, pero no son muy elegantes; La renormalización de Rissanen funciona bien en modelos lineales, pero no es fácil de hacer para el problema de Poisson / Geometric. Sin embargo, la codificación MML (o SMML) de datos de Poisson / Geometric está bien.
emakalic
3

Descripción mínima La longitud puede ser una vía que vale la pena seguir.

S. Kolassa - Restablece a Monica
fuente
2
Solo una nota rápida: la longitud mínima de la descripción es muy poderosa y útil, pero puede tomar años obtener resultados, especialmente cuando se usa la máxima probabilidad normalizada con conjuntos de datos ligeramente más grandes. Una vez tardé 10 días ejecutando el código FORTRAN para obtenerlo para un solo modelo
Dave Kellen, el
2

Por "complejidad del modelo" generalmente se entiende la riqueza del espacio modelo. Tenga en cuenta que esta definición no depende de los datos. Para los modelos lineales, la riqueza del espacio modelo se mide trivialmente con la disminución del espacio. Esto es lo que algunos autores llaman los "grados de libertad" (aunque históricamente, los grados de libertad estaban reservados para la diferencia entre el espacio modelo y el espacio muestral). Para modelos no lineales, cuantificar la riqueza del espacio es menos trivial. Los Grados de Libertad Generalizados (ver la respuesta de ars) es una medida de este tipo. De hecho, es muy general y se puede utilizar para cualquier espacio modelo "extraño", como árboles, KNN y similares. La dimensión VC es otra medida.

Como se mencionó anteriormente, esta definición de "complejidad" es independiente de los datos. Por lo tanto, dos modelos con el mismo número de parámetros tendrán típicamente la misma "complejidad".

JohnRos
fuente
1

De los comentarios de Yaroslav a la respuesta de Henrik:

pero la validación cruzada parece solo posponer la tarea de evaluar la complejidad. Si usa datos para elegir sus parámetros y su modelo como en la validación cruzada, la pregunta relevante se convierte en cómo estimar la cantidad de datos necesarios para que este "meta" -fitter funcione bien

kkkCV(k)kk

Incluso podría darle un sabor de 'importancia' a esto, ya que el resultado del procedimiento es directamente en términos (unidades) de diferencia en el error de pronóstico fuera de la muestra.

usuario603
fuente
1
Estoy de acuerdo en que la validación cruzada resuelve el problema de medir la complejidad del modelo. Tal vez estoy haciendo una pregunta incorrecta, porque una pregunta práctica es la complejidad de la muestra del procedimiento de adaptación. El alumno con validación cruzada probaría diferentes modelos y elegiría el que tenga el error de validación cruzada más bajo. Ahora la pregunta es: ¿es más probable que este alumno se sobreajuste que uno que se ajuste a un solo modelo con la máxima probabilidad?
Yaroslav Bulatov
Yaroslav Bulatov:> sí, pero puede usar ML solo para comparar modelos anidados. En la medida en que especificó (en su pregunta) modelos mencionados con el mismo número de parámetros, entonces no se pueden anidar.
user603
Otro problema es que la validación cruzada no se suma a nuestra comprensión de la complejidad del modelo. Medidas como AIC / BIC dejan en claro que muchos parámetros fomentan el sobreajuste. Ahora la pregunta es: ¿qué aspectos del modelo además de la dimensión aumentan la capacidad de sobreajuste?
Yaroslav Bulatov
Yaroslav:> De nuevo, muy buen punto.
user603
Si el sobreajuste es la tendencia de un procedimiento de ajuste del modelo para ajustar el ruido además de la señal, entonces podemos ver un procedimiento dado para ver dónde podrían surgir tales tendencias. Tal vez debido a la falta de imaginación o conocimiento, al considerar algunos procedimientos diferentes, no podría reducir esto a algo que no se pueda repetir como "número de parámetros" (o "número efectivo de parámetros"). Podríamos darle la vuelta a esto y preguntar: todo lo demás igual, ¿qué sucede cuando introducimos ruido en nuestros datos? Luego llegamos a medidas como el GDF de Ye.
ars el
0

¿Qué pasa con el criterio de información para la comparación de modelos? Ver, por ejemplo, http://en.wikipedia.org/wiki/Akaike_information_criterion

La complejidad del modelo es aquí el número de parámetros del modelo.

Brause42
fuente
AIC no es una medida de la complejidad del modelo.
Sven Hohenstein
@SvenHohenstein, de su última oración, deduzco que no está sugiriendo que el AIC en sí mismo , es una medida de la complejidad del modelo. Brause42, tenga en cuenta que la pregunta se refiere específicamente a modelos con el mismo número de parámetros. Por lo tanto, el AIC se reducirá a SSE o desviación, o lo que sea.
gung - Restablece a Monica