Probar la diferencia en AIC de dos modelos no anidados

12

El punto central de AIC o cualquier otro criterio de información es que menos es mejor. Entonces, si tengo dos modelos M1: y = a0 + XA + e y M2: y = b0 + ZB + u, y si el AIC del primero (A1) es menor que el del segundo (A2), entonces M1 tiene un mejor ajuste desde el punto de vista de la teoría de la información. ¿Pero hay algún punto de referencia de corte para la diferencia A1-A2? ¿Cuánto menos es en realidad menos? En otras palabras, ¿hay alguna prueba para (A1-A2) que no sea solo mirar a los ojos?

Editar: Peter / Dmitrij ... Gracias por responder. En realidad, este es un caso en el que mi experiencia sustantiva está en conflicto con mi experiencia estadística. Esencialmente, el problema NO es elegir entre dos modelos, sino al verificar si dos variables que sé que son en gran medida equivalentes agregan cantidades equivalentes de información (en realidad, una variable en el primer modelo y un vector en el segundo. Piense en el caso de un montón de variables en comparación con un índice de ellas). Como señaló Dmitrij, la mejor apuesta parece ser la Prueba de Cox. Pero, ¿hay alguna forma de probar realmente la diferencia entre el contenido de información de los dos modelos?

usuario3671
fuente
También te puede interesar ver Wagonmakers et al. (2004) Evaluación de la imitación del modelo utilizando el bootstrap paramétrico. Revista de Psicología Matemática, 48 , 28-50. ( pdf )
gung - Restablece a Monica

Respuestas:

13

¿Es cuestión de curiosidad, es decir, no está satisfecho con mi respuesta aquí ? Si no...

La investigación adicional de esta pregunta complicada mostró que existe una regla general de uso común, que establece que dos modelos son indistinguibles por el criterio de si la diferencia . Lo mismo que leerás en el artículo de wikipedia sobre (ten en cuenta que se puede hacer clic en el enlace). Solo para aquellos que no hacen clic en los enlaces:| A I C 1 - A I C 2 | < 2 A I CAIC|AIC1AIC2|<2AIC

A I C A I CAIC estima el apoyo relativo para un modelo. Para aplicar esto en la práctica, comenzamos con un conjunto de modelos candidatos y luego encontramos los valores correspondientes de los modelos . A continuación, identifique el valor mínimo de . La selección de un modelo se puede hacer de la siguiente manera.AICAIC

Como regla general, los modelos que tienen su dentro de del mínimo tienen un apoyo sustancial y deben ser considerados para hacer inferencias. Los modelos que tienen su dentro de aproximadamente del mínimo tienen considerablemente menos soporte, mientras que los modelos con su encima del mínimo esencialmente no tienen soporte y pueden omitirse de una consideración adicional o al menos no pueden explicar alguna variación estructural sustancial en los datos.AICA I C 4 - 7 A I C > 1012AIC47AIC>10

Un enfoque más general es el siguiente ...

Denote los valores de los modelos candidatos por , . Deje denota el mínimo de esos valores. Entonces se puede interpretar como la probabilidad relativa de que el modelo minimice la pérdida de información (estimada esperada).A I C 1 A I C 2 , A I C 3 , , A I C R A I C m i n e ( A I C m i n - A I C i ) / 2 iAICAIC1AIC2,AIC3,,AICRAICmine(AICminAICi)/2i

Como ejemplo, suponga que hay tres modelos en el conjunto de candidatos, con valores , y . Entonces, el segundo modelo es veces más probable que el primer modelo para minimizar la pérdida de información, y el tercer modelo es veces tan probable como el primer modelo para minimizar la pérdida de información. En este caso, podríamos omitir el tercer modelo de mayor consideración y tomar un promedio ponderado de los dos primeros modelos, con pesos y , respectivamente. La inferencia estadística se basaría en el modelo múltiple ponderado.AIC100102110e(100102)/2=0.368e(100110)/2=0.00710.368

Buena explicación y sugerencias útiles, en mi opinión. ¡No tengas miedo de leer lo que se puede hacer clic!

En adición , nota una vez más, es menos preferible para los conjuntos de datos de gran escala. Además de se puede encontrar útil aplicar versión sesgo corregido de criterio (puede usar este código o utilizar la fórmula , donde es el número de parámetros estimados). Sin embargo, la regla general será la misma. AICBICAICAICcR AICc=AIC+2p(p+1)np1p

Dmitrij Celov
fuente
Hola Dmitrij ... Sabía que verías esto. En realidad, su respuesta a la pregunta original puso en marcha este tren. Pensé que esto sería una pregunta interesante e independiente. El problema con el que estoy lidiando es que las pruebas estadísticas (incluida la Prueba de Cox) son frecuentes y, por lo tanto, puede probar las diferencias entre dos modelos en un nivel de significación predefinido. Pero AIC / BIC se basan en la probabilidad, y me parece que los números no se pueden comparar directamente, excepto, como usted señala, por regla general. Dado que las medidas de CI dependen de la escala, un valor absoluto (2) puede ser problemático, ¿no?
user3671
@usuario, el valor absoluto de no es problemático. Puede optar por una sugerencia de probabilidad relativa, por lo que probablemente tendrá más confianza con esto que un buen valor de . ¿Por efecto de escala quieres decir cuando el criterio es menos sesgado en muestras pequeñas y consistente en grandes? Pruebe consistente y para muestras pequeñas también será una buena alternativa. La regla general sigue siendo utilizable. 2 B I C A I C c22BICAICc
Dmitrij Celov
1
@DmitrijCelov (+1 hace algún tiempo) buena respuesta: gracias por pegar el texto, ya que Wikipedia ya no tiene los puntos cubiertos en los dos primeros párrafos. El párrafo eliminado fue citado como p. 446: Burnham, K. P., and Anderson, D.R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd ed. Springer-Verlag. ISBN 0-387-95364-7. y la página Wiki previa a la revisión está aquí
James Stanley
Debo señalar que no he leído el libro de Burnham y que la antigua referencia de Wiki sugería que el texto citado era una paráfrasis. Para su información, la página Wiki fue editada a las 16:52, 15 de abril de 2011.
James Stanley
¿Podrías ayudarme con esta pregunta de seguimiento? stats.stackexchange.com/questions/349883/…
Tripartio
8

Creo que esto puede ser un intento de obtener lo que realmente no quieres.

La selección del modelo no es una ciencia. Excepto en raras circunstancias, no hay un modelo perfecto, ni siquiera un modelo "verdadero"; rara vez hay incluso un "mejor" modelo. Las discusiones sobre AIC vs. AICc vs. BIC vs. SBC vs. lo que sea me deja un tanto desconcertado. Creo que la idea es conseguir algunos BUENOS modelos. Luego elige entre ellos en función de una combinación de experiencia sustantiva e ideas estadísticas. Si no tiene experiencia sustancial (rara vez el caso; mucho más raramente de lo que la mayoría de la gente supone), elija el AIC más bajo (o AICc o lo que sea). Pero generalmente TIENES algo de experiencia, de lo contrario, ¿por qué estás investigando estas variables particulares?

Peter Flom - Restablece a Monica
fuente
2
+1 para enfatizar la necesidad de experiencia estadística y sustantiva.
chl