Especificar una estructura de covarianza: pros y contras

15

¿Cuáles son los beneficios de especificar una estructura de covarianza en un GLM (en lugar de tratar todas las entradas fuera de la diagonal en la matriz de covarianza como cero)? Además de reflejar lo que uno sabe de los datos, ¿lo hace?

  1. mejorar la bondad de ajuste?
  2. mejorar la precisión predictiva en los datos retenidos?
  3. ¿nos permite estimar el alcance de la covarianza?

¿Cuáles son los costos de imponer una estructura de covarianza? Lo hace

  1. agregar complicaciones computacionales para algoritmos de estimación?
  2. aumentar el número de parámetros estimados, aumentando también AIC, BIC, DIC?

¿Es posible determinar empíricamente la estructura de covarianza correcta, o es algo que depende de su conocimiento del proceso de generación de datos?

¿Algún costo / beneficio que no mencioné?

Jack Tanner
fuente
55
Básicamente, debe especificar una estructura de covarianza en GLM. Si por "asumir que no hay covarianza", quiere decir "todas las entradas fuera de la diagonal en la matriz de covarianza son cero", entonces todo lo que hizo fue asumir una estructura de covarianza muy específica. (Podría ser aún más específico, por ejemplo, suponiendo que todas las variaciones son iguales). Conclusión: no estoy seguro de si la pregunta tiene sentido en su forma actual. (Elevé mi voto de todos modos, porque creo que aprenderé mucho cuando los gurús empiecen a hablar). ¿O te estoy malentendiendo?
Stephan Kolassa
¿Se refiere a la estructura de covarianza en un GLM con, por ejemplo, una distribución de mezcla normal multivariada, o al análisis de estructura de covarianza de una matriz de covarianza, o algo más?
Tim
1
@StephanKolassa ¿le gustaría copiar su comentario en una respuesta? Parece responder la pregunta tan bien como va a ser.
Corone
@Corone: buen punto, gracias por el recordatorio. Fui y publiqué una respuesta. Quizás alguien más intervenga y dé una mejor ...
Stephan Kolassa

Respuestas:

13

Básicamente, debe especificar una estructura de covarianza en GLM. Si por "asumir que no hay covarianza", quiere decir "todas las entradas fuera de la diagonal en la matriz de covarianza son cero", entonces todo lo que hizo fue asumir una estructura de covarianza muy específica. (Podría ser aún más específico, por ejemplo, suponiendo que todas las variaciones son iguales).

Esto es realmente una variación de "No me suscribo a ninguna filosofía; soy pragmático". - "Acabas de describir la filosofía a la que te suscribiste".

Como tal, diría que la ventaja de pensar en la estructura de covarianza es la posibilidad de utilizar un modelo que sea más apropiado para sus datos. Del mismo modo que debe incluir relaciones funcionales conocidas para el valor esperado (o la media) de sus observaciones, debe tener en cuenta cualquier estructura que conozca en la covarianza.

Y, por supuesto, la "desventaja" es que realmente debe pensar en todo esto. Es mucho más fácil usar la configuración predeterminada de su software. Pero esto es como conducir siempre en la primera marcha porque su automóvil estaba en primera cuando lo compró y comprender el cambio de marcha requiere esfuerzo. No recomendado.

Stephan Kolassa
fuente
2
+1 Estoy de acuerdo con cada palabra que escribiste, pero no creo que esto aborde completamente la pregunta. Por ejemplo, ¿especificar una estructura de covarianza más apropiada reduce los residuos del modelo?
Jack Tanner
1
@JackTanner: ¡gracias! Y tiene razón en que no respondí completamente su pregunta, por lo que originalmente solo publiqué esto como un comentario. A decir verdad: por ejemplo, no sé si especificar la estructura de covarianza correcta necesariamente reducirá los residuos. Me imagino que imponer una estructura adicional en (la covarianza de) los residuos puede incluso aumentarlo, pero puede ahorrar en los parámetros. Piense en una estructura AR (1) en lugar de una matriz de covarianza no estructurada. Similar a las otras preguntas en tu publicación. Definitivamente estaría interesado en las opiniones de otras personas sobre esto.
Stephan Kolassa
1
+1; Es una respuesta útil, además, el símil es increíble.
russellpierce
2

Aquí hay otra respuesta incompleta que ni siquiera es directamente acerca de GLM ... En mi experiencia muy limitada con el modelado de ecuaciones estructurales (SEM), he recogido un par de ideas que espero puedan agregar algo a la discusión. Tenga en cuenta que estoy hablando de una experiencia (limitada) con SEM, no GLM per se , y soy bastante ignorante de si esta distinción podría ser importante y dónde. Soy más un usuario de estadísticas que un estadístico, por lo que tampoco estoy seguro de que estas ideas se apliquen a todos o incluso a la mayoría de los datos; Solo he descubierto que se han aplicado a la mayoría de los míos.

Primero, haría eco del énfasis de @ StephanKolassa en la importancia de modelar lo que ya sabes. Usted reconoce esto como algo aparte, pero creo que los beneficios que está solicitando son los beneficios de modelar lo que sabe. Como tal, reflejan significativamente que su modelo resultante posee la información sobre la estructura de covarianza que ha agregado.

En SEM , he encontrado (a través de una experiencia limitada, no a través del estudio teórico):

Beneficios

  1. El modelado de la estructura de covarianza mejora la bondad de ajuste (GoF) si la covarianza es mucho más fuerte que su error estándar (es decir, si la ruta simétrica es significativa). Esto significa que generalmente no mejorará GoF al modelar correlaciones cercanas a cero, y la multicolinealidad puede causar problemas para GoF porque infla los errores estándar.

  2. Todavía no he intentado retener datos para predecir, pero mi intuición es que fijar las covarianzas a cero en su modelo es análogo a predecir un DV combinando un conjunto de ecuaciones de regresión lineal separadas de un solo IV. A diferencia de este enfoque, la regresión múltiple explica la covarianza en los IV cuando se produce un modelo de ecuaciones para predecir la DV. Esto ciertamente mejora la interpretabilidad al separar los efectos directos de los efectos indirectos que ocurren completamente dentro del conjunto incluido de IV. Honestamente, no estoy seguro de si esto necesariamente mejora la predicción del DV. Siendo un usuario de estadísticas y no un estadístico, reuní la siguiente función de prueba de simulación para dar una respuesta incompleta (aparentemente, "Sí, la precisión predictiva mejora cuando el modelo incorpora covarianza IV") en este caso con suerte análogo ...

    simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
    require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
    x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
    y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
    y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
    bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
    output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
    cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
    list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
    mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
    
    # Wrapping the function in str( ) gives you the gist without filling your whole screen
    str(simtestit())
    

    norte= IterationsnorteSample.Sizez = x +y = x + z +yxz

    1y.predicted

    2bizarro.y.predicted

    outputIterationsR2121>2rxyzoutputsimtestit()str( )R2 se mejoró utilizando (1rpsych paquete).

    R2R2 parece ser mayor cuando la covarianza de los IV (que puede manipularse de forma incompleta ingresando un argumento paraIV.r) es más grande. Dado que probablemente esté más familiarizado con su función GLM que yo (lo cual no está en absoluto), probablemente podría cambiar esta función o utilizar la idea básica para comparar las predicciones GLM a través de la cantidad de IV que desee sin demasiados problemas. Suponiendo que resultaría (o lo hace) de la misma manera, parecería que la respuesta básica a su segunda pregunta es probablemente sí, pero cuánto depende de cuán fuertemente covary el IV. Las diferencias en el error de muestreo entre los datos retenidos y los datos utilizados para ajustar el modelo podrían abrumar la mejora en su precisión predictiva dentro del último conjunto de datos, porque nuevamente, la mejora parece ser pequeña a menos que las correlaciones IV sean fuertes (al menos, en el caso máximo básico con solo dos IV).

  3. Especificar una ruta libre para la covarianza entre los IV en el modelo significa pedirle a la función de ajuste del modelo que calcule el coeficiente de esta ruta, que representa el grado de covarianza entre los IV. Si su función GLM le permite especificar un modelo en el que la covarianza entre los IV se estima libremente en lugar de fijarse en cero, entonces su problema es con suerte una simple cuestión de averiguar cómo hacer esto y cómo hacer que su función se genere esa estimación Si su función estima las covarianzas IV por defecto, su problema se simplifica aún más a la última cuestión (como es el caso con lm( )).

Costos

  1. Sí, estimar libremente la covarianza entre los IV significa que el algoritmo de ajuste del modelo tiene que hacer algún trabajo para estimar el coeficiente de esa ruta. No especificar esa ruta en el modelo generalmente significa fijar el coeficiente a cero, lo que significa que el algoritmo de ajuste del modelo no necesita estimar el coeficiente. Estimar parámetros de covarianza adicionales significa que el modelo general requerirá más tiempo para adaptarse. En los modelos que ya tardan mucho en estimarse, el tiempo adicional puede ser considerable, especialmente si tiene muchas vías intravenosas.

  2. Sí, una estructura de covarianza libremente estimada implica estimaciones de parámetros. Las poblaciones tienen parámetros de covarianza, por lo que si está estimando covarianzas de población, está estimando parámetros. Sin embargo, si su modelo se ajusta mucho mejor porque elige estimar una correlación no trivial en lugar de fijarla en cero, probablemente pueda esperar que los criterios de información de Akaike y Bayesianos mejoren, al igual que otros criterios que incorporan GoF. No estoy familiarizado con el criterio de información de desviación (el DIC al que te refieres, ¿verdad?), Pero a juzgar por su página de Wikipedia , también parece incorporar GoF y una penalización por la complejidad del modelo.

    Por lo tanto, el GoF debería necesitar mejorar proporcionalmente más de lo que aumenta la complejidad del modelo para mejorar el DIC. Si esto no sucede en general, los criterios como estos que penalizan la complejidad del modelo empeorarán a medida que calcule más covarianzas intravenosas. Esto podría ser un problema si, por ejemplo, sus IV no se correlacionan, pero la estructura de covarianza se estima libremente de todos modos porque cree que los IV pueden correlacionarse, o porque esa es la configuración predeterminada de su función. Si tiene razones teóricas anteriores para suponer que una correlación es cero y no desea que su modelo pruebe esta suposición, este es un caso en el que podría estar justificado para fijar la ruta a cero. Si su teoría anterior es aproximadamente correcta,

No sé con qué función está trabajando, pero una vez más, estoy seguro de que no estoy familiarizado con él, por lo que estoy seguro de que esta respuesta podría mejorarse, especialmente mi respuesta a la segunda pregunta de beneficio (por un lado, una matemática La prueba de lo que estoy respondiendo por simulación sobre la regresión múltiple probablemente esté disponible en algún lugar). Ni siquiera estoy familiarizado con GLM en general (suponiendo que se refiera al modelado lineal generalizado , no general, como sugiere la etiqueta), así que espero que alguien comente o edite esta respuesta si las distinciones de SEM invalidan mis respuestas a sus preguntas en absoluto.

Sin embargo, parece que hemos estado esperando diez meses para que los gurús hablen, por lo que si esto no logra que lo hagan, tendrá que hacerlo solo, supongo. Avíseme si tiene en mente una función GLM particular con la que desea que me meta en R. Es posible que pueda descubrir cómo responder # 3 más directamente para su aplicación si puede especificar una función GLM de interés en R. Tampoco soy un experto en pruebas de simulación, pero creo que sus otras cuatro preguntas podrían ser probadas simuladamente (más directamente) también.

Nick Stauner
fuente
2
+1 Una impresionante respuesta reflexiva. ¡Bienvenido a CV, Nick!
whuber