Prueba de igualdad de coeficientes de dos regresiones diferentes

44

Esto parece ser un problema básico, pero acabo de darme cuenta de que en realidad no sé cómo probar la igualdad de los coeficientes de dos regresiones diferentes. ¿Alguien puede arrojar algo de luz sobre esto?

Más formalmente, supongamos que ejecuté las siguientes dos regresiones: e donde refiere a la matriz de diseño de la regresión , y al vector de coeficientes en la regresión . Tenga en cuenta que y son potencialmente muy diferentes, con diferentes dimensiones, etc. Me interesa, por ejemplo, si .

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Si vinieran de la misma regresión, esto sería trivial. Pero dado que provienen de diferentes, no estoy muy seguro de cómo hacerlo. ¿Alguien tiene una idea o me puede dar algunos consejos?

Mi problema en detalle: mi primera intuición fue mirar los intervalos de confianza, y si se superponen, entonces diría que son esencialmente los mismos. Sin embargo, este procedimiento no viene con el tamaño correcto de la prueba (es decir, cada intervalo de confianza individual tiene , por ejemplo, pero mirarlos conjuntamente no tendrá la misma probabilidad). Mi "segunda" intuición fue realizar una prueba t normal. Es decir, tomaα=0.05

β11β21sd(β11)

donde se toma como el valor de mi hipótesis nula. Sin embargo, esto no tiene en cuenta la incertidumbre de la estimación de , y la respuesta puede depender del orden de las regresiones (a cuál llamo 1 y 2).β21β21

Mi tercera idea fue hacerlo como en una prueba estándar para la igualdad de dos coeficientes de la misma regresión, es decir, tomar

β11β21sd(β11β21)

La complicación surge debido al hecho de que ambos provienen de regresiones diferentes. Tenga en cuenta que

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
pero desde son de diferentes regresiones, ¿cómo obtendría ?Cov(β11,β21)

Esto me llevó a hacer esta pregunta aquí. Esto debe ser un procedimiento estándar / prueba estándar, pero no puedo encontrar nada que sea lo suficientemente similar a este problema. Entonces, si alguien puede señalarme el procedimiento correcto, ¡estaría muy agradecido!

coffeinjunky
fuente
2
Esto parece estar relacionado con el modelado de ecuaciones estructurales / simultáneas. Una forma de resolver este problema es ajustar ambas ecuaciones simultáneamente, por ejemplo, con la máxima probabilidad, y luego usar una prueba de razón de probabilidad de un modelo restringido (modelo de igual parámetro) contra un modelo sin restricciones. Prácticamente esto se puede hacer con el software SEM (Mplus, lavaan, etc.)
tomka
2
¿Conoces la Regresión aparentemente no relacionada (SUR)?
Dimitriy V. Masterov
2
Creo que la pregunta que plantea su planteamiento, es decir, cómo obtener el cov de ambos coeficientes, está resuelta por SEM, que le daría la matriz var-cov de todos los coeficientes. Entonces, podría utilizar una prueba de Wald de la manera que sugirió en lugar de una prueba LRT. Además, también puede usar re-sample / bootstrap, que puede ser más directo.
tomka
3
Sí, tienes razón en eso, @tomka. En un modelo SUR (que puede ser considerado como un caso especial de modelos SEM), puedo obtener la prueba adecuada. ¡Gracias por señalarme en esa dirección! Creo que no lo pensé porque parece un poco como dispararle a un gorrión con un cañón, pero de hecho no puedo pensar en una mejor manera. Si escribe una respuesta, la marcaré como correcta. De lo contrario, lo escribiré yo mismo pronto, con una explicación teórica rápida y potencialmente con un ejemplo.
coffeinjunky
1
SUR es bastante fácil de implementar. Aquí hay un ejemplo con Stata . Con R, quieres un ajuste del sistema .
Dimitriy V. Masterov

Respuestas:

30

Aunque este no es un análisis común, realmente es de interés. La respuesta aceptada se ajusta a la forma en que formuló su pregunta, pero voy a proporcionar otra técnica razonablemente bien aceptada que puede ser o no equivalente (lo dejaré a las mejores mentes para comentar sobre eso).

Este enfoque es utilizar la siguiente prueba Z:

Z=β1β2(SEβ1)2+(SEβ2)2

Donde es el error estándar de .SEββ

Esta ecuación es proporcionada por Clogg, CC, Petkova, E. y Haritou, A. (1995). Métodos estadísticos para comparar coeficientes de regresión entre modelos. American Journal of Sociology , 100 (5), 1261-1293. y es citado por Paternoster, R., Brame, R., Mazerolle, P. y Piquero, A. (1998). Usando la prueba estadística correcta para la igualdad de los coeficientes de regresión. Criminología , 36 (4), 859-866. ecuación 4, que está disponible sin un muro de pago. He adaptado la fórmula de Peternoster para usar lugar deβbporque es posible que pueda estar interesado en diferentes DV por alguna terrible razón y mi memoria de Clogg et al. fue que su fórmula usaba . También recuerdo verificar esta fórmula con Cohen, Cohen, West y Aiken, y la raíz del mismo pensamiento se puede encontrar allí en el intervalo de confianza de las diferencias entre coeficientes, ecuación 2.8.6, pg 46-47.β

russellpierce
fuente
Ver también: stats.stackexchange.com/questions/55501/…
russellpierce
Respuesta impresionante! Una pregunta de seguimiento: ¿esto también se aplica a combinaciones lineales de del Modelo 1 y del Modelo 2? Me gusta,β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gambling
1
También noto que el documento discute el caso en el que un modelo está anidado dentro del otro, y los DV de dos modelos son iguales. ¿Qué pasa si no se cumplen estas dos condiciones? En cambio, tengo matrices de diseño de los dos modelos que son iguales, pero tienen DV diferentes. ¿Todavía se aplica esta fórmula? ¡Muchas gracias!
Sibbs Gambling
1
@SibbsGambling: es posible que desee hacer una pregunta por derecho propio para llamar más la atención.
russellpierce
A simple vista, esto parece un caso especial de la solución SUR insinuado en la respuesta de coffeinjunky. Es un caso especial porque se supone implícitamente que la covarianza entre los estimadores de y es cero. Me pregunto si en general es justificable. Para estar seguro, preferiría la solución más general de coffeinjunky. Lo que me hace preguntarme por qué esta es la respuesta aceptada con claramente la mayoría de los votos. β1β2
Richard Hardy
12

Para las personas con una pregunta similar, permítanme proporcionar un resumen simple de la respuesta.

El truco consiste en configurar las dos ecuaciones como un sistema de ecuaciones aparentemente no relacionadas y estimarlas conjuntamente. Es decir, apilamos e uno encima del otro, y hacemos más o menos lo mismo con la matriz de diseño. Es decir, el sistema a estimar es:y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Esto conducirá a una matriz de varianza-covarianza que permite probar la igualdad de los dos coeficientes.

coffeinjunky
fuente
11
Implementé la forma en que sugirió y lo comparé con la forma anterior. Encontré que la diferencia clave es si la suposición de que la varianza del error es la misma o no. Su camino supone que la varianza del error es la misma y el camino anterior no lo asume.
KH Kim
2
Esto funcionó bien para mí. En Stata, hice algo como: El expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); uso de errores estándar agrupados explica el hecho de que e1 y e2 no son independientes para la misma observación después de apilar el conjunto de datos.
wkschwartz
1
  • Cuando las regresiones provienen de dos muestras diferentes, puede suponer: que conduce a la fórmula provista en otra respuesta.Var(β1β2)=Var(β1)+Var(β2)

  • Pero su pregunta estaba precisamente relacionada con el caso cuando . En este caso, las ecuaciones aparentemente no relacionadas parecen ser el caso más general. Sin embargo, proporcionará coeficientes diferentes de los de las ecuaciones originales, que pueden no ser lo que está buscando.covar(β1,β2)0

  • (Clogg, CC, Petkova, E. y Haritou, A. (1995). Métodos estadísticos para comparar los coeficientes de regresión entre modelos. American Journal of Sociology, 100 (5), 1261-1293.) Presenta una respuesta en el caso especial de ecuaciones anidadas (es decir, para obtener la segunda ecuación, considere la primera ecuación y agregue algunas variables explicativas) Dicen que es fácil de implementar.

  • Si lo entiendo bien, en este caso especial, también se puede implementar una prueba de Haussman. La diferencia clave es que su prueba considera verdadera la segunda ecuación (completa), mientras que la prueba de Haussman considera verdadera la primera ecuación.

  • Tenga en cuenta que Clogg et al (1995) no son adecuados para los datos del panel. Pero su prueba ha sido generalizada por (Yan, J., Aseltine Jr, RH y Harel, O. (2013). Comparación de coeficientes de regresión entre modelos lineales anidados para datos agrupados con ecuaciones de estimación generalizadas. Journal of Educational and Behavioral Statistics, 38 (2), 172-189.) Con un paquete proporcionado en R: geepack Consulte: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

Y (para el paquete R): https://cran.r-project.org/web/packages/geepack/index.html

Alexandre Cazenave-Lacroutz
fuente