Esto parece ser un problema básico, pero acabo de darme cuenta de que en realidad no sé cómo probar la igualdad de los coeficientes de dos regresiones diferentes. ¿Alguien puede arrojar algo de luz sobre esto?
Más formalmente, supongamos que ejecuté las siguientes dos regresiones: e donde refiere a la matriz de diseño de la regresión , y al vector de coeficientes en la regresión . Tenga en cuenta que y son potencialmente muy diferentes, con diferentes dimensiones, etc. Me interesa, por ejemplo, si .
Si vinieran de la misma regresión, esto sería trivial. Pero dado que provienen de diferentes, no estoy muy seguro de cómo hacerlo. ¿Alguien tiene una idea o me puede dar algunos consejos?
Mi problema en detalle: mi primera intuición fue mirar los intervalos de confianza, y si se superponen, entonces diría que son esencialmente los mismos. Sin embargo, este procedimiento no viene con el tamaño correcto de la prueba (es decir, cada intervalo de confianza individual tiene , por ejemplo, pero mirarlos conjuntamente no tendrá la misma probabilidad). Mi "segunda" intuición fue realizar una prueba t normal. Es decir, toma
donde se toma como el valor de mi hipótesis nula. Sin embargo, esto no tiene en cuenta la incertidumbre de la estimación de , y la respuesta puede depender del orden de las regresiones (a cuál llamo 1 y 2).
Mi tercera idea fue hacerlo como en una prueba estándar para la igualdad de dos coeficientes de la misma regresión, es decir, tomar
La complicación surge debido al hecho de que ambos provienen de regresiones diferentes. Tenga en cuenta que
Esto me llevó a hacer esta pregunta aquí. Esto debe ser un procedimiento estándar / prueba estándar, pero no puedo encontrar nada que sea lo suficientemente similar a este problema. Entonces, si alguien puede señalarme el procedimiento correcto, ¡estaría muy agradecido!
fuente
Respuestas:
Aunque este no es un análisis común, realmente es de interés. La respuesta aceptada se ajusta a la forma en que formuló su pregunta, pero voy a proporcionar otra técnica razonablemente bien aceptada que puede ser o no equivalente (lo dejaré a las mejores mentes para comentar sobre eso).
Este enfoque es utilizar la siguiente prueba Z:
Donde es el error estándar de .SEβ β
Esta ecuación es proporcionada por Clogg, CC, Petkova, E. y Haritou, A. (1995). Métodos estadísticos para comparar coeficientes de regresión entre modelos. American Journal of Sociology , 100 (5), 1261-1293. y es citado por Paternoster, R., Brame, R., Mazerolle, P. y Piquero, A. (1998). Usando la prueba estadística correcta para la igualdad de los coeficientes de regresión. Criminología , 36 (4), 859-866. ecuación 4, que está disponible sin un muro de pago. He adaptado la fórmula de Peternoster para usar lugar deβ b porque es posible que pueda estar interesado en diferentes DV por alguna terrible razón y mi memoria de Clogg et al. fue que su fórmula usaba . También recuerdo verificar esta fórmula con Cohen, Cohen, West y Aiken, y la raíz del mismo pensamiento se puede encontrar allí en el intervalo de confianza de las diferencias entre coeficientes, ecuación 2.8.6, pg 46-47.β
fuente
Para las personas con una pregunta similar, permítanme proporcionar un resumen simple de la respuesta.
El truco consiste en configurar las dos ecuaciones como un sistema de ecuaciones aparentemente no relacionadas y estimarlas conjuntamente. Es decir, apilamos e uno encima del otro, y hacemos más o menos lo mismo con la matriz de diseño. Es decir, el sistema a estimar es:y1 y2
Esto conducirá a una matriz de varianza-covarianza que permite probar la igualdad de los dos coeficientes.
fuente
expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id);
uso de errores estándar agrupados explica el hecho de que e1 y e2 no son independientes para la misma observación después de apilar el conjunto de datos.Cuando las regresiones provienen de dos muestras diferentes, puede suponer: que conduce a la fórmula provista en otra respuesta.Var(β1−β2)=Var(β1)+Var(β2)
Pero su pregunta estaba precisamente relacionada con el caso cuando . En este caso, las ecuaciones aparentemente no relacionadas parecen ser el caso más general. Sin embargo, proporcionará coeficientes diferentes de los de las ecuaciones originales, que pueden no ser lo que está buscando.covar(β1,β2)≠0
(Clogg, CC, Petkova, E. y Haritou, A. (1995). Métodos estadísticos para comparar los coeficientes de regresión entre modelos. American Journal of Sociology, 100 (5), 1261-1293.) Presenta una respuesta en el caso especial de ecuaciones anidadas (es decir, para obtener la segunda ecuación, considere la primera ecuación y agregue algunas variables explicativas) Dicen que es fácil de implementar.
Si lo entiendo bien, en este caso especial, también se puede implementar una prueba de Haussman. La diferencia clave es que su prueba considera verdadera la segunda ecuación (completa), mientras que la prueba de Haussman considera verdadera la primera ecuación.
Tenga en cuenta que Clogg et al (1995) no son adecuados para los datos del panel. Pero su prueba ha sido generalizada por (Yan, J., Aseltine Jr, RH y Harel, O. (2013). Comparación de coeficientes de regresión entre modelos lineales anidados para datos agrupados con ecuaciones de estimación generalizadas. Journal of Educational and Behavioral Statistics, 38 (2), 172-189.) Con un paquete proporcionado en R: geepack Consulte: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1
Y (para el paquete R): https://cran.r-project.org/web/packages/geepack/index.html
fuente