Considere un modelo de efectos lineales no observados del tipo: donde es una característica no observada pero invariable en el tiempo y es un error, y indexar observaciones individuales y tiempo, respectivamente. El enfoque típico en una regresión de efectos fijos (FE) sería eliminar través de dummies individuales (LSDV) / de-significado o por primera diferenciación. c e i t c i
Lo que siempre me he preguntado: ¿cuándo realmente "arreglado"?
Esto puede parecer una pregunta trivial, pero déjame darte dos ejemplos de mi razón detrás de esto.
Supongamos que entrevistar a una persona hoy y pedir su ingreso, peso, etc., así que conseguir nuestra . Durante los próximos 10 días, vamos a esa misma persona y la entrevistamos nuevamente todos los días, por lo que tenemos datos de panel para ella. ¿Deberíamos tratar las características no observadas como fijas para este período de 10 días cuando seguramente cambiarán en algún otro momento en el futuro? En 10 días, su capacidad personal podría no cambiar, pero lo hará cuando sea mayor. O preguntado de una manera más extrema: si entrevisto a esta persona cada hora durante 10 horas en un día, es probable que sus características no observadas se fijen en esta "muestra", pero ¿qué tan útil es esto?
Ahora, supongamos que entrevistamos a una persona todos los meses desde el principio hasta el final de su vida durante 85 años más o menos. ¿Qué quedará fijo en este tiempo? Lugar de nacimiento, género y color de ojos muy probablemente, pero aparte de eso, apenas puedo pensar en otra cosa. Pero aún más importante: ¿qué pasa si hay una característica que cambia en un solo punto de su vida pero el cambio es infinitamente pequeño? Entonces ya no es un efecto fijo porque cambió cuando en la práctica esta característica es casi fija.
Desde un punto estadístico, es relativamente claro qué es un efecto fijo, pero desde un punto intuitivo, esto es algo que encuentro difícil de entender. Tal vez alguien más tuvo estos pensamientos antes y se le ocurrió una discusión sobre cuándo un efecto fijo es realmente un efecto fijo. Agradecería mucho otras ideas sobre este tema.
"all models are wrong, but some are useful"
- George Box .Respuestas:
Si está interesado en esta formulación para la inferencia causal acerca de entonces las cantidades desconocidas representadas por solo necesitan ser estables durante la duración del estudio / datos para efectos fijos para identificar la cantidad causal relevante. c iβ ci
Si le preocupa que las cantidades representadas por no sean estables incluso durante este período, los efectos fijos no harán lo que desee. Entonces puede usar efectos aleatorios en su lugar, aunque si espera una correlación entre aleatorio y , querrá condicionar en en una configuración de varios niveles. La preocupación por esta correlación es a menudo una de las motivaciones para una formulación de efectos fijos porque en muchas circunstancias (pero no en todas) no necesita preocuparse por eso.c i X i c i ˉ X ici ci Xi ci X¯i
En resumen, su preocupación por la variación en las cantidades representadas por es muy razonable, pero principalmente porque afecta los datos del período que tiene en lugar de los períodos que podría haber tenido o que eventualmente podría tener pero que no tiene.ci
fuente
La distinción entre un efecto fijo y un efecto aleatorio generalmente no tiene implicaciones en las estimaciones (Editar: al menos en los casos no correlacionados del libro de texto simple), además de una cuestión de eficiencia, pero implicación considerable para las pruebas.
A los fines de la prueba, la pregunta que debe hacerse es cuál es el nivel de ruido que debe superar su señal. Es decir, ¿a qué población desea generalizar sus hallazgos? Usando el ejemplo (1): ¿debería ser la variabilidad durante el mismo día, un período más largo o la variabilidad sobre diferentes individuos?
Cuantos más componentes de varianza infiera, más fuerte será su hallazgo científico, con mejores posibilidades de replicación. Naturalmente, hay un límite en la cantidad de generalización que puede solicitar, ya que no solo el ruido se hace más fuerte, sino que también la señal ( )) se debilita. Para ver esto, imagine que es el efecto esperado de sobre el peso, pero no durante algunos períodos de vida de un solo sujeto, sino sobre todos los mamíferos . E ( c i ) X iE(ci E(ci) Xi
fuente
He luchado con preguntas similares, vea A Festschrift (publicación de blog) para Lord, su paradoja y la predicción de Novick , y aquí está mi mejor intento (con suerte con correcciones si estoy lamentablemente equivocado). Si eliminamos los choques no aleatorios, , de la ecuación simplemente tenemos:Xitβ
Que se puede ver como una caminata aleatoria retrocediendo en el tiempo:
Entonces, esto es solo un replanteamiento de la respuesta del conjugado previo "solo necesita ser estable durante la duración del estudio", pero un replanteamiento me parece útil. Por lo tanto, durante la duración del estudio, es razonable considerar que, en ausencia de los tratamientos de interés, la parte , el resultado sería una caminata aleatoria, solo guiada por choques exógenos aleatorios: el ' s? Por supuesto, esto no es cierto, excepto en circunstancias trivialmente pedantes.e i tXitβ eit
Ahí es donde termina mi consejo. Como Gung menciona la frase de George Box, "todos los modelos están equivocados, pero algunos son útiles". Sabría mejor que yo cómo determinar cuándo se justifica esta simplificación en un diseño de investigación en particular. Se puede suponer que no podemos observar la misma manera que la caminata aleatoria no es una representación precisa de la realidad, ni siquiera por un pequeño lapso de tiempo.ci
Supongo que para su ejemplo particular de la encuesta, las preguntas que miden datos de tipo de flujo (por ejemplo, ingresos, peso) pueden ser razonables como caminatas aleatorias en marcos de tiempo particularmente cortos. Sin embargo, los datos del tipo de existencias (como cuántos cafés bebiste hoy ) parecen un poco más una presunción perversa.
fuente