¿Por qué el uso de datos transversales para inferir / predecir cambios longitudinales es algo malo?

11

Estoy buscando un documento que espero que exista, pero no sé si es así. Podría ser un conjunto de estudios de caso, y / o un argumento de la teoría de la probabilidad, acerca de por qué el uso de datos transversales para inferir / predecir cambios longitudinales puede ser algo malo (es decir, no es necesariamente así, pero puede serlo).

He visto el error cometido en un par de grandes maneras: se hicieron inferencias porque las personas más ricas en Gran Bretaña viajan más y, a medida que la sociedad se vuelve más rica, la población en general viajará más. Esa inferencia resultó ser falsa durante un período prolongado, más de una década. Y un patrón similar con el uso doméstico de electricidad: los datos transversales implican grandes aumentos con los ingresos, que no se manifiestan con el tiempo.

Están sucediendo varias cosas, incluidos los efectos de cohorte y las restricciones del lado de la oferta.

Sería muy útil tener una sola referencia que compilara estudios de casos como ese; y / o usó la teoría de probabilidad para ilustrar por qué es que usar datos de sección transversal para inferir / predecir cambios longitudinales puede ser muy engañoso.

¿Existe dicho documento y, de ser así, qué es?

references panel-data inference causality cross-section 410 desaparecidos
fuente

2

Creo que los economistas pensarían en estos fenómenos como una especie de efecto de equilibrio general. Las estadísticas indican que esto es una violación de la suposición de valor de tratamiento de unidad estable. Creo que el tema del panel contra la sección transversal es un poco una pista falsa.

Dimitriy V. Masterov

2

Respondes parcialmente tu propia pregunta al pedir cambios "longitudinales". Los datos de sección transversal se llaman porque toman una instantánea en el tiempo, literalmente, una sección transversal cortada de una sociedad que evoluciona en el tiempo con sus muchas relaciones. Por lo tanto, la mejor inferencia que puede esperar hacer es suponer que lo que sea que esté estudiando es invariante en el tiempo, o al menos ha concluido su evolución.

Por otro lado, los datos que está buscando son datos longitudinales o datos de panel para Economists.

Aquí hay una buena referencia que explica principalmente los métodos, pero también destaca dos ejemplos destacados de Economía . El ejemplo 2.1 tiene tasas de inversión de la compañía.

La sección 3 es un poco más teórica pero contiene mucha información: un modelo de datos de panel puede ser

\begin{array}{rcl} y_{i, t} = α y_{i, t - 1} + x_{i, t} γ + η_{i} + v_{i, t} . \end{array}

$\begin{eqnarray} y_{i,t} = \alpha y_{i,t-1} + x_{i,t} \gamma + \eta_{i} + v_{i,t}. \end{eqnarray}$

Ahora, este tipo de modelo puede capturar la dependencia del estado, que es (junto a la heterogeneidad no observada) una explicación común de por qué las personas se comportan de manera diferente. Por lo tanto, si solo observa a personas que viajan en un momento determinado, su no se identificará, lo que significa que no sabe cuánto ha influido su viaje ayer en su decisión de viajar nuevamente. $\alpha$

Ahora, cierre la dependencia del tiempo por un momento, pero tenga en cuenta que esta ecuación probablemente haya sido el verdadero modelo.

En un modelo de sección transversal ahora, eliminaría el subíndice completo porque solo tiene datos en un período. Por lo tanto, tampoco tiene la posibilidad de tener en cuenta el hecho de que cada individuo en su conjunto de datos puede tener muy diferentes, lo que sus regresiones hacia arriba en general, al menos cuando el modelo verdadero es dinámico. Esta es probablemente la razón de la sobreestimación, debido a un efecto individual no observado (también puede ser común), que no midió pero que se reflejó en su estudio transversal. $t$ $\eta_{i}'s$

Ahora, ingrese nuevamente los datos del panel. Lo que podemos hacer es restar la media en el tiempo de cada variable que, dado que la media de es constante en el tiempo, eliminaría este término. Esta transformación (otras son posibles) te permite concentrarte solo en la dinámica (y de hecho perderías cualquier regresor invariable en el tiempo). $\eta_i$

Ahora, esta es la principal diferencia entre la sección transversal y los datos del panel. El hecho de que pueda eliminar el efecto invariante en el tiempo porque tiene esa variación en el tiempo le permite eliminar ciertos sesgos que la estimación de la sección transversal no le permite detectar. Por lo tanto, antes de contemplar un cambio de política, como un impuesto más alto a los viajes porque espera que las personas viajen y desea más ingresos del gobierno, es más útil haber visto el fenómeno durante algunos años para que pueda estar seguro de que no capturando la heterogeneidad no observada en su muestra que interpreta como una propensión a viajar.

Para estimar estos modelos, es mejor pasar por la referencia. Pero tenga cuidado: diferentes suposiciones sobre el comportamiento de las personas harán que los diferentes procedimientos de estimación sean admisibles o no.

¡Espero que esto ayude!

Hirek
fuente

1

Suena muy parecido a la definición de un proceso no ergódico (las medidas sobre las realizaciones no son iguales a las medidas en el tiempo). Lamentablemente, muy pocos fenómenos interesantes del mundo real son ergódicos. Supongo que este podría ser un caso de muestreo e inferencia a menor escala, donde se podrían llevar a cabo ciertas simplificaciones. Estoy pensando en ejemplos de escalas temporales o espaciales pequeñas, en las que no se observa un comportamiento caótico para que los predictores puedan linealizarse. Pero solo estoy divagando aquí ... Me temo que tampoco puedo ayudarte con literatura específica sobre el tema. Lo sentimos: / Pero una pregunta interesante, no obstante

ocramz
fuente

¿Por qué el uso de datos transversales para inferir / predecir cambios longitudinales es algo malo?

Respuestas: