Acabo de recibir un rechazo de una revista de economía. Entre las razones citadas para el rechazo estaban:
Los beneficios del uso del método semiparamétrico no se muestran claramente en comparación con las técnicas alternativas más simples con una identificación clara de las relaciones causales.
Ciertamente es posible que podría haber hecho un mejor trabajo al motivar la metodología a un grupo de economistas que generalmente se adhieren a OLS. ¿Pero he violado la "identificación limpia"? Por favor juzgue por usted mismo y hágame saber lo que piensa:
Mi ecuación de estimación principal es es continuo, y son binarios. Puedo suponer justificadamente que que significa que el coeficiente de es condicional imparcial en variables ficticias de nivel individual ("efectos fijos" en econometría). Cuando incluyo continua variable de , simplemente estoy mirando a la heterogeneidad en los efectos del tratamiento estimados a lo largo de gradientes . Entonces, el efecto causal promedio del tratamiento
El modelo está compuesto por splines cuadráticas penalizadas (por ejemplo: Ruppert et al. 2003). Específicamente:
Esto se resuelve con
donde incluye los términos paramétricos y los términos de nudo, y donde la penalización de cresta solo se aplica a los términos de nudo , y se elige para minimizar AIC. (No puedo hacer justicia a la metodología, ver Ruppert et al, o el libro de texto de Simon Wood sobre GAM).
Por supuesto, uso estas semiparamétricas porque no quiero imponer formas funcionales infundadas en mis datos. Hacerlo sesgaría mis estimaciones de manera bastante natural, así como imponer un ajuste logarítmico a una función sinusoidal sesgaría mis estimaciones. ¿Pero hay algo inherente a las splines penalizadas como las describí que inherentemente haría que la siguiente afirmación sea falsa?
fuente
Respuestas:
La "identificación limpia" de los parámetros de regresión no es un concepto establecido. Creo que lo que el revisor quiere decir con esto es que debe especificar un parámetro que sea interpretable, comprobable, de baja dimensionalidad, y para el cual el análisis tenga una potencia decente para detectar, de modo que pueda obtenerse una estimación imparcial con relativamente buena eficiencia.
El deseo de "identificación limpia" no implica que OLS sea la única herramienta adecuada para el trabajo. OLS es, sin embargo, una herramienta teórica y prácticamente sólida para especificar y estimar parámetros bajo una variedad de configuraciones. El deseo de "identificación limpia" tampoco excluye la inferencia semiparamétrica. Como nota, la spline extiende un modelo OLS creando (a) representaciones complejas de covariables. La inferencia semiparamétrica implica un modelado flexible para eliminar la influencia de las estadísticas auxiliares, pero en su modelo parece que la exposición principal se maneja de esa manera.
Creo que el revisor plantea dos preocupaciones fundamentadas. Primero está la justificación de la penalización. Los métodos de regresión penalizados son valiosos para la predicción.. Raramente se usan para inferencia. Los métodos penalizados, como la regresión de crestas, están sesgados y es difícil describirlos o evaluarlos. El objetivo de minimizar AIC es obtener las mejores predicciones, no una inferencia válida. La segunda preocupación comprobada es si la spline es incluso necesaria para modelar la exposición principal. Es cierto que usted dice que una spline es capaz de modelar formas funcionales no lineales complejas. Sin embargo, una spline simplifica muy poco. Es una representación compleja de alta dimensión, con puntos de nudo y ajustes que pueden ser una fuente de sesgo de los investigadores, y covariables que son casi ininterpretables para cualquiera, excepto para estadísticos altamente capacitados. Muchas tendencias estadísticamente significativas modeladas con precisión por splines tienen aproximaciones lineales subyacentes que no son estadísticamente ni prácticamente significativas.
Si la forma funcional de la exposición principal está mal especificada, es posible utilizar los errores estándar de Huber White para obtener una inferencia consistente e imparcial para la pendiente de mínimos cuadrados como una aproximación de primer orden a cualquier tendencia no lineal. Las splines se pueden usar para modelar variables de precisión, en las que no se basa la inferencia, cuando existe un diseño complejo de los datos. Esto sirve para igualar y reducir efectivamente la variabilidad cuando hay heterogeneidad compleja en los datos.
Creo que los comentarios de los revisores pueden abordarse ajustando un modelo lineal para la exposición y realizando inferencia con los errores de Huber White Sandwich. Si la inferencia concuerda principalmente con la inferencia de spline, comente sobre el modelo de spline en la medida en que demuestre una tendencia curvilínea entre la exposición y la respuesta.
fuente