¿Por qué los investigadores en economía usan la regresión lineal para las variables de respuesta binaria?

Últimamente, he tenido que leer varios artículos en economía (un campo con el que no estoy muy familiarizado). Una cosa que he notado es que incluso cuando la variable de respuesta es binaria, los modelos de regresión lineal ajustados usando OLS son ubicuos. Mi pregunta es por lo tanto:

¿Por qué se prefiere la regresión lineal, por ejemplo, la regresión logística en el campo de la economía? ¿Se trata simplemente de una práctica común o es un procedimiento defendido activamente (en documentos, por profesores, etc.)?

Tenga en cuenta que no estoy preguntando por qué usar una regresión lineal con una respuesta binaria puede ser una mala idea, o cuáles son los métodos alternativos. Por el contrario, pregunto por qué las personas usan la regresión lineal en este entorno porque sé las respuestas a estas dos preguntas.

regression logistic econometrics MånsT
fuente

¿Puedes dar algún ejemplo?

Stephan Kolassa

Esto no es correcto La economía y la econometría también tienen una vasta literatura sobre logit y probit y modelos relacionados. Yo también soy un extraño y no puedo cuantificar fácilmente el uso relativo, pero la literatura es lo suficientemente grande como para refutar "ubicua" (es decir, en todas partes). Aquí hay una pregunta acerca de por qué se usa el llamado modelo de probabilidad lineal y no creo que la explicación deba ser profunda o difícil de encontrar: es simple de entender y, a veces, funciona adecuadamente.

Nick Cox

La economía solo tiene una relación muy informal con las matemáticas. No me preocuparía demasiado por eso.

Sycorax dice Reinstate Monica

@ Sycorax Tengo una sensación similar. Y si uno es descuidado con las matemáticas, él / ella aún podrá construir algo que "funcione".

Haitao Du

@Sycorax Eso no es cierto ni justo. Ciertamente, afirmar que "No te preocuparás demasiado por eso" es irresponsable a la pregunta. Dependiendo del subcampo, la economía puede tener una relación muy fuerte con las matemáticas y las estadísticas. Es solo que los economistas a menudo se preocupan por la inferencia causal, mientras que también tienen que lidiar con datos de observación (como hacen muchas ciencias sociales). Esto hace que sea extremadamente difícil establecer un rigor matemático fuerte sin aportar cierta intuición económica.

ESTADOS

Respuestas:

Esta publicación de blog del blog econométrico de Dave Giles describe principalmente las desventajas del Modelo de probabilidad lineal (LPM).

Sin embargo , sí incluye una breve lista de razones por las cuales los investigadores eligen usarla:

Es computacionalmente más simple.
Es más fácil interpretar los "efectos marginales".
Evita el riesgo de especificación errónea de la "función de enlace".
Hay complicaciones con Logit o Probit si tiene regresores ficticios endógenos.
Los efectos marginales estimados de los modelos LPM, Logit y Probit suelen ser muy similares, especialmente si tiene un tamaño de muestra grande.

No sé si el LPM es todo lo que se usa comúnmente en comparación con logit o probit, pero algunas de las razones anteriores son razonables para mí.

Genial38
fuente

+1, gracias por el término Modelo de probabilidad lineal, no lo sabía antes.

Haitao Du

Hay una gran sección sobre esto en "Econometría principalmente inofensiva" de Angrist y Pischke, si está interesado en más.

shf8888

Tuve preguntas similares cuando leí papeles de otros archivados. Y formuló muchas preguntas relacionadas con esto, como esta en la comunidad de Educación de Minería de Datos: ¿Por qué usar la pérdida al cuadrado en las probabilidades en lugar de la pérdida logística?

Aquí presentaré muchas opiniones personales.

Siento que la función de pérdida no importa demasiado en muchos casos de uso práctico. Algún investigador puede saber más acerca de la pérdida al cuadrado y el sistema de construcción de la misma, sigue funcionando y resuelve problemas del mundo real. Es posible que los investigadores nunca sepan la pérdida logística o la pérdida de la bisagra, y quieran probarlo. Además, puede que no les interese encontrar el modelo matemático óptimo, pero quieren resolver problemas reales que nadie intentó resolver antes.

Este es otro ejemplo: si marca esta respuesta a mi pregunta, todas son similares. ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?

Más pensamientos: una investigación de aprendizaje automático puede pasar mucho tiempo en qué modelo elegir y cómo optimizar el modelo. Esto se debe a que un investigador de aprendizaje automático puede no tener la capacidad de recopilar más datos / obtener más medidas. Y el trabajo de un investigador de aprendizaje automático es mejorar las matemáticas, no resolver mejor un problema específico del mundo real.

Por otro lado, en el mundo real, si los datos son mejores, supera todo. Por lo tanto, elegir una red neuronal o un bosque aleatorio puede no importar demasiado. Todos estos modelos son similares a los que una persona quiere utilizar el aprendizaje automático como herramienta para resolver problemas del mundo real. Una persona que no está interesada en desarrollar matemática o herramientas puede pasar más tiempo usando el conocimiento de un dominio específico para mejorar el sistema.

Como mencioné en el comentario. Y si uno es descuidado con las matemáticas, todavía podrá construir algo que funcione.

Haitao Du
fuente

(+1) Son muchas "citas" hxd, ¿qué se supone que comuniquen? ¿"Funciona" significa "piensan que funciona, pero no" o significa "funciona"?

Matthew Drury

@MatthewDrury gracias por el comentario. Creo que tenía muchos sentimientos personales y no sé cómo escribirlos. Creo que muchos de ellos no son formales ni demasiado subjetivos. Es por eso que tuve muchas citas.

Haitao Du

Creo que es más claro etiquetarlos como opiniones personales. Esto es lo que hago en clase con los estudiantes: "Esto está al borde de la opinión personal, pero los SVM apestan" (no es un ejemplo real, o es ...)

Matthew Drury

@MatthewDrury gracias por aconsejarme en la escritura, no, no hay citas en la respuesta!

Haitao Du