Últimamente, he tenido que leer varios artículos en economía (un campo con el que no estoy muy familiarizado). Una cosa que he notado es que incluso cuando la variable de respuesta es binaria, los modelos de regresión lineal ajustados usando OLS son ubicuos. Mi pregunta es por lo tanto:
¿Por qué se prefiere la regresión lineal, por ejemplo, la regresión logística en el campo de la economía? ¿Se trata simplemente de una práctica común o es un procedimiento defendido activamente (en documentos, por profesores, etc.)?
Tenga en cuenta que no estoy preguntando por qué usar una regresión lineal con una respuesta binaria puede ser una mala idea, o cuáles son los métodos alternativos. Por el contrario, pregunto por qué las personas usan la regresión lineal en este entorno porque sé las respuestas a estas dos preguntas.
fuente
Respuestas:
Esta publicación de blog del blog econométrico de Dave Giles describe principalmente las desventajas del Modelo de probabilidad lineal (LPM).
Sin embargo , sí incluye una breve lista de razones por las cuales los investigadores eligen usarla:
No sé si el LPM es todo lo que se usa comúnmente en comparación con logit o probit, pero algunas de las razones anteriores son razonables para mí.
fuente
Tuve preguntas similares cuando leí papeles de otros archivados. Y formuló muchas preguntas relacionadas con esto, como esta en la comunidad de Educación de Minería de Datos: ¿Por qué usar la pérdida al cuadrado en las probabilidades en lugar de la pérdida logística?
Aquí presentaré muchas opiniones personales.
Siento que la función de pérdida no importa demasiado en muchos casos de uso práctico. Algún investigador puede saber más acerca de la pérdida al cuadrado y el sistema de construcción de la misma, sigue funcionando y resuelve problemas del mundo real. Es posible que los investigadores nunca sepan la pérdida logística o la pérdida de la bisagra, y quieran probarlo. Además, puede que no les interese encontrar el modelo matemático óptimo, pero quieren resolver problemas reales que nadie intentó resolver antes.
Este es otro ejemplo: si marca esta respuesta a mi pregunta, todas son similares. ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?
Más pensamientos: una investigación de aprendizaje automático puede pasar mucho tiempo en qué modelo elegir y cómo optimizar el modelo. Esto se debe a que un investigador de aprendizaje automático puede no tener la capacidad de recopilar más datos / obtener más medidas. Y el trabajo de un investigador de aprendizaje automático es mejorar las matemáticas, no resolver mejor un problema específico del mundo real.
Por otro lado, en el mundo real, si los datos son mejores, supera todo. Por lo tanto, elegir una red neuronal o un bosque aleatorio puede no importar demasiado. Todos estos modelos son similares a los que una persona quiere utilizar el aprendizaje automático como herramienta para resolver problemas del mundo real. Una persona que no está interesada en desarrollar matemática o herramientas puede pasar más tiempo usando el conocimiento de un dominio específico para mejorar el sistema.
Como mencioné en el comentario. Y si uno es descuidado con las matemáticas, todavía podrá construir algo que funcione.
fuente