Estoy buscando un estudio de caso de regresión lineal avanzado que ilustre los pasos necesarios para modelar relaciones complejas y no lineales múltiples utilizando GLM u OLS. Es sorprendentemente difícil encontrar recursos que vayan más allá de los ejemplos básicos de la escuela: la mayoría de los libros que he leído no irán más allá de una transformación logarítmica de la respuesta junto con un BoxCox de un predictor, o una spline natural en el mejor de los casos. Además, todos los ejemplos que he visto hasta ahora abordan cada problema de transformación de datos en un modelo separado, a menudo en un solo modelo predictivo.
Sé lo que es una transformación BoxCox o YeoJohnson. Lo que estoy buscando es un estudio de caso detallado y real en el que la respuesta / relación no sea clara. Por ejemplo, la respuesta no es estrictamente positiva (por lo que no puede usar log o BoxCox), los predictores tienen relaciones no lineales entre ellos y contra la respuesta, y las transformaciones de datos de máxima probabilidad no parecen implicar un estándar de 0.33 o 0.5 exponente. Además, se encuentra que la varianza residual no es constante (nunca lo es), por lo que la respuesta también debe transformarse y se deben elegir entre una regresión de la familia GLM no estándar o una transformación de respuesta. El investigador probablemente tomará decisiones para evitar sobreajustar los datos.
EDITAR
Hasta ahora reuní los siguientes recursos:
- Estrategias de modelado de regresión, F. Harrell
- Serie cronométrica econométrica aplicada, W. Enders
- Modelos lineales dinámicos con R, G. Petris
- Análisis de regresión aplicada, D. Kleinbaum
- Una introducción al aprendizaje estadístico, G. James / D. Witten
Solo leí el último (ISLR) y es un texto muy bueno (un 5 cinco estrellas en mi reloj), aunque más orientado hacia ML que el modelado de regresión avanzado.
También existe este buen puesto en la CV que presenta un caso de regresión desafiante.
Respuestas:
Las estrategias de modelado de regresión e ISLR, que ya han sido mencionadas por otros, son dos muy buenas sugerencias. Tengo algunos otros que quizás quieras considerar.
El modelo predictivo aplicado de Kuhn y Johnson contiene una serie de buenos estudios de casos y es bastante práctico.
Modelos de aditivos generalizados: una introducción a R de Simon Wood es un buen tratamiento de los modelos de aditivos generalizados y cómo se ajustan a ellos utilizando su
mgcv
paquete para R. Contiene algunos ejemplos prácticos no triviales. El uso de modelos GAM es una alternativa para determinar la transformación "correcta", ya que esto se realiza de forma adaptativa a los datos a través de una expansión de spline y una estimación de máxima verosimilitud penalizada. Sin embargo, todavía hay otras opciones que deben hacerse, por ejemplo, la elección de la función de enlace.El paquete mboost para R también se adapta a los modelos GAM, pero utiliza un enfoque diferente a través de la mejora. Recomiendo el tutorial para el paquete (una de las viñetas).
También mencionaré el modelo empírico de descubrimiento y evaluación teórica de Hendry y Doornik, aunque todavía no he leído este libro. Me lo habían recomendado.
fuente
Uno de los mejores materiales del curso que puede encontrar en regresión avanzada, múltiple, compleja (incluida la no lineal) se basa en el libro Estrategias de modelado de regresión de Frank E. Harrell Jr.
El libro se está discutiendo en los comentarios, pero no en este material, que en sí mismo es un gran recurso.
fuente
Recomendaría el libro Econometría sobre todo inofensivo de Joshua D. Angrist y Jörn-Steffen Pischke
Este es el texto más real del mundo real, sal para la tierra que tengo y es súper barato, alrededor de $ 26.00 nuevo. El libro está escrito para el estadístico / economista graduado, por lo que está bastante avanzado.
Ahora bien, este libro no es exactamente lo que está pidiendo en el sentido de que no se centra en "relaciones complejas y múltiples no lineales", sino en fundamentos fundamentales como la endoegeneidad, la interpretación y el diseño inteligente de regresión.
Pero estoy ofreciendo este libro para tratar de hacer un punto. Es decir, cuando se trata de la aplicación del análisis de regresión en el mundo real, los problemas más desafiantes generalmente no tienen que ver con el hecho de que nuestros modelos no son lo suficientemente complejos ... créanme que somos muy buenos en la batería muy compleja modelos! Los problemas más importantes son cosas como
Una comprensión firme de GMM, filtros no lineales y regresión no paramétrica cubre prácticamente todos los temas que ha enumerado y se puede aprender a medida que avanza. Sin embargo, con datos del mundo real, estos marcos tienen el potencial de ser innecesariamente complejos, a menudo perjudiciales.
A menudo, es la capacidad de ser ingeniosamente simple en lugar de ser completamente generalizado y altamente sofisticado, lo que más le beneficia con el análisis del mundo real. Este libro te ayudará con el primero.
fuente
Puede consultar Introducción al aprendizaje estadístico con R (ISLR), el libro habla sobre splines y regresión polinómica en detalle con los casos.
fuente
No estoy seguro de cuál es el objetivo de su pregunta. Puedo recomendar el texto de Análisis econométrico de Greene . Tiene un montón de referencias a documentos dentro. Casi cada ejemplo en el libro hace referencia a un artículo publicado.
Para darle un sabor, mire el Ejemplo 7.6 "Efectos de interacción en un modelo logarítmico para ingresos" en la p.195. Se refiere a un documento y al conjunto de datos: Regina T. Riphahn, Achim Wambach y Andreas Million, " Efectos de incentivos en la demanda de atención médica: una estimación de datos de recuento de paneles bivariados ", Journal of Applied Econometrics, vol. 18, núm. 4, 2003, págs. 387-405.
El ejemplo es sobre el uso de los modelos loglineales y los efectos de interacción. Puede leer el documento completo o la descripción de este libro de texto. Este no es un caso de uso inventado. Es una verdadera investigación publicada. Así es como la gente usa los métodos estadísticos en la investigación económica.
Mientras escribía, el libro está plagado de casos de uso como este sobre el uso de métodos estadísticos avanzados.
fuente
¿Has estudiado algunos de los cursos / libros de Análisis de series de tiempo financieras que Ruey Tsay (UChicago) escribe?
http://faculty.chicagobooth.edu/ruey.tsay/teaching/
Las clases de Ruey Tsays y el libro de texto proporcionan múltiples ejemplos del mundo real en Finanzas de regresiones complejas del tipo que se crean para su uso en los mercados financieros. El capítulo 1 comienza con los modelos de regresión multifactorial y se expande a los modelos de series temporales autorregresivas estacionales en los capítulos 5 o 6.
fuente