Ejemplos de modelos de regresión avanzada

22

Estoy buscando un estudio de caso de regresión lineal avanzado que ilustre los pasos necesarios para modelar relaciones complejas y no lineales múltiples utilizando GLM u OLS. Es sorprendentemente difícil encontrar recursos que vayan más allá de los ejemplos básicos de la escuela: la mayoría de los libros que he leído no irán más allá de una transformación logarítmica de la respuesta junto con un BoxCox de un predictor, o una spline natural en el mejor de los casos. Además, todos los ejemplos que he visto hasta ahora abordan cada problema de transformación de datos en un modelo separado, a menudo en un solo modelo predictivo.

Sé lo que es una transformación BoxCox o YeoJohnson. Lo que estoy buscando es un estudio de caso detallado y real en el que la respuesta / relación no sea clara. Por ejemplo, la respuesta no es estrictamente positiva (por lo que no puede usar log o BoxCox), los predictores tienen relaciones no lineales entre ellos y contra la respuesta, y las transformaciones de datos de máxima probabilidad no parecen implicar un estándar de 0.33 o 0.5 exponente. Además, se encuentra que la varianza residual no es constante (nunca lo es), por lo que la respuesta también debe transformarse y se deben elegir entre una regresión de la familia GLM no estándar o una transformación de respuesta. El investigador probablemente tomará decisiones para evitar sobreajustar los datos.

EDITAR

Hasta ahora reuní los siguientes recursos:

  • Estrategias de modelado de regresión, F. Harrell
  • Serie cronométrica econométrica aplicada, W. Enders
  • Modelos lineales dinámicos con R, G. Petris
  • Análisis de regresión aplicada, D. Kleinbaum
  • Una introducción al aprendizaje estadístico, G. James / D. Witten

Solo leí el último (ISLR) y es un texto muy bueno (un 5 cinco estrellas en mi reloj), aunque más orientado hacia ML que el modelado de regresión avanzado.

También existe este buen puesto en la CV que presenta un caso de regresión desafiante.

Robert Kubrick
fuente
8
Creo que el libro de Frank Harrells ( amazon.com/… ) podría ser útil.
Adam Robinsson
@ AdamRobinsson Veo que el TOC está tocando varios temas relevantes (modelos multivariados, splines, multicolinealidad), pero ¿se ilustran esas metodologías juntas en un ejemplo de la vida real o cada tema se explica por separado? Porque, por lo general, en los ejemplos de la vida real, todos los problemas surgen juntos y nunca es obvio cómo manejarlos bien.
Robert Kubrick
1
Todavía no he leído todo el libro, pero las primeras 150 páginas han sido absolutamente geniales (no soy un estático, solo un entusiasta). Los ejemplos son extensos y elaborados. El libro está acompañado por el paquete RMS (estrategias de modelado de regresión) para R. También he visto el libro de la competencia de David Kleinbaums (lamentablemente olvidé el título) pero contenía mucho menos sobre estrategias y ejemplos (y era el doble de caro).
Adam Robinsson el
3
@RobertKubrick: "Regresión multivariante" significa con más de una respuesta (vea la wiki para la etiqueta que agregó, o aquí ). "Regresión múltiple" significa con más de un predictor.
Scortchi - Restablece a Monica
3
Es posible que desee consultar la serie cronométrica econométrica aplicada de Enders. La nueva versión cubre modelos no lineales hacia el final del libro. Casi todos los datos están disponibles públicamente en el sitio web de St. Louis Fed (accesible a través de quantmod en R) para que pueda seguir ejemplos de la vida real. Los modelos lineales dinámicos con R también tienen algunos ejemplos con datos reales que son bastante decentes.
Eric Brady

Respuestas:

10

Las estrategias de modelado de regresión e ISLR, que ya han sido mencionadas por otros, son dos muy buenas sugerencias. Tengo algunos otros que quizás quieras considerar.

El modelo predictivo aplicado de Kuhn y Johnson contiene una serie de buenos estudios de casos y es bastante práctico.

-

Modelos de aditivos generalizados: una introducción a R de Simon Wood es un buen tratamiento de los modelos de aditivos generalizados y cómo se ajustan a ellos utilizando su mgcvpaquete para R. Contiene algunos ejemplos prácticos no triviales. El uso de modelos GAM es una alternativa para determinar la transformación "correcta", ya que esto se realiza de forma adaptativa a los datos a través de una expansión de spline y una estimación de máxima verosimilitud penalizada. Sin embargo, todavía hay otras opciones que deben hacerse, por ejemplo, la elección de la función de enlace.

El paquete mboost para R también se adapta a los modelos GAM, pero utiliza un enfoque diferente a través de la mejora. Recomiendo el tutorial para el paquete (una de las viñetas).

También mencionaré el modelo empírico de descubrimiento y evaluación teórica de Hendry y Doornik, aunque todavía no he leído este libro. Me lo habían recomendado.

NRH
fuente
Modelado predictivo aplicado ... más o menos. Prefiero ISLR
Robert Kubrick
5

Uno de los mejores materiales del curso que puede encontrar en regresión avanzada, múltiple, compleja (incluida la no lineal) se basa en el libro Estrategias de modelado de regresión de Frank E. Harrell Jr.

El libro se está discutiendo en los comentarios, pero no en este material, que en sí mismo es un gran recurso.

rnso
fuente
2

Recomendaría el libro Econometría sobre todo inofensivo de Joshua D. Angrist y Jörn-Steffen Pischke

Este es el texto más real del mundo real, sal para la tierra que tengo y es súper barato, alrededor de $ 26.00 nuevo. El libro está escrito para el estadístico / economista graduado, por lo que está bastante avanzado.

Ahora bien, este libro no es exactamente lo que está pidiendo en el sentido de que no se centra en "relaciones complejas y múltiples no lineales", sino en fundamentos fundamentales como la endoegeneidad, la interpretación y el diseño inteligente de regresión.

Pero estoy ofreciendo este libro para tratar de hacer un punto. Es decir, cuando se trata de la aplicación del análisis de regresión en el mundo real, los problemas más desafiantes generalmente no tienen que ver con el hecho de que nuestros modelos no son lo suficientemente complejos ... créanme que somos muy buenos en la batería muy compleja modelos! Los problemas más importantes son cosas como

  1. Endogeneidad
  2. no tener todos los datos que necesitamos
  3. Tener demasiados datos ... ¡y todo es un desastre!
  4. Para muchas personas no pueden interpretar sus propios modelos correctamente (un problema que se vuelve más frecuente a medida que hacemos modelos más complejos)

Una comprensión firme de GMM, filtros no lineales y regresión no paramétrica cubre prácticamente todos los temas que ha enumerado y se puede aprender a medida que avanza. Sin embargo, con datos del mundo real, estos marcos tienen el potencial de ser innecesariamente complejos, a menudo perjudiciales.

A menudo, es la capacidad de ser ingeniosamente simple en lugar de ser completamente generalizado y altamente sofisticado, lo que más le beneficia con el análisis del mundo real. Este libro te ayudará con el primero.

Zachary Blumenfeld
fuente
1

Puede consultar Introducción al aprendizaje estadístico con R (ISLR), el libro habla sobre splines y regresión polinómica en detalle con los casos.

Vikram Venkat
fuente
1

No estoy seguro de cuál es el objetivo de su pregunta. Puedo recomendar el texto de Análisis econométrico de Greene . Tiene un montón de referencias a documentos dentro. Casi cada ejemplo en el libro hace referencia a un artículo publicado.

Para darle un sabor, mire el Ejemplo 7.6 "Efectos de interacción en un modelo logarítmico para ingresos" en la p.195. Se refiere a un documento y al conjunto de datos: Regina T. Riphahn, Achim Wambach y Andreas Million, " Efectos de incentivos en la demanda de atención médica: una estimación de datos de recuento de paneles bivariados ", Journal of Applied Econometrics, vol. 18, núm. 4, 2003, págs. 387-405.

El ejemplo es sobre el uso de los modelos loglineales y los efectos de interacción. Puede leer el documento completo o la descripción de este libro de texto. Este no es un caso de uso inventado. Es una verdadera investigación publicada. Así es como la gente usa los métodos estadísticos en la investigación económica.

Mientras escribía, el libro está plagado de casos de uso como este sobre el uso de métodos estadísticos avanzados.

Aksakal
fuente
0

¿Has estudiado algunos de los cursos / libros de Análisis de series de tiempo financieras que Ruey Tsay (UChicago) escribe?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Las clases de Ruey Tsays y el libro de texto proporcionan múltiples ejemplos del mundo real en Finanzas de regresiones complejas del tipo que se crean para su uso en los mercados financieros. El capítulo 1 comienza con los modelos de regresión multifactorial y se expande a los modelos de series temporales autorregresivas estacionales en los capítulos 5 o 6.

zhqiat
fuente
2
Sí, lo hice y no me gusta en absoluto. Su amplitud es muy amplia (desde modelos de volatilidad hasta alta frecuencia hasta ARIMA ...), toca cada tema a la ligera (como no podría con tantos temas a mano) y los estudios y desafíos de R se reducen al mínimo. Es una repetición de trabajos académicos y teorías / modelos ya establecidos que puedes encontrar en otro lugar. Esto es precisamente lo que quiero decir con casos escolares que nunca abordan la complejidad de múltiples desafíos en un problema avanzado del mundo real.
Robert Kubrick