¿Cuándo puede usar criterios basados ​​en datos para especificar un modelo de regresión?

20

Escuché que cuando muchas especificaciones del modelo de regresión (por ejemplo, en OLS) se consideran posibilidades para un conjunto de datos, esto causa múltiples problemas de comparación y los valores p y los intervalos de confianza ya no son confiables. Un ejemplo extremo de esto es la regresión gradual.

¿Cuándo puedo usar los datos en sí para ayudar a especificar el modelo y cuándo no es un enfoque válido? ¿Siempre necesitas tener una teoría basada en el tema para formar el modelo?

Estadísticas
fuente

Respuestas:

9

Las técnicas de selección variable, en general (ya sea paso a paso, hacia atrás, hacia adelante, todos los subconjuntos, AIC, etc.), aprovechan los patrones aleatorios o aleatorios en los datos de la muestra que no existen en la población. El término técnico para esto es demasiado ajustado y es especialmente problemático con conjuntos de datos pequeños, aunque no es exclusivo de ellos. Al usar un procedimiento que selecciona variables basadas en el mejor ajuste, toda la variación aleatoria que parece ajustarse en esta muestra en particular contribuye a las estimaciones y los errores estándar. Este es un problema tanto para la predicción como para la interpretación del modelo.

Específicamente, r-cuadrado es demasiado alto y las estimaciones de los parámetros están sesgadas (están demasiado lejos de 0), los errores estándar para los parámetros son demasiado pequeños (y, por lo tanto, los valores p y los intervalos alrededor de los parámetros son demasiado pequeños / estrechos).

La mejor línea de defensa contra estos problemas es construir modelos cuidadosamente e incluir los predictores que tengan sentido basados ​​en la teoría, la lógica y el conocimiento previo. Si es necesario un procedimiento de selección variable, debe seleccionar un método que penalice las estimaciones de los parámetros (métodos de contracción) ajustando los parámetros y los errores estándar para tener en cuenta el ajuste excesivo. Algunos métodos comunes de contracción son la regresión de cresta, la regresión de ángulo mínimo o el lazo. Además, la validación cruzada utilizando un conjunto de datos de entrenamiento y un conjunto de datos de prueba o un promedio de modelo puede ser útil para probar o reducir los efectos del sobreajuste.

Harrell es una gran fuente para una discusión detallada de estos problemas. Harrell (2001). "Estrategias de modelado de regresión".

Brett
fuente
Aceptando, mucho tiempo después! Gracias por esta descripción detallada de los problemas técnicos, y echaré un vistazo al libro de Harrell.
Estadísticas
7

En el contexto de las ciencias sociales de donde vengo, el problema es si estás interesado en (a) la predicción o (b) probar una pregunta de investigación enfocada. Si el propósito es la predicción, los enfoques basados ​​en datos son apropiados. Si el propósito es examinar una pregunta de investigación enfocada, entonces es importante considerar qué modelo de regresión prueba específicamente su pregunta.

Por ejemplo, si su tarea consistía en seleccionar un conjunto de pruebas de selección para predecir el desempeño laboral, el objetivo puede verse en cierto sentido como uno de maximizar la predicción del desempeño laboral. Por lo tanto, los enfoques basados ​​en datos serían útiles.

Por el contrario, si desea comprender el papel relativo de las variables de personalidad y las variables de habilidad para influir en el rendimiento, entonces un enfoque de comparación de modelo específico podría ser más apropiado.

Por lo general, al explorar preguntas de investigación enfocadas, el objetivo es dilucidar algo sobre los procesos causales subyacentes que operan en lugar de desarrollar un modelo con predicción óptima.

Cuando estoy en el proceso de desarrollar modelos sobre procesos basados ​​en datos transversales, desconfiaré de: (a) incluir predictores que teóricamente podrían considerarse como consecuencias de la variable de resultado. Por ejemplo, la creencia de una persona de que tiene un buen desempeño es un buen predictor del desempeño laboral, pero es probable que esto se deba al menos en parte al hecho de que ha observado su propio desempeño. (b) incluyendo un gran número de predictores que reflejan todos los mismos fenómenos subyacentes. Por ejemplo, incluyendo 20 ítems, todos midiendo la satisfacción con la vida de diferentes maneras.

Por lo tanto, las preguntas de investigación centradas dependen mucho más del conocimiento específico del dominio. Esto probablemente explica de alguna manera por qué los enfoques basados ​​en datos se usan con menos frecuencia en las ciencias sociales.

Jeromy Anglim
fuente
4

No creo que sea posible hacer Bonferoni o correcciones similares para ajustar la selección de variables en la regresión porque todas las pruebas y pasos involucrados en la selección del modelo no son independientes.

Un enfoque es formular el modelo utilizando un conjunto de datos y hacer inferencia en un conjunto diferente de datos. Esto se hace al pronosticar todo el tiempo donde tenemos un conjunto de entrenamiento y un conjunto de prueba. No es muy común en otros campos, probablemente porque los datos son tan valiosos que queremos usar cada observación para la selección del modelo y para la inferencia. Sin embargo, como observa en su pregunta, la desventaja es que la inferencia es realmente engañosa.

Hay muchas situaciones en las que un enfoque basado en la teoría es imposible ya que no existe una teoría bien desarrollada. De hecho, creo que esto es mucho más común que los casos en que la teoría sugiere un modelo.

Rob Hyndman
fuente
4

Richard Berk tiene un artículo reciente donde demuestra a través de la simulación los problemas de tales indagaciones de datos e inferencia estadística. Como Rob sugirió , es más problemático que simplemente corregir las pruebas de hipótesis múltiples.

Inferencia estadística después de la selección del modelo por: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, vol. 26, núm. 2. (1 de junio de 2010), págs. 217-236.

Versión PDF aquí

Andy W
fuente
(+1) ¡Gracias por el enlace! Puede interesarle esta pregunta relacionada, stats.stackexchange.com/questions/3200/… . Siéntase libre de contribuir.
chl
@chl, no creo que pueda agregar nada a las excelentes respuestas para esa pregunta. Realmente creo que la respuesta de Brendan es muy conmovedora porque sospecho que el póster original está realmente interesado en la inferencia causal, no solo en la predicción basada en el contexto de la pregunta.
Andy W
Sí, estaba pensando en su respuesta. He iniciado una reflexión sobre el problema del dragado de datos (no exactamente sobre problemas de selección de modelo / variable o inferencia causal), pero hasta ahora recibo pocas respuestas. Si desea agregar sus propias ideas, sería interesante: stats.stackexchange.com/questions/3252/…
chl
2

Si entiendo bien su pregunta, la respuesta a su problema es corregir los valores p de acuerdo con el número de hipótesis.

Por ejemplo, las correcciones de Holm-Bonferoni, donde clasifica la hipótesis (= sus diferentes modelos) por su valor p y rechaza aquellos con un valor de p menor que (valor p / índice deseado).

Se puede encontrar más información sobre el tema en Wikipedia

Peter Smit
fuente
1
Es posible que desee leer esta respuesta a una pregunta separada y ver por qué ajustar los valores p de tal manera puede no ser la mejor solución, stats.stackexchange.com/questions/3200/…
Andy W