Las técnicas de selección variable, en general (ya sea paso a paso, hacia atrás, hacia adelante, todos los subconjuntos, AIC, etc.), aprovechan los patrones aleatorios o aleatorios en los datos de la muestra que no existen en la población. El término técnico para esto es demasiado ajustado y es especialmente problemático con conjuntos de datos pequeños, aunque no es exclusivo de ellos. Al usar un procedimiento que selecciona variables basadas en el mejor ajuste, toda la variación aleatoria que parece ajustarse en esta muestra en particular contribuye a las estimaciones y los errores estándar. Este es un problema tanto para la predicción como para la interpretación del modelo.
Específicamente, r-cuadrado es demasiado alto y las estimaciones de los parámetros están sesgadas (están demasiado lejos de 0), los errores estándar para los parámetros son demasiado pequeños (y, por lo tanto, los valores p y los intervalos alrededor de los parámetros son demasiado pequeños / estrechos).
La mejor línea de defensa contra estos problemas es construir modelos cuidadosamente e incluir los predictores que tengan sentido basados en la teoría, la lógica y el conocimiento previo. Si es necesario un procedimiento de selección variable, debe seleccionar un método que penalice las estimaciones de los parámetros (métodos de contracción) ajustando los parámetros y los errores estándar para tener en cuenta el ajuste excesivo. Algunos métodos comunes de contracción son la regresión de cresta, la regresión de ángulo mínimo o el lazo. Además, la validación cruzada utilizando un conjunto de datos de entrenamiento y un conjunto de datos de prueba o un promedio de modelo puede ser útil para probar o reducir los efectos del sobreajuste.
Harrell es una gran fuente para una discusión detallada de estos problemas. Harrell (2001). "Estrategias de modelado de regresión".
En el contexto de las ciencias sociales de donde vengo, el problema es si estás interesado en (a) la predicción o (b) probar una pregunta de investigación enfocada. Si el propósito es la predicción, los enfoques basados en datos son apropiados. Si el propósito es examinar una pregunta de investigación enfocada, entonces es importante considerar qué modelo de regresión prueba específicamente su pregunta.
Por ejemplo, si su tarea consistía en seleccionar un conjunto de pruebas de selección para predecir el desempeño laboral, el objetivo puede verse en cierto sentido como uno de maximizar la predicción del desempeño laboral. Por lo tanto, los enfoques basados en datos serían útiles.
Por el contrario, si desea comprender el papel relativo de las variables de personalidad y las variables de habilidad para influir en el rendimiento, entonces un enfoque de comparación de modelo específico podría ser más apropiado.
Por lo general, al explorar preguntas de investigación enfocadas, el objetivo es dilucidar algo sobre los procesos causales subyacentes que operan en lugar de desarrollar un modelo con predicción óptima.
Cuando estoy en el proceso de desarrollar modelos sobre procesos basados en datos transversales, desconfiaré de: (a) incluir predictores que teóricamente podrían considerarse como consecuencias de la variable de resultado. Por ejemplo, la creencia de una persona de que tiene un buen desempeño es un buen predictor del desempeño laboral, pero es probable que esto se deba al menos en parte al hecho de que ha observado su propio desempeño. (b) incluyendo un gran número de predictores que reflejan todos los mismos fenómenos subyacentes. Por ejemplo, incluyendo 20 ítems, todos midiendo la satisfacción con la vida de diferentes maneras.
Por lo tanto, las preguntas de investigación centradas dependen mucho más del conocimiento específico del dominio. Esto probablemente explica de alguna manera por qué los enfoques basados en datos se usan con menos frecuencia en las ciencias sociales.
fuente
No creo que sea posible hacer Bonferoni o correcciones similares para ajustar la selección de variables en la regresión porque todas las pruebas y pasos involucrados en la selección del modelo no son independientes.
Un enfoque es formular el modelo utilizando un conjunto de datos y hacer inferencia en un conjunto diferente de datos. Esto se hace al pronosticar todo el tiempo donde tenemos un conjunto de entrenamiento y un conjunto de prueba. No es muy común en otros campos, probablemente porque los datos son tan valiosos que queremos usar cada observación para la selección del modelo y para la inferencia. Sin embargo, como observa en su pregunta, la desventaja es que la inferencia es realmente engañosa.
Hay muchas situaciones en las que un enfoque basado en la teoría es imposible ya que no existe una teoría bien desarrollada. De hecho, creo que esto es mucho más común que los casos en que la teoría sugiere un modelo.
fuente
Richard Berk tiene un artículo reciente donde demuestra a través de la simulación los problemas de tales indagaciones de datos e inferencia estadística. Como Rob sugirió , es más problemático que simplemente corregir las pruebas de hipótesis múltiples.
Inferencia estadística después de la selección del modelo por: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, vol. 26, núm. 2. (1 de junio de 2010), págs. 217-236.
Versión PDF aquí
fuente
Si entiendo bien su pregunta, la respuesta a su problema es corregir los valores p de acuerdo con el número de hipótesis.
Por ejemplo, las correcciones de Holm-Bonferoni, donde clasifica la hipótesis (= sus diferentes modelos) por su valor p y rechaza aquellos con un valor de p menor que (valor p / índice deseado).
Se puede encontrar más información sobre el tema en Wikipedia
fuente