Me gustaría plantear esta pregunta en dos partes. Ambos tratan con un modelo lineal generalizado, pero el primero trata con la selección del modelo y el otro con la regularización.
Antecedentes: Utilizo modelos GLM (lineal, logística, regresión gamma) tanto para la predicción como para la descripción. Cuando me refiero a las " cosas normales que uno hace con una regresión " me refiero en gran medida a la descripción con (i) intervalos de confianza alrededor de los coeficientes, (ii) intervalos de confianza alrededor de las predicciones y (iii) pruebas de hipótesis sobre combinaciones lineales de los coeficientes como "es Hay una diferencia entre el tratamiento A y el tratamiento B? ".
¿Pierde legítimamente la capacidad de hacer estas cosas utilizando la teoría normal en cada uno de los siguientes? Y si es así, ¿son estas cosas realmente buenas solo para los modelos utilizados para la predicción pura?
I. Cuando un GLM ha sido ajustado a través de algún proceso de selección de modelo (por concreción, digamos que es un procedimiento gradual basado en AIC).
II Cuando un GLM ha sido ajustado a través de un método de regularización (digamos usando glmnet en R).
Mi opinión es que, para mí, la respuesta es técnicamente que deberías usar un bootstrap para las " cosas normales que uno hace con una regresión ", pero nadie realmente se atiene a eso.
Agregue:
después de obtener algunas respuestas y leer en otro lugar, aquí está mi opinión sobre esto (para que cualquier otra persona se beneficie y reciba la corrección).
I.
A) RE: Error Generalizar. Para generalizar las tasas de error en los nuevos datos, cuando no hay un conjunto de espera, la validación cruzada puede funcionar, pero debe repetir el proceso por completo para cada pliegue, utilizando bucles anidados, por lo que cualquier selección de características, ajuste de parámetros, etc. debe ser hecho independientemente cada vez. Esta idea debería ser válida para cualquier esfuerzo de modelado (incluidos los métodos penalizados).
B) RE: Prueba de hipótesis e intervalos de confianza de GLM.Cuando se usa la selección del modelo (selección de características, ajuste de parámetros, selección de variables) para un modelo lineal generalizado y existe un conjunto de retención, es permisible entrenar el modelo en una partición y luego ajustar el modelo en los datos restantes o el conjunto de datos completo y use ese modelo / datos para realizar pruebas de hipótesis, etc. Si no existe un conjunto de espera, se puede usar un bootstrap, siempre que se repita el proceso completo para cada muestra de bootstrap. Sin embargo, esto limita las pruebas de hipótesis que se pueden hacer, ya que quizás una variable no siempre se seleccionará, por ejemplo.
C) RE: No llevar a cabo predicciones sobre conjuntos de datos futuros, luego ajusta un modelo determinado guiado por la teoría y algunas pruebas de hipótesis e incluso considera dejar todas las variables en el modelo (significativas o no) (en la línea de Hosmer y Lemeshow). Este es un tipo clásico de modelado de regresión de conjuntos de variables pequeñas y luego permite el uso de CI y prueba de hipótesis.
D) RE: regresión penalizada. Ningún consejo, quizás considere esto adecuado solo para la predicción (o como un tipo de selección de características para luego aplicarlo a otro conjunto de datos como en el punto B anterior) ya que el sesgo introducido hace que las pruebas de CI y de hipótesis sean imprudentes, incluso con el bootstrap.
Respuestas:
Puede consultar el documento de David Freedman, " Una nota sobre ecuaciones de regresión de detección " (sin delegar)
Usando datos completamente no correlacionados en una simulación, muestra que, si hay muchos predictores en relación con el número de observaciones, entonces un procedimiento de detección estándar producirá una regresión final que contiene muchos predictores significativos (más que por casualidad) y una F altamente significativa estadística. El modelo final sugiere que es efectivo para predecir el resultado, pero este éxito es falso. También ilustra estos resultados utilizando cálculos asintóticos. Las soluciones sugeridas incluyen la detección en una muestra y la evaluación del modelo en el conjunto de datos completo y el uso de al menos un orden de magnitud más observaciones que predictores.
fuente
En cuanto a 1) Sí, pierdes esto. Ver, por ejemplo, Harrell Regression Modeling Strategies, un libro publicado por Wiley o un artículo que presenté con David Cassell llamado "Stopping Stepwise" disponible, por ejemplo, www.nesug.org/proceedings/nesug07/sa/sa07.pdf
fuente