GLM después de la selección o regularización del modelo

12

Me gustaría plantear esta pregunta en dos partes. Ambos tratan con un modelo lineal generalizado, pero el primero trata con la selección del modelo y el otro con la regularización.

Antecedentes: Utilizo modelos GLM (lineal, logística, regresión gamma) tanto para la predicción como para la descripción. Cuando me refiero a las " cosas normales que uno hace con una regresión " me refiero en gran medida a la descripción con (i) intervalos de confianza alrededor de los coeficientes, (ii) intervalos de confianza alrededor de las predicciones y (iii) pruebas de hipótesis sobre combinaciones lineales de los coeficientes como "es Hay una diferencia entre el tratamiento A y el tratamiento B? ".

¿Pierde legítimamente la capacidad de hacer estas cosas utilizando la teoría normal en cada uno de los siguientes? Y si es así, ¿son estas cosas realmente buenas solo para los modelos utilizados para la predicción pura?

I. Cuando un GLM ha sido ajustado a través de algún proceso de selección de modelo (por concreción, digamos que es un procedimiento gradual basado en AIC).

II Cuando un GLM ha sido ajustado a través de un método de regularización (digamos usando glmnet en R).

Mi opinión es que, para mí, la respuesta es técnicamente que deberías usar un bootstrap para las " cosas normales que uno hace con una regresión ", pero nadie realmente se atiene a eso.

Agregue:
después de obtener algunas respuestas y leer en otro lugar, aquí está mi opinión sobre esto (para que cualquier otra persona se beneficie y reciba la corrección).

I.
A) RE: Error Generalizar. Para generalizar las tasas de error en los nuevos datos, cuando no hay un conjunto de espera, la validación cruzada puede funcionar, pero debe repetir el proceso por completo para cada pliegue, utilizando bucles anidados, por lo que cualquier selección de características, ajuste de parámetros, etc. debe ser hecho independientemente cada vez. Esta idea debería ser válida para cualquier esfuerzo de modelado (incluidos los métodos penalizados).

B) RE: Prueba de hipótesis e intervalos de confianza de GLM.Cuando se usa la selección del modelo (selección de características, ajuste de parámetros, selección de variables) para un modelo lineal generalizado y existe un conjunto de retención, es permisible entrenar el modelo en una partición y luego ajustar el modelo en los datos restantes o el conjunto de datos completo y use ese modelo / datos para realizar pruebas de hipótesis, etc. Si no existe un conjunto de espera, se puede usar un bootstrap, siempre que se repita el proceso completo para cada muestra de bootstrap. Sin embargo, esto limita las pruebas de hipótesis que se pueden hacer, ya que quizás una variable no siempre se seleccionará, por ejemplo.

C) RE: No llevar a cabo predicciones sobre conjuntos de datos futuros, luego ajusta un modelo determinado guiado por la teoría y algunas pruebas de hipótesis e incluso considera dejar todas las variables en el modelo (significativas o no) (en la línea de Hosmer y Lemeshow). Este es un tipo clásico de modelado de regresión de conjuntos de variables pequeñas y luego permite el uso de CI y prueba de hipótesis.

D) RE: regresión penalizada. Ningún consejo, quizás considere esto adecuado solo para la predicción (o como un tipo de selección de características para luego aplicarlo a otro conjunto de datos como en el punto B anterior) ya que el sesgo introducido hace que las pruebas de CI y de hipótesis sean imprudentes, incluso con el bootstrap.

B_Miner
fuente
1
Las personas a veces hacen esto, sin saberlo (es decir, mal uso de las estadísticas, porque obtienen el resultado deseado) y a sabiendas (hicieron bootstrap y no afectó sustancialmente el resultado). Su punto es válido, y el profesor Harrell señala esto en el Prefacio de su libro que bootstrap es beneficioso.
suncoolsu
1
Aquí hay algo así como "sí" para su punto (II): arxiv.org/abs/1001.0188
Alex

Respuestas:

5

Puede consultar el documento de David Freedman, " Una nota sobre ecuaciones de regresión de detección " (sin delegar)

Usando datos completamente no correlacionados en una simulación, muestra que, si hay muchos predictores en relación con el número de observaciones, entonces un procedimiento de detección estándar producirá una regresión final que contiene muchos predictores significativos (más que por casualidad) y una F altamente significativa estadística. El modelo final sugiere que es efectivo para predecir el resultado, pero este éxito es falso. También ilustra estos resultados utilizando cálculos asintóticos. Las soluciones sugeridas incluyen la detección en una muestra y la evaluación del modelo en el conjunto de datos completo y el uso de al menos un orden de magnitud más observaciones que predictores.

Charlie
fuente
Nota: Para que el bootstrap sea una solución efectiva, deberá iniciar todo el procedimiento, comenzando antes de que se realice cualquier detección, analizar la muestra de bootstrap y luego calcular los coeficientes. Pero ahora tiene diferentes conjuntos de predictores en cada regresión y ya no está claro cómo calcular la distribución para ninguno de ellos. Sin embargo, los intervalos de confianza de arranque para los valores pronosticados del resultado pueden ser efectivos.
Charlie
@charlie: [¿Te leo correctamente que solo estás hablando con I. (selección de modelo) no II. (penalizado)] ¿Está diciendo que para los intervalos de predicción, es válido usar la selección del modelo y luego arrancar las predicciones de ese modelo, pero para cualquier otra cosa necesita arrancar todo el proceso?
B_Miner
@charlie Respecto a la solución sugerida de detección en una muestra. ¿Sería así como dividir los datos, (ab) usando un conjunto (selección de modelo, etc.) y luego aplicando ese modelo a los datos restantes, y en esos datos con el modelo que se ajustaba usando la teoría tradicional para pruebas de hipótesis, IC etc?
B_Miner
Estaba pensando solo en la selección del modelo, pero eso es en gran parte porque no sé mucho sobre la regresión penalizada. Yo diría que necesita iniciar todo el proceso para obtener inferencia sobre las predicciones del modelo. Todo el problema es que, en cualquier muestra, es probable que encuentre correlaciones espurias que se magnifiquen cuando incluye algunas variables y deja de lado otras. La única forma de evitar esto es mirar varias muestras, es decir, bootstrap. Por supuesto, nadie realmente hace esto.
Charlie
Bien, usted usa una partición de su muestra para obtener su modelo usando los procedimientos de selección de modelo, luego hace su inferencia en la otra partición o en la muestra completa.
Charlie
2

En cuanto a 1) Sí, pierdes esto. Ver, por ejemplo, Harrell Regression Modeling Strategies, un libro publicado por Wiley o un artículo que presenté con David Cassell llamado "Stopping Stepwise" disponible, por ejemplo, www.nesug.org/proceedings/nesug07/sa/sa07.pdf

Peter Flom - Restablece a Monica
fuente
He visto este artículo, muy interesante. Dos preguntas. 1) Tomemos una regresión logística. ¿Parece que la única forma de realizar pruebas de CI o de hipótesis es construir un modelo al estilo de hosmer y lemeshow (excluyendo cualquier conjunto de datos con gran p)? Entonces, ¿le queda "usar" el modelo solo para estimaciones puntuales? 2) Su artículo discute el lazo entre otras alternativas. ¿Considera que esto permite una prueba de hipótesis posterior o que se ofrece "simplemente" como una mejor opción de selección de modelo?
B_Miner