Estabilidad del modelo en validación cruzada de modelos de regresión

10

Dados los múltiples pliegues de validación cruzada de una regresión logística y las múltiples estimaciones resultantes de cada coeficiente de regresión, ¿cómo se debe medir si un predictor (o conjunto de predictores) es estable y significativo en función de los coeficientes de regresión? ? ¿Es esto diferente para la regresión lineal?

Jack Tanner
fuente
@BGreene Muy inteligente. ¿Por qué no publicar eso como respuesta? También me hace preguntarme si la literatura de aprendizaje conjunto tiene algo relevante.
Jack Tanner
Cuando dice "validación cruzada múltiple", ¿quiere decir que ejecuta veces una validación cruzada de veces? mk
boscovich
@andrea, digo "pliegues de validación cruzada múltiple", es decir, pliegues. k
Jack Tanner

Respuestas:

2

Puede tratar los coeficientes de regresión resultantes de cada pliegue de prueba en el CV como observaciones independientes y luego calcular su confiabilidad / estabilidad utilizando el coeficiente de correlación intraclase (ICC) según lo informado por Shrout & Fleiss.

BGreene
fuente
0

Supongo que en su validación cruzada divide los datos en dos partes, un conjunto de entrenamiento y un conjunto de prueba. En un pliegue, usted ajusta un modelo del conjunto de entrenamiento y lo usa para predecir la respuesta del conjunto de prueba, ¿verdad? Esto le dará una tasa de error para todo el modelo, no para un solo predictor.

No sé si es posible encontrar valores p para predictores usando algo como las pruebas F utilizadas en la regresión lineal ordinaria.

Puede intentar eliminar predictores del modelo utilizando, por ejemplo, la selección hacia atrás o hacia adelante si ese es su objetivo.

En lugar de CV, podría usar bootstrap para encontrar un intervalo de confianza para cada predictor y luego ver qué tan estable es.

¿Cuántos pliegues usa en su CV, es una validación cruzada de dejar uno?

Quizás más detalles sobre cuál es su objetivo ayudaría a responder esta pregunta.

Tobias Abenius
fuente
Supongamos que esto es dejar uno afuera. Cada predictor en cada pliegue ya tiene un intervalo de confianza, p. Ej., De un IC bayesiano posterior o un error estándar de glm(..., family="binomial")R. ¿Qué hago con los intervalos para cada predictor a lo largo de las corridas de dejar una salida?
Jack Tanner