Dos enfoques comunes para seleccionar variables correlacionadas son las pruebas de significación y la validación cruzada. ¿Qué problema intenta resolver cada uno y cuándo preferiría uno sobre el otro?
fuente
Dos enfoques comunes para seleccionar variables correlacionadas son las pruebas de significación y la validación cruzada. ¿Qué problema intenta resolver cada uno y cuándo preferiría uno sobre el otro?
Primero, seamos explícitos y coloquemos la pregunta en el contexto de la regresión lineal múltiple donde regresemos una variable de respuesta, , en varias variables diferentes x 1 , ... , x p (correlacionadas o no), con el vector de parámetros β = ( β 0 , β 1 , … , β p ) y función de regresión f ( x 1 , … , x p ) = β 0 + β 1 x 1 +
que podría ser un modelo de la media de la variable de respuesta para una observación dada de x 1 , ... , x p .
La pregunta es cómo seleccionar un subconjunto de para que no sea cero y, en particular, una comparación de las pruebas de significación versus la validación cruzada .
Para ser muy claro acerca de la terminología, la prueba de significación es un concepto general, que se lleva a cabo de manera diferente en diferentes contextos. Depende, por ejemplo, de la elección de una estadística de prueba. La validación cruzada es realmente un algoritmo para estimar el error de generalización esperado , que es el concepto general importante y que depende de la elección de una función de pérdida.
El error de generalización esperado es un poco técnico para definir formalmente, pero en palabras es la pérdida esperada de un modelo ajustado cuando se usa para la predicción en un conjunto de datos independiente , donde la expectativa supera los datos utilizados para la estimación, así como los datos independientes. Conjunto utilizado para la predicción.
Simplemente usando pruebas de significación y un procedimiento paso a paso para realizar la selección del modelo puede llevarlo a creer que tiene un modelo muy fuerte con predictores significativos cuando, de hecho, no lo hace; puede obtener fuertes correlaciones por casualidad y estas correlaciones aparentemente pueden mejorarse a medida que elimina otros predictores innecesarios.
El procedimiento de selección, por supuesto, mantiene solo aquellas variables con las correlaciones más fuertes con el resultado y, a medida que avanza el procedimiento paso a paso, la probabilidad de cometer un error Tipo I se hace mayor de lo que imagina. Esto se debe a que los errores estándar (y, por lo tanto, los valores p) no se ajustan para tener en cuenta el hecho de que las variables no se seleccionaron para su inclusión en el modelo al azar y se realizaron pruebas de hipótesis múltiples para elegir ese conjunto.
David Freedman tiene un lindo papel en el que demuestra estos puntos llamados " Una nota sobre ecuaciones de regresión de detección ". El abstracto:
Como mencionó, una posible solución a este problema es usar una variante de validación cruzada. Cuando no tengo una buena razón económica (mi área de investigación) o estadística para creer mi modelo, este es mi enfoque preferido para seleccionar un modelo apropiado y realizar una inferencia.
Otros encuestados podrían mencionar que los procedimientos paso a paso que utilizan el AIC o el BIC son asintóticamente equivalentes a la validación cruzada. Sin embargo, esto solo funciona a medida que aumenta el número de observaciones en relación con el número de predictores. En el contexto de tener muchas variables en relación con el número de observaciones (Freedman dice 1 variable por 10 o menos observaciones), la selección de esta manera puede exhibir las malas propiedades discutidas anteriormente.
En una era de computadoras poderosas, no veo ninguna razón para no usar la validación cruzada como un procedimiento de selección de modelo sobre la selección por pasos.