En psicología y otros campos, a menudo se emplea una forma de regresión gradual que implica lo siguiente:
- Observe los predictores restantes (al principio no hay ninguno en el modelo) e identifique el predictor que resulta en el mayor cambio de r-cuadrado;
- Si el valor p del cambio de r-cuadrado es menor que alfa (típicamente .05), entonces incluya ese predictor y regrese al paso 1, de lo contrario deténgase.
Por ejemplo, vea este procedimiento en SPSS .
El procedimiento se critica habitualmente por una amplia gama de razones (consulte esta discusión en el sitio web de Stata con referencias ).
En particular, el sitio web de Stata resume varios comentarios de Frank Harrell. Estoy interesado en el reclamo:
[regresión por pasos] produce valores de R cuadrado que están muy sesgados para ser altos.
Específicamente, parte de mi investigación actual se enfoca en estimar el r-cuadrado de la población . Por población r-cuadrado me refiero al porcentaje de varianza explicado por la ecuación de generación de datos de población en la población. Gran parte de la literatura existente que estoy revisando ha utilizado procedimientos de regresión gradual y quiero saber si las estimaciones proporcionadas están sesgadas y, en caso afirmativo, en qué medida. En particular, un estudio típico tendría 30 predictores, n = 200, alfa de entrada de .05 y estimaciones de r-cuadrado alrededor de .50.
Lo que sí sé
- Asintóticamente, cualquier predictor con un coeficiente distinto de cero sería un predictor estadísticamente significativo, y r-cuadrado sería igual a r-cuadrado ajustado. Por lo tanto, la regresión escalonada asintóticamente debería estimar la ecuación de regresión verdadera y la verdadera r-cuadrado de la población.
- Con tamaños de muestra más pequeños, la posible omisión de algunos predictores dará como resultado un r-cuadrado más pequeño que si se hubieran incluido todos los predictores en el modelo. Pero también el sesgo habitual de r-cuadrado para muestrear datos aumentaría el r-cuadrado. Por lo tanto, mi ingenuo pensamiento es que, potencialmente, estas dos fuerzas opuestas podrían, bajo ciertas condiciones, dar como resultado un r-cuadrado imparcial. Y de manera más general, la dirección del sesgo dependería de varias características de los datos y los criterios de inclusión alfa.
- Establecer un criterio de inclusión alfa más estricto (p. Ej., .01, .001, etc.) debería reducir el r-cuadrado estimado esperado porque la probabilidad de incluir cualquier predictor en cualquier generación de datos será menor.
- En general, r-cuadrado es una estimación sesgada hacia arriba de la población de r-cuadrado y el grado de este sesgo aumenta con más predictores y tamaños de muestra más pequeños.
Pregunta
Entonces, finalmente, mi pregunta:
- ¿En qué medida el r-cuadrado de la regresión gradual da como resultado una estimación sesgada de la población r-cuadrado?
- ¿En qué medida este sesgo está relacionado con el tamaño de la muestra, el número de predictores, el criterio de inclusión alfa o las propiedades de los datos?
- ¿Hay alguna referencia sobre este tema?
fuente
Respuestas:
fuente
Visión general
He realizado algunas simulaciones en diferentes condiciones. El valor p de la entrada del predictor que produjo una estimación aproximadamente imparcial a menudo oscilaba entre 0,05 y 0,0001. Sin embargo, todavía no he leído ninguna simulación que explore explícitamente esto o brinde consejos sobre qué tipo de sesgo esperar de pasos publicadoR2 valores utilizando un valor p de entrada dado y las características de los datos.
Simulación
La siguiente simulación tiene cuatro predictores no correlacionados donde la población r-cuadrado es del 40%. Dos de los predictores explican el 20% cada uno, y los otros dos predictores explican el 0%. La simulación genera 1000 conjuntos de datos y estima la regresión por pasos r-cuadrado como un porcentaje para cada conjunto de datos.
El siguiente código devuelve el r-cuadrado con un alfa para la entrada de .01, .001, .0001 y .00001.
Los siguientes resultados indican el sesgo para cada una de las cinco alfa de entradas. Tenga en cuenta que he multiplicado r-cuadrado por 100 para que sea más fácil ver las diferencias.
Los resultados sugieren que el alfa de las entradas de .01 y .001 produce un sesgo positivo y el alfa de las entradas de .0001 y .00001 resulta en un sesgo negativo. Entonces, presumiblemente, un alfa de entrada alrededor de .0005 daría como resultado una regresión gradual imparcial.
La principal conclusión que deduzco de esto es que la regresión gradual no está sesgada inherentemente en una dirección particular. Dicho esto, estará al menos algo sesgado para todos menos un valor p de entrada del predictor. Tomo el punto de @Peter Flom de que en el mundo real no conocemos el proceso de generación de datos. Sin embargo, me imagino que una exploración más detallada de cómo varía este sesgo, n, alfa de entrada, procesos de generación de datos y procedimiento de regresión gradual (por ejemplo, incluyendo el paso hacia atrás) podría informar sustancialmente una comprensión de dicho sesgo.
Referencias
fuente