¿Qué problema resuelven los métodos de contracción?

61

La temporada navideña me ha dado la oportunidad de acurrucarme junto al fuego con The Elements of Statistical Learning . Viniendo desde una perspectiva econométrica (frecuentista), tengo problemas para comprender los usos de los métodos de contracción, como la regresión de crestas, el lazo y la regresión de ángulo mínimo (LAR). Por lo general, estoy interesado en las estimaciones de los parámetros y en lograr la imparcialidad o al menos la coherencia. Los métodos de contracción no hacen eso.

Me parece que estos métodos se usan cuando el estadístico está preocupado de que la función de regresión se vuelva demasiado receptiva a los predictores, que considera que los predictores son más importantes (medidos por la magnitud de los coeficientes) de lo que realmente son. En otras palabras, sobreajustar.

Pero, OLS generalmente proporciona estimaciones imparciales y consistentes. (Nota al pie) Siempre he visto el problema de sobreajustar, no dar estimaciones demasiado grandes, sino intervalos de confianza demasiado pequeños porque el proceso de selección no se tiene en cuenta ( ESL menciona este último punto).

Las estimaciones de coeficientes imparciales / consistentes conducen a predicciones imparciales / consistentes del resultado. Los métodos de contracción acercan las predicciones al resultado medio de lo que lo haría OLS, aparentemente dejando información sobre la mesa.

Para reiterar, no veo qué problema están tratando de resolver los métodos de contracción. ¿Me estoy perdiendo de algo?

Nota al pie: necesitamos la condición de rango de columna completa para la identificación de los coeficientes. El supuesto medio condicional de exogeneidad / cero para los errores y el supuesto de expectativa condicional lineal determinan la interpretación que podemos dar a los coeficientes, pero obtenemos una estimación imparcial o consistente de algo, incluso si estos supuestos no son ciertos.

Charlie
fuente
1
Hay varias preguntas relacionadas aquí. Este es uno: stats.stackexchange.com/questions/10478/…
cardenal
2
Tenga en cuenta que existen condiciones simples y bastante débiles en la elección del parámetro de contracción para lograr la consistencia del parámetro. Esto se detalla en el famoso artículo de Knight & Fu (2000) y cubre casos mucho más allá de la regresión de crestas y el lazo. La coherencia en la selección de modelos también se ha convertido en un tema popular en los últimos años.
cardenal
@cardinal, gracias por los punteros para modelar resultados de consistencia para el lazo; Le echaré un vistazo. Por supuesto, estos resultados también se pueden encontrar para OLS. Los resultados implican que ambos procedimientos llegan al mismo lugar. Así que todavía no entiendo por qué usaríamos el lazo sobre OLS.
Charlie
1
La consistencia del modelo es un concepto diferente a la consistencia asintótica de las estimaciones de los parámetros. ¿Eres consciente (familiarizado) de esta diferencia?
cardenal
@cardinal, por coherencia del modelo, supongo que quiere decir que se incluyen los predictores correctos. Podemos obtener esto usando el criterio AIC en el proceso de selección usando OLS. ¿Supongo que estás insinuando que, en el límite, el lazo selecciona el modelo correcto con coeficientes "incorrectos"?
Charlie

Respuestas:

47

Sospecho que quieres una respuesta más profunda, y tendré que dejar que alguien más proporcione eso, pero puedo darte algunas ideas sobre la regresión de cresta desde una perspectiva conceptual y flexible.

La regresión OLS produce estimaciones de parámetros que son insesgadas (es decir, si tales muestras se recolectan y los parámetros se estiman indefinidamente, la distribución de muestreo de las estimaciones de parámetros se centrará en el valor verdadero). Además, la distribución de muestreo tendrá la varianza más baja de todas las estimaciones imparciales posibles (esto significa que, en promedio, una estimación del parámetro OLS estará más cerca del valor verdadero que una estimación de algún otro procedimiento de estimación imparcial). Esta es una noticia vieja (y me disculpo, sé que lo sabes bien), sin embargo, el hecho de que la variación sea menor no significa que sea terriblemente baja.. En algunas circunstancias, la varianza de la distribución de muestreo puede ser tan grande como para que el estimador MCO no tenga ningún valor. (Una situación en la que esto podría ocurrir es cuando hay un alto grado de multicolinealidad).

¿Qué se puede hacer en tal situación? Bueno, se podría encontrar un estimador diferente que tenga una varianza más baja (aunque, obviamente, debe estar sesgado, dado lo estipulado anteriormente). Es decir, estamos intercambiando imparcialidad por una varianza más baja. Por ejemplo, obtenemos estimaciones de parámetros que probablemente estén sustancialmente más cerca del valor verdadero, aunque probablemente un poco por debajo del valor verdadero. Si esta compensación vale la pena es un juicio que el analista debe hacer cuando se enfrenta a esta situación. En cualquier caso, la regresión de cresta es solo una técnica de este tipo. La siguiente figura (completamente fabricada) tiene la intención de ilustrar estas ideas.

ingrese la descripción de la imagen aquí

Esto proporciona una introducción breve, simple y conceptual a la regresión de crestas. Sé menos sobre lazo y LAR, pero creo que se podrían aplicar las mismas ideas. Más información sobre la regresión ángulo de lazo y menos se puede encontrar aquí , la "explicación sencilla ..." vínculo es especialmente útil. Esto proporciona mucha más información sobre los métodos de contracción.

Espero que esto sea de algún valor.

gung - Restablece a Monica
fuente
12
Esto da algunas buenas sugerencias conceptuales. En el segundo párrafo hay mucho enfoque en la imparcialidad, pero falta una advertencia importante. A menos que (a) el modelo lineal sea "correcto" (y, ¿cuándo lo es?) Y (b) todos los predictores relevantes estén incluidos en el modelo, las estimaciones de coeficientes seguirán siendo sesgadas, en general.
cardenal
55
Mi comprensión limitada de la compensación de sesgo / varianza es que alguien que busca una explicación (como quizás el póster original) preferiría la imparcialidad, incluso si la varianza fuera mayor, pero alguien que hace un pronóstico podría preferir algo con una pequeña varianza, incluso si el sesgo es presentado.
Wayne
2
@Wayne: De hecho, este es (uno de) el quid de la cuestión. Gran parte del punto de vista en ESL proviene de una perspectiva de predicción, por lo que esto colorea gran parte de su análisis. Realizar inferencia en un solo coeficiente, particularmente en un entorno de observación, es un asunto muy resbaladizo. Sería muy convincente afirmar que los coeficientes estimados fueron verdaderamente "imparciales".
cardenal
1
Con un poco de tiempo, podría intentar ampliar mis comentarios ya demasiado voluminosos un poco más tarde.
cardenal
@gung, aquí hay un hilo Meta relacionado que podría interesarte.
Richard Hardy
16

El error de un estimador es una combinación de sesgo (cuadrado) y componentes de varianza . Sin embargo, en la práctica, queremos ajustar un modelo a una muestra finita de datos en particular y queremos minimizar el error total del estimador evaluado en la muestra particular de datos que realmente tenemos , en lugar de un error cero en promedio sobre alguna población de muestras (que no tenemos) Por lo tanto, queremos reducir tanto el sesgo como la varianza, para minimizar el error, lo que a menudo significa sacrificar la imparcialidad para hacer una mayor reducción en el componente de varianza. Esto es especialmente cierto cuando se trata de pequeños conjuntos de datos, donde es probable que la varianza sea alta.

Creo que la diferencia de enfoque depende de si uno está interesado en las propiedades de un procedimiento u obtiene los mejores resultados en una muestra en particular. Frecuentemente, los frecuentes encuentran que el primero es más fácil de manejar dentro de ese marco; Los bayesianos a menudo están más centrados en esto último.

Dikran Marsupial
fuente
9

Supongo que hay algunas respuestas que pueden ser aplicables:

  • La regresión de cresta puede proporcionar identificación cuando la matriz de predictores no es el rango de columna completo.
  • Lasso y LAR se pueden usar cuando el número de predictores es mayor que el número de observaciones (otra variante del problema no singular).
  • Lasso y LAR son algoritmos de selección automática de variables.

No estoy seguro de que el primer punto con respecto a la regresión de crestas sea realmente una característica; Creo que prefiero cambiar mi modelo para tratar la no identificación. Incluso sin un cambio de modelo, OLS proporciona predicciones únicas (e imparciales / consistentes) del resultado en este caso.

Pude ver cómo el segundo punto podría ser útil, pero la selección hacia adelante también puede funcionar en el caso de que el número de parámetros exceda el número de observaciones y arroje estimaciones imparciales / consistentes.

En el último punto, la selección hacia adelante / hacia atrás, como ejemplos, se automatiza fácilmente.

Así que todavía no veo las ventajas reales.

Charlie
fuente
66
Algunas observaciones: ( 1 ) Las estimaciones de MCO no son únicas cuando la matriz de predictores no tiene rango completo. ( 2 ) La consistencia es un concepto asintótico y, por lo tanto, requiere una secuencia de estimadores. Esto significa que necesita definir el tipo de secuencia que está considerando, y el tipo de crecimiento que le interesa es importante. ( 3 ) Existen múltiples tipos de consistencia y comprender las diferencias entre ellos puede ser ilustrativo. El artículo de Zhao y Yu (2006) tiene una buena discusión. ( 4 ) La imparcialidad está sobrevalorada.
cardenal
1
( 5 ) La motivación original de la regresión de cresta en Hoerl y Kennard (1970) fue manejar matrices de diseño mal condicionadas, que es una forma "blanda" de deficiencia de rango.
cardenal
1
@ cardinal, re. (1): Lo siento, quise decir predicciones del resultado, en lugar de estimaciones de los coeficientes.
Charlie
1
Ah ok Eso cuadra mejor con tu nota al pie en la pregunta.
cardenal
Aquí hay un enlace a la versión disponible públicamente de Zhao & Yu (2006) como en el comentario anterior.
Richard Hardy
4

Aquí hay un ejemplo básico aplicado de Bioestadística

Supongamos que estoy estudiando posibles relaciones entre la presencia de cáncer de ovario y un conjunto de genes.

Mi variable dependiente es binaria (codificada como cero o 1) Mis variables independientes codifican datos de una base de datos proteómica.

Como es común en muchos estudios genéticos, mis datos son mucho más amplios que altos. Tengo 216 observaciones diferentes pero más o menos 4000 predictores posibles.

La regresión lineal es correcta (el sistema es horrible sobre determinado).

las técnicas de selección de características realmente no son factibles. Con más de 4,000 variables independientes diferentes, todas las técnicas de subconjunto posibles están completamente fuera de discusión e incluso la selección de características secuenciales es dudosa.

La mejor opción es probablemente usar la regresión logística con una red elástica.

Quiero hacer una selección de características (identificar qué variables independientes son importantes) para que la regresión de cresta realmente no sea apropiada.

Es completamente posible que haya más de 216 variables independientes que tienen una influencia significativa, por lo que probablemente no debería usar un lazo (Lasso no puede identificar más predictores de los que tiene observaciones) ...

Entra en la red elástica ...

Richard Willey
fuente
1
¿podría proporcionar un libro de texto que se ocupe de las situaciones mencionadas por usted?
Qbik
0

Otro problema que pueden abordar los métodos de contracción de regresión lineal es obtener una estimación de baja varianza (posiblemente imparcial) de un efecto de tratamiento promedio (ATE) en estudios de casos y controles de alta dimensión en datos de observación.

Específicamente, en los casos en que 1) hay una gran cantidad de variables (lo que dificulta la selección de variables para el emparejamiento exacto), 2) el emparejamiento de puntaje de propensión no elimina el desequilibrio en las muestras de tratamiento y control, y 3) existe multicolinealidad, allí Existen varias técnicas, como el lazo adaptativo (Zou, 2006) que obtiene estimaciones asintóticamente imparciales. Ha habido varios artículos que discuten el uso de la regresión de lazo para la inferencia causal y la generación de intervalos de confianza en las estimaciones de coeficientes (vea la siguiente publicación: Inferencia después de usar Lasso para la selección de variables ).

RobertF
fuente