La temporada navideña me ha dado la oportunidad de acurrucarme junto al fuego con The Elements of Statistical Learning . Viniendo desde una perspectiva econométrica (frecuentista), tengo problemas para comprender los usos de los métodos de contracción, como la regresión de crestas, el lazo y la regresión de ángulo mínimo (LAR). Por lo general, estoy interesado en las estimaciones de los parámetros y en lograr la imparcialidad o al menos la coherencia. Los métodos de contracción no hacen eso.
Me parece que estos métodos se usan cuando el estadístico está preocupado de que la función de regresión se vuelva demasiado receptiva a los predictores, que considera que los predictores son más importantes (medidos por la magnitud de los coeficientes) de lo que realmente son. En otras palabras, sobreajustar.
Pero, OLS generalmente proporciona estimaciones imparciales y consistentes. (Nota al pie) Siempre he visto el problema de sobreajustar, no dar estimaciones demasiado grandes, sino intervalos de confianza demasiado pequeños porque el proceso de selección no se tiene en cuenta ( ESL menciona este último punto).
Las estimaciones de coeficientes imparciales / consistentes conducen a predicciones imparciales / consistentes del resultado. Los métodos de contracción acercan las predicciones al resultado medio de lo que lo haría OLS, aparentemente dejando información sobre la mesa.
Para reiterar, no veo qué problema están tratando de resolver los métodos de contracción. ¿Me estoy perdiendo de algo?
Nota al pie: necesitamos la condición de rango de columna completa para la identificación de los coeficientes. El supuesto medio condicional de exogeneidad / cero para los errores y el supuesto de expectativa condicional lineal determinan la interpretación que podemos dar a los coeficientes, pero obtenemos una estimación imparcial o consistente de algo, incluso si estos supuestos no son ciertos.
fuente
Respuestas:
Sospecho que quieres una respuesta más profunda, y tendré que dejar que alguien más proporcione eso, pero puedo darte algunas ideas sobre la regresión de cresta desde una perspectiva conceptual y flexible.
La regresión OLS produce estimaciones de parámetros que son insesgadas (es decir, si tales muestras se recolectan y los parámetros se estiman indefinidamente, la distribución de muestreo de las estimaciones de parámetros se centrará en el valor verdadero). Además, la distribución de muestreo tendrá la varianza más baja de todas las estimaciones imparciales posibles (esto significa que, en promedio, una estimación del parámetro OLS estará más cerca del valor verdadero que una estimación de algún otro procedimiento de estimación imparcial). Esta es una noticia vieja (y me disculpo, sé que lo sabes bien), sin embargo, el hecho de que la variación sea menor no significa que sea terriblemente baja.. En algunas circunstancias, la varianza de la distribución de muestreo puede ser tan grande como para que el estimador MCO no tenga ningún valor. (Una situación en la que esto podría ocurrir es cuando hay un alto grado de multicolinealidad).
¿Qué se puede hacer en tal situación? Bueno, se podría encontrar un estimador diferente que tenga una varianza más baja (aunque, obviamente, debe estar sesgado, dado lo estipulado anteriormente). Es decir, estamos intercambiando imparcialidad por una varianza más baja. Por ejemplo, obtenemos estimaciones de parámetros que probablemente estén sustancialmente más cerca del valor verdadero, aunque probablemente un poco por debajo del valor verdadero. Si esta compensación vale la pena es un juicio que el analista debe hacer cuando se enfrenta a esta situación. En cualquier caso, la regresión de cresta es solo una técnica de este tipo. La siguiente figura (completamente fabricada) tiene la intención de ilustrar estas ideas.
Esto proporciona una introducción breve, simple y conceptual a la regresión de crestas. Sé menos sobre lazo y LAR, pero creo que se podrían aplicar las mismas ideas. Más información sobre la regresión ángulo de lazo y menos se puede encontrar aquí , la "explicación sencilla ..." vínculo es especialmente útil. Esto proporciona mucha más información sobre los métodos de contracción.
Espero que esto sea de algún valor.
fuente
El error de un estimador es una combinación de sesgo (cuadrado) y componentes de varianza . Sin embargo, en la práctica, queremos ajustar un modelo a una muestra finita de datos en particular y queremos minimizar el error total del estimador evaluado en la muestra particular de datos que realmente tenemos , en lugar de un error cero en promedio sobre alguna población de muestras (que no tenemos) Por lo tanto, queremos reducir tanto el sesgo como la varianza, para minimizar el error, lo que a menudo significa sacrificar la imparcialidad para hacer una mayor reducción en el componente de varianza. Esto es especialmente cierto cuando se trata de pequeños conjuntos de datos, donde es probable que la varianza sea alta.
Creo que la diferencia de enfoque depende de si uno está interesado en las propiedades de un procedimiento u obtiene los mejores resultados en una muestra en particular. Frecuentemente, los frecuentes encuentran que el primero es más fácil de manejar dentro de ese marco; Los bayesianos a menudo están más centrados en esto último.
fuente
Supongo que hay algunas respuestas que pueden ser aplicables:
No estoy seguro de que el primer punto con respecto a la regresión de crestas sea realmente una característica; Creo que prefiero cambiar mi modelo para tratar la no identificación. Incluso sin un cambio de modelo, OLS proporciona predicciones únicas (e imparciales / consistentes) del resultado en este caso.
Pude ver cómo el segundo punto podría ser útil, pero la selección hacia adelante también puede funcionar en el caso de que el número de parámetros exceda el número de observaciones y arroje estimaciones imparciales / consistentes.
En el último punto, la selección hacia adelante / hacia atrás, como ejemplos, se automatiza fácilmente.
Así que todavía no veo las ventajas reales.
fuente
Aquí hay un ejemplo básico aplicado de Bioestadística
Supongamos que estoy estudiando posibles relaciones entre la presencia de cáncer de ovario y un conjunto de genes.
Mi variable dependiente es binaria (codificada como cero o 1) Mis variables independientes codifican datos de una base de datos proteómica.
Como es común en muchos estudios genéticos, mis datos son mucho más amplios que altos. Tengo 216 observaciones diferentes pero más o menos 4000 predictores posibles.
La regresión lineal es correcta (el sistema es horrible sobre determinado).
las técnicas de selección de características realmente no son factibles. Con más de 4,000 variables independientes diferentes, todas las técnicas de subconjunto posibles están completamente fuera de discusión e incluso la selección de características secuenciales es dudosa.
La mejor opción es probablemente usar la regresión logística con una red elástica.
Quiero hacer una selección de características (identificar qué variables independientes son importantes) para que la regresión de cresta realmente no sea apropiada.
Es completamente posible que haya más de 216 variables independientes que tienen una influencia significativa, por lo que probablemente no debería usar un lazo (Lasso no puede identificar más predictores de los que tiene observaciones) ...
Entra en la red elástica ...
fuente
Otro problema que pueden abordar los métodos de contracción de regresión lineal es obtener una estimación de baja varianza (posiblemente imparcial) de un efecto de tratamiento promedio (ATE) en estudios de casos y controles de alta dimensión en datos de observación.
Específicamente, en los casos en que 1) hay una gran cantidad de variables (lo que dificulta la selección de variables para el emparejamiento exacto), 2) el emparejamiento de puntaje de propensión no elimina el desequilibrio en las muestras de tratamiento y control, y 3) existe multicolinealidad, allí Existen varias técnicas, como el lazo adaptativo (Zou, 2006) que obtiene estimaciones asintóticamente imparciales. Ha habido varios artículos que discuten el uso de la regresión de lazo para la inferencia causal y la generación de intervalos de confianza en las estimaciones de coeficientes (vea la siguiente publicación: Inferencia después de usar Lasso para la selección de variables ).
fuente