La palabra contracción se usa mucho en ciertos círculos. Pero lo que es la contracción, no parece haber una definición clara. Si tengo una serie temporal (o una colección de observaciones de algún proceso), ¿cuáles son las diferentes formas en que puedo medir algún tipo de contracción empírica en la serie? ¿Cuáles son los diferentes tipos de contracción teórica de los que puedo hablar? ¿Cómo puede ayudar la contracción en la predicción? ¿Pueden las personas proporcionar una buena visión o referencias?
estimation
predictive-models
shrinkage
Wintermute
fuente
fuente
Respuestas:
En 1961, James y Stein publicaron un artículo llamado "Estimación con pérdida cuadrática" https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173 . Si bien no acuña específicamente el término contracción, discuten los estimadores minimax para estadísticas de alta dimensión (en realidad incluso para una ubicación de 3 parámetros) que tienen menos riesgo (pérdida esperada) que el MLE habitual (cada componente es el promedio de la muestra) para datos normales . Bradley Efron llama a su hallazgo "el teorema más sorprendente de las estadísticas matemáticas de posguerra". Este artículo ha sido citado 3,310 veces.
Copas en 1983 escribe el primer artículo Regresión, Predicción y Contracción para acuñar el término "contracción". Se define implícitamente en el resumen:
Y en toda investigación sucesiva, parece que la contracción se refiere a las características operativas (y estimaciones de las mismas) para la validez de predicción y estimación fuera de la muestra en el contexto de encontrar estimadores admisibles y / o mínimos.
fuente
Esto se trata de regularización. Supongamos que desea ajustar una curva y utiliza una función de pérdida cuadrada (puede elegir diferentes). Por
fit
desea recuperar los parámetros que rigen el proceso que generó esa curva. Ahora imagine que le gustaría ajustar esta curva usando el polinomio número 100 (solo por ejemplo). Es muy probable que vaya a sobreajustar o capturar cada torcedura y ruido de la curva. Además, sus capacidades de predicción fuera del intervalo de datos de entrenamiento dado serán probablemente muy pobres. Por lo tanto, el término de regularización se agrega a la función objetivo con algo de peso multiplicado por el factor de regularización: l_1, l_2 o personalizado. En el caso de l_2, que es más simple de entender, esto tendrá el efecto de que los valores de los parámetros grandes se verán obligados a reducir la contracción aka. Puede pensar en la regularización o la reducción como una forma de conducir su algoritmo a una solución que podría ser una mejor solución.fuente