Si la contracción se aplica de manera inteligente, ¿siempre funciona mejor para estimadores más eficientes?

Supongamos que tengo dos estimadores y que son estimadores consistentes del mismo parámetro y tal que con en el sentido psd. Por lo tanto, asintóticamente es más eficiente que . Estos dos estimadores se basan en diferentes funciones de pérdida. $\widehat{\beta}_1$ $\widehat{\beta}_2$ $\beta_0$

\sqrt{n} ({\hat{β}}_{1} - β_{0}) \overset{d}{\to} N (0, V_{1}), \sqrt{n} ({\hat{β}}_{2} - β_{0}) \overset{d}{\to} N (0, V_{2})

$\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)$

V_{1} \leq V_{2}

$V_1 \leq V_2$

{\hat{β}}_{1}

$\widehat{\beta}_1$

{\hat{β}}_{2}

$\widehat{\beta}_2$

Ahora quiero buscar algunas técnicas de contracción para mejorar las propiedades de muestras finitas de mis estimadores.

Supongamos que encontré una técnica de contracción que mejora el estimador en una muestra finita y me da el valor de MSE igual a . ¿Esto implica que puedo encontrar una técnica de contracción adecuada para aplicar a que me dará el MSE no mayor que ? $\widehat{\beta}_2$ $\widehat{\gamma}_2$ $\widehat{\beta}_1$ $\widehat{\gamma}_2$

En otras palabras, si la contracción se aplica de manera inteligente, ¿siempre funciona mejor para estimadores más eficientes?

regression ridge-regression shrinkage penalized Alik
fuente

Respuestas:

Permítanme sugerir un contraejemplo ciertamente un poco aburrido. Digamos que no solo es asintóticamente más eficiente que , sino que también alcanza el límite inferior Cramer Rao. Una técnica de contracción inteligente para sería: con . La varianza asintótica de es donde la última igualdad usa el Lemma en el papel de Hausman . Tenemos $\hat{\beta}_1$ $\hat{\beta}_2$ $\hat{\beta}_2$

{\hat{β}}_{2}^{*} = w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}

$\hat{\beta}_2^\ast = w \hat{\beta}_2 + (1 - w) \hat{\beta}_1$

w \in (0, 1)

$w\in(0,1)$

{\hat{β}}_{2}^{*}

$\hat{\beta}_2^\ast$

V^{*} = A v a r (w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}) = A v a r (w ({\hat{β}}_{2} - {\hat{β}}_{1}) + {\hat{β}}_{1}) = V_{1} + w^{2} (V_{2} - V_{1})

$V^\ast = \mathbb{Avar}(w \hat{\beta}_2 + (1 - w) \hat{\beta}_1) = \mathbb{Avar}(w (\hat{\beta}_2 - \hat{\beta}_1) + \hat{\beta}_1 ) = V_1 + w^2 (V_2 - V_1)$

V_{2} - V^{*} = V_{2} (1 - w^{2}) - V_{1} (1 - w^{2}) \geq 0

$V_2 - V^\ast = V_2(1-w^2) - V_1(1-w^2) \geq 0$ por lo que hay una mejora del riesgo asintótico (no hay términos de sesgo). Así que encontramos una técnica de contracción que proporciona algunas mejoras asintóticas (y, por lo tanto, con suerte de muestras finitas) sobre . Sin embargo, no existe un estimador de contracción similar que se siga de este procedimiento.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}^{*}

$\hat{\beta}_1^\ast$

El punto aquí, por supuesto, es que la contracción se realiza hacia el estimador eficiente y, por lo tanto, no es aplicable al estimador eficiente en sí. Esto parece bastante obvio en un nivel alto, pero supongo que en un ejemplo específico esto no es tan obvio (¿el estimador de MLE y Método de Momentos para la distribución uniforme puede ser un ejemplo?).

Matthias Schmidtblaicher
fuente

¡Gracias por el interesante ejemplo! (+1) Sin embargo, no está claro para mí que esto deba considerarse un contraejemplo: es asintótico y no muestra que no se pueda mejorar para tener el mismo riesgo o un riesgo menor. (De hecho, su automáticamente tiene, en el mejor de los casos, el mismo riesgo que .) Para proporcionar un contraejemplo, el riesgo de un estimador modificado tendrá que ser menor que el riesgo de , y no está claro que esto sea posible con este esquema.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

user795305

Gracias y punto (s) tomado (s). Sin embargo, permítanme señalar que en ninguna parte de la pregunta se especificó que el MSE del modificado debería ser inferior al de . Entonces es una técnica de contracción válida en este contexto. Pero estoy de acuerdo en que esta es solo una respuesta parcial y espero ver lo que otras personas tienen que decir sobre esta pregunta.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{2}^{⋆}

$\hat{\beta}^\star_2$

Matthias Schmidtblaicher

En el párrafo que comienza "Supongamos que he encontrado ...", el OP parece especificar eso. ¿Estoy malentendido? En lo que sigue, dejemos que las estrellas denoten los estimadores modificados para que para algunas funciones (quizás de contracción) . Supongamos que encontramos para que el . En el párrafo referenciado, OP pregunta si podemos encontrar algo de para que el .

{\hat{β}}_{j}^{*} = f_{j} ({\hat{β}}_{j})

$\hat\beta_j^* = f_j(\hat\beta_j)$

f_{j}

$f_j$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

r i s k ({\hat{β}}_{2}) \geq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_2) \ge risk(\hat\beta_2^*)$

f_{1}

$f_1$

r i s k ({\hat{β}}_{1}^{*}) \leq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_1^*) \le risk(\hat\beta_2^*)$

user795305

Veo. Si esta es la pregunta, es simplemente ser la identidad y la respuesta es afirmativa en el ejemplo. Leí la pregunta como "Si podemos encontrar una función para que el , ¿existe ¿existe un para que el ? "

f_{1}

$f_1$

f (β, x)

$f(\beta, x)$

r i s k (f ({\hat{β}}_{2}, x)) < r i s k ({\hat{β}}_{2})

$risk(f(\hat{\beta}_2,x)) < risk(\hat{\beta}_2)$

g (β, x)

$g(\beta, x)$

r i s k (g ({\hat{β}}_{1}, x)) < r i s k ({\hat{β}}_{1})

$risk(g(\hat{\beta}_1,x)) < risk(\hat{\beta}_1)$

Matthias Schmidtblaicher

gracias por compartir estos créditos, aunque realmente no respondí tu pregunta ...

Matthias Schmidtblaicher

-2

Esta es una pregunta interesante donde quiero señalar algunos aspectos destacados primero.

Dos estimadores son consistentes
$\hat{\beta}_1$ es más eficiente que ya que logra menos variación $\hat\beta_2$
Las funciones de pérdida no son lo mismo
un método de contracción se aplica a uno para que reduzca la variación que por sí sola termina siendo un mejor estimador
Pregunta : En otras palabras, si la contracción se aplica de manera inteligente, ¿ siempre funciona mejor para estimadores más eficientes?

Fundamentalmente, es posible mejorar un estimador en un determinado marco, como la clase imparcial de estimadores. Sin embargo, como señaló usted, las diferentes funciones de pérdida dificultan la situación, ya que una función de pérdida puede minimizar la pérdida cuadrática y la otra minimiza la entropía. Además, usar la palabra "siempre" es muy complicado ya que si un estimador es el mejor en la clase, no se puede reclamar un estimador mejor, lógicamente hablando.

Para un ejemplo simple (en el mismo marco), dejemos dos estimadores, a saber, un Bridge (regresión penalizada con norma ) y Lasso (primera probabilidad penalizada de la norma) y un conjunto escaso de parámetros, a saber, , un modelo lineal , término de normalidad de error, , conocido , función de pérdida cuadrática (errores de mínimos cuadrados) e independencia de covariables en . Elija para para el primer estimador y para los segundos estimadores. Entonces puede mejorar los estimadores eligiendo $l_p$ $\beta$ $y=x\beta+e$ $e\sim N(0,\sigma^2<\infty)$ $\sigma$ $x$ $l_p$ $p=3$ $p=2$ $p\rightarrow 1$ eso termina siendo un mejor estimador con menor varianza. Luego, en este ejemplo, existe la posibilidad de mejorar el estimador.

Entonces, mi respuesta a su pregunta es sí, dado que asume la misma familia de estimadores y la misma función de pérdida, así como suposiciones.

TPArrow
fuente

No me queda claro a qué te refieres con tomar . Dados dos estimadores (digamos, por tener y en regularización de mínimos cuadrados, como se discute en su respuesta), la pregunta pregunta acerca de las formas de postprocesar estos estimadores (a través, por ejemplo, de la contracción). Específicamente, pregunta si existen métodos que puedan producir una mejora similar (en términos de MSE) en estimadores consistentes y asintóticamente normales. No me queda claro qué se supone que transmite tu respuesta en relación con esto.

p \to 1

$p \to 1$

p = 3

$p=3$

p = 2

$p=2$

ℓ_{p}

$\ell_p$

user795305

@Ben Gracias. la pregunta es acerca de la contracción y traté de tomar un ejemplo simple donde aplica la contracción al imponer la norma en el estimador. Lo veo bastante relacionado. PD: LASSO ( probabilidad penalizada por la norma ) significa Operador de selección y contracción menos absoluta

l_{p}

$l_p$

l_{1}

$l_1$

TPArrow

Todavía no está muy claro para mí. ¿Está proponiendo que tomemos las estimaciones iniciales y y luego el operador proximal de ellas, de modo que las nuevas estimaciones sean , para ? Si es así, ¿podría proporcionar una prueba (o algún otro argumento) para sus reclamos con respecto a la mejora de MSE? Intenté enfatizar antes que la pregunta es acerca de los estimadores posteriores al procesamiento : ¿cuáles son exactamente sus estimaciones para postprocesamiento?

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

ℓ_{p}

$\ell_p$

{\hat{α}}_{j}^{p} = \arg min_{α} ‖ α - {\hat{β}}_{j} ‖_{2}^{2} + λ ‖ α ‖_{p}

$\hat\alpha^p_j = \arg\min_\alpha \|\alpha-\hat\beta_j\|_2^2 + \lambda \|\alpha\|_p$

j \in {1, 2}

$j \in \{1,2\}$

p = 2, 3

$p=2,3$

user795305

gracias @Ben, siento que no tenemos un consenso en la definición de contracción. Lo tomas como un postproceso pero yo como un procesamiento en línea. Creo que ambos tenemos razón, ya que la pregunta no tiene en cuenta el tipo de contracción. PD: Supongo que lo que quieres decir con contracción es como un umbral duro.

TPArrow

La contracción puede ser tanto en línea como post-procesamiento. Los ejemplos que mencionó en su respuesta son sobre "contracción en línea", mientras que la pregunta se refiere a "contracción posterior al procesamiento". Observe que la pregunta proporciona dos estimadores y , luego solicita una técnica de contracción para aplicar a o . Creo que valdría la pena releer la pregunta a la luz de esto.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

user795305