Desigualdad de Oracle: en términos básicos

Estoy revisando un documento que usa la desigualdad del oráculo para probar algo, pero no puedo entender lo que está tratando de hacer. Cuando busqué en línea sobre 'Oracle Inequality', algunas fuentes me dirigieron al artículo "Candes, Emmanuel J. 'Estimación estadística moderna a través de las desigualdades del oráculo'. "que se puede encontrar aquí https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf . Pero este libro me parece demasiado pesado y creo que me faltan algunos requisitos previos.

Mi pregunta es: ¿Cómo explicarías qué es una desigualdad de oráculo para un estudiante que no es matemático (incluye ingenieros)? En segundo lugar, ¿cómo los recomendaría para abordar los requisitos previos / temas antes de intentar aprender algo como el libro mencionado anteriormente.

Recomiendo encarecidamente que alguien que tenga una comprensión concreta y una buena cantidad de experiencia en estadísticas de alta dimensión responda esto.

mathematical-statistics estimation probability-inequalities inequality oracle Wolcott
fuente

¿Puede alguien con más de 1k reputación ofrecer recompensas por esta pregunta? Eso realmente ayudaría. No creo que los usuarios generales de CV estén familiarizados con este concepto, ya que la mayoría de los usuarios usan estadísticas para el análisis de datos y no el análisis teórico, aunque como comunidad completamente basada en estadísticas, creo que debe haber alguien que pueda responder esto adecuadamente. Creo que la pregunta no ha recibido suficiente atención.

Wolcott

Había pensado en la misma pregunta

jeza el

La "definición" proporcionada en la p.22 del enlace "Una desigualdad de oráculo relaciona el desempeño de un estimador real con el de un estimador ideal que se basa en información perfecta suministrada por un oráculo y que no está disponible en la práctica". ¿No te transmite esto la esencia de la definición?

Mark L. Stone

@ Mark L. Stone para mí, no lo hace

jeza

¿Ni siquiera cuando observa el ejemplo y la discusión proporcionados en las pocas oraciones anteriores, es decir, la declaración y discusión del Teorema 4.1, como un ejemplo de una desigualdad de oráculo? En términos simples: Gee, no sabemos el valor óptimo (proporcionado por un oráculo) del factor de contracción que deberíamos usar. Pero saber que el valor óptimo del factor de contracción podría mejorar el MSE en no más de 2 frente a no tener el factor de contracción óptimo del oráculo.

Mark L. Stone el

Respuestas:

Trataré de explicarlo en caso lineal. Considere el modelo lineal Cuando (número de variables independientes menor o igual que el número de observación) y la matriz de diseño tiene rango completo, el estimador de menos cuadrado es y el error de predicción es de donde podemos deducir Significa que cada parámetro se estima con precisión cuadradaEntonces su precisión al cuadrado general es

Y_{i} = \sum_{j = 1}^{p} β_{j} X_{i}^{(j)} + ϵ_{i}, i = 1, . . ., n .

$Y_i=\sum_{j=1}^{p} \beta_jX_{i}^{(j)}+\epsilon_i, i=1,...,n.$

p \leq n

$p \leq n$

b

$b$

\hat{b} = (X^{T} X)^{- 1} X^{T} Y

$\hat{b}=(X^TX)^{-1}X^TY$

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$

\frac{E ‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{n} = \frac{σ^{2}}{n} p .

$\dfrac{ \mathbb{E} \| X(\hat{b}-\beta^0) \|_2^2}{n}=\dfrac{\sigma^2}{n}p.$

β_{j}^{0}

$\beta_j^0$

σ^{2} / n, j = 1, . . ., p .

$\sigma^2/n, j=1,...,p.$

(σ^{2} / n) p .

$(\sigma^2/n)p.$

Ahora, ¿qué pasa si el número de observaciones es menor que el número de variables independientes ? "Creemos" que no todas nuestras variables independientes juegan un papel en la explicación de , por lo que solo unas pocas, digamos , son distintas de cero. Si supiéramos qué variables son distintas de cero, podríamos descuidar todas las demás variables y, según el argumento anterior, la precisión cuadrática general sería $(p>n)$ $Y$ $k$ $(\sigma^2/n)k.$

Debido a que se desconoce el conjunto de variables distintas de cero, necesitamos alguna penalización de regularización (por ejemplo, ) con el parámetro de regularización (que controla el número de variables). Ahora desea obtener resultados similares a los discutidos anteriormente, desea estimar la precisión al cuadrado. El problema es que su estimador óptimo ahora depende de . Pero el gran hecho es que con la elección adecuada de puede obtener un límite superior de error de predicción con alta probabilidad, esa es la "desigualdad del oráculo" Tenga en cuenta un factor adicional $l_1$ $\lambda$ $\hat{\beta}$ $\lambda$ $\lambda$

\frac{‖ X (\hat{β} - β^{0}) ‖_{2}^{2}}{n} \leq c o n s t . \frac{σ^{2} \log p}{n} k .

$\dfrac{\| X(\hat{\beta}-\beta^0) \|_2^2}{n} \leq const.\dfrac{\sigma^2\log p}{n}k.$

\log p

$\log p$ , que es el precio por no conocer el conjunto de variables distintas de cero. " " Depende sólo de o .

c o n s t .

$const.$

p

$p$

n

$n$

Dato Gogolashvili
fuente

Estrictamente hablando, no necesitamos que el número de observaciones sea menor que el número de variables independientes para que toda la parte posterior sea correcta.

jbowman

¿Puedes explicar cómo se obtuvieron la ecuación de expectativa (penúltima ecuación) y la desigualdad (última ecuación)?

user13985

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$ tiene la distribución chi-cuadrado con p grados de libertad, por lo que su expectativa es . La última desigualdad es una desigualdad de oráculo. La prueba no es tan trivial, puedo recomendar este libro: Estadísticas de datos de alta dimensión: métodos, teoría y aplicaciones, capítulo 6.

(σ^{2} / n) p

$(\sigma^2/n)p$

Dato Gogolashvili