Solución al ejercicio 2.2a.16 de "Estadísticas robustas: el enfoque basado en las funciones de influencia"

En la página 180 de Robust Statistics: el enfoque basado en las funciones de influencia, se encuentra la siguiente pregunta:

16: Demuestre que para estimadores invariantes de ubicación siempre $\varepsilon^*\leq\frac{1}{2}$ . Encuentre el límite superior correspondiente en el punto de ruptura de la muestra finita $\varepsilon^*_n$ , ambos en el caso donde $n$ es impar o $n$ es par.

La segunda parte (después del período) es realmente trivial (dada la primera), pero no puedo encontrar una manera de probar la primera parte (oración) de la pregunta.

En la sección del libro relacionada con esta pregunta, uno encuentra (p98):

$\varepsilon^*_n$ $T_n$ $(x_l,\ldots, x_n)$

$ε_{n}^{*} (T_{n}; x_{i}, \dots, x_{n}) := \frac{1}{n} max {m : max_{i_{1}, \dots, i_{m}} sup_{y_{1}, \dots, y_{m}} | T_{n} (z_{1}, \dots, z_{n}) | < \infty}$ $\varepsilon^*_n(T_n;x_i,\ldots,x_n):=\frac{1}{n}\max\{m:\max_{i_1,\ldots,i_m}\sup_{y_1,\ldots,y_m}\;|T_n(z_1,\ldots,z_n)|<\infty\}$
donde la muestra se obtiene reemplazando puntos de datos por valores arbitrarios $(z_1,\ldots,z_n)$ $m$ $x_{i_1},\ldots,x_{i_m}$ $y_1,\ldots,y_m.$

La definición formal de sí se ejecuta por casi una página, pero puede considerarse como Aunque no se define explícitamente, uno puede adivinar que invariante de ubicación significa que debe satisfacer $\varepsilon^*$

ε^{*} = lim_{n \to \infty} ε_{n}^{*}

$\varepsilon^*=\underset{n\rightarrow\infty}{\lim}\varepsilon^*_n$

T_{n}

$T_n$

T_{n} (x_{1}, \dots, x_{n}) = T_{n} (x_{1} + c, \dots, x_{n} + c), for all c \in R

$T_n(x_1,\ldots,x_n)= T_n(x_1+c,\ldots,x_n+c), \text{ for all } c\in \Bbb{R}$

Intento responder la pregunta de Whuber en el comentario a continuación. El libro define el estimador es de varias páginas, comenzando en p82, trato de reproducir las partes principales (creo que responderá la pregunta de Whuber): $T_n$

Supongamos que tenemos observaciones unidimensionales que son independientes e idénticamente distribuidas (iid). Las observaciones pertenecen a algún espacio muestral , que es un subconjunto de la línea real (a menudo simplemente es igual a , por lo que las observaciones pueden tomar cualquier valor ) Un modelo paramétrico consiste en una familia de distribuciones de probabilidad , en el espacio muestral, donde el parámetro desconocido pertenece a algún espacio de parámetros $(X_1,\ldots,X_n)$ $\mathcal{H}$ $\mathbb{R}$ $\mathcal{H}$ $\mathbb{R}$ $F_\theta$ $\theta$ $\Theta$

...

Identificamos la muestra con su distribución empírica , ignorando la secuencia de las observaciones (como casi siempre se hace). Formalmente, , viene dado por donde , es el punto de masa 1 en . Como estimadores de , consideramos estadísticas con valores reales . En un sentido más amplio, un estimador puede verse como una secuencia de estadísticas , una para cada tamaño de muestra posible . Idealmente, las observaciones son iid de acuerdo con un miembro del modelo paramétrico $(X_1,\ldots,X_n)$ $G_n$ $G_n$ $(1/n)\sum_{i=1}^n\Delta_{x_i}$ $\Delta_{X}$ $X$ $\theta$ $T_n=T_n(X_1,\ldots,X_n)=T_n(G_n)$ $\{T_n,n\geq 1\}$ $n$ $\{F_\theta;\theta\in\Theta\}$ , pero la clase de todas las posibles distribuciones de probabilidad en es mucho mayor. $\mathcal{F}(\mathcal{H})$ $\mathcal{H}$

Consideramos estimadores que son funcionales [es decir, para todo y ] o asintóticamente puede ser sustituido por los funcionales. Esto significa que asumimos que existe un funcional [donde el dominio de es el conjunto de todas las distribuciones para el cual se define ] de modo que en probabilidad cuando las observaciones son iid de acuerdo con la distribución verdadera en . Decimos que $T_n(G_n)=T(G_n)$ $n$ $G_n$ $T:\mbox{domain}(T)\rightarrow\mathbb{R}$ $T$ $\mathcal{F}(\mathcal{H})$ $T$
$T_{n} (X_{1}, \dots, X_{n}) \underset{n \to \infty}{\to} T (G)$ $T_n(X_1,\ldots,X_n)\underset{n\rightarrow\infty}{\rightarrow}T(G)$ $G$ $\mbox{domain}(T)$ $T(G)$ es el valor asintótico de en . $\{T_n;n\geq 1\}$ $G$

...

En este capítulo, siempre asumimos que los funcionales en estudio son consistentes con Fisher (Kallianpur y Rao, 1955): que significa que en el modelo el estimador mide asintóticamente la cantidad correcta. La noción de consistencia de Fisher es más adecuada y elegante para los funcionales que la consistencia habitual o la imparcialidad asintótica.
$T (F_{θ}) = θ for all θ \in Θ$ $T(F_\theta)=\theta\;\mbox{ for all } \theta\in\Theta$ $\{T_n;n\geq 1\}$

self-study robust usuario603
fuente

¿Cómo define exactamente este libro "estimador"? Me parece que cualquier estimador acotado debe tener un punto de ruptura de , por lo que seguramente está imponiendo algún tipo de restricciones especiales en ; y siempre existen estimadores de ubicación invariante acotados (incluirán las constantes).

T_{n}

$T_n$

1

$1$

T_{n}

$T_n$

whuber

Gracias por el material expandido. Todavía parece que hay muchos contraejemplos. Uno simple es el estimador constante para la familia de un parámetro de distribuciones normales de varianza . Este es un estimador de la varianza invariante de la ubicación. Su punto de ruptura es . Es coherente con Fisher (trivialmente), pero necesito interpretar la definición cuidadosamente: " " no puede referirse necesariamente a todos los parámetros, ¡porque entonces ningún estimador invariante de ubicación podría ser consistente!

T_{n} (X_{1}, \dots, X_{n}) = 1

$T_n(X_1,\ldots,X_n)=1$

1

$1$

1

$1$

θ

$\theta$

whuber

@whuber: Gracias, entiendo tu contraejemplo. Creo que me pondré en contacto con el autor y pediré más información ...

user603

Los libros de estadísticas más antiguos usaban "invariante" de una manera ligeramente diferente de lo que cabría esperar; La terminología ambigua persiste. Un equivalente más moderno es "equivalente" (ver las referencias al final de esta publicación). En el contexto actual significa

T_{n} (X_{1} + c, X_{2} + c, \dots, X_{n} + c) = T_{n} (X_{1}, X_{2}, \dots, X_{n}) + c

$T_n(X_1+c,X_2+c,\ldots,X_n+c) = T_n(X_1,X_2,\ldots,X_n) + c$

para todos los reales . $c$

Para abordar la pregunta, supongamos que tiene la propiedad de que para suficientemente grande , todo real y todo , $T_n$ $n$ $c$ $m \le \varepsilon^{*}n$

| T_{n} (X + Y) - T_{n} (X) | = o (| c |)

$|T_n(\mathbf{X + Y}) - T_n(\mathbf{X})| = o(|c|)$

siempre que difiera de en como máximo en como máximo coordenadas. $\mathbf Y$ $\mathbf{X}$ $c$ $m$

(Esta es una condición más débil de lo que se supone en la definición de límite de ruptura. De hecho, todo lo que realmente debemos suponer es que cuando es suficientemente grande, la expresión " " tiene algún valor garantizado para ser menor que de tamaño.) $n$ $o(|c|)$ $|c|/2$

La prueba es por contradiccion. Supongamos, en consecuencia, que esta también es equivalente y supongamos . Entonces, para suficientemente grande , es un número entero para el cual y . Para cualquier número real define $T_n$ $\varepsilon^{*} \gt 1/2$ $n$ $m(n) = \lfloor \varepsilon^{*}n\rfloor$ $m(n)/n \le \varepsilon^{*}$ $(n-m(n))/n \le \varepsilon^{*}$ $a,b$

t_{n} (a, b) = T_{n} (a, a, \dots, a, b, b, \dots, b)

$t_n(a, b) = T_n(a, a, \ldots, a,\ b, b, \ldots, b)$

donde hay 'sy ' s. Al cambiar o menos de las coordenadas, concluimos ambos $m(n)$ $a$ $n-m(n)$ $b$ $m(n)$

| t (a, b) - t (0, b) | = o (| a |)

$|t(a,b) - t(0,b)| = o(|a|)$

| t (a, b) - t (a, 0) | = o (| b |) .

$|t(a,b) - t(a,0)| = o(|b|).$

Para la desigualdad del triángulo afirma $c\gt 0$

\begin{aligned} c = | t_{n} (c, c) - t_{n} (0, 0) | & \leq | t_{n} (c, c) - t_{n} (c, 0) | + | t_{n} (c, 0) - t_{n} (0, 0) | \\ = o (c) + o (c) \\ < c / 2 + c / 2 \\ = c \end{aligned}

$\eqalign{ c = |t_n(c, c) - t_n(0, 0)| &\le |t_n(c, c) - t_n(c, 0)| + |t_n(c, 0) - t_n(0,0)| \\&= o(c) + o(c) \\&\lt c/2 + c/2 \\ &= c}$

La estricta desigualdad en la penúltima línea está asegurada para suficientemente grande . La contradicción que implica, , prueba $n$ $c \lt c$ $\varepsilon^{*} \le 1/2.$

Referencias

EL Lehmann, Teoría de la estimación puntual . John Wiley 1983.

En el texto (capítulo 3, sección 1) y una nota al pie que acompaña a Lehmann, escribe

Un estimador que satisfaga para todo se llamará equivalente ... $\delta(X_1+a, \ldots, X_n+a) = \delta(X_1,\ldots,X_n)+a$ $a$

Algunos autores llaman a tales estimadores "invariantes". Como esto sugiere que el estimador permanece sin cambios bajo , parece preferible reservar ese término para funciones que satisfacen para todo . $X_i^\prime = X_i+a$ $u(x+a)=u(x)$ $x,a$

whuber
fuente

Sí, me puse en contacto ayer con el autor principal del libro con la misma pregunta sobre la definición real de invariancia utilizada (busqué en el índice y no pude encontrarlo explícito en el libro). He votado porque creo que tu respuesta es la correcta, pero le daré al autor un par de días para estar seguro antes de aceptarla.

user603

No recibí una respuesta del autor, pero los argumentos presentados anteriormente (en la respuesta y el comentario) me convencieron de que esta debe ser la interpretación correcta del problema.

user603

Solución al ejercicio 2.2a.16 de "Estadísticas robustas: el enfoque basado en las funciones de influencia"

Respuestas:

Referencias