Una estimación imparcial de la mediana

Supongamos que tenemos una variable aleatoria $X$ admitida en $[0,1]$ de la que podemos extraer muestras. ¿Cómo podemos llegar a una estimación imparcial de la mediana de $X$ ?

Por supuesto, podemos generar algunas muestras y tomar la mediana de la muestra, pero entiendo que, en general, esto no será imparcial.

Nota: esta pregunta está relacionada, pero no es idéntica, a mi última pregunta , en cuyo caso $X$ solo podría muestrearse aproximadamente.

sampling Robinson
fuente

Respuestas:

Tal estimador no existe.

La intuición es que la mediana puede permanecer fija mientras cambiamos libremente la densidad de probabilidad a ambos lados de la misma, de modo que cualquier estimador cuyo valor promedio sea la mediana para una distribución tendrá un promedio diferente para la distribución alterada, haciéndola sesgada. La siguiente exposición le da un poco más de rigor a esta intuición.

Nos centramos en las distribuciones tienen medianas únicas , de modo que, por definición, $F$ $m$ y para todos . Arregle un tamaño de muestra y suponga que estima . (Será suficiente que $F(m) \ge 1/2$ $F(x) \lt 1/2$ $x \lt m$ $n \ge 1$ $t: [0,1]^n \to [0,1]$ $m$ $t$ Sólo estar encerrado, pero por lo general no se considera seriamente estimadores que producen valores evidentemente imposibles) Hacemos. no hay suposiciones acerca de ; ni siquiera tiene que ser continuo en ningún lado. $t$

El significado de siendo imparcial (para este tamaño de muestra fijo) es que $t$

E_{F} [t (X_{1}, \dots, X_{n})] = m

$E_F[t(X_1, \ldots, X_n)] = m$

para cualquier muestra iid con . Un "estimador imparcial" es uno con esta propiedad para todos tales . $X_i \sim F$ $t$ $F$

Supongamos que existe un estimador imparcial. Derivaremos una contradicción aplicándola a un conjunto de distribuciones particularmente simple. Considere las distribuciones tienen estas propiedades: $F = F_{x,y,m, \varepsilon}$

; $0 \le x \lt y \le 1$
; $0 \lt \varepsilon \lt (y-x)/4$
; $x + \varepsilon \lt m \lt y - \varepsilon$
; $\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$
; y $\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$
es uniforme en . $F$ $[m-\varepsilon, m+\varepsilon]$

Estas distribuciones colocan la probabilidad en cada uno de e y una pequeña cantidad de probabilidad colocada simétricamente alrededor de entre e . Esto hace que la mediana única de . (Si le preocupa que esta no sea una distribución continua, introdúzcala con un Gaussiano muy estrecho y trunca el resultado a : el argumento no cambiará). $(1-\varepsilon)/2$ $x$ $y$ $m$ $x$ $y$ $m$ $F$ $[0,1]$

Ahora, para cualquier estimador medio putativo , una estimación fácil muestra que $t$ es estrictamente dentro de de la media de la valores donde varía sobre todas las combinaciones posibles dee. Sin embargo, podemos variar $E[t(X_1, X_2, \ldots, X_n)]$ $\varepsilon$ $2^n$ $t(x_1, x_2, \ldots, x_n)$ $x_i$ $x$ $y$ $m$ entre e , un cambio de al menos (en virtud de las condiciones 2 y 3). Por lo tanto, existe una , y de ahí una distribución correspondiente , para lo cual esta expectativa no es igual a la mediana, QED. $x + \varepsilon$ $y - \varepsilon$ $\varepsilon$ $m$ $F_{x,y,m,\varepsilon}$

whuber
fuente

(+1) Buena prueba. ¿Se te ocurrió o es algo que recuerdas de la escuela de posgrado?

StasK

Aquí hay otra prueba: la mayoría de las variables aleatorias de Bernoulli tienen una mediana de

. La estimación de

ensayos depende solo de los valores promedio del estimador en los vértices de

con

, y el peso de estos valores promedio es un polinomio en

de grado

. Si se trata de un estimador imparcial, debe tener valor medio

para cualquier

, y hay más de

tales valores de

0

$0$

1

$1$

n

$n$

[0, 1]^{n}

$[0,1]^n$

k

$k$

p

$p$

n

$n$

1

$1$

p > 1 / 2

$p \gt 1/2$

n + 1

$n+1$

p

$p$ , por lo que este polinomio debe ser constante ... pero debe ser

en valores más bajos de

, por lo que no puede ser imparcial allí también.

0

$0$

p

$p$

Douglas Zare

@ Douglas Esa es una gran prueba. Sospecho que algunas personas pueden sentir un poco incómodo sobre el alcance de su aplicabilidad, sin embargo, debido a que la mediana para una variable de Bernoulli es un tanto especial, siendo coincidente con uno de sus dos puntos de apoyo (excepto cuando

). Los lectores podrían verse tentados a declarar esto como "patológico" y tratar de prohibir tales monstruos observando solo distribuciones continuas con densidades positivas en todas partes en sus dominios. Es por eso que me ocupé de mostrar que tales esfuerzos fracasarán.

p = 1 / 2

$p=1/2$

whuber

¡Encontrar un estimador imparcial sin tener un modelo paramétrico sería difícil! Pero podría usar bootstrapping, y usar eso para corregir la mediana empírica para obtener un estimador aproximadamente imparcial.

kjetil b halvorsen
fuente

Si esto es imposible, ¿es posible demostrarlo? Por ejemplo, si

son muestras independientes de

se puede demostrar que

no puede ser imparcial para cualquier elección de

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \ldots, X_n$

X

$X$

f (X_{1}, \dots, X_{n})

$f(X_1, \ldots, X_n)$

f

$f$

robinson

Creo que kjetil dice que en un marco no paramétrico no existe un método que proporcione una estimación imparcial para cada distribución posible. Pero en el marco paramétrico probablemente puedas. El arranque de una estimación de muestra sesgada puede permitirle estimar el sesgo y ajustarlo para obtener una estimación de arranque que sea casi imparcial. Esa fue su sugerencia para manejar el problema en el marco no paramétrico. Probar que una estimación imparcial no es posible también sería difícil.

Michael R. Chernick

Si realmente quiere probar que no existe un estimador imparcial, hay un libro, Ferguson: "Estadística matemática: un enfoque teórico de decisión" que tiene algunos ejemplos de ese tipo de cosas.

kjetil b halvorsen

Me imagino que las condiciones de regularidad para el bootstrap serán violadas con las funciones de distribución que Whuber considera en su respuesta. Michael, ¿puedes comentar?

StasK

@Stas Como señalé, mis funciones pueden verse muy "agradables" al aplacarlas. También se pueden generalizar a las melificaciones de grandes mezclas finitas de átomos. La clase de tales distribuciones es densa en todas las distribuciones en el intervalo de la unidad, por lo que no creo que la regularidad de arranque esté involucrada aquí.

whuber

Creo que la regresión cuantil te dará un estimador consistente de la mediana. Dado el modelo . Y desea estimar $Y = \alpha + u$ ya que es una constante. Todo lo que necesita es que debe ser cierto siempre que tenga sorteos independientes. Sin embargo, en cuanto a imparcialidad, no lo sé. Las medianas son difíciles. $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ $\alpha$ $\text{med}(u) = 0$

Francisco
fuente

Ver la respuesta de @whuber

Peter Flom - Restablecer a Monica