Una estimación imparcial de la mediana

16

Supongamos que tenemos una variable aleatoria X admitida en [0,1] de la que podemos extraer muestras. ¿Cómo podemos llegar a una estimación imparcial de la mediana de X ?

Por supuesto, podemos generar algunas muestras y tomar la mediana de la muestra, pero entiendo que, en general, esto no será imparcial.

Nota: esta pregunta está relacionada, pero no es idéntica, a mi última pregunta , en cuyo caso X solo podría muestrearse aproximadamente.

Robinson
fuente

Respuestas:

13

Tal estimador no existe.

La intuición es que la mediana puede permanecer fija mientras cambiamos libremente la densidad de probabilidad a ambos lados de la misma, de modo que cualquier estimador cuyo valor promedio sea la mediana para una distribución tendrá un promedio diferente para la distribución alterada, haciéndola sesgada. La siguiente exposición le da un poco más de rigor a esta intuición.


Nos centramos en las distribuciones tienen medianas únicas m , de modo que, por definición, F ( m ) 1Fm y F ( x ) < 1 / 2 para todos x < m . Arregle un tamaño de muestra n 1 y suponga que t : [ 0 , 1 ] n[ 0 , 1 ] estima m . (Será suficiente que tF(m)1/2F(x)<1/2x<mn1t:[0,1]n[0,1]mtSólo estar encerrado, pero por lo general no se considera seriamente estimadores que producen valores evidentemente imposibles) Hacemos. no hay suposiciones acerca de ; ni siquiera tiene que ser continuo en ningún lado.t

El significado de siendo imparcial (para este tamaño de muestra fijo) es quet

EF[t(X1,,Xn)]=m

para cualquier muestra iid con . Un "estimador imparcial" t es uno con esta propiedad para todos tales F .XiFtF

Supongamos que existe un estimador imparcial. Derivaremos una contradicción aplicándola a un conjunto de distribuciones particularmente simple. Considere las distribuciones tienen estas propiedades:F=Fx,y,m,ε

  1. ;0x<y1

  2. ;0<ε<(yx)/4

  3. ;x+ε<m<yε

  4. ;Pr(X=x)=Pr(X=y)=(1ε)/2

  5. ; yPr(mεXm+ε)=ε

  6. es uniforme en [ m - ε , m + ε ] .F[mε,m+ε]

Estas distribuciones colocan la probabilidad en cada uno de x e y y una pequeña cantidad de probabilidad colocada simétricamente alrededor de m entre x e y . Esto hace que m la mediana única de F . (Si le preocupa que esta no sea una distribución continua, introdúzcala con un Gaussiano muy estrecho y trunca el resultado a [ 0 , 1 ] : el argumento no cambiará).(1ε)/2xymxymF[0,1]

Ahora, para cualquier estimador medio putativo , una estimación fácil muestra que E [ t ( X 1 , X 2 , , X n ) x y m x + ε y - ε ε m F x , y , m , εt es estrictamente dentro de ε de la media de la 2 n valores t ( x 1 , x 2 , , X n ) donde x i varía sobre todas las combinaciones posibles dee. Sin embargo, podemos variarE[t(X1,X2,,Xn)]ε2nt(x1,x2,,xn)xixymentre e , un cambio de al menos (en virtud de las condiciones 2 y 3). Por lo tanto, existe una , y de ahí una distribución correspondiente , para lo cual esta expectativa no es igual a la mediana, QED.x+εyεεmFx,y,m,ε

whuber
fuente
(+1) Buena prueba. ¿Se te ocurrió o es algo que recuerdas de la escuela de posgrado?
StasK
44
Aquí hay otra prueba: la mayoría de las variables aleatorias de Bernoulli tienen una mediana de o 1 . La estimación de n ensayos depende solo de los valores promedio del estimador en los vértices de [ 0 , 1 ] n con k , y el peso de estos valores promedio es un polinomio en p de grado n . Si se trata de un estimador imparcial, debe tener valor medio 1 para cualquier p > 1 / 2 , y hay más de n + 1 tales valores de p01n[0,1]nkpn1p>1/2n+1p, por lo que este polinomio debe ser constante ... pero debe ser en valores más bajos de p , por lo que no puede ser imparcial allí también. 0p
Douglas Zare
1
@ Douglas Esa es una gran prueba. Sospecho que algunas personas pueden sentir un poco incómodo sobre el alcance de su aplicabilidad, sin embargo, debido a que la mediana para una variable de Bernoulli es un tanto especial, siendo coincidente con uno de sus dos puntos de apoyo (excepto cuando ). Los lectores podrían verse tentados a declarar esto como "patológico" y tratar de prohibir tales monstruos observando solo distribuciones continuas con densidades positivas en todas partes en sus dominios. Es por eso que me ocupé de mostrar que tales esfuerzos fracasarán. p=1/2
whuber
3

¡Encontrar un estimador imparcial sin tener un modelo paramétrico sería difícil! Pero podría usar bootstrapping, y usar eso para corregir la mediana empírica para obtener un estimador aproximadamente imparcial.

kjetil b halvorsen
fuente
Si esto es imposible, ¿es posible demostrarlo? Por ejemplo, si son muestras independientes de X, ¿ se puede demostrar que f ( X 1 , ... , X n ) no puede ser imparcial para cualquier elección de f ? X1,X2,,XnXf(X1,,Xn)f
robinson
2
Creo que kjetil dice que en un marco no paramétrico no existe un método que proporcione una estimación imparcial para cada distribución posible. Pero en el marco paramétrico probablemente puedas. El arranque de una estimación de muestra sesgada puede permitirle estimar el sesgo y ajustarlo para obtener una estimación de arranque que sea casi imparcial. Esa fue su sugerencia para manejar el problema en el marco no paramétrico. Probar que una estimación imparcial no es posible también sería difícil.
Michael R. Chernick
2
Si realmente quiere probar que no existe un estimador imparcial, hay un libro, Ferguson: "Estadística matemática: un enfoque teórico de decisión" que tiene algunos ejemplos de ese tipo de cosas.
kjetil b halvorsen
Me imagino que las condiciones de regularidad para el bootstrap serán violadas con las funciones de distribución que Whuber considera en su respuesta. Michael, ¿puedes comentar?
StasK
2
@Stas Como señalé, mis funciones pueden verse muy "agradables" al aplacarlas. También se pueden generalizar a las melificaciones de grandes mezclas finitas de átomos. La clase de tales distribuciones es densa en todas las distribuciones en el intervalo de la unidad, por lo que no creo que la regularidad de arranque esté involucrada aquí.
whuber
0

Creo que la regresión cuantil te dará un estimador consistente de la mediana. Dado el modelo . Y desea estimar med ( y ) = med ( αY=α+u ya que α es una constante. Todo lo que necesita es med ( u ) = 0, que debe ser cierto siempre que tenga sorteos independientes. Sin embargo, en cuanto a imparcialidad, no lo sé. Las medianas son difíciles.med(y)=med(α+u)=α+med(u)αmed(u)=0

Francisco
fuente
Ver la respuesta de @whuber
Peter Flom - Restablecer a Monica