¿Por qué la imparcialidad no implica coherencia?

Estoy leyendo aprendizaje profundo por Ian Goodfellow et al. Introduce el sesgo como donde y son el parámetro estimado y el parámetro real subyacente, respectivamente.

B i a s (θ) = E (\hat{θ}) - θ

$Bias(\theta)=E(\hat\theta)-\theta$

\hat{θ}

$\hat\theta$

θ

$\theta$

La consistencia, por otro lado, está definida por lo que significa que para cualquier , como

{l i m}_{m \to \infty} {\hat{θ}}_{m} = θ

$\mathrm{lim}_{m\to\infty}\hat\theta_m=\theta$

ϵ > 0

$\epsilon > 0$

P (| {\hat{θ}}_{m} - θ | > ϵ) \to 0

$P(|\hat\theta_m-\theta|>\epsilon)\to0$

m \to \infty

$m\to\infty$

Luego dice que la consistencia implica imparcialidad pero no viceversa:

La consistencia asegura que el sesgo inducido por el estimador disminuye a medida que crece el número de ejemplos de datos. Sin embargo, lo contrario no es cierto: la imparcialidad asintótica no implica consistencia. Por ejemplo, considere estimar el parámetro medio μ de una distribución normal N (x; μ, σ2), con un conjunto de datos que consta de m muestras: . Podríamos usar la primera muestra del conjunto de datos como un estimador imparcial: . En ese caso, por lo que el estimador es imparcial sin importar cuántos puntos de datos se vean. Esto, por supuesto, implica que la estimación es asintóticamente imparcial. Sin embargo, este no es un estimador consistente ya que no es el caso de que como ${x^{(1)}, . . . , x^{(m)}}$ $x^{(1)}$ $\hatθ = x^{(1)}$ $E(\hat θ_m) = θ$ $\hatθ_m → θ$ $m → ∞$

No estoy seguro de haber entendido correctamente el párrafo anterior y los conceptos de imparcialidad y consistencia, espero que alguien pueda ayudarme a verificarlo. Gracias por adelantado.

Según tengo entendido, la coherencia implica imparcialidad y baja varianza y, por lo tanto, la imparcialidad por sí sola no es suficiente para implicar coherencia.

estimation bias unbiased-estimator consistency Tal vez
fuente

Si sesgo = 0 y varianza-> 0, entonces es consistente. Y si sesgo-> 0 y varianza-> 0, es consistente; esto es "sesos asintóticos". Ambos se derivan del hecho de que el error al cuadrado esperado = sesgo ^ 2 + varianza.

user54038

No dice que la consistencia implica imparcialidad, ya que eso sería falso. Por ejemplo, el estimador es un estimador consistente para la media muestral, pero no es imparcial. Lo que dice el fragmento anterior es que la consistencia disminuye la cantidad de sesgo inducido por un estimador de sesgo. En el caso de la media muestral, la diferencia entre y vuelve insignificante a medida que aumenta

\frac{1}{N - 1} \sum_{i} x_{i}

$\frac{1}{N-1} \sum_i x_i$

N

$N$

N - 1

$N-1$

N

$N$

Yannis Vassiliadis

¿Estás seguro de que es imparcial? Creo que es imparcial: 1 / n veces la suma estaría sesgada.

eSurfsnake

@eSurfsnake es para la varianza de la muestra. Para la media de muestra que mencioné anteriormente, es a la vez imparcial y consistente, mientras que solo es consistente.

\frac{1}{N} \sum_{i} x_{i}

$\frac{1}{N} \sum_i x_i$

\frac{1}{N - 1} \sum_{i} x_{i}

$\frac{1}{N-1} \sum_i x_i$

Yannis Vassiliadis

OK, pensé que estabas preguntando por la variación.

eSurfsnake

Respuestas:

En ese párrafo, los autores están dando un ejemplo extremo para mostrar cómo ser imparcial no significa que una variable aleatoria converja en algo.

Los autores están tomando una muestra aleatoria y quieren estimar . Al observar que , podríamos producir un estimador imparcial de simplemente ignorando todos nuestros datos, excepto el primer punto . Pero esa es claramente una idea terrible, por lo que la imparcialidad por sí sola no es un buen criterio para evaluar un estimador. De alguna manera, a medida que obtenemos más datos, queremos que nuestro estimador varíe cada vez menos de , y eso es exactamente lo que dice la consistencia: para cualquier distancia , la probabilidad de que sea mayor que lejos de $X_1,\dots, X_n \sim \mathcal N(\mu,\sigma^2)$ $\mu$ $E(X_1) = \mu$ $\mu$ $X_1$ $\mu$ $\varepsilon$ $\hat \theta_n$ $\varepsilon$ $\theta$ se dirige a como . Y esto puede suceder incluso si para cualquier finito está sesgado. Un ejemplo de esto es el estimador de varianza en una muestra normal. Esto es parcial pero consistente. $0$ $n \to \infty$ $n$ $\hat \theta$ $\hat \sigma^2_n = \frac 1n \sum_{i=1}^n(y_i - \bar y_n)^2$

Intuitivamente, una estadística es imparcial si es exactamente igual a la cantidad objetivo cuando se promedia sobre todas las muestras posibles. Pero sabemos que el promedio de un montón de cosas no tiene que estar cerca de las cosas que se promedian; esta es solo una versión más elegante de cómo el promedio de y es , aunque ni ni están particularmente cerca de (dependiendo de cómo mida "cerrar"). $0$ $1$ $1/2$ $0$ $1$ $1/2$

Aquí hay otro ejemplo (aunque este es casi el mismo ejemplo disfrazado). Deje y deje . Nuestro estimador de será . Tenga en cuenta que por lo que sí tenemos un estimador imparcial. Pero por lo que este estimador definitivamente no converge en nada cercano a , y para cada todavía tenemos . $X_1 \sim \text{Bern}(\theta)$ $X_2 = X_3 = \dots = X_1$ $\theta$ $\hat \theta(X) = \bar X_n$ $E \bar X_n = p$ $\bar X_n = X_1 \in \{0,1\}$ $\theta \in (0,1)$ $n$ $\bar X_n \sim \text{Bern}(\theta)$

jld
fuente

Lo contrario también es falso. Un estimador puede tener un sesgo y una varianza que ambos van a 0 cuando n se acerca al infinito haciéndolo consistente. Pero por cada n estará sesgado porque tendrá un sesgo distinto de cero. Por ejemplo, la estimación de la varianza con n en el denominador es sesgada y consistente, mientras que si divide por n-1 será imparcial y consistente.

Michael R. Chernick

Según tengo entendido, la coherencia implica imparcialidad y baja varianza y, por lo tanto, la imparcialidad por sí sola no es suficiente para implicar coherencia.

Derecha. O utilizando los términos un poco más simples de "precisión" para un sesgo bajo, y "precisión" para una varianza baja, la consistencia requiere que seamos precisos y precisos. Solo ser precisos no significa que estamos dando en el blanco. Es como el viejo chiste sobre dos estadísticos que van a cazar. Uno echa de menos un ciervo a tres metros a la izquierda. El otro pierde diez pies a la derecha. Luego se felicitan mutuamente porque, en promedio, golpean al venado. Aunque su sesgo es cero, para golpear realmente al venado, también necesitan una baja variación.

Acumulacion
fuente