Estoy leyendo aprendizaje profundo por Ian Goodfellow et al. Introduce el sesgo como
donde y son el parámetro estimado y el parámetro real subyacente, respectivamente.
La consistencia, por otro lado, está definida por
lo que significa que para cualquier , como
Luego dice que la consistencia implica imparcialidad pero no viceversa:
La consistencia asegura que el sesgo inducido por el estimador disminuye a medida que crece el número de ejemplos de datos. Sin embargo, lo contrario no es cierto: la imparcialidad asintótica no implica consistencia. Por ejemplo, considere estimar el parámetro medio μ de una distribución normal N (x; μ, σ2), con un conjunto de datos que consta de m muestras: . Podríamos usar la primera muestra del conjunto de datos como un estimador imparcial: \ hatθ = x ^ {(1)} . En ese caso, E (\ hat θ_m) = θ por lo que el estimador es imparcial sin importar cuántos puntos de datos se vean. Esto, por supuesto, implica que la estimación es asintóticamente imparcial. Sin embargo, este no es un estimador consistente ya que no es el caso de que \ hatθ_m → θ como
No estoy seguro de haber entendido correctamente el párrafo anterior y los conceptos de imparcialidad y consistencia, espero que alguien pueda ayudarme a verificarlo. Gracias por adelantado.
Según tengo entendido, la coherencia implica imparcialidad y baja varianza y, por lo tanto, la imparcialidad por sí sola no es suficiente para implicar coherencia.
Respuestas:
En ese párrafo, los autores están dando un ejemplo extremo para mostrar cómo ser imparcial no significa que una variable aleatoria converja en algo.
Los autores están tomando una muestra aleatoria y quieren estimar . Al observar que , podríamos producir un estimador imparcial de simplemente ignorando todos nuestros datos, excepto el primer punto . Pero esa es claramente una idea terrible, por lo que la imparcialidad por sí sola no es un buen criterio para evaluar un estimador. De alguna manera, a medida que obtenemos más datos, queremos que nuestro estimador varíe cada vez menos de , y eso es exactamente lo que dice la consistencia: para cualquier distancia , la probabilidad de que sea mayor que lejos deX1,…,Xn∼N(μ,σ2) μ E(X1)=μ μ X1 μ ε θ^n ε θ se dirige a como . Y esto puede suceder incluso si para cualquier finito está sesgado. Un ejemplo de esto es el estimador de varianza en una muestra normal. Esto es parcial pero consistente.0 n→∞ n θ^ σ^2n=1n∑ni=1(yi−y¯n)2
Intuitivamente, una estadística es imparcial si es exactamente igual a la cantidad objetivo cuando se promedia sobre todas las muestras posibles. Pero sabemos que el promedio de un montón de cosas no tiene que estar cerca de las cosas que se promedian; esta es solo una versión más elegante de cómo el promedio de y es , aunque ni ni están particularmente cerca de (dependiendo de cómo mida "cerrar").0 1 1/2 0 1 1/2
Aquí hay otro ejemplo (aunque este es casi el mismo ejemplo disfrazado). Deje y deje . Nuestro estimador de será . Tenga en cuenta que por lo que sí tenemos un estimador imparcial. Pero por lo que este estimador definitivamente no converge en nada cercano a , y para cada todavía tenemos .X1∼Bern(θ) X2=X3=⋯=X1 θ θ^(X)=X¯n EX¯n=p X¯n=X1∈{0,1} θ∈(0,1) n X¯n∼Bern(θ)
fuente
Derecha. O utilizando los términos un poco más simples de "precisión" para un sesgo bajo, y "precisión" para una varianza baja, la consistencia requiere que seamos precisos y precisos. Solo ser precisos no significa que estamos dando en el blanco. Es como el viejo chiste sobre dos estadísticos que van a cazar. Uno echa de menos un ciervo a tres metros a la izquierda. El otro pierde diez pies a la derecha. Luego se felicitan mutuamente porque, en promedio, golpean al venado. Aunque su sesgo es cero, para golpear realmente al venado, también necesitan una baja variación.
fuente