¿Por qué necesitamos un estimador para ser consistente?

15

Creo que ya he entendido la definición matemática de un estimador consistente. Corrígeme si me equivoco:

$W_n$ es un estimador consistente para if $\theta$ $\forall \epsilon>0$

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta$

Donde, $\Theta$ es el espacio paramétrico. Pero quiero entender la necesidad de que un estimador sea consistente. ¿Por qué un estimador que no es consistente es malo? ¿Me podría dar algunos ejemplos?

Acepto simulaciones en R o python.

estimation consistency Fam
fuente

3

Un estimador que no es consistente no siempre es malo. Tomemos por ejemplo un estimador inconsistente pero imparcial. Vea el artículo de Wikipedia sobre el estimador consistente en.wikipedia.org/wiki/Consistent_estimator , particularmente la sección sobre sesgo versus consistencia

compbiostatos del

La consistencia es, en términos generales, un comportamiento asintótico óptimo de un estimador. Elegimos un estimador que se aproxima al valor verdadero de

θ

$\theta$ a largo plazo. Dado que esto es solo convergencia en la probabilidad, este hilo podría ser útil: stats.stackexchange.com/questions/134701/… .

StubbornAtom

@StubbornAtom, tendría cuidado de llamar a un estimador tan consistente "óptimo", ya que ese término generalmente está reservado para estimadores que también son, en cierto sentido, eficientes.

Christoph Hanck

22

Si el estimador no es consistente, no convergerá al valor verdadero en probabilidad . En otras palabras, siempre hay una probabilidad de que su estimador y el valor verdadero tengan una diferencia, sin importar cuántos puntos de datos tenga. Esto es realmente malo, porque incluso si recopila una gran cantidad de datos, su estimación siempre tendrá una probabilidad positiva de ser diferente del valor real. Prácticamente, puede considerar esta situación como si estuviera usando un estimador de una cantidad tal que incluso encuestar a toda la población, en lugar de una pequeña muestra, no lo ayudará. $\epsilon>0$

gunes
fuente

21

Considere observaciones de la distribución estándar de Cauchy, que es lo mismo que la distribución t de Student con 1 grado de libertad. Las colas de esta distribución son lo suficientemente pesadas como para no tener ningún medio; la distribución se centra en su mediana $n = 10\,000$ $\eta = 0.$

Una secuencia de muestra significa no es consistente para el centro de la distribución de Cauchy. En términos generales, la dificultad es que las observaciones muy extremas (positivas o negativas) ocurren con suficiente regularidad para que converja a (Las no solo son lentas para converger, nunca lo hacen converge. La distribución de es de nuevo Cauchy estándar [ prueba ].) $A_j = \frac 1j \sum_{i=1}^j X_i$ $X_i$ $A_j$ $\eta = 0.$ $A_j$ $A_j$

Por el contrario, en cualquier paso de un proceso de muestreo continuo, aproximadamente la mitad de las observaciones se a cada lado de modo que la secuencia de las medianas de muestra converja a $X_i$ $\eta,$ $H_j$ $\eta.$

Esta falta de convergencia de y convergencia de se ilustra en la siguiente simulación. $A_j$ $H_j$

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

Aquí hay una lista de pasos en los que Puede ver el efecto de algunas de estas observaciones extremas en los promedios de ejecución en la gráfica de la izquierda (en las líneas punteadas rojas verticales). $|X_i| > 1000.$

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

La consistencia es importante en la estimación: en el muestreo de una población de Cauchy, la media muestral de una muestra de observaciones no es mejor para estimar el centro que una sola observación. Por el contrario, la mediana de la muestra consistente converge a por lo que las muestras más grandes producen mejores estimaciones. $n = 10\,000$ $\eta$ $\eta,$

BruceET
fuente

1

Nitpicking un poco, pero su simulación ilustra el fracaso de la media de la muestra para converger casi seguramente, no con probabilidad, al centro de Cauchy (consistencia fuerte frente a débil).

aleshing

9

Un ejemplo realmente simple de por qué es importante pensar en la coherencia, que no creo que reciba suficiente atención, es el de un modelo demasiado simplificado.

Como ejemplo teórico, suponga que desea ajustar un modelo de regresión lineal en algunos datos, en los que los verdaderos efectos en realidad no son lineales. Entonces, sus predicciones no pueden ser consistentes para la media real para todas las combinaciones de covariables, mientras que una más flexible puede serlo. En otras palabras, el modelo simplificado tendrá deficiencias que no se pueden superar mediante el uso de más datos.

Acantilado
fuente

y_{i} = {\hat{y}}_{i} + {\hat{e}}_{i}

$y_i=\hat{y}_i+\hat{e}_i$

8

@BruceET ya ha dado una excelente respuesta técnica, pero me gustaría agregar un punto sobre la interpretación de todo.

Uno de los conceptos fundamentales en estadística es que a medida que aumenta el tamaño de nuestra muestra, podemos llegar a conclusiones más precisas sobre nuestra distribución subyacente. Se podría considerar como la noción de que tomar muchas muestras elimina el jitter aleatorio en los datos, por lo que obtenemos una mejor noción de la estructura subyacente.

$(X_i)_{i\in\mathbb{N}} \$ $\mathbb{E}[X_1] < \infty$

\frac{1}{n} \sum_{k = 1}^{n} X_{k} \to E [X] a.s.

$\frac{1}{n} \sum_{k = 1}^n X_k \rightarrow \mathbb{E}[X] \ \ \ \text{a.s.}$

Ahora, exigir que un estimador sea consistente es exigir que también siga esta regla: como su trabajo es estimar un parámetro desconocido, nos gustaría que converja con ese parámetro (léase: estimar ese parámetro arbitrariamente bien) como nuestra muestra El tamaño tiende al infinito.

La ecuacion

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall ϵ > 0 \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\epsilon > 0\ \forall\theta \ \in \Theta$

$W_n$ $\theta$

$[\theta - \varepsilon, \theta + \varepsilon]$ $\theta$

Marc Vaisband
fuente

¿Por qué necesitamos un estimador para ser consistente?

Respuestas: