¿Por qué una estadística suficiente contiene toda la información necesaria para calcular cualquier estimación del parámetro?

16

Acabo de comenzar a estudiar estadísticas y no puedo obtener una comprensión intuitiva de la suficiencia. Para ser más precisos, no puedo entender cómo mostrar que los dos párrafos siguientes son equivalentes:

Aproximadamente, dado un conjunto X de datos independientes distribuidos idénticamente condicionados en un parámetro desconocido θ, una estadística suficiente es una función T (X) cuyo valor contiene toda la información necesaria para calcular cualquier estimación del parámetro.

Una estadística T (X) es suficiente para el parámetro subyacente θ precisamente si la distribución de probabilidad condicional de los datos X, dada la estadística T (X), no depende del parámetro θ.

(He tomado las citas de estadística suficiente )

Aunque entiendo la segunda declaración, y puedo usar el teorema de factorización para mostrar si una estadística dada es suficiente, no puedo entender por qué una estadística con dicha propiedad también tiene la propiedad de que "contiene toda la información necesaria para calcular cualquier estimación del parámetro ". No estoy buscando una prueba formal, que de todos modos ayudaría a refinar mi comprensión, me gustaría obtener una explicación intuitiva de por qué las dos declaraciones son equivalentes.

En resumen, mis preguntas son: ¿por qué las dos declaraciones son equivalentes? ¿Podría alguien proporcionar una explicación intuitiva para su equivalencia?

gcoll
fuente
1
La idea intuitiva principal es que a veces no es necesario ver la muestra completa porque puede encontrar una estadística que resume toda la información necesaria de la muestra. Tomemos, por ejemplo, una distribución binomial: todo lo que necesita saber para su modelo es la suma de los éxitos. No se pierde nada de valor si sólo te digo que , en vez de mostrar el conjunto de valores de muestra xinxi=c . x={1,0,0,1,0,1,...}
mugen
Entiendo por qué necesitaría estadísticas suficientes y cómo mostrar que la suma de éxitos es una estadística suficiente para p en un proceso de Bernoulli. Lo que no entiendo es por qué una estadística como la que se describe en el segundo párrafo contiene toda la información necesaria para calcular cualquier estimación del parámetro.
gcoll
3
Estrictamente hablando, la primera cita es simplemente errónea. Hay muchos estimadores que pueden calcularse a partir de todo el conjunto de datos que no pueden calcularse únicamente a partir de estadísticas suficientes. Esa es una razón por la cual la cita comienza "aproximadamente". Otra razón es que no proporciona una definición cuantitativa o rigurosa de "información". Sin embargo, dado que se ha dado una caracterización mucho más precisa (pero aún intuitiva) en el párrafo anterior, hay pocos problemas con esta cita en el contexto adecuado.
whuber
1
Tiene conexión con la máxima probabilidad y es esencialmente la información necesaria en la máxima probabilidad
Kamster
1
Siguiendo los comentarios de whuber y @Kamster, probablemente entendí mejor. Cuando decimos que una estadística suficiente contiene toda la información necesaria para calcular cualquier estimación del parámetro, ¿realmente queremos decir que es suficiente para calcular el estimador de máxima verosimilitud (que es una función de todas las estadísticas suficientes)? Es cierto, el problema estaba relacionado con la definición (no) de "información", como sugirió Whuber, y mi pregunta fue respondida.
gcoll

Respuestas:

3

Siguiendo los comentarios de @whuber y @Kamster, probablemente entendí mejor. Cuando decimos que una estadística suficiente contiene toda la información necesaria para calcular cualquier estimación del parámetro, lo que realmente queremos decir es que es suficiente para calcular el estimador de máxima verosimilitud (que es una función de todas las estadísticas suficientes).

Dado que estoy respondiendo mi propia pregunta y, por lo tanto, no estoy 100% seguro de la respuesta, no la marcaré como correcta hasta que reciba algún comentario. Por favor agregue cualquier comentario y voto negativo si cree que estoy equivocado / impreciso / etc.

(Avíseme si esto no es compatible con la etiqueta SE, siendo esta mi primera pregunta le ruego me disculpe si estoy violando alguna regla)

gcoll
fuente
1

Mientras estudiaba sobre la suficiencia, me encontré con su pregunta porque también quería entender la intuición acerca de lo que deduje de esto es lo que se me ocurrió (hágame saber lo que piensa, si cometí algún error, etc.).

Sea una muestra aleatoria de una distribución de Poisson con media θX1,,Xnθ>0 .

Sabemos que es una estadística suficiente para θ , ya que la distribución condicional de X 1 , ... , X n dado T ( X ) está libre de θT(X)=i=1nXiθX1,,XnT(X)θ , en otras palabras, no depende de .θ

Ahora, el estadístico sabe que X 1 , ... , X n i . yo . d P o i s s o n ( 4 ) y crea n = 400 valores aleatorios a partir de esta distribución:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Para los valores que ha creado el estadístico , toma la suma y le pregunta al estadístico B lo siguiente:AB

"Tengo estos valores de muestra tomados de una distribución de Poisson. Sabiendo que n i = 1 x i = yx1,,xni=1nxi=y=4068 , ¿qué me puede decir acerca de esta distribución?"

i=1nxi=y=4068Bθ ? Como sabemos que esta es una estadística suficiente, sabemos que la respuesta es "sí".

Para tener alguna idea sobre el significado de esto, hagamos lo siguiente (tomado de "Introducción a las estadísticas matemáticas" de Hogg & Mckean & Craig, 7ª edición, ejercicio 7.1.9):

Bz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1,,zn

Esto es lo que dice el ejercicio. Entonces, hagamos exactamente eso:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

ingrese la descripción de la imagen aquí

θY=Xyonorte

XZEl |y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

ingrese la descripción de la imagen aquí

Vemos que también son bastante similares (como se esperaba)

XyoY=X1+X2++Xnorte " (Ash, R. "Inferencia estadística: Un curso conciso ", página 59).

Gus_est
fuente
0

Déjame darte otra perspectiva que pueda ayudar. Esto también es cualitativo, pero hay una versión rigurosa de eso particularmente importante en la teoría de la información, conocida como propiedad de Markov.

Al principio, tenemos dos objetos, datos (provenientes de una variable aleatoria, llámelo X) y parámetro, θ(otro rv, implícitamente asumido ya que estamos hablando de su estimador). Se supone que estos dos son dependientes (de lo contrario, no tiene sentido tratar de estimar uno del otro). Ahora, el tercer objeto ingresa al juego, Suficiente Estadística, T. La idea intuitiva cuando decimos T es suficiente para estimarθ realmente significa que si conocemos T (es decir, condicionado por T), X no proporciona información adicional, es decir, X y θson independientes En otras palabras, el conocimiento de X es equivalente al conocimiento de T en cuanto a la estimación deθestá preocupado Tenga en cuenta que en las probabilidades es donde se capturan todas las incertidumbres, y por lo tanto "cualquier estimación" cuando las probabilidades (condicionales) son independientes (por ejemplo, las densidades condicionales se factorizan).

Mahdi
fuente