Suficiente estadística, problemas específicos / intuitivos

16

Me estoy enseñando algunas estadísticas para divertirme y tengo cierta confusión con respecto a estadísticas suficientes . Escribiré mis confusiones en formato de lista:

  1. Si una distribución tiene parámetros, ¿tendrá n estadísticas suficientes?nn

  2. ¿Existe algún tipo de correspondencia directa entre las estadísticas suficientes y los parámetros? O las estadísticas suficientes sirven simplemente como un conjunto de "información" para que podamos recrear la configuración y poder calcular las mismas estimaciones para los parámetros de la distribución subyacente.

  3. ¿Todas las distribuciones tienen estadísticas suficientes? es decir. ¿puede fallar el teorema de factorización?

  4. Usando nuestra muestra de datos, asumimos una distribución de la que es más probable que provengan los datos y luego podemos calcular estimaciones (por ejemplo, el MLE) para los parámetros de la distribución. Las estadísticas suficientes son una forma de poder calcular las mismas estimaciones para los parámetros sin tener que depender de los datos en sí, ¿verdad?

  5. ¿Todos los conjuntos de estadísticas suficientes tendrán una estadística mínima suficiente?

Este es el material que estoy usando para tratar de entender el tema: https://onlinecourses.science.psu.edu/stat414/node/283

Por lo que entiendo, tenemos un teorema de factorización que separa la distribución conjunta en dos funciones, pero no entiendo cómo podemos extraer la estadística suficiente después de factorizar la distribución en nuestras funciones.

  1. La pregunta de Poisson dada en este ejemplo tenía una factorización clara, pero luego se afirmó que las estadísticas suficientes eran la media de la muestra y la suma de la muestra. ¿Cómo supimos que esas eran las estadísticas suficientes con solo mirar la forma de la primera ecuación?

  2. ¿Cómo es posible llevar a cabo las mismas estimaciones de MLE utilizando estadísticas suficientes si la segunda ecuación del resultado de factorización a veces dependerá de los valores de datos mismos? Por ejemplo, en el caso de Poisson, la segunda función dependía de la inversa del producto de los factoriales de los datos, ¡y ya no tendríamos los datos!Xi

  3. ¿Por qué el tamaño de la muestra no sería una estadística suficiente, en relación con el ejemplo de Poisson en la página web ? Necesitaríamos n para reconstruir ciertas partes de la primera función, entonces ¿por qué no es también una estadística suficiente?nn

kimchi
fuente
Solo una pregunta rápida y clarificadora: ¿de qué "ángulo" viene con suficiente? ¿Máxima verosimilitud? Bayesiano? ¿Máxima entropía? Teoría de muestreo? ¿Algo más?
probabilityislogic
Venía desde un punto de vista de MLE, perdón si mi publicación no fue la mejor, ¡es mi primera publicación en este foro!
Kimchi

Respuestas:

12

Probablemente se beneficiaría al leer sobre la suficiencia en cualquier libro de texto sobre estadísticas teóricas, donde la mayoría de estas preguntas se cubrirán en detalle. Brevemente ...

  1. No necesariamente. Esos son casos especiales: de distribuciones donde el soporte (el rango de valores que pueden tomar los datos) no depende de los parámetros desconocidos, solo aquellos en la familia exponencial tienen una estadística suficiente de la misma dimensionalidad que el número de parámetros Entonces, para estimar la forma y la escala de una distribución de Weibull o la ubicación y la escala de una distribución logística a partir de observaciones independientes, el estadístico de orden (todo el conjunto de observaciones sin tener en cuenta su secuencia) es lo suficientemente mínimo: no puede reducirlo más sin perder Información sobre los parámetros. Cuando el soporte depende de los parámetros desconocidos, varía: para una distribución uniforme en , el máximo de muestra es suficiente para θ(0,θ)θ; para una distribución uniforme en el mínimo y el máximo de la muestra son suficientes juntos.(θ1,θ+1)

  2. No sé qué quieres decir con "correspondencia directa"; La alternativa que ofrezca parece una manera justa de describir suficientes estadísticas.

  3. Sí: trivialmente los datos en su conjunto son suficientes. (Si escuchas a alguien decir que no hay estadísticas suficientes, significan que no hay una de baja dimensión).

  4. Sí, esa es la idea. (Lo que queda, la distribución de los datos condicional en la estadística suficiente, se puede utilizar para verificar el supuesto de distribución independientemente de los parámetros desconocidos).

  5. Aparentemente no, aunque deduzco que los contraejemplos no son distribuciones que probablemente quieras usar en la práctica. [Sería bueno si alguien pudiera explicar esto sin entrar demasiado en la teoría de la medida.]

En respuesta a las preguntas adicionales ...

  1. enλλxiλxixixixi/n(xi)2

  2. 1x1!x2!xn!λλf(x;λ)

  3. n

xi

n N(xi,n)nθxi

Scortchi - Restablece a Monica
fuente
1
Me encantaría ver los contraejemplos a 5. Traté de demostrar lo contrario por un tiempo con el Lemma de Zorn, pero se rompe en un punto. Pero por lo que he deducido, el contraejemplo debería ser realmente loco. ¿Tienes algún punto de referencia donde pueda encontrarlo? No me importa que sea pesado en la teoría de la medida.
sjm.majewski
@ sjm.majewski: Lehmann le da a Pitcher (1957), "Conjuntos de medidas que no admiten estadísticas o subcampos necesarios y suficientes", Ann. Matemáticas. Estadístico. , 28 , p267-268; y Landers y Rogge (1973). "Sobre la suficiencia y la invariancia", Ann. Estadístico. , 1 , p543-544.
Scortchi - Restablece a Monica