¿Alguien puede explicar estadísticas suficientes en términos muy básicos? Vengo de una formación en ingeniería, y he pasado por muchas cosas, pero no pude encontrar una explicación intuitiva.
fuente
¿Alguien puede explicar estadísticas suficientes en términos muy básicos? Vengo de una formación en ingeniería, y he pasado por muchas cosas, pero no pude encontrar una explicación intuitiva.
Una estadística suficiente resume toda la información contenida en una muestra para que pueda hacer la misma estimación del parámetro si le dimos la muestra o solo la estadística misma. Es la reducción de los datos sin pérdida de información.
Aquí hay un ejemplo. Supongamos que tiene una distribución simétrica sobre cero. En lugar de darle una muestra, le entrego una muestra de valores absolutos (esa es la estadística). No puedes ver el letrero. Pero sabe que la distribución es simétrica, por lo que para un valor dado x , - x y x son igualmente probables (la probabilidad condicional es 0.5 ). Entonces puedes lanzar una moneda justa. Si sale cara, haz que x sea negativo. Si sale cruz, hazlo positivo. Esto le da una muestra de X ' , que tiene la misma distribución que los datos originales X. Básicamente, pudo reconstruir los datos a partir de la estadística. Eso es lo que lo hace suficiente.
En términos bayesianos, tiene alguna propiedad observableX y un parámetro Θ . La distribución conjunta para X, Θ se especifica, pero se factoriza como la distribución condicional de X∣ Θ y la distribución previa de Θ . Una estadística T es suficiente para este modelo si y solo si la distribución posterior de Θ ∣ X es la misma que la de Θ ∣ T( X) , para cada distribución previa de Θ . En palabras, su incertidumbre actualizada sobre Θ después de conocer el valor deX es igual a su incertidumbre actualizada sobreΘ después de conocer el valor deT( X) ,cualquiera que sea la información previa que tenga sobre Θ . Tenga en cuenta que la suficiencia es un concepto dependiente del modelo.
fuente
Digamos que tiene una moneda y no sabe si es justa o no. En otras palabras, tiene una probabilidadpags de subir caras ( H ) y 1 - p de subir colas ( T ), y no sabes el valor de p .
Intenta hacerse una idea del valor dep lanzando la moneda varias veces, digamos n veces.
Digamosn=5 y el resultado que obtienes es la secuencia (H,H,T,H,T) .
Ahora desea que su amigo estadístico calcule el valor dep para usted, y tal vez le diga si es probable que la moneda sea justa o no. ¿Qué información necesitas decirles para que puedan hacer sus cálculos y sacar sus conclusiones?
Puede decirles todos los datos, es decir(H,H,T,H,T) . ¿Es esto necesario sin embargo? ¿Podría resumir estos datos sin perder ninguna información relevante?
Está claro que el orden de los lanzamientos de monedas es irrelevante, porque estabas haciendo lo mismo para cada lanzamiento de monedas, y los lanzamientos de monedas no se influyeron entre sí. Si el resultado fuera(H,H,T,T,H) , por ejemplo, nuestras conclusiones no serían diferentes. Se deduce que todo lo que realmente necesita decirle a su amigo estadístico es el recuento de cuántas cabezas había.
Expresamos esto diciendo que el número de cabezas es una estadística suficiente para p .
Este ejemplo le da el sabor del concepto. Siga leyendo si desea ver cómo se conecta con la definición formal.
Formalmente, una estadística es suficiente para un parámetro si, dado el valor de la estadística, la distribución de probabilidad de los resultados no involucra el parámetro.
fuente