¿Existe una prueba matemática formal de que la solución al problema del tanque alemán es función de solo los parámetros k (número de muestras observadas) ym (valor máximo entre muestras observadas)? En otras palabras, ¿se puede demostrar que la solución es independiente de los otros valores de muestra además del valor máximo?
mathematical-statistics
sufficient-statistics
Bogdan Alexandru
fuente
fuente
Respuestas:
Probabilidad
Los problemas comunes en la teoría de probabilidad se refieren a la probabilidad de observaciones dado un cierto modelo y dados los parámetros (llamémoslos ) involucrados. Por ejemplo, las probabilidades para situaciones específicas en juegos de cartas o juegos de dados son a menudo muy sencillas.x1,x2,...,xn θ
Sin embargo, en muchas situaciones prácticas estamos tratando con una situación inversa ( estadística inferencial ). Es decir: se da la observación y ahora se desconoce el modelo , o al menos no conocemos ciertos parámetros .x1,x2,...,xk θ
En este tipo de problemas, a menudo nos referimos a un término llamado probabilidad de los parámetros, , que es una tasa de creencia en un parámetro específico dadas observaciones . Este término se expresa como proporcional a la probabilidad de las observaciones suponiendo que un parámetro modelo sería hipotéticamente verdadero.L(θ) θ x1,x2,..xk x1,x2,..xk θ L(θ,x1,x2,..xk)∝probability observations x1,x2,..xk given θ
Para un valor de parámetro dado más probable sea cierta observación (en relación con la probabilidad con otros valores de parámetro), más la observación apoya este parámetro particular (o teoría / hipótesis que asume este parámetro) . Una alta probabilidad (relativa) reforzará nuestras creencias sobre el valor de ese parámetro (hay mucho más filosófico que decir sobre esto).θ x1,x2,..xn
Probabilidad en el problema del tanque alemán
Ahora, para el problema del tanque alemán, la función de probabilidad para un conjunto de muestras es:x1,x2,..xk
Si observa las muestras {1, 2, 10} o las muestras {8, 9, 10} no debería importar cuándo se consideran las muestras desde una distribución uniforme con el parámetro . Ambas muestras son igualmente probables con probabilidad y usando la idea de probabilidad de que una muestra no diga más sobre el parámetro que la otra muestra.θ (θ3)−1 θ
Los valores altos {8, 9, 10} pueden hacerle pensar / creer que debería ser más alto. Pero, es solo el valor {10} lo que realmente le brinda información relevante sobre la probabilidad de (el valor 10 le dice que será diez o superior, los otros valores 8 y 9 no contribuyen en nada a esta información )θ θ θ
Teorema de factorización de Fisher Neyman
Este teorema le dice que un cierto estadístico (es decir, alguna función de las observaciones, como la media, la mediana o, como en el problema del tanque alemán, el máximo) es suficiente (contiene toda la información) cuando puede factorizar, en la función de verosimilitud, los términos que dependen de las otras observaciones , de modo que este factor no dependa tanto del parámetro como de (y la parte de la función de verosimilitud que relaciona los datos con los valores de parámetros hipotéticos solo depende de la estadística pero no del conjunto de datos / observaciones).T(x1,x2,…,xk) x1,x2,…,xk θ x1,x2,…,xk
El caso del problema del tanque alemán es simple. Puede ver arriba que toda la expresión para la Probabilidad anterior ya solo depende de la estadística y el resto de los valores no importa.max(x1,x2,..xk) x1,x2,..xk
Pequeño juego como ejemplo
Digamos que jugamos el siguiente juego repetidamente: es en sí misma una variable aleatoria y se dibuja con igual probabilidad ya sea 100 o 110. Luego sacamos una muestra .θ x1,x2,...,xk
Queremos elegir una estrategia para adivinar , basada en los observados que maximiza nuestra probabilidad de tener la conjetura correcta de .θ x1,x2,...,xk θ
La estrategia adecuada será elegir 100 a menos que uno de los números de la muestra sea> 100.
Podríamos sentir la tentación de elegir el valor del parámetro 110 cuando muchos de los tienden a ser valores altos cercanos a cien (pero ninguno exactamente superior a cien), pero eso sería incorrecto. La probabilidad de tal observación será mayor cuando el verdadero valor del parámetro sea 100 que cuando sea 110. Entonces, si suponemos, en tal situación, 100 como el valor del parámetro, entonces será menos probable que cometamos un error (porque el La situación con estos valores altos cercanos a cien, pero aún por debajo, ocurre con mayor frecuencia en el caso de que el valor verdadero sea 100 en lugar de que el valor verdadero sea 110).x1,x2,...,xk
fuente
No ha presentado una formulación precisa del "problema", por lo que no está exactamente claro qué está pidiendo que se pruebe. Desde una perspectiva bayesiana, la probabilidad posterior depende de todos los datos. Sin embargo, cada observación de un número de serie en particular apoyará más ese número. Es decir, dada cualquier observación , la razón de posibilidades entre posterior y anterior será mayor para la hipótesis "el número real de tanques es " que para "el número real de tanques es [número distinto de ]". Por lo tanto, si comenzamos con un uniforme anterior, entonces tendrá el posterior más alto después de ver esa observación.n n n n
Considere un caso donde tenemos el punto de datos , y las hipótesis . Obviamente, la posterior para es cero. Y nuestros posteriores para serán más grandes que sus anteriores. La razón de esto es que en el razonamiento bayesiano, la ausencia de evidencia es evidencia de ausencia. Cada vez que tenemos una oportunidad en la que podríamos haber hecho una observación que habría disminuido nuestra probabilidad, pero no lo hace, la probabilidad aumenta. Como podríamos haber visto , lo que habría establecido nuestras posteriores para a cero, el hecho de que no lo vimos significa que deberíamos aumentar nuestras posteriores para13 N=10,13,15 N=10 N=13,15 16 N=13,15 N=13,15 . Pero tenga en cuenta que cuanto menor sea el número, más números podríamos haber visto que hubieran excluido ese número. Para , habríamos rechazado esa hipótesis después de ver . Pero para , hubiéramos necesitado al menos para rechazar la hipótesis. Dado que la hipótesis es más falsificable que , el hecho de que no falsificamos es más evidencia de , que no falsificar es evidencia de .N=13 14,15,16,... N=15 16 N=13 N=15 N=13 N=13 N=15 N=15
Entonces, cada vez que vemos un punto de datos, establece la parte posterior de todo lo que está debajo de él en cero, y aumenta la parte posterior de todo lo demás, con números más pequeños que obtienen el mayor impulso. Por lo tanto, el número que obtiene el mayor impulso general será el número más pequeño cuyo posterior no se estableció en cero, es decir, el valor máximo de las observaciones.
Los números menores que el máximo afectan la cantidad de impulso que aumenta el máximo, pero no afecta la tendencia general de que el máximo obtenga el mayor impulso. Considere el ejemplo anterior, donde ya hemos visto . Si el siguiente número que vemos es , ¿qué efecto tendrá eso? Ayuda a más de , pero ambos números ya han sido rechazados, por lo que no es relevante. Ayuda a más de , pero ya ha recibido más de , por lo que eso no afecta a qué número se ha ayudado más.13 5 5 6 13 15 13 15
fuente