Tengo una variable aleatoria que toma valores en los enteros no negativos , llama a las probabilidades para cada resultado . Puedo tomar muestras de la distribución de independiente y económica; Actualmente tengo un tamaño de muestra de . Parece que , con una disminución aproximadamente exponencial.
Tengo una secuencia de formas cuadráticas con coeficientes positivos:
- ...
- ...
Lo que me gustaría tener es un intervalo de confianza para las que tenga menos de ancho, pero tomaré lo que pueda conseguir.
Tengo límites rigurosos en , y dado que los coeficientes de las son todos positivos, es sencillo convertirlos en límites rigurosos para las 's. Pero no sé cómo hacer esto correctamente con intervalos de confianza.
¿De qué se trata esto? Encontré un fenómeno extraño en la teoría de números, y sé cómo demostrar que realmente sucede, pero hacerlo requerirá un esfuerzo de programación de mi parte y una cantidad considerable de tiempo en nuestro clúster local. Antes de invertir ese tiempo y obstruir nuestra máquina, me gustaría estar más seguro de que el fenómeno es real.
Quiero cuantificar la razonabilidad de mi afirmación de que y . Mis estimaciones indican que es de alrededor de , razón por la cual quería CI en esa resolución.
Fije un número entero grande , y deje que sea un subconjunto elegido uniformemente de (es decir, cada subconjunto particular tiene una probabilidad de ser elegido). Sea la probabilidad de que exactamente de los números de no puedan escribirse como la suma de dos elementos de ; deje . Es un poco difícil de probar, pero existen esos límites y . Ahora no sorprende que sea pequeño, y a medida que aumentaaumenta, tiene un pico y luego decae exponencialmente. La parte extraña es que hay un sesgo contra 7. Es decir, experimentalmente y . Es decir, lo que no fue una sorpresa en realidad no es cierto: la distribución es bimodal.
Puedo expresar las '(usando alguna teoría) como arriba sin el límite en términos de esta otra distribución, definida por las ' s. Eso es útil porque tengo una manera de vincular rigurosamente los usando, como mencioné anteriormente, algunos cálculos grandes. Además, tengo un conjunto de datos muy grande para la variable
fuente
Respuestas:
En mi respuesta, proporciono muchos enlaces a material de fondo para ahorrar espacio aquí. Voy a escribir mi respuesta tomando la información en los enlaces como se indica.
Creo que un enfoque bayesiano es un ajuste natural para este problema, especialmente porque solo buscas convencerte a ti mismo. Es un poco complicado usar intervalos de confianza para responder a la pregunta que realmente le interesa, a saber, cuán plausible es que y dada la muestra de distribución? El enfoque bayesiano le permite abordar esta pregunta directamente.Q7<Q6 Q7<Q8 zi
Función de probabilidad
Sea la frecuencia observada del resultado entero en su muestra y sea el tamaño de la muestra. La función de probabilidad es proporcional a la distribución multinomial . Tiene la formafk k N
Distribución previa
La distribución de Dirichlet es la elección natural para la distribución previa porque es el conjugado anterior para la probabilidad multinomial. Tiene la forma
Este anterior tiene nueve hiperparámetros (los valores ), y son un poco difíciles de manejar. En este contexto de "muestra grande", cualquier elección razonable de valores de hiperparámetro tendrá una influencia insignificante en el resultado, pero aun así, creo que vale la pena dedicar un poco de esfuerzo a seleccionar valores razonables.αi
Así es como recomiendo configurar los hiperparámetros. Primero, tenga en cuenta que bajo esta distribución . A continuación, tenga en cuenta que la distribución de entropía máxima más simple sobre los naturales es la distribución geométrica . Así que estableceE(zi)=αi∑8i=0αi
Entonces , por lo que la distribución de Los valores se centran en una distribución geométrica (truncada). Además, , por lo que el valor de controla la dispersión alrededor de esta expectativa pero no tiene ningún efecto sobre la expectativa sí mismo.E(zi)=ri(1−r1−r9) zi Var(zi)∝1(A+1) A
Esta especificación reduce el número de hiperparámetros de los nueve valores de a poco y . Aplazaré la discusión de valores específicos de y por ahora.αi r A r A
Probabilidad posterior de la propuesta de interés.
La distribución posterior de los valores es la siguiente distribución de Dirichlet:zi
Deje que . La probabilidad posterior que le interesa esY={z0,...z8|Q7<Q6 and Q7<Q8}
Esta integral es intractible, pero puede calcular numéricamente la probabilidad de interés utilizando el siguiente algoritmo de Monte Carlo.
Para de a ,j 1 J
Muestra un conjunto de valores de su distribución posterior.zi
Use los valores muestreados para calcular donde es la función del indicador.yj=I(Q7<Q6)I(Q7<Q8) I(⋅)
Entonces .Pr(Q7<Q6 and Q7<Q8|f0,...,f8)≈∑Jj=0yjJ
La precisión de la aproximación de Monte Carlo es como : le dará al menos dos decimales de precisión 19 veces de 20, le dará al menos tres lugares decimales de precisión 19 veces de 20, etc.J−−√ J=104 J=106
Y si su probabilidad posterior de interés no está cerca de 0 o 1, simplemente muestree más datos, enjuague y repita.
Hiperparámetros anteriores, segunda parte
El exponente de en la expresión para la densidad posterior eszi
Se puede ver que el hiperparámetro juega el mismo papel en la distribución previa que juega en la probabilidad: es una especie de "tamaño de muestra anterior". Para asegurarse de que lo anterior tenga una influencia insignificante en la conclusión, simplemente elija un valor de tal que ; por ejemplo, .A N A A≪N A=1
Para establecer , tenga en cuenta que puede calcular la probabilidad previa de la proposición utilizando el mismo algoritmo de Monte Carlo descrito anteriormente pero con la distribución previa en lugar de la distribución posterior en el paso 1 del lazo. Intente encontrar un valor de que ofrezca una probabilidad previa de 0.5 (o menor, si cree que es más razonable).r Q7<Q6 and Q7<Q8 r
fuente
Supongo que z_k no son probabilidades sino frecuencias de muestra. Esto se debe a que, de lo contrario, Q_i (z_0, ..., z_i) no es una variable aleatoria. En ese caso, calcular la varianza de Q_i es álgebra directa. Primero defina los indicadores de evento Z_i, que es 1 si Z == i, 0 de lo contrario. Es una variable aleatoria de Bernoulli con probabilidad p_i. Puede calcular el primer y el segundo momento de cualquiera de estas variables y deben proporcionarle todos los términos necesarios para calcular la varianza de Q_i.
fuente
Kevin, ten cuidado ya que tendré que cambiar un poco tu notación: tus no son mis 's.zi zi
Creo que vale la pena probar la siguiente solución bayesiana. Cocine un parámetro aleatorio y deje que sea condicionalmente iid, dado , con . Use la notación . Ya tiene una muestra de las 's, con . Defina las variables aleatorias Para (si esto no está claro, échale un vistazo ). Ahora, en esta formulación tus formas cuadráticasΛ>0 Z1,…,Zn Λ=λ Zi∣Λ=λ∼Poisson(λ) Z=(Z1,…,Zn) z=(z1,…,zn) Zi n=228
fuente