Estimación del parámetro de una distribución uniforme: ¿anterior inadecuado?

Tenemos N muestras, $X_i$ , de una distribución uniforme $[0,\theta]$ donde $\theta$ es desconocido. Estima $\theta$ partir de los datos.

Entonces, la regla de Bayes ...

$f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})}$

y la probabilidad es:

$f({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta}$ (editar: cuando $0 \le X_i \le \theta$ para todo $i$ , y 0 de lo contrario, gracias whuber)

pero sin otra información sobre $\theta$ , parece que lo anterior debería ser proporcional a $1$ (es decir, uniforme) o a $\frac{1}{L}$ (¿Jeffreys antes?) En $[0,\infty]$ pero luego mis integrales no convergen, y no estoy seguro de cómo proceder. ¿Algunas ideas?

bayesian estimation uniform uninformative-prior Será
fuente

Su probabilidad es incorrecta: será cero siempre que

sea menor que la

más grande .

θ

$\theta$

X_{i}

$X_i$

whuber

¿Puedes mostrar qué integrales estás tomando?

Sí, entonces, supongo que no sé cómo lidiar con lo incorrecto antes. Por ejemplo, quiero escribir

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

Será el

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

\int_{max (X_{i})}^{\infty} θ^{- N} d θ

$\int_{\max(X_i)}^\infty \theta^{-N}d\theta$

max (X_{i})^{1 - N} / (N - 1)

$\max(X_i)^{1-N}/(N-1)$

f (θ) \propto 1 / θ

$f(\theta)\propto 1/\theta$

max (X_{i})^{- N} / N .

$\max(X_i)^{-N}/N.$

max X_{i} > 0

$\max{X_i}\gt 0$

La referencia posterior de Bernardo es Pareto; consulte el catálogo de antecedentes no informativos .

Stéphane Laurent

Respuestas:

Esto ha generado un debate interesante, pero tenga en cuenta que realmente no hace mucha diferencia a la pregunta de interés. Personalmente, creo que debido a que es un parámetro de escala, el argumento del grupo de transformación es apropiado, lo que lleva a un previo de $\theta$

\begin{matrix} p (θ | I) = \frac{θ^{- 1}}{\log (\frac{U}{L})} \propto θ^{- 1} & L < θ < U \end{matrix}

$\begin{array}& p(\theta|I)=\frac{\theta^{-1}}{\log\left(\frac{U}{L}\right)}\propto\theta^{-1} & L<\theta<U\end{array}$

Esta distribución tiene la misma forma al reescalar el problema (la probabilidad también sigue siendo "invariante" al reescalar). El núcleo de este anterior, puede obtenerse resolviendo la ecuación funcional . Los valores dependen del problema, y realmente solo importan si el tamaño de la muestra es muy pequeño (como 1 o 2). El posterior es un pareto truncado, dado por: $f(y)=y^{-1}$ $af(ay)=f(y)$ $L,U$

\begin{matrix} p (θ | D I) = \frac{N θ^{- N - 1}}{(L^{*})^{- N} - U^{- N}} & L^{*} < θ < U & where & L^{*} = m a x (L, X_{(N)}) \end{matrix}

$\begin{array}\\ p(\theta|DI)=\frac{N\theta^{-N-1}}{ (L^{*})^{-N}-U^{-N}} & L^{*}<\theta<U & \text{where} & L^{*}=max(L,X_{(N)}) \end{array}$ Donde es el enésimo estadística de orden, o el valor máximo de la muestra. Obtenemos la media posterior de Si establezca y , obtenemos la expresión más simple .

X_{(N)}

$X_{(N)}$

E (θ | D I) = \frac{N ((L^{*})^{1 - N} - U^{1 - N})}{(N - 1) ((L^{*})^{- N} - U^{- N})} = \frac{N}{N - 1} L^{*} (\frac{1 - {[\frac{L^{*}}{U}]}^{N - 1}}{1 - {[\frac{L^{*}}{U}]}^{N}})

$E(\theta|DI)= \frac{ N((L^{*})^{1-N}-U^{1-N}) }{ (N-1)((L^{*})^{-N}-U^{-N}) }=\frac{N}{N-1}L^{*}\left(\frac{ 1-\left[\frac{L^{*}}{U}\right]^{N-1} }{ 1-\left[\frac{L^{*}}{U}\right]^{N} }\right)$

U \to \infty

$U\to\infty$

L \to 0

$L\to 0$

E (θ | D I) = \frac{N}{N - 1} X_{(N)}

$E(\theta|DI)=\frac{N}{N-1}X_{(N)}$

Pero ahora supongamos que usamos un prior más general, dado por (tenga en cuenta que mantenemos los límites para garantizar que todo sea correcto; entonces no hay matemática singular) ) El posterior es el mismo que el anterior, pero con reemplazado por , siempre que . Repitiendo los cálculos anteriores, tenemos la media posterior simplificada de $p(\theta|cI)\propto\theta^{-c-1}$ $L,U$ $N$ $c+N$ $c+N\geq 0$

E (θ | D I) = \frac{N + c}{N + c - 1} X_{(N)}

$E(\theta|DI)=\frac{N+c}{N+c-1}X_{(N)}$

Entonces el uniforme anterior ( ) dará una estimación de siempre que (la media es infinita para ). Esto muestra que el debate aquí es un poco como si se usa o no o como divisor en la estimación de la varianza. $c=-1$ $\frac{N-1}{N-2}X_{(N)}$ $N\geq 2$ $N=2$ $N$ $N-1$

Un argumento en contra del uso del uniforme incorrecto previo en este caso es que el posterior es incorrecto cuando , ya que es proporcional a . Pero esto solo importa si o es muy pequeño. $N=1$ $\theta^{-1}$ $N=1$

probabilidadislogica
fuente

Dado que el propósito aquí es presumiblemente obtener una estimación válida y útil de , la distribución previa debe ser coherente con la especificación de la distribución de la población de la que proviene la muestra. Esto NO significa de ninguna manera que "calculemos" el uso previo de la muestra en sí; esto anularía la validez de todo el procedimiento. Sí sabemos que la población de la que proviene la muestra es una población de variables aleatorias uniformes iid, cada una de las cuales varía en . Esta es una suposición mantenida y es parte de la información previa que poseemos (y no tiene nada que ver con la muestra , es decir, con la realización específica de un subconjunto de estas variables aleatorias). $\theta$ $[0,\theta]$

Ahora suponga que esta población consta de variables aleatorias (mientras que nuestra muestra consta de realizaciones de variables aleatorias). La suposición mantenida nos dice que $m$ $n<m$ $n$

max_{i = 1, . . ., n} {X_{i}} \leq max_{j = 1, . . ., m} {X_{j}} \leq θ

$\max_{i=1,...,n}\{X_i\}\le \max_{j=1,...,m}\{X_j\} \le \theta$

Denote para compacidad . Luego tenemos que también se puede escribir $\max_{i=1,...,n}\{X_i\} \equiv X^*$ $\theta \ge X^*$

θ = c X^{*} c \geq 1

$\theta = cX^*\qquad c\ge 1$

La función de densidad del de iid Uniform rv que varía en es $\max$ $N$ $[0,\theta]$

f_{X^{*}} (x^{*}) = N \frac{(x^{*})^{N - 1}}{θ^{N}}

$f_{X^*}(x^*) = N\frac {(x^*)^{N-1}}{\theta^N}$

para el soporte y cero en otro lugar. Luego, usando y aplicando la fórmula de cambio de variable, obtenemos una distribución previa de que es consistente con el supuesto mantenido: $[0,\theta]$ $\theta = cX^*$ $\theta$

f_{p} (θ) = N \frac{(\frac{θ}{c})^{N - 1}}{θ^{N}} \frac{1}{c} = \frac{N}{c^{N}} θ^{- 1} θ \in [x^{*}, \infty]

$f_p(\theta) = N\frac {(\frac{\theta}{c})^{N-1}}{\theta^N}\frac 1c = \frac {N}{c^N} \theta^{-1}\qquad \theta \in [x^*, \infty]$

lo cual puede ser incorrecto si no especificamos la constante adecuadamente. Pero nuestro interés radica en tener un posterior apropiado para , y también, no queremos restringir los posibles valores de (más allá de la restricción implícita en el supuesto mantenido). Entonces dejamos indeterminado. Luego escribiendo el posterior es $c$ $\theta$ $\theta$ $c$
$\mathbf X = \{x_1,..,x_n\}$

f (θ ∣ X) \propto θ^{- N} \frac{N}{c^{N}} θ^{- 1} \Rightarrow f (θ ∣ X) = A \frac{N}{c^{N}} θ^{- (N + 1)}

$f(\theta \mid \mathbf X)\; \propto\; \theta^{-N}\frac {N}{c^N} \theta^{-1} \Rightarrow f(\theta \mid \mathbf X) = A\frac {N}{c^N} \theta^{-(N+1)}$

para alguna constante de normalización A. Queremos

\int_{S_{θ}} f (θ ∣ X) d θ = 1 \Rightarrow \int_{x^{*}}^{\infty} A \frac{N}{c^{N}} θ^{- (N + 1)} d θ = 1

$\int_{S_{\theta}}f(\theta \mid \mathbf X)d\theta =1 \Rightarrow \int_{x^*}^{\infty}A\frac {N}{c^N} \theta^{-(N+1)}d\theta =1$

\Rightarrow A \frac{N}{c^{N}} \frac{1}{- N} θ^{- N} |_{x^{*}}^{\infty} = 1 \Rightarrow A = (c x^{*})^{N}

$\Rightarrow A\frac {N}{c^N}\frac {1}{-N}\theta^{-N}\Big |_{x^*}^{\infty} = 1 \Rightarrow A = (cx^*)^N$

Inserción en la parte posterior

f (θ ∣ X) = (c x^{*})^{N} \frac{N}{c^{N}} θ^{- (N + 1)} = N (x^{*})^{N} θ^{- (N + 1)}

$f(\theta \mid \mathbf X) = (cx^*)^N\frac {N}{c^N} \theta^{-(N+1)} = N(x^*)^N\theta^{-(N+1)}$

Tenga en cuenta que la constante indeterminada de la distribución anterior se ha cancelado convenientemente. $c$

La parte posterior resume toda la información que la muestra específica puede darnos con respecto al valor de . Si queremos obtener un valor específico para , podemos calcular fácilmente el valor esperado de la parte posterior, $\theta$ $\theta$

E (θ ∣ X) = \int_{x^{*}}^{\infty} θ N (x^{*})^{N} θ^{- (N + 1)} d θ = - \frac{N}{N - 1} (x^{*})^{N} θ^{- N + 1} |_{x^{*}}^{\infty} = \frac{N}{N - 1} x^{*}

$E(\theta\mid \mathbf X) = \int_{x^*}^{\infty}\theta N(x^*)^N\theta^{-(N+1)}d\theta = -\frac{N}{N-1}(x^*)^N\theta^{-N+1}\Big |_{x^*}^{\infty} = \frac{N}{N-1}x^*$

¿Hay alguna intuición en este resultado? Bueno, a medida que aumenta el número de , lo más probable es que la realización máxima entre ellos sea cada vez más cercana a su límite superior, , que es exactamente lo que refleja el valor medio posterior de : si, por ejemplo , , pero si . Esto muestra que nuestra táctica con respecto a la selección de lo anterior fue razonable y consistente con el problema en cuestión, pero no necesariamente "óptima" en algún sentido. $X$ $\theta$ $\theta$ $N=2 \Rightarrow E(\theta\mid \mathbf X) = 2x^*$ $N=10 \Rightarrow E(\theta\mid \mathbf X) = \frac{10}{9}x^*$

Alecos Papadopoulos
fuente

Basar lo anterior en los datos me parece sospechoso. ¿Cómo justificas este enfoque?

whuber

No tengo nada en contra de que tu prior no sea "el mejor". ¿Dónde dije algo así? Solo estoy tratando de entender tu enfoque. No entiendo esta igualdad todavía. Si es constante en la igualdad , ¿eso significa que tanto como son no aleatorios? Por cierto, no utilizas el hecho de que en la derivación del anterior, ¿verdad? (cc @whuber)

c

$c$

θ = c X^{*}

$\theta=cX^*$

X^{*}

$X^*$

θ

$\theta$

c \geq 1

$c \geq 1$

Stéphane Laurent

¿Y el soporte de tu previo depende de los datos? ( )

θ \in [x^{*}, \infty [

$\theta \in [x^*, \infty[$

Stéphane Laurent

Una dependencia previa (incluso si esto es solo a través del soporte) de los datos suena mal: no puede saber el máximo de la muestra antes de que se haya generado la muestra . Además, usted afirma que es una igualdad casi segura, con y azar (por lo tanto, existe una correlación ). Pero esto implica que la distribución posterior de (que es la distribución condicional de dada la muestra) es la masa de Dirac en . Y esto contradice su derivación de la distribución posterior. ... (no quedan caracteres ...)

θ = c X^{*}

$\theta = cX^*$

θ

$\theta$

X^{*}

$X^*$

1

$1$

θ

$\theta$

θ

$\theta$

c x^{*}

$cx^*$

Stéphane Laurent

La distribución posterior de es Dirac en significa que es . El teorema de Bayes no es la causa. Destruyes todo asumiendo . Esto implica , por lo tanto, la distribución condicional de dada es la masa de Dirac en , mientras que la suposición original es que esta distribución es la distribución uniforme en .

θ

$\theta$

c x^{*}

$cx^*$

θ

$\theta$

c x^{*}

$cx^*$

θ = c X^{*}

$\theta = cX^*$

X^{*} = θ / c

$X^*=\theta/c$

X^{*}

$X^*$

θ

$\theta$

θ / c

$\theta/c$

(0, θ)

$(0,\theta)$

Stéphane Laurent

Teorema de distribución previa uniforme (caso de intervalo):

"Si la totalidad de Su información sobre externa a los datos es capturada por la proposición única entonces Su única especificación previa posible lógicamente internamente consistente es $\theta$ $D$

B = {{Possible values for θ} = {the interval (a, b)}, a < b}

$B=\{\{\text{Possible values for } \theta\}=\{\text{the interval } (a,b)\},a<b\}$

f (θ) = Uniform (a, b)

$f(\theta)=\text{Uniform}(a,b)$

Por lo tanto, su especificación previa debe corresponder con la anterior de Jeffrey si realmente cree en el teorema anterior ".

No forma parte del teorema uniforme de distribución previa:

Alternativamente, puede especificar su distribución anterior como una distribución de Pareto, que es la distribución conjugada para el uniforme, sabiendo que su distribución posterior tendrá que ser otra distribución uniforme por conjugación. Sin embargo, si utiliza la distribución de Pareto, deberá especificar los parámetros de la distribución de Pareto de alguna forma. $f(\theta)$

fuente

Primero dice que la respuesta "solo posible lógicamente internamente consistente" es una distribución uniforme y luego procede a proponer una alternativa. Eso me parece ilógico e inconsistente :-).

whuber

No puedo estar de acuerdo Por ejemplo, también es el conjuntoCuando el PDF de es para . Pero de acuerdo con el "teorema", cuyo pdf es en ese intervalo. En resumen, aunque la proposición no depende de cómo se parametriza el problema, la conclusión del "teorema" depende de la parametrización, de donde es ambigua.

B

$B$

{θ | θ^{3} \in (a^{3}, b^{3})} .

$\{\theta | \theta^3\in(a^3, b^3)\}.$

Θ \sim Uniform (a, b),

$\Theta\sim\text{Uniform}(a,b),$

Ψ = Θ^{3}

$\Psi=\Theta^3$

1 / (3 ψ^{2 / 3} (b - a))

$1/(3\psi^{2/3}(b-a))$

a^{3} < ψ < b^{3}

$a^3\lt \psi\lt b^3$

Ψ \sim Uniform (a^{3}, b^{3})

$\Psi\sim\text{Uniform}(a^3,b^3)$

1 / (b^{3} - a^{3})

$1/(b^3-a^3)$

whuber

BabakP: ¿Cómo se podría decir que este es un teorema ? Un teorema es una afirmación matemática con una prueba matemática. Este "teorema" se llamaría más apropiadamente como un "principio", pero no es sensato porque es contradictorio, como lo muestra @whuber.

Stéphane Laurent

Gracias por la referencia BabakP. Me gustaría señalar que el "bosquejo de prueba" es falso. Draper divide el intervalo en un número finito de valores igualmente espaciados y "pasa al límite". Cualquiera puede dividir el intervalo en valores espaciados para aproximar cualquier densidad que desee y, de manera similar, pasar al límite, produciendo "especificaciones previas lógicamente coherentes internamente" perfectamente arbitrarias . Este tipo de cosas, a saber, el uso de malas matemáticas en un esfuerzo por demostrar que los no bayesianos son ilógicos, le da al análisis bayesiano un mal nombre (inmerecidamente). (cc @ Stéphane.)

whuber

@ Stéphane Por favor, perdona mi insensibilidad ( insensibilité ) - ¡Admiro tu habilidad para interactuar aquí en un segundo idioma y no utilizo a sabiendas términos oscuros! Bogus es un adjetivo que proviene de un término de jerga estadounidense de 200 años que se refiere a una máquina para falsificar dinero. En este caso es una máquina matemática para falsificar teoremas :-).

whuber