Tengo algunos problemas para comprender el concepto y la derivación de la probabilidad de datos truncados.
Por ejemplo, si quiero encontrar la función de probabilidad basada en una muestra de una distribución, pero al tomar una muestra de la distribución, observo los valores truncados (donde hay un corte de , es decir, cualquier se registra como ):
donde el número de valores es . Entonces, la probabilidad supuestamente viene dada por:
Agradecería mucho una explicación / prueba de por qué esto es así, sobre todo por qué el segundo factor es como es. Intuitivamente y matemáticamente si es posible. Muchas gracias de antemano.
dataset
likelihood
Delvesy
fuente
fuente
Respuestas:
Lo que usted describe las necesidades de un tratamiento especial, que no es lo que normalmente se entiende por "variables aleatorias truncados" -y lo que se suele decir es que la variable aleatoria no no cubre por fuera del soporte truncada, lo que significa que hay no una concentración de masa de probabilidad a El punto de truncamiento. Para contrastar casos:
A) Significado "usual" de un rv truncado[a,b] , −∞<a<b<∞ , entonces (pdf f , cdf F )
Para cualquier distribución que trunquemos su soporte, debemos "corregir" su densidad para que se integre a la unidad cuando se integre sobre el soporte truncado. Si la variable tiene soporte en
Como el LHS es la integral sobre el soporte truncado, vemos que la densidad del rv truncado, llámeloX~ , debe ser
B) Probabilidad de concentración de masaM concentra toda la masa de probabilidad que corresponde al soporte de la variable mayor que M . Esto crea un punto de discontinuidad en la densidad y hace que tenga dos ramas
Aquí, que es lo que usted describe en la pregunta, las cosas son diferentes. El punto
Informalmente, el segundo es "como un rv discreto" donde cada punto en la función de masa de probabilidad representa probabilidades reales. Ahora supongamos que tenemosn tales variables aleatorias iid, y queremos formar su función conjunta de densidad / probabilidad. Antes de mirar la muestra real, ¿qué rama debemos elegir? No podemos tomar esa decisión, así que tenemos que incluir de alguna manera ambos. Para hacer esto, necesitamos usar funciones de indicador: denotarI{x∗≥M}≡I≥M(x∗) la función del indicador que toma el valor 1 cuando x∗≥M y 0 de otra manera. La densidad de tal rv se puede escribir
Ahora, lo anterior visto como una función de probabilidad, la muestra real consiste en la realización de estosn entra en juego variables aleatorias. Y en esta muestra, algunas realizaciones observadas serán más bajas que el umbralM , algunos iguales. Denotarm el número de realizaciones en la muestra que es igual a M y v todo el resto, m+v=n . Es inmediato que para elm realizaciones, la parte correspondiente de la densidad que permanecerá en la probabilidad será la P(X∗i≥M) parte, mientras que para el v realizaciones, la otra parte. Entonces
fuente
La teoría de la probabilidad es un marco bastante general. La mayoría de los libros de texto indican resultados para los casos separados de r.vs continuos y para eso para r.vs. discretos Sin embargo, en la práctica ocurren casos mixtos, como es el caso aquí.
Por un discreto rvA , la probabilidad de una observación a se define como la probabilidad de obtener el valor observado a decir
pA(a) . Para un rv continuo la probabilidadL generalmente se define como la densidad en x decir fX(x) . Sin embargo, en la práctica solo se sabe quexL<X<xU - debido a una precisión de medición limitada, y Pr{xL<X<xU} debe usarse como probabilidad. Tomando
xL:=x−dx/2 , xU:=x+dx/2 con dx pequeño, obtenemos fX(x) hasta un multiplicativo dx lo que no importa Por lo tanto, la definición habitual se puede considerar como asumiendo implícitamente una precisión infinita en la observación.
Por un par de r.vsA y X con un tipo mixto mixto discreto / continuo, la probabilidad será la distribución conjunta, que generalmente se expresa usando distribuciones condicionales, por ejemplo
Ahora volvamos a su ejemplo y consideremos solo una observación. EntoncesA=1{X>M} es un rv Bernoulli con probabilidad de éxito Pr{X>M} . Dependiendo deX>M o no, o solo observas A=1 o observas ambos A=0 y el valor x de
X . En ambos casos, usa la fórmula anterior, pero(xL,xU) se toma como (M,∞) o como un intervalo de pequeña longitud dx que contiene x . De hecho, esto da
fuente