Función de probabilidad de datos truncados

8

Tengo algunos problemas para comprender el concepto y la derivación de la probabilidad de datos truncados.

Por ejemplo, si quiero encontrar la función de probabilidad basada en una muestra de una distribución, pero al tomar una muestra de la distribución, observo los valores truncados (donde hay un corte de , es decir, cualquier se registra como ):Mxi>MM

x1,x2,M,x3,M,x4,x5,...,x10

donde el número de M valores es m. Entonces, la probabilidad supuestamente viene dada por:

L(x;θ)=i=110f(xi;θ)[P(X>M)]m

Agradecería mucho una explicación / prueba de por qué esto es así, sobre todo por qué el segundo factor es como es. Intuitivamente y matemáticamente si es posible. Muchas gracias de antemano.

Delvesy
fuente
¿Qué es minúscula "m"?
Alecos Papadopoulos
Es el número de ocurrencias de M.. es decir, he observado 10+m puntos de datos, de los cuales 10 no están truncados y m de ellos son (observo estos m selecciones, todas con valor M)
Delvesy
2
Como señala @Alecos, estás usando idiosincráticamente "truncado". "Censurado" es el término habitual.
Scortchi - Restablece a Monica
Es posible que desee buscar en otros términos: "efectos de techo / piso", "regresión beta" y "modelos con inflación cero".
DWin

Respuestas:

8

Lo que usted describe las necesidades de un tratamiento especial, que no es lo que normalmente se entiende por "variables aleatorias truncados" -y lo que se suele decir es que la variable aleatoria no no cubre por fuera del soporte truncada, lo que significa que hay no una concentración de masa de probabilidad a El punto de truncamiento. Para contrastar casos:

A) Significado "usual" de un rv truncado
Para cualquier distribución que trunquemos su soporte, debemos "corregir" su densidad para que se integre a la unidad cuando se integre sobre el soporte truncado. Si la variable tiene soporte en[a,b], <a<b<, entonces (pdf f, cdf F)

abfX(x)dx=aMfX(x)dx+MbfX(x)dx=aMfX(x)dx+[1FX(M)]=1

aMfX(x)dx=FX(M)

Como el LHS es la integral sobre el soporte truncado, vemos que la densidad del rv truncado, llámelo X~, debe ser

fX~(x~)=fX(xXM)=fX(x)dx[FX(M)]1
para que se integre a la unidad sobre [a,M]. El término medio en la expresión anterior nos hace pensar en esta situación (con razón) como una forma de condicionamiento, pero no en otra variable aleatoria, sino en los posibles valores que puede tomar el propio rv. Aquí una función conjunta de densidad / probabilidad de una colección den truncado iid rv sería n veces la densidad anterior, como siempre.

B) Probabilidad de concentración de masa
Aquí, que es lo que usted describe en la pregunta, las cosas son diferentes. El puntoM concentra toda la masa de probabilidad que corresponde al soporte de la variable mayor que M. Esto crea un punto de discontinuidad en la densidad y hace que tenga dos ramas

fX(x)=fX(x)x<MfX(x)=P(XM)xM

Informalmente, el segundo es "como un rv discreto" donde cada punto en la función de masa de probabilidad representa probabilidades reales. Ahora supongamos que tenemosntales variables aleatorias iid, y queremos formar su función conjunta de densidad / probabilidad. Antes de mirar la muestra real, ¿qué rama debemos elegir? No podemos tomar esa decisión, así que tenemos que incluir de alguna manera ambos. Para hacer esto, necesitamos usar funciones de indicador: denotarI{xM}IM(x) la función del indicador que toma el valor 1 cuando xMy 0de otra manera. La densidad de tal rv se puede escribir

fX(x)=fX(x)[1IM(x)]+P(XM)IM(x)
y, por lo tanto, la función de densidad articular de n tales variables iid son

fX(Xθ)=i=1n[fX(xi)[1IM(xi)]+P(XiM)IM(xi)]

Ahora, lo anterior visto como una función de probabilidad, la muestra real consiste en la realización de estosnentra en juego variables aleatorias. Y en esta muestra, algunas realizaciones observadas serán más bajas que el umbralM, algunos iguales. Denotarm el número de realizaciones en la muestra que es igual a My v todo el resto, m+v=n. Es inmediato que para elm realizaciones, la parte correspondiente de la densidad que permanecerá en la probabilidad será la P(XiM) parte, mientras que para el vrealizaciones, la otra parte. Entonces

L(θ{xi;i=1,...n})=i=1v[fX(xi)]j=1m[P(XjM)]=i=1v[fX(xi)][P(XM)]m
Alecos Papadopoulos
fuente
Gracias. Agradezco mucho la respuesta. Supongo que mi problema principal es el primer punto en la sección b) ... es decir, cómo se define la "segunda rama" del pdf. Es un pmf discreto y realmente no define un pdf a partir de la definición de un pdf. ¿Podría esta sección explicarse más? Muchas gracias.
Delvesy
Estas variables aleatorias se denominan "tipo mixto", es decir, son en parte continuas y en parte discretas. Intuitivamente tiene sentido obvio, como lo muestran sus preguntas. Para un tratamiento riguroso, busque "variables aleatorias de tipo mixto" o "distribuciones de tipo mixto". NO los confunda con "mezclas".
Alecos Papadopoulos
4

La teoría de la probabilidad es un marco bastante general. La mayoría de los libros de texto indican resultados para los casos separados de r.vs continuos y para eso para r.vs. discretos Sin embargo, en la práctica ocurren casos mixtos, como es el caso aquí.

Por un discreto rv A, la probabilidad de una observación a se define como la probabilidad de obtener el valor observado adecir pA(a). Para un rv continuo la probabilidadL generalmente se define como la densidad en xdecir fX(x). Sin embargo, en la práctica solo se sabe quexL<X<xU - debido a una precisión de medición limitada, y Pr{xL<X<xU}debe usarse como probabilidad. Tomando xL:=xdx/2, xU:=x+dx/2 con dx pequeño, obtenemos fX(x) hasta un multiplicativo dxlo que no importa Por lo tanto, la definición habitual se puede considerar como asumiendo implícitamente una precisión infinita en la observación.

Por un par de r.vs A y X con un tipo mixto mixto discreto / continuo, la probabilidad será la distribución conjunta, que generalmente se expresa usando distribuciones condicionales, por ejemplo

L:=Pr{A=a,xL<X<xU}=Pr{A=a}×Pr{xL<X<xU|A=a}.
Así por un intervalo (xL,xU) con longitud pequeña dx, L es pA(a) veces la densidad de X condicional en {A=a}decir fX|A(x|a). Nuevamente, omitimos eldx término.

Ahora volvamos a su ejemplo y consideremos solo una observación. EntoncesA=1{X>M} es un rv Bernoulli con probabilidad de éxito Pr{X>M}. Dependiendo deX>M o no, o solo observas A=1 o observas ambos A=0 y el valor x de X. En ambos casos, usa la fórmula anterior, pero(xL,xU) se toma como (M,) o como un intervalo de pequeña longitud dx que contiene x. De hecho, esto da

L={Pr{X>M}×1if X>M i.e. A=1,Pr{XM}×fX|A(x|a)dxif XM i.e. A=0.
Ya que fX|A(x|0)=fX(x)/Pr{XM}, la probabilidad es simplemente fX(x)dx en el segundo caso y obtenemos la probabilidad reclamada, hasta el dxtérmino para una observación con precisión infinita. Cuando observaciones independientesAi y Xi una vez hechas, la probabilidad se obtiene como el producto de las probabilidades marginales que conducen a la expresión en la pregunta.
Yves
fuente