En general maximizamos una función
donde es función de densidad de probabilidad si la distribución subyacente es continua, y una función de masa de probabilidad (con suma en lugar de producto) si la distribución es discreta.
¿Cómo especificamos la función de probabilidad si la distribución subyacente es una mezcla entre una distribución continua y una discreta, con los pesos en cada uno dependiendo de ?
Respuestas:
La función de probabilidad es la densidad de los datos en el valor observado expresada como una función de Esta densidad se define para cada valor (aceptable) de casi todas partes sobre el soporte de , , contra una medida particular sobre que no depende de . Para cualquier familia paramétrica, debe existir una medida tan dominante en todos los 's, por lo tanto, una densidad, por lo tanto, una probabilidad.ℓ ( θ | x ) X θ
Aquí hay un extracto relevante de la entrada de Wikipedia sobre funciones de probabilidad (el estrés es mío):
fuente
Admito haber desconcertado esta pregunta durante bastante tiempo antes en mi carrera. Una forma en que me convencí de la respuesta fue adoptar una visión extremadamente práctica y aplicada de la situación, una visión que reconoce que ninguna medición es perfecta. Veamos a dónde podría llevar eso.
El objetivo de este ejercicio es exponer los supuestos que podrían ser necesarios para justificar la mezcla un tanto simplista de densidades y probabilidades en expresiones para verosimilitudes. Por lo tanto, destacaré tales supuestos donde sea que se presenten. Resulta que se necesitan bastantes, pero son bastante suaves y cubren todas las aplicaciones que he encontrado (lo que obviamente será limitado, pero aún incluye bastantes).
El problema se refiere a una distribución mixta.F, uno que no es absolutamente continuo ni singular. El teorema de descomposición de Lebesgue nos permite ver dicha distribución como una mezcla de una absolutamente continua (que por definición tiene una función de densidadFuna ) y uno singular ("discreto"), que tiene una función de masa de probabilidad Fre. (Voy a ignorar la posibilidad de que un tercer componente continuo pero no absolutamente continuo pueda estar presente. Aquellos que usan tales modelos tienden a saber lo que están haciendo y generalmente tienen todas las habilidades técnicas para justificarlos).
CuandoF=Fθ es miembro de una familia paramétrica de distribuciones, podemos escribir
(La suma es como máximo contable, por supuesto). Aquí,Funa(; θ ) es una función de densidad de probabilidad multiplicada por algún coeficiente de mezcla λ ( θ ) y Fre(; θ ) es una función de probabilidad de masa multiplicada por 1 - λ ( θ ) .
Interpretemos cualquier observaciónXyo en un conjunto de datos iid X= (X1,X2, ... ,Xnorte) como "realmente" lo que significa que tenemos cierto conocimiento de que un verdadero valor subyacente hipotético yyo se encuentra en un intervalo (Xyo-δyo,Xyo+ϵyo] rodeando Xyo, pero por lo demás no tengo información sobre yyo. Suponiendo que conocemos todos los deltas y épsilones, esto ya no presenta ningún problema para construir una probabilidad porque todo se puede expresar en términos de probabilidades:
Si el apoyo deFreθ no tiene puntos de condensación en ningún Xyo, su contribución a la probabilidad se reducirá como máximo a un solo término, siempre que los épsilones y los deltas sean lo suficientemente pequeños: no habrá contribución cuando Xyo No está en su apoyo.
Si asumimosFuna(; θ ) es Lipschitz continuo en todos los valores de datos, luego uniformemente en los tamaños de los épsilons y deltas podemos aproximar la parte absolutamente continua deFθ(Xyo) como
La uniformidad de esta aproximación significa que a medida que tomamos todos los épsilones y deltas para crecer pequeños, todos loso ( ) Los términos también se hacen pequeños. En consecuencia, hay un valor muy pequeño.ϵ ( θ ) > 0 , regido por las contribuciones de todos estos términos de error, para los cuales
Esto sigue siendo un poco desordenado, pero muestra a dónde vamos. En el caso de los datos censurados, por lo general , solo una parte de cada término en el producto será distinto de cero, porque estos modelos generalmente suponen que el soporte de la parte singular de la distribución es disjunto del soporte de la parte continua, sin importar el parámetroθ puede ser. (Específicamente:fd(x)≠0 implica Fa(x+ϵ)−Fa( x - ϵ ) = o ( ϵ ) . ) Eso nos permite dividir el producto en dos partes y podemos factorizar las contribuciones de todos los intervalos de la parte continua:
(Sin ninguna pérdida de generalidad, he indexado los datos para queXyo, i = 1 , 2 , ... , k contribuir a la parte continua y de lo contrario Xyo, i = k + 1 , k + 2 , … , n contribuir a la parte singular de la probabilidad.)
Esta expresión ahora deja en claro que
En consecuencia, podemos trabajar con la expresión
al construir razones de probabilidad o maximizar la probabilidad. La belleza de este resultado es que nunca necesitamos saber los tamaños de los intervalos finitos que se usan en esta derivación: los épsilons y los deltas desaparecen. Solo necesitamos saber que podemos hacerlos lo suficientemente pequeños para que la expresión de probabilidad con la que realmente trabajamos sea una aproximación adecuada a la expresión de probabilidad que usaríamos si supiéramos los tamaños de intervalo.
fuente
Esta pregunta es un problema fundamental extremadamente importante en el análisis de probabilidad, y también muy sutil y difícil, por lo que estoy bastante sorprendido por algunas de las respuestas superficiales que está recibiendo en los comentarios.
En cualquier caso, en esta respuesta solo voy a agregar un pequeño punto a la excelente respuesta de Whuber (que creo que es el enfoque correcto para este problema). Ese punto es que las funciones de probabilidad en este contexto provienen de las funciones de densidad sobre una medida dominante mixta, y esto lleva a la interesante propiedad de que podemos escalar los tamaños relativos de la función de probabilidad de forma arbitraria sobre las partes continuas y discretas y todavía tenemos una validez función de probabilidad . Esto da lugar a una pregunta obvia de cómo podemos implementar técnicas de probabilidad cuando no hay una función de probabilidad única.
Ilustrar este punto requiere una presentación preliminar sobre la densidad de muestreo como un derivado de Radon-Nikodym de la medida de probabilidad, así que tengan paciencia conmigo. Primero mostraré cómo obtener una función de densidad para una medida dominante mixta y luego mostraré por qué esto conduce a la capacidad de escalar las partes continuas y discretas de la probabilidad a voluntad. Finalmente, discutiré las implicaciones de este tema para el análisis basado en la probabilidad y daré mi opinión sobre su resolución. Creo que esto se resuelve esencialmente por el método que Whuber presenta en su respuesta, pero necesitaría extenderse en la dirección que he discutido en los comentarios a esa respuesta, para asegurar que cada punto en el apoyo de la parte discreta ignore la parte continua en ese punto.
Expresar la densidad utilizando una medida dominante: el enfoque estándar para tratar con densidades mixtas para variables aleatorias reales es utilizar la medida de LebesgueλLEB como la medida dominante para la parte continua y la medida de conteo λCONTAR (sobre algún conjunto contable especificado D ⊂ R ) como medida dominante para la parte discreta. Esto lleva a la derivada Radon-Nikodym definida por:
(Tenga en cuenta que la última integral se degenera en una suma sobre los elementosx ∈ A∩ D . Lo escribimos aquí como una integral para aclarar la similitud entre los dos términos.) Se puede usar una sola densidad tomando la medidaλ∗≡λLEB+λCONTAR y configuración:
Utilizandoλ∗ Como medida dominante, tenemos la siguiente expresión para la probabilidad de interés:
Esto muestra que la funciónF∗ es una derivada válida de Radon-Nikodym de la medida de probabilidad en X , por lo que es una densidad válida para esta variable aleatoria. Ya que depende deX y θ entonces podemos definir una función de probabilidad válida L∗X( θ ) ∝F∗( x | θ ) sosteniendo X arreglado y tratando esto como una función de θ .
Efecto de escalar las medidas dominantes: ahora que entendemos la extracción de una densidad de una medida dominante, esto lleva a una propiedad extraña en la que podemos escalar los tamaños relativos de la probabilidad sobre las partes continuas y discretas y todavía tenemos una probabilidad válida función. Si ahora usamos la medida dominanteλ∗ ∗≡ α ⋅λLEB+ β⋅λCONTAR para algunas constantes positivas α > 0 y β> 0 entonces ahora obtenemos la densidad correspondiente de Radon-Nikodym:
Utilizandoλ∗ ∗ Como medida dominante, tenemos la siguiente expresión para la probabilidad de interés:
Como en el caso anterior, podemos definir una función de probabilidad válidaL∗ ∗X( θ ) ∝F∗ ∗( x | θ ) sosteniendo X arreglado y tratando esto como una función de θ . Puedes ver que la libertad de variarα y β ahora nos da la libertad de escalar los tamaños relativos de las partes continuas y discretas en la función de probabilidad tanto como queramos, y aún así tener una función de probabilidad válida (aunque con respecto a una medida dominante diferente, con la escala correspondiente de las partes).
Este resultado particular es solo parte del resultado más general de que cada función de probabilidad se define con respecto a alguna medida dominante subyacente (implícita), y no existe una función de probabilidad única que pueda definirse independientemente de esta medida subyacente.† Sin embargo, en este caso particular, vemos que todavía se basa en una medida dominante que es una combinación de medida de Lebesgue y medida de conteo, por lo que realmente no hemos simulado mucho con la medida. Como no existe una justificación objetiva para formar la medida dominante a partir de ponderaciones iguales de la medida de Lebesgue y la medida de conteo, la implicación de esto es que no existe una justificación objetiva para la escala relativa de las partes continuas y discretas de la función de probabilidad.
Implicaciones para el análisis de probabilidad: Esto podría parecer que nos pone en un pequeño dilema. Podemos escalar arbitrariamente las partes discretas y continuas de la función de probabilidad hacia arriba o hacia abajo en tamaño relativo y todavía tenemos un reclamo tan razonable de que esta es una función de probabilidad válida. Afortunadamente, este problema puede resolverse reconociendo que las constantes de escala saldrán de la función de probabilidad de la misma manera que se ilustra en la respuesta de Whuber . Es decir, si tenemosX1, . . . ,Xk∉ D y Xk + 1, . . . ,Xnorte∈ D obtendremos:
Esto muestra que las propiedades de escala de la medida dominante solo afectan la función de probabilidad a través de una constante de escala que puede ignorarse en los problemas estándar de MLE. Tenga en cuenta que en mi tratamiento de este problema, esta propiedad útil se ha producido como resultado directo del hecho de que la densidad de muestreo se define de una manera que ignora la densidad continua cuando estamos en el apoyo de la parte discreta. (Esto difiere de la respuesta de Whuber , donde permite una combinación de estas partes. Creo que esto podría conducir a algunos problemas difíciles; vea mis comentarios a esa respuesta).
fuente
Un ejemplo donde esto ocurre, es decir, la probabilidad dada por un modelo de probabilidad de tipo mixto continuo / discreto, es con datos censurados. Para un ejemplo, vea Regresión de errores normales ponderados con censura .
En general, esto se puede formular utilizando la teoría de la medida. Luego asuma un modelo estadístico con una función modeloF( x ; θ ) que es un derivado de Radon-Nikodym con respecto a una medida común λ (que no debe depender del parámetro θ ) Entonces la función de probabilidad basada en una muestra independienteX1,X2, ... ,Xnorte es ∏yoF(Xyo; θ ) . Esto es realmente lo mismo en casos continuos, discretos y mixtos.
Un ejemplo simple podría ser el modelado de la lluvia diaria. Eso podría ser cero, con probabilidad positiva o positiva. Entonces para la medida dominanteλ podríamos usar la suma de la medida de Lebesgue en ( 0 , ∞ ) y un átomo a cero.
fuente