Función de máxima verosimilitud para distribución de tipo mixto

11

En general maximizamos una función

L (θ; x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} f (x_{i} ∣ θ)

$L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i \mid \theta)$

donde es función de densidad de probabilidad si la distribución subyacente es continua, y una función de masa de probabilidad (con suma en lugar de producto) si la distribución es discreta. $f$

¿Cómo especificamos la función de probabilidad si la distribución subyacente es una mezcla entre una distribución continua y una discreta, con los pesos en cada uno dependiendo de ? $\theta$

mathematical-statistics maximum-likelihood likelihood mixture bonifaz
fuente

2

¿Qué es exactamente lo que no se aplica en tu opinión?

Tim

@Tim, mi confusión resulta de no saber que la función de probabilidad tenía una definición que es más general que la definición estándar en probabilidades continuas y discretas. Es decir, mi pensamiento era el siguiente. La distribución no es continua ni discreta, por lo que no puede tener una función de probabilidad. Como no existe una función de probabilidad, MLE no se aplica.

gregorias

1

La distribución no puede ser discreta ni continua, como, por ejemplo, la distribución de Cantor y, como lo señala Xi'an, la probabilidad se define en términos de funciones de densidad de probabilidad, por lo que solo necesita un pdf de su distribución para definir la probabilidad.

Tim

@Tim, soy bastante consciente de que hay diferentes distribuciones. Ese era el punto que estaba tratando de hacer. Tenga en cuenta que la probabilidad es un concepto más general que un pdf. En particular, solo las variables continuas tienen pdf (exactamente esas distribuciones lo tienen). Por ejemplo, la distribución de Cantor que menciona no tiene un pdf.

gregorias

Depende de cómo defina los pdf, pmf puede considerarse como un caso especial de pdf. Puede definir archivos PDF de distribuciones discretas en términos de dirac delta, etc., por lo que no es un problema que la distribución sea de tipo discreto o mixto.

Tim

7

La función de probabilidad es la densidad de los datos en el valor observado expresada como una función de Esta densidad se define para cada valor (aceptable) de casi todas partes sobre el soporte de , , contra una medida particular sobre que no depende de . Para cualquier familia paramétrica, debe existir una medida tan dominante en todos los 's, por lo tanto, una densidad, por lo tanto, una probabilidad. $\ell(\theta|\mathbf{x})$ $\mathbf{x}$ $\theta$

ℓ (θ | x) = f (x | θ)

$\ell(\theta|\mathbf{x})=f(\mathbf{x}|\theta)$

θ

$\theta$

x

$\mathbf{x}$

X

$\mathfrak{X}$

X

$\mathfrak{X}$

θ

$\theta$

θ

$\theta$

Aquí hay un extracto relevante de la entrada de Wikipedia sobre funciones de probabilidad (el estrés es mío):

En la teoría de probabilidad teórica de la medida, la función de densidad se define como la derivada de Radón-Nikodym de la distribución de probabilidad relativa a una medida dominante. Esto proporciona una función de probabilidad para cualquier modelo de probabilidad con todas las distribuciones, ya sean discretas, absolutamente continuas, una mezcla u otra cosa. (Las probabilidades serán comparables, por ejemplo, para la estimación de parámetros, solo si son derivados de Radón-Nikodym con respecto a la misma medida dominante).

Xi'an
fuente

7

Admito haber desconcertado esta pregunta durante bastante tiempo antes en mi carrera. Una forma en que me convencí de la respuesta fue adoptar una visión extremadamente práctica y aplicada de la situación, una visión que reconoce que ninguna medición es perfecta. Veamos a dónde podría llevar eso.

El objetivo de este ejercicio es exponer los supuestos que podrían ser necesarios para justificar la mezcla un tanto simplista de densidades y probabilidades en expresiones para verosimilitudes. Por lo tanto, destacaré tales supuestos donde sea que se presenten. Resulta que se necesitan bastantes, pero son bastante suaves y cubren todas las aplicaciones que he encontrado (lo que obviamente será limitado, pero aún incluye bastantes).

El problema se refiere a una distribución mixta. $F,$ uno que no es absolutamente continuo ni singular. El teorema de descomposición de Lebesgue nos permite ver dicha distribución como una mezcla de una absolutamente continua (que por definición tiene una función de densidad $f_a$ ) y uno singular ("discreto"), que tiene una función de masa de probabilidad $f_d.$ (Voy a ignorar la posibilidad de que un tercer componente continuo pero no absolutamente continuo pueda estar presente. Aquellos que usan tales modelos tienden a saber lo que están haciendo y generalmente tienen todas las habilidades técnicas para justificarlos).

Cuando $F = F_\theta$ es miembro de una familia paramétrica de distribuciones, podemos escribir

F_{θ} (x) = F_{a θ} (x) + F_{d θ} (x) = \int_{\infty}^{x} f_{a} (t; θ) d t + \sum_{t \leq x} f_{d} (t; θ) .

$F_\theta(x) = F_{a\theta}(x) + F_{d\theta}(x) = \int_{\infty}^x f_a(t;\theta)\mathrm{d}t + \sum_{t \le x} f_d(t;\theta).$

(La suma es como máximo contable, por supuesto). Aquí, $f_a(\,;\theta)$ es una función de densidad de probabilidad multiplicada por algún coeficiente de mezcla $\lambda(\theta)$ y $f_d(\,;\theta)$ es una función de probabilidad de masa multiplicada por $1-\lambda(\theta).$

Interpretemos cualquier observación $x_i$ en un conjunto de datos iid $X=(x_1,x_2,\ldots, x_n)$ como "realmente" lo que significa que tenemos cierto conocimiento de que un verdadero valor subyacente hipotético $y_i$ se encuentra en un intervalo $(x_i-\delta_i, x_i+\epsilon_i]$ rodeando $x_i,$ pero por lo demás no tengo información sobre $y_i.$ Suponiendo que conocemos todos los deltas y épsilones, esto ya no presenta ningún problema para construir una probabilidad porque todo se puede expresar en términos de probabilidades:

L (X; θ) = \prod_{i} (F_{θ} (x_{i} + ϵ_{i}) - F_{θ} (x_{i} - δ_{i})) .

$\mathcal{L}(X;\theta) = \prod_i \left(F_\theta(x_i + \epsilon_i) - F_\theta(x_i - \delta_i)\right).$

Si el apoyo de $F_{d\theta}$ no tiene puntos de condensación en ningún $x_i,$ su contribución a la probabilidad se reducirá como máximo a un solo término, siempre que los épsilones y los deltas sean lo suficientemente pequeños: no habrá contribución cuando $x_i$ No está en su apoyo.

Si asumimos $f_a(\,;\theta)$ es Lipschitz continuo en todos los valores de datos, luego uniformemente en los tamaños de los épsilons y deltas podemos aproximar la parte absolutamente continua de $F_\theta(x_i)$ como

F_{a θ} (x_{i} + ϵ_{i}) - F_{a θ} (x_{i} - δ_{i}) = f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + o (| ϵ_{i} + δ_{i} |) .

$F_{a\theta}(x_i + \epsilon_i) - F_{a\theta}(x_i - \delta_i) = f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|).$

La uniformidad de esta aproximación significa que a medida que tomamos todos los épsilones y deltas para crecer pequeños, todos los $o()$ Los términos también se hacen pequeños. En consecuencia, hay un valor muy pequeño. $\epsilon(\theta)\gt 0,$ regido por las contribuciones de todos estos términos de error, para los cuales

\begin{aligned} L (X; θ) & = \prod_{i} (f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + o (| ϵ_{i} + δ_{i} |) + f_{d} (x_{i}; θ)) \\ = \prod_{i} (f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + f_{d} (x_{i}; θ)) + o (ϵ (θ)) . \end{aligned}

$\eqalign{ \mathcal{L}(X;\theta) &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|) + f_d(x_i;\theta)\right)\\ &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + f_d(x_i;\theta)\right)\ + \ o(\epsilon(\theta)). }$

Esto sigue siendo un poco desordenado, pero muestra a dónde vamos. En el caso de los datos censurados, por lo general , solo una parte de cada término en el producto será distinto de cero, porque estos modelos generalmente suponen que el soporte de la parte singular de la distribución es disjunto del soporte de la parte continua, sin importar el parámetro $\theta$ puede ser. (Específicamente: $f_d(x) \ne 0$ implica $F_a(x+\epsilon)-F_a(x-\epsilon) = o(\epsilon).$ ) Eso nos permite dividir el producto en dos partes y podemos factorizar las contribuciones de todos los intervalos de la parte continua:

L (X; θ) = (\prod_{i = 1}^{k} (ϵ_{i} + δ_{i})) \prod_{i = 1}^{k} f_{a} (x_{i}; θ) \prod_{i = k + 1}^{n} f_{d} (x_{i}; θ) .

$\mathcal{L}(X;\theta) = \left(\prod_{i=1}^k (\epsilon_i + \delta_i) \right)\prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta).$

(Sin ninguna pérdida de generalidad, he indexado los datos para que $x_i, i=1, 2, \ldots, k$ contribuir a la parte continua y de lo contrario $x_i, i=k+1, k+2, \ldots, n$ contribuir a la parte singular de la probabilidad.)

Esta expresión ahora deja en claro que

Desde los anchos de intervalo $\epsilon_i+\delta_i$ son fijos, no contribuyen a la probabilidad (que se define solo hasta un múltiplo constante positivo).

En consecuencia, podemos trabajar con la expresión

L (X; θ) = \prod_{i = 1}^{k} f_{a} (x_{i}; θ) \prod_{i = k + 1}^{n} f_{d} (x_{i}; θ)

$\mathcal{L}(X;\theta) = \prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta)$

al construir razones de probabilidad o maximizar la probabilidad. La belleza de este resultado es que nunca necesitamos saber los tamaños de los intervalos finitos que se usan en esta derivación: los épsilons y los deltas desaparecen. Solo necesitamos saber que podemos hacerlos lo suficientemente pequeños para que la expresión de probabilidad con la que realmente trabajamos sea una aproximación adecuada a la expresión de probabilidad que usaríamos si supiéramos los tamaños de intervalo.

whuber
fuente

1

Gran respuesta (+1). Una sugerencia de mejora: en el caso de que haya un apoyo común en un punto (para que no pueda separar los términos discretos y continuos en la suma), entonces el término discreto domina totalmente el término continuo, por lo que la probabilidad ignorará lo continuo parte en ese punto (poniéndolo efectivamente a cero). Esto significa que incluso si hay un punto con soporte común, se tratará como una parte discreta, y obtendrá la misma descomposición del producto que obtiene aquí. (A menos que me falte algo.)

Ben - Restablece a Monica el

1

@Ben Gracias por ese comentario perspicaz. Sin embargo, preferiría esquivar ese problema, porque estoy un poco preocupado por algunos casos "extremos" que podrían surgir. ¿Qué haría uno, por ejemplo, dónde

f_{a}

$f_a$ se vuelve infinito en uno de los puntos de apoyo de

f_{d}

$f_d$ ?

Whuber

1

Sí, eso se volvería espinoso. Dodge entendió!

Ben - Restablece a Monica el

1

He agregado una respuesta que señala un aspecto adicional de este problema, donde resulta que se resuelve más fácilmente al ignorar la densidad continua en el soporte de la parte discreta. Lea mi respuesta y vea si esto agrega más motivación para tratar este aspecto del problema. (Mi intuición es que incluso si

f_{a}

$f_a$ se vuelve infinito en un punto en el apoyo de

f_{d}

$f_d$ aún se consideraría infinitamente más pequeño que la parte discreta.)

Ben - Restablece a Monica el

6

Esta pregunta es un problema fundamental extremadamente importante en el análisis de probabilidad, y también muy sutil y difícil, por lo que estoy bastante sorprendido por algunas de las respuestas superficiales que está recibiendo en los comentarios.

En cualquier caso, en esta respuesta solo voy a agregar un pequeño punto a la excelente respuesta de Whuber (que creo que es el enfoque correcto para este problema). Ese punto es que las funciones de probabilidad en este contexto provienen de las funciones de densidad sobre una medida dominante mixta, y esto lleva a la interesante propiedad de que podemos escalar los tamaños relativos de la función de probabilidad de forma arbitraria sobre las partes continuas y discretas y todavía tenemos una validez función de probabilidad . Esto da lugar a una pregunta obvia de cómo podemos implementar técnicas de probabilidad cuando no hay una función de probabilidad única.

Ilustrar este punto requiere una presentación preliminar sobre la densidad de muestreo como un derivado de Radon-Nikodym de la medida de probabilidad, así que tengan paciencia conmigo. Primero mostraré cómo obtener una función de densidad para una medida dominante mixta y luego mostraré por qué esto conduce a la capacidad de escalar las partes continuas y discretas de la probabilidad a voluntad. Finalmente, discutiré las implicaciones de este tema para el análisis basado en la probabilidad y daré mi opinión sobre su resolución. Creo que esto se resuelve esencialmente por el método que Whuber presenta en su respuesta, pero necesitaría extenderse en la dirección que he discutido en los comentarios a esa respuesta, para asegurar que cada punto en el apoyo de la parte discreta ignore la parte continua en ese punto.

Expresar la densidad utilizando una medida dominante: el enfoque estándar para tratar con densidades mixtas para variables aleatorias reales es utilizar la medida de Lebesgue $\lambda_\text{LEB}$ como la medida dominante para la parte continua y la medida de conteo $\lambda_\text{COUNT}$ (sobre algún conjunto contable especificado $\mathcal{D} \subset \mathbb{R}$ ) como medida dominante para la parte discreta. Esto lleva a la derivada Radon-Nikodym definida por:

PAGS (X \in UNA El | θ) = \int_{UNA} F (X El | θ) re λ_{LEB} (X) + \int_{UNA} pags (X El | θ) re λ_{CONTAR} (X) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f(x | \theta) \ d \lambda_\text{LEB}(x) + \int \limits_\mathcal{A} p(x | \theta) \ d\lambda_\text{COUNT}(x).$

(Tenga en cuenta que la última integral se degenera en una suma sobre los elementos $x \in \mathcal{A} \cap \mathcal{D}$ . Lo escribimos aquí como una integral para aclarar la similitud entre los dos términos.) Se puede usar una sola densidad tomando la medida $\lambda_* \equiv \lambda_\text{LEB} + \lambda_\text{COUNT}$ y configuración:

F_{*} (X El | θ) \equiv yo (X \notin re) \cdot F (X El | θ) + yo (X \in re) \cdot pags (X El | θ) .

$f_*(x | \theta) \equiv \mathbb{I}(x \notin \mathcal{D}) \cdot f(x | \theta) + \mathbb{I}(x \in \mathcal{D}) \cdot p(x | \theta).$

Utilizando $\lambda_*$ Como medida dominante, tenemos la siguiente expresión para la probabilidad de interés:

PAGS (X \in UNA El | θ) = \int_{UNA} F_{*} (X El | θ) re λ_{*} (X) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_*(x | \theta) \ d \lambda_*(x).$

Esto muestra que la función $f_*$ es una derivada válida de Radon-Nikodym de la medida de probabilidad en $X$ , por lo que es una densidad válida para esta variable aleatoria. Ya que depende de $x$ y $\theta$ entonces podemos definir una función de probabilidad válida $L_x^*(\theta) \propto f_*(x | \theta)$ sosteniendo $x$ arreglado y tratando esto como una función de $\theta$ .

Efecto de escalar las medidas dominantes: ahora que entendemos la extracción de una densidad de una medida dominante, esto lleva a una propiedad extraña en la que podemos escalar los tamaños relativos de la probabilidad sobre las partes continuas y discretas y todavía tenemos una probabilidad válida función. Si ahora usamos la medida dominante $\lambda_{**} \equiv \alpha \cdot \lambda_\text{LEB} + \beta \cdot \lambda_\text{COUNT}$ para algunas constantes positivas $\alpha > 0$ y $\beta > 0$ entonces ahora obtenemos la densidad correspondiente de Radon-Nikodym:

F_{* *} (X El | θ) \equiv \frac{yo (X \notin re)}{α} \cdot F (X El | θ) + \frac{yo (X \in re)}{β} \cdot pags (X El | θ) .

$f_{**}(x | \theta) \equiv \frac{\mathbb{I}(x \notin \mathcal{D})}{\alpha} \cdot f(x | \theta) + \frac{\mathbb{I}(x \in \mathcal{D})}{\beta} \cdot p(x | \theta).$

Utilizando $\lambda_{**}$ Como medida dominante, tenemos la siguiente expresión para la probabilidad de interés:

PAGS (X \in UNA El | θ) = \int_{UNA} F_{* *} (X El | θ) re λ_{* *} (X) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_{**}(x | \theta) \ d \lambda_{**}(x).$

Como en el caso anterior, podemos definir una función de probabilidad válida $L_x^{**}(\theta) \propto f_{**}(x | \theta)$ sosteniendo $x$ arreglado y tratando esto como una función de $\theta$ . Puedes ver que la libertad de variar $\alpha$ y $\beta$ ahora nos da la libertad de escalar los tamaños relativos de las partes continuas y discretas en la función de probabilidad tanto como queramos, y aún así tener una función de probabilidad válida (aunque con respecto a una medida dominante diferente, con la escala correspondiente de las partes).

Este resultado particular es solo parte del resultado más general de que cada función de probabilidad se define con respecto a alguna medida dominante subyacente (implícita), y no existe una función de probabilidad única que pueda definirse independientemente de esta medida subyacente. $^\dagger$ Sin embargo, en este caso particular, vemos que todavía se basa en una medida dominante que es una combinación de medida de Lebesgue y medida de conteo, por lo que realmente no hemos simulado mucho con la medida. Como no existe una justificación objetiva para formar la medida dominante a partir de ponderaciones iguales de la medida de Lebesgue y la medida de conteo, la implicación de esto es que no existe una justificación objetiva para la escala relativa de las partes continuas y discretas de la función de probabilidad.

Implicaciones para el análisis de probabilidad: Esto podría parecer que nos pone en un pequeño dilema. Podemos escalar arbitrariamente las partes discretas y continuas de la función de probabilidad hacia arriba o hacia abajo en tamaño relativo y todavía tenemos un reclamo tan razonable de que esta es una función de probabilidad válida. Afortunadamente, este problema puede resolverse reconociendo que las constantes de escala saldrán de la función de probabilidad de la misma manera que se ilustra en la respuesta de Whuber . Es decir, si tenemos $x_1,...,x_k \notin \mathcal{D}$ y $x_{k+1},...,x_n \in \mathcal{D}$ obtendremos:

\begin{aligned} L_{X}^{* *} (θ) = \prod_{yo = 1}^{norte} L_{X_{yo}}^{* *} (θ) & = \prod_{yo = 1}^{norte} F_{* *} (X_{yo} El | θ) \\ = (\prod_{yo = 1}^{k} \frac{1}{α} \cdot F (X_{yo} El | θ)) (\prod_{yo = k + 1}^{norte} \frac{1}{β} \cdot pags (X_{yo} El | θ)) \\ = \frac{1}{α^{k} β^{norte - k}} (\prod_{yo = 1}^{k} F (X_{yo} El | θ)) (\prod_{yo = k + 1}^{norte} pags (X_{yo} El | θ)) \\ = \frac{1}{α^{k} β^{norte - k}} \prod_{yo = 1}^{norte} F_{*} (X_{yo} El | θ) \\ \propto \prod_{yo = 1}^{norte} F_{*} (X_{yo} El | θ) \\ = \prod_{yo = 1}^{norte} L_{X_{yo}}^{*} (θ) \\ = L_{X}^{*} (θ) . \end{aligned}

$\begin{equation} \begin{aligned} L_\mathbb{x}^{**}(\theta) = \prod_{i=1}^n L_{x_i}^{**}(\theta) &= \prod_{i=1}^n f_{**}(x_i | \theta) \\[12pt] &= \Bigg( \prod_{i=1}^k \frac{1}{\alpha} \cdot f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n \frac{1}{\beta} \cdot p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \Bigg( \prod_{i=1}^k f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &\propto \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &= \prod_{i=1}^n L_{x_i}^{*}(\theta) \\[12pt] &= L_\mathbb{x}^{*}(\theta). \\[12pt] \end{aligned} \end{equation}$

Esto muestra que las propiedades de escala de la medida dominante solo afectan la función de probabilidad a través de una constante de escala que puede ignorarse en los problemas estándar de MLE. Tenga en cuenta que en mi tratamiento de este problema, esta propiedad útil se ha producido como resultado directo del hecho de que la densidad de muestreo se define de una manera que ignora la densidad continua cuando estamos en el apoyo de la parte discreta. (Esto difiere de la respuesta de Whuber , donde permite una combinación de estas partes. Creo que esto podría conducir a algunos problemas difíciles; vea mis comentarios a esa respuesta).

$^\dagger$ Este resultado no se limita a casos mixtos. Incluso en casos simples con variables aleatorias continuas o discretas, si varía la medida dominante subyacente, dará una variación correspondiente en la derivada de Radon-Nikodym, que luego conduce a una función de probabilidad diferente.

Ben - Restablece a Monica
fuente

3

+1. Creo que has hecho un buen trabajo conectando mi explicación elemental con la respuesta teórica de medida original de @ Xi'an, llevándonos (muy informativamente) un círculo completo.

whuber

3

Un ejemplo donde esto ocurre, es decir, la probabilidad dada por un modelo de probabilidad de tipo mixto continuo / discreto, es con datos censurados. Para un ejemplo, vea Regresión de errores normales ponderados con censura .

En general, esto se puede formular utilizando la teoría de la medida. Luego asuma un modelo estadístico con una función modelo $f(x;\theta)$ que es un derivado de Radon-Nikodym con respecto a una medida común $\lambda$ (que no debe depender del parámetro $\theta$ ) Entonces la función de probabilidad basada en una muestra independiente $x_1, x_2, \dotsc, x_n$ es $\prod_i f(x_i;\theta)$ . Esto es realmente lo mismo en casos continuos, discretos y mixtos.

Un ejemplo simple podría ser el modelado de la lluvia diaria. Eso podría ser cero, con probabilidad positiva o positiva. Entonces para la medida dominante $\lambda$ podríamos usar la suma de la medida de Lebesgue en $(0,\infty)$ y un átomo a cero.

kjetil b halvorsen
fuente

Función de máxima verosimilitud para distribución de tipo mixto

Respuestas: