¿MLE requiere datos de iid? ¿O solo parámetros independientes?

16

La estimación de parámetros usando la estimación de máxima verosimilitud (MLE) implica evaluar la función de verosimilitud, que mapea la probabilidad de que la muestra (X) ocurra con los valores (x) en el espacio de parámetros (θ) dada una familia de distribución (P (X = x | θ ) sobre los posibles valores de θ (nota: ¿estoy en lo cierto?) Todos los ejemplos que he visto implican calcular P (X = x | θ) tomando el producto de F (X) donde F es la distribución con el local El valor para θ y X es la muestra (un vector).

Dado que solo estamos multiplicando los datos, ¿se sigue que los datos sean independientes? Por ejemplo, ¿no podríamos usar MLE para ajustar datos de series temporales? ¿O los parámetros solo tienen que ser independientes?

Felix
fuente

Respuestas:

14

La función de probabilidad se define como la probabilidad de un evento (conjunto de datos ) como una función de los parámetros del modelox θExθ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Por lo tanto, no se asume la independencia de las observaciones. En el enfoque clásico no existe una definición para la independencia de los parámetros, ya que no son variables aleatorias; Algunos conceptos relacionados pueden ser identificabilidad , ortogonalidad de parámetros e independencia de los estimadores de máxima verosimilitud (que son variables aleatorias).

Algunos ejemplos,

(1) Caso discreto . es una muestra de observaciones discretas (independientes) con , luegoP ( observación  x j ; θ ) > 0x=(x1,...,xn)P(observing xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

Particularmente, si , con conocido, tenemos queNxjBinomial(N,θ)N

L(θ;x)j=1nθxj(1θ)Nxj.

(2) Aproximación continua . Sea una muestra de una variable aleatoria continua , con distribución y densidad , con error de medición , es decir, observa los conjuntos . LuegoX F f ε ( x j - ε , x j + ε )x=(x1,...,xn)XFfϵ(xjϵ,xj+ϵ)

L(θ;x)j=1nP[observing (xjϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)F(xjϵ;θ)]

Cuando es pequeño, se puede aproximar (usando el Teorema del valor medio) porϵ

L(θ;x)j=1nf(xj;θ)

Para un ejemplo con el caso normal, eche un vistazo a esto .

(3) Dependiente y modelo de Markov . Suponga que es un conjunto de observaciones posiblemente dependientes y que sea ​​la densidad conjunta de , entoncesf xx=(x1,...,xn)fx

L(θ;x)f(x;θ).

Si además se satisface la propiedad de Markov , entonces

L(θ;x)f(x;θ)=f(x1;θ)j=1n1f(xj+1|xj;θ).

Mira también esto .

Comunidad
fuente
3
Desde el momento en que escribe la función de probabilidad como producto, asume implícitamente una estructura de dependencia entre las observaciones. Entonces, para MLE, se necesitan dos supuestos (a) uno sobre la distribución de cada resultado individual y (b) uno sobre la dependencia entre los resultados.
10

(+1) Muy buena pregunta.

Una cosa menor, MLE significa estimación de máxima probabilidad (no múltiple), lo que significa que solo maximizas la probabilidad. Esto no especifica que la probabilidad tiene que ser producida por el muestreo IID.

Si la dependencia del muestreo puede escribirse en el modelo estadístico, simplemente escriba la probabilidad en consecuencia y maximícela como de costumbre.

El único caso que vale la pena mencionar cuando no se asume la dependencia es el del muestreo gaussiano multivariado (en el análisis de series de tiempo, por ejemplo). La dependencia entre dos variables gaussianas puede ser modelada por su término de covarianza, que usted incorpora en la probabilidad.

Para dar un ejemplo simplista, suponga que extrae una muestra de tamaño partir de variables gaussianas correlacionadas con la misma media y varianza. Escribirías la probabilidad como2

12πσ21ρ2exp(z2σ2(1ρ2)),

donde esz

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

Este no es el producto de las probabilidades individuales. Aún así, maximizaría esto con parámetros para obtener su MLE.(μ,σ,ρ)

gui11aume
fuente
2
Estas son buenas respuestas y ejemplos. Lo único que agregaría para ver esto en términos simples es que la estimación de probabilidad solo requiere que un modelo para la generación de datos se especifique en términos de algunos parámetros desconocidos que se describan en forma funcional.
Michael R. Chernick
(+1) ¡Absolutamente cierto! ¿Tiene un ejemplo de modelo que no se puede especificar en esos términos?
gui11aume
@ gu11aume Creo que te refieres a mi comentario. Diría que no estaba dando una respuesta directa a la pregunta. La respuesta a la pregunta es sí porque hay ejemplos que se pueden mostrar en los que la función de probabilidad se puede expresar cuando los datos son generados por variables aleatorias dependientes.
Michael R. Chernick
2
Los ejemplos en los que esto no se puede hacer serían donde los datos se proporcionan sin una descripción del mecanismo de generación de datos o el modelo no se presenta en forma paramétrica, como cuando se le dan dos conjuntos de datos iid y se le pide que pruebe si provienen de la misma distribución donde solo especifica que las distribuciones son absolutamente continuas.
Michael R. Chernick
4

Por supuesto, los modelos ARMA gaussianos poseen una probabilidad, ya que su función de covarianza se puede derivar explícitamente. Esto es básicamente una extensión de la respuesta de gui11ame a más de 2 observaciones. Google mínimo produce documentos como este donde la probabilidad se da en forma general.

Otra clase, hasta cierto punto, más intrigante de ejemplos es la que ofrecen los modelos de efectos aleatorios multinivel . Si tiene datos de la forma donde los índices j están anidados en i (piense en los estudiantes j en las aulas i , por ejemplo, para una aplicación clásica de modelos multinivel) , entonces, suponiendo ϵ i ju i , la probabilidad es ln L i

yij=xijβ+ui+ϵij,
jijiϵijui y es una suma sobre las contribuciones de probabilidad definidas a nivel de grupos, no observaciones individuales. (Por supuesto, en el caso gaussiano, puede impulsar las integrales para producir una solución analítica similar a ANOVA. Sin embargo, si ha dicho un modelo logit para su respuesta y i j , entonces no hay forma de salir de la integración numérica. )
lnLilnjf(yij|β,ui)dF(ui)
yij
StasK
fuente
2
Stask y @ gui11aume, estas tres respuestas son buenas, pero creo que pierden un punto: ¿qué pasa con la consistencia del MLE para los datos dependientes?
Stéphane Laurent