La función de probabilidad se define como la probabilidad de un evento (conjunto de datos ) como una función de los parámetros del modelox θExθ
L(θ;x)∝P(Event E;θ)=P(observing x;θ).
Por lo tanto, no se asume la independencia de las observaciones. En el enfoque clásico no existe una definición para la independencia de los parámetros, ya que no son variables aleatorias; Algunos conceptos relacionados pueden ser identificabilidad , ortogonalidad de parámetros e independencia de los estimadores de máxima verosimilitud (que son variables aleatorias).
Algunos ejemplos,
(1) Caso discreto . es una muestra de observaciones discretas (independientes) con , luegoP ( observación x j ; θ ) > 0x=(x1,...,xn)P(observing xj;θ)>0
L(θ;x)∝∏j=1nP(observing xj;θ).
Particularmente, si , con conocido, tenemos queNxj∼Binomial(N,θ)N
L(θ;x)∝∏j=1nθxj(1−θ)N−xj.
(2) Aproximación continua . Sea una muestra de una variable aleatoria continua , con distribución y densidad , con error de medición , es decir, observa los conjuntos . LuegoX F f ε ( x j - ε , x j + ε )x=(x1,...,xn)XFfϵ(xj−ϵ,xj+ϵ)
L(θ;x)∝∏j=1nP[observing (xj−ϵ,xj+ϵ);θ]=∏j=1n[F(xj+ϵ;θ)−F(xj−ϵ;θ)]
Cuando es pequeño, se puede aproximar (usando el Teorema del valor medio) porϵ
L(θ;x)∝∏j=1nf(xj;θ)
Para un ejemplo con el caso normal, eche un vistazo a esto .
(3) Dependiente y modelo de Markov . Suponga que es un conjunto de observaciones posiblemente dependientes y que sea la densidad conjunta de , entoncesf xx=(x1,...,xn)fx
L(θ;x)∝f(x;θ).
Si además se satisface la propiedad de Markov , entonces
L(θ;x)∝f(x;θ)=f(x1;θ)∏j=1n−1f(xj+1|xj;θ).
Mira también esto .
(+1) Muy buena pregunta.
Una cosa menor, MLE significa estimación de máxima probabilidad (no múltiple), lo que significa que solo maximizas la probabilidad. Esto no especifica que la probabilidad tiene que ser producida por el muestreo IID.
Si la dependencia del muestreo puede escribirse en el modelo estadístico, simplemente escriba la probabilidad en consecuencia y maximícela como de costumbre.
El único caso que vale la pena mencionar cuando no se asume la dependencia es el del muestreo gaussiano multivariado (en el análisis de series de tiempo, por ejemplo). La dependencia entre dos variables gaussianas puede ser modelada por su término de covarianza, que usted incorpora en la probabilidad.
Para dar un ejemplo simplista, suponga que extrae una muestra de tamaño partir de variables gaussianas correlacionadas con la misma media y varianza. Escribirías la probabilidad como2
donde esz
Este no es el producto de las probabilidades individuales. Aún así, maximizaría esto con parámetros para obtener su MLE.(μ,σ,ρ)
fuente
Por supuesto, los modelos ARMA gaussianos poseen una probabilidad, ya que su función de covarianza se puede derivar explícitamente. Esto es básicamente una extensión de la respuesta de gui11ame a más de 2 observaciones. Google mínimo produce documentos como este donde la probabilidad se da en forma general.
Otra clase, hasta cierto punto, más intrigante de ejemplos es la que ofrecen los modelos de efectos aleatorios multinivel . Si tiene datos de la forma donde los índices j están anidados en i (piense en los estudiantes j en las aulas i , por ejemplo, para una aplicación clásica de modelos multinivel) , entonces, suponiendo ϵ i j ⊥ u i , la probabilidad es ln L ∼ ∑ i
fuente