Pregunta general
Supongamos que tenemos datos de iid , , ... transmiten. Queremos calcular recursivamente la estimación de máxima probabilidad de \ boldsymbol {\ theta} . Es decir, haber calculado
\ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}),
observamos una nueva x_n y deseamos actualizar de manera incremental nuestra estimación
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n}
sin tener que empezar desde cero. ¿Hay algoritmos genéricos para esto?θ n - 1 ,
Ejemplo de juguete
Si , , ... , entonces
entonces
Respuestas:
Vea el concepto de suficiencia y, en particular, estadísticas mínimas suficientes . En muchos casos, necesita toda la muestra para calcular la estimación en un tamaño de muestra dado, sin una forma trivial de actualizar a partir de una muestra de un tamaño menor (es decir, no hay un resultado general conveniente).
Si la distribución es una familia exponencial (y en algunos otros casos además; el uniforme es un buen ejemplo), hay una buena estadística suficiente que en muchos casos se puede actualizar de la manera que usted busca (es decir, con una serie de distribuciones comúnmente utilizadas, habría Una actualización rápida).
Un ejemplo que no conozco de ninguna manera directa de calcular o actualizar es la estimación de la ubicación de la distribución de Cauchy (por ejemplo, con escala de unidades, para hacer que el problema sea un problema simple de un parámetro). Sin embargo, puede haber una actualización más rápida que simplemente no he notado: no puedo decir que realmente haya hecho más que echarle un vistazo para considerar el caso de actualización.
Por otro lado, con los MLE que se obtienen a través de métodos de optimización numérica, la estimación previa sería en muchos casos un excelente punto de partida, ya que normalmente la estimación anterior estaría muy cerca de la estimación actualizada; en ese sentido, al menos, la actualización rápida a menudo debería ser posible. Sin embargo, incluso este no es el caso general: con funciones de probabilidad multimodal (nuevamente, vea el Cauchy como ejemplo), una nueva observación podría llevar al modo más alto a cierta distancia del anterior (incluso si las ubicaciones de cada uno de los pocos modos más grandes no cambió mucho, cuál es el más alto bien podría cambiar).
fuente
En el aprendizaje automático, esto se conoce como aprendizaje en línea .
Como señaló @Glen_b, hay casos especiales en los que el MLE se puede actualizar sin necesidad de acceder a todos los datos anteriores. Como también señala, no creo que haya una solución genérica para encontrar el MLE.
Un enfoque bastante genérico para encontrar la solución aproximada es usar algo como el descenso de gradiente estocástico. En este caso, a medida que entra cada observación, calculamos el gradiente con respecto a esta observación individual y movemos los valores de los parámetros una cantidad muy pequeña en esta dirección. Bajo ciertas condiciones, podemos demostrar que esto convergerá a una vecindad del MLE con alta probabilidad; el vecindario es cada vez más estricto a medida que reducimos el tamaño del paso, pero se requieren más datos para la convergencia. Sin embargo, estos métodos estocásticos en general requieren mucho más trabajo para obtener un buen rendimiento que, por ejemplo, las actualizaciones de formularios cerrados.
fuente