En una conferencia reciente me dijeron que, para que la estimación de máxima verosimilitud sea válida, la probabilidad de registro debe ir a menos infinito a medida que el parámetro va al límite del espacio del parámetro. Pero no entiendo por qué esto es esencial. Supongamos que la probabilidad de registro va a algún tipo de asíntota. Entonces el parámetro que maximiza la probabilidad sigue siendo la estimación de máxima probabilidad, ¿verdad?
8
Respuestas:
Esto equivale a decir que la probabilidad de un parámetro debe convertirse en 0 en el límite del espacio del parámetro para que el resultado sea válido.
Bueno, en primer lugar, puede restringir el espacio de parámetros a valores que tengan una probabilidad positiva y aún así obtener una estimación válida.
En segundo lugar, incluso si usa, digamos , no se acerca al límite ya que cualquier paquete de optimización listo para usar realiza algún tipo de inicialización aleatoria y luego se acerca al mínimo usando algún método como el gradiente Descenso, gradiente conjugado u otro. En cualquier caso, casi nunca terminas acercándote al límite del espacio de parámetros, por lo que no entiendo por qué los límites son importantes en primer lugar.(−∞,∞)
E incluso si lo hace a propósito, en un punto alcanzará la precisión de coma flotante de su sistema operativo. Puedo garantizarle que en ese momento, realmente no se ha acercado al límite por mucho. :)−∞
Personalmente, encuentro que el problema de subflujo surge al calcular sumas y productos de muy pequeñas probabilidades y el truco de suma de registros es un tema mucho más interesante y notable que realmente importa mucho en la práctica, a diferencia de alcanzar los límites del espacio de parámetros.
fuente