¿Por qué un GLM predice la media y no el modo de una señal? ¿Esto no contradice la base misma detrás del GLM, es decir, la máxima probabilidad? Las ecuaciones para resolver los parámetros del modelo en un GLM se basan en la maximización de la probabilidad según lo descrito por la distribución de probabilidad de la señal modelada. Esta distribución de probabilidad es máxima para el modo, no para la media (la distribución normal es una excepción: tanto el modo como la media son iguales). Por lo tanto, un GLM debe predecir el modo , ¡no la media de una señal! (Para algunos antecedentes de esta pregunta, ver aquí ).
8
Respuestas:
El objetivo del ajuste de máxima verosimilitud es determinar los parámetros de alguna distribución que mejor se ajuste a los datos y, en general, cómo dichos parámetros pueden variar con las covariables. En el caso de GLMs, queremos determinar los parámetrosθ de alguna distribución familiar exponencial, y cómo son función de algunas covariables X .
Para cualquier distribución de probabilidad en la familia exponencial sobredispersada, la mediaμ se garantiza que está relacionado con el parámetro de la familia exponencial canónica θ a través de la función de enlace canónico, θ=g(μ) . Incluso podemos determinar una fórmula general parag y típicamente g Es invertible también. Si simplemente establecemosμ=g−1(θ) y θ=Xβ , obtenemos automáticamente un modelo de cómo μ y θ cambia con X , sin importar con qué distribución estamos tratando, y ese modelo puede ajustarse fácil y confiablemente a los datos mediante la optimización convexa . La respuesta de Matt muestra cómo funciona para la distribución de Bernoulli, pero la verdadera magia es que funciona para todas las distribuciones de la familia.
El modo no disfruta de estas propiedades. De hecho, como señala Cliff AB, es posible que el modo ni siquiera tenga una relación biyectiva con el parámetro de distribución, por lo que la inferencia del modo es de una potencia muy limitada. Tome la distribución de Bernoulli, por ejemplo. Su modo es 0 o 1, y conocer el modo solo te dice sip , la probabilidad de 1 es mayor o menor que 1/2. En contraste, la media te dice exactamente quép es.
Ahora, para aclarar cierta confusión en la pregunta: la probabilidad máxima no se trata de encontrar el modo de una distribución, porque la probabilidad no es la misma función que la distribución. La probabilidad implica la distribución de su modelo en su fórmula, pero ahí es donde terminan las similitudes. La función de probabilidadL(θ) toma un valor de parámetro θ como entrada, y le dice cuán "probable" es todo su conjunto de datos , dada la distribución del modeloθ . La distribución del modelo.fθ(y) depende de θ , pero como función, toma un valor y como entrada y le dice con qué frecuencia una muestra aleatoria de esa distribución será igual y . El máximo deL(θ) y el modo de fθ(y) No son lo mismo.
Tal vez sea útil ver la fórmula de probabilidad. En el caso de datos IIDy1,y2,…,yn , tenemos
Por lo tanto, encontrar el máximo de la función de probabilidad no es, en general, lo mismo que encontrar el modo de distribución del modelo. (Es el modo de otra distribución, si le preguntas a un Bayesiano objetivo, ¡pero esa es una historia muy diferente!)
fuente
Hay dos cosas para discutir aquí:
Tomemos la película no trivial más simple como ejemplo de trabajo, el modelo logístico. En regresión logística tenemos una respuestay que es 0, 1 valorado. Postulamos quey se distribuye bernoulli condicional en nuestros datos
E intentamos estimar la media de esta distribución condicional (que en este caso es solop ) al vincularlo a una función lineal de X
Haciendo una pausa y reflexionando, vemos en este caso que es natural querer saberp , que es una media de una distribución condicional.
En la configuración de glm,p no se estima directamente, es β que el procedimiento de estimación apunta. Para llegar aβ Usamos la máxima probabilidad. La probabilidad de observar un punto de datosy de la distribución condicional de bernoulli, dado el valor de X observado, y un conjunto específico de parámetros β ,es
dóndep es una función de β y X a través de la relación de vinculación.
Tenga en cuenta que esy que se muestra a partir de una distribución de probabilidad aquí, no beta.
Para aplicar la máxima verosimilitud, cambiamos esto a una función deβ considerando ambos X y y como fijo y observado:
Pero,L No es una función de densidad , es una probabilidad. Al maximizar la probabilidad de que está no la estimación de la forma de una distribución porque simplemente no hay distribución, así, el modo-ize.
Puede producir una densidad deL proporcionando una distribución previa de los parámetros β y usando la regla de Bayes, pero en la formulación clásica de glm, esto no se hace.
fuente
Gracias por todos los comentarios y respuestas. Aunque en ninguno de ellos es 100% la respuesta a mi pregunta, todos me ayudaron a ver a través de la aparente contradicción. Por lo tanto, decidí formular la respuesta yo mismo, creo que este es un resumen de todas las ideas involucradas en los comentarios y respuestas:
Maximización de probabilidad a través de los datos PDFf(y;θ,ϕ) en GLMs no está relacionado con el modo def (pero a su media) debido a 2 razones:
Cuando maximizasf(y;θ,ϕ) tu no considerasf como una función de y , pero en función de β (los parámetros del modelo lineal). Más específicamente, cuando diferenciasf para obtener un sistema de ecuaciones que conduzca a determinar β , no lo haces con respecto a y ; lo haces con respecto aβ . Por lo tanto, el proceso de maximización le brindaβ que maximiza f . Un óptimoβ , y no un óptimo y (que, de hecho, sería el modo), es el resultado del proceso de maximización.
Además, en el proceso de maximización, la media,μ , es una función de β . Por lo tanto, a través del proceso de maximización también obtenemos el óptimoμ .
fuente