En la regresión lineal, la solución Maximizar estimación de probabilidad (MLE) para estimar x tiene la siguiente solución de forma cerrada (suponiendo que A es una matriz con rango de columna completo):
x^lin=argminx∥Ax−b∥22=(ATA)−1ATb
Esto se lee como "encuentra la que minimiza la función objetivo, ". Lo bueno de representar la función objetivo de regresión lineal de esta manera es que podemos mantener todo en notación matricial y resolver a mano . Como Alex R. menciona, en la práctica a menudo no consideramos directamente porque es computacionalmente ineficiente y menudo no cumple con los criterios de rango completo. En cambio, pasamos al pseudoinverso de Moore-Penrose . Los detalles de la resolución computacional de la pseudo-inversa pueden involucrar la descomposición de Cholesky o la descomposición del valor singular.x∥Ax−b∥22x lin ( A T A ) - 1 Ax^lin(ATA)−1A
Alternativamente, la solución MLE para estimar los coeficientes en la regresión logística es:
x^log=argminx∑i=1Ny(i)log(1+e−xTa(i))+(1−y(i))log(1+exTa(i))
donde (suponiendo que cada muestra de datos se almacene en filas):
x es un vector representa coeficientes de regresión
a(i) es un vector que representa la muestra / fila en la matriz de datosithA
y(i) es un escalar en , y la etiqueta correspondiente a la muestra{0,1}ithith
N es el número de muestras de datos / número de filas de matriz de datos .A
Nuevamente, esto se lee como "encontrar la que minimiza la función objetivo".x
Si quisiera, podría ir un paso más allá y representar en notación matricial de la siguiente manera:x^log
x^log=argminx⎡⎣⎢⎢1⋮1(1−y(1))⋮(1−y(N))⎤⎦⎥⎥[log(1+e−xTa(1))log(1+exTa(1))......log(1+e−xTa(N))log(1+exTa(N))]
pero no ganas nada haciendo esto. La regresión logística no tiene una solución de forma cerrada y no obtiene los mismos beneficios que la regresión lineal al representarla en notación matricial. Para resolver por utilizan técnicas de estimación como el descenso de gradiente y el método de Newton-Raphson. Mediante el uso de algunas de estas técnicas (es decir, Newton-Raphson), se aproxima y se representa en notación matricial ( consulte el enlace proporcionado por Alex R. ).x^logx^log
La respuesta de @joceratops se centra en el problema de optimización de la máxima probabilidad de estimación. De hecho, este es un enfoque flexible que se adapta a muchos tipos de problemas. Para estimar la mayoría de los modelos, incluidos los modelos de regresión lineal y logística, existe otro enfoque general que se basa en el método de estimación de momentos.
El estimador de regresión lineal también se puede formular como la raíz de la ecuación de estimación:
En este sentido, es visto como el valor que recupera un residuo promedio de 0. No es necesario confiar en ningún modelo de probabilidad subyacente para tener esta interpretación. Sin embargo, es interesante derivar las ecuaciones de puntuación para una probabilidad normal, de hecho verá que toman exactamente la forma que se muestra arriba. Maximizar la probabilidad de una familia exponencial regular para un modelo lineal (por ejemplo, regresión lineal o logística) es equivalente a obtener soluciones para sus ecuaciones de puntaje.β
Donde tiene el valor esperado g ( X i β ) . En la estimación GLM, se dice que g es el inverso de una función de enlace. En las ecuaciones de probabilidad normal, g - 1 es la función de identidad, y en la regresión logística g - 1 es la función logit. Un enfoque más general sería requerir 0 = ∑ n i = 1 Y - g ( X i β ) que permite la especificación errónea del modelo.Yi g(Xiβ) g g−1 g−1 0=∑ni=1Y−g(Xiβ)
Además, es interesante observar que para familias exponenciales regulares, que se llama una relación media-varianza. De hecho, para la regresión logística, la relación de varianza media es tal que la mediap=g(Xβ)está relacionada con la varianza devar(Yi)=pi(1-pi)∂g(Xβ)∂β=V(g(Xβ)) p=g(Xβ) var(Yi)=pi(1−pi) . Esto sugiere una interpretación de un modelo GLM mal especificado como uno que da un residuo de Pearson promedio 0. Esto sugiere además una generalización para permitir derivadas medias funcionales no proporcionales y relaciones media-varianza.
Un enfoque de ecuación de estimación generalizada especificaría modelos lineales de la siguiente manera:
fuente