Notación matricial para regresión logística

En la regresión lineal (pérdida al cuadrado), usando una matriz tenemos una notación muy concisa para el objetivo

minimize ‖ A x - b ‖^{2}

$\text{minimize}~~ \|Ax-b\|^2$

Donde es la matriz de datos, son los coeficientes y es la respuesta. $A$ $x$ $b$

¿Existe una notación matricial similar para el objetivo de regresión logística? Todas las anotaciones que he visto no pueden eliminar la suma de todos los puntos de datos (algo así como $\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)$ ).

EDITAR: gracias por joceratops y la gran respuesta de AdamO. Su respuesta me ayudó a darme cuenta de que otra razón por la que la regresión lineal tiene una notación más concisa es porque la definición de la norma, que encapsula el cuadrado y la suma o $e^\top e$ . Pero en la pérdida logística, no existe tal definición, lo que hace que la notación sea un poco más complicada.

regression logistic linear-model notation Haitao Du
fuente

Respuestas:

En la regresión lineal, la solución Maximizar estimación de probabilidad (MLE) para estimar $x$ tiene la siguiente solución de forma cerrada (suponiendo que A es una matriz con rango de columna completo):

{\hat{x}}_{lin} = \underset{x}{argmin} ‖ A x - b ‖_{2}^{2} = (A^{T} A)^{- 1} A^{T} b

$\hat{x}_\text{lin}=\underset{x}{\text{argmin}} \|Ax-b\|_2^2 = (A^TA)^{-1}A^Tb$

Esto se lee como "encuentra la que minimiza la función objetivo, ". Lo bueno de representar la función objetivo de regresión lineal de esta manera es que podemos mantener todo en notación matricial y resolver a mano . Como Alex R. menciona, en la práctica a menudo no consideramos directamente porque es computacionalmente ineficiente y menudo no cumple con los criterios de rango completo. En cambio, pasamos al pseudoinverso de Moore-Penrose . Los detalles de la resolución computacional de la pseudo-inversa pueden involucrar la descomposición de Cholesky o la descomposición del valor singular. $x$ $\|Ax-b\|_2^2$ $\hat{x}_\text{lin}$ $(A^TA)^{-1}$ $A$

Alternativamente, la solución MLE para estimar los coeficientes en la regresión logística es:

{\hat{x}}_{log} = \underset{x}{argmin} \sum_{i = 1}^{N} y^{(i)} \log (1 + e^{- x^{T} a^{(i)}}) + (1 - y^{(i)}) \log (1 + e^{x^{T} a^{(i)}})

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \sum_{i=1}^{N} y^{(i)}\log(1+e^{-x^Ta^{(i)}}) + (1-y^{(i)})\log(1+e^{x^T a^{(i)}})$

donde (suponiendo que cada muestra de datos se almacene en filas):

$x$ es un vector representa coeficientes de regresión

$a^{(i)}$ es un vector que representa la muestra / fila en la matriz de datos $i^{th}$ $A$

$y^{(i)}$ es un escalar en , y la etiqueta correspondiente a la muestra $\{0, 1\}$ $i^{th}$ $i^{th}$

$N$ es el número de muestras de datos / número de filas de matriz de datos . $A$

Nuevamente, esto se lee como "encontrar la que minimiza la función objetivo". $x$

Si quisiera, podría ir un paso más allá y representar en notación matricial de la siguiente manera: $\hat{x}_\text{log}$

{\hat{x}}_{log} = \underset{x}{argmin} [\begin{matrix} 1 & (1 - y^{(1)}) \\ ⋮ & ⋮ \\ 1 & (1 - y^{(N)}) \end{matrix}] [\begin{matrix} \log (1 + e^{- x^{T} a^{(1)}}) & . . . & \log (1 + e^{- x^{T} a^{(N)}}) \\ \log (1 + e^{x^{T} a^{(1)}}) & . . . & \log (1 + e^{x^{T} a^{(N)}}) \end{matrix}]

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \begin{bmatrix} 1 & (1-y^{(1)}) \\ \vdots & \vdots \\ 1 & (1-y^{(N)})\\\end{bmatrix} \begin{bmatrix} \log(1+e^{-x^Ta^{(1)}}) & ... & \log(1+e^{-x^Ta^{(N)}}) \\\log(1+e^{x^Ta^{(1)}}) & ... & \log(1+e^{x^Ta^{(N)}}) \end{bmatrix}$

pero no ganas nada haciendo esto. La regresión logística no tiene una solución de forma cerrada y no obtiene los mismos beneficios que la regresión lineal al representarla en notación matricial. Para resolver por utilizan técnicas de estimación como el descenso de gradiente y el método de Newton-Raphson. Mediante el uso de algunas de estas técnicas (es decir, Newton-Raphson), se aproxima y se representa en notación matricial ( consulte el enlace proporcionado por Alex R. ). $\hat{x}_\text{log}$ $\hat{x}_\text{log}$

joceratops
fuente

Excelente. Gracias. Creo que la razón por la que no tenemos algo como resolver

es la razón por la que no damos ese paso más para hacer la notación matricial y evitar el símbolo de suma.

A^{⊤} A x = A^{⊤} b

$A^\top A x=A^\top b$

Haitao Du

Tenemos alguna ventaja de dar un paso más allá, convertirlo en multiplicación matricial haría que el código sea más simple, y en muchas plataformas como matlab, el bucle con suma sobre todos los datos es mucho más lento que las operaciones matriciales.

Haitao Du

@ hxd1011: Solo un pequeño comentario: reducir a ecuaciones matriciales no siempre es prudente. En el caso de

, en realidad no debería intentar buscar la matriz inversa

, sino hacer algo como una descomposición de Cholesky que será mucho más rápida y numéricamente más estable. Para la regresión logística, hay un montón de esquemas de iteración diferentes que de hecho usan cálculos matriciales. Para una excelente revisión, vea aquí: research.microsoft.com/en-us/um/people/minka/papers/logreg/…

A^{T} A x = A^{T} b

$A^TAx=A^Tb$

A^{T} A

$A^TA$

Alex R.

@AlexR. muchas gracias. Aprendí que usar la ecuación normal hará que el número condicional de la matriz sea cuadrado. Y QR o Cholesky serían mucho mejores. Su enlace es excelente, tal revisión con métodos numéricos es siempre lo que quería.

Haitao Du

La respuesta de @joceratops se centra en el problema de optimización de la máxima probabilidad de estimación. De hecho, este es un enfoque flexible que se adapta a muchos tipos de problemas. Para estimar la mayoría de los modelos, incluidos los modelos de regresión lineal y logística, existe otro enfoque general que se basa en el método de estimación de momentos.

El estimador de regresión lineal también se puede formular como la raíz de la ecuación de estimación:

0 = X^{T} (Y - X β)

$0 = \mathbf{X}^T(Y - \mathbf{X}\beta)$

En este sentido, es visto como el valor que recupera un residuo promedio de 0. No es necesario confiar en ningún modelo de probabilidad subyacente para tener esta interpretación. Sin embargo, es interesante derivar las ecuaciones de puntuación para una probabilidad normal, de hecho verá que toman exactamente la forma que se muestra arriba. Maximizar la probabilidad de una familia exponencial regular para un modelo lineal (por ejemplo, regresión lineal o logística) es equivalente a obtener soluciones para sus ecuaciones de puntaje. $\beta$

0 = \sum_{i = 1}^{n} S_{i} (α, β) = \frac{\partial}{\partial β} \log L (β, α, X, Y) = X^{T} (Y - g (X β))

$0 = \sum_{i=1}^n S_i(\alpha, \beta) = \frac{\partial}{\partial \beta} \log \mathcal{L}( \beta, \alpha, X, Y) = \mathbf{X}^T (Y - g(\mathbf{X}\beta))$

Donde tiene el valor esperado . En la estimación GLM, se dice que es el inverso de una función de enlace. En las ecuaciones de probabilidad normal, es la función de identidad, y en la regresión logística es la función logit. Un enfoque más general sería requerir que permite la especificación errónea del modelo. $Y_i$ $g(\mathbf{X}_i \beta)$ $g$ $g^{-1}$ $g^{-1}$ $0 = \sum_{i=1}^n Y - g(\mathbf{X}_i\beta)$

Además, es interesante observar que para familias exponenciales regulares, que se llama una relación media-varianza. De hecho, para la regresión logística, la relación de varianza media es tal que la mediaestá relacionada con la varianza de $\frac{\partial g(\mathbf{X}\beta)}{\partial \beta} = \mathbf{V}(g(\mathbf{X}\beta))$ $p = g(\mathbf{X}\beta)$ $\mbox{var}(Y_i) = p_i(1-p_i)$ . Esto sugiere una interpretación de un modelo GLM mal especificado como uno que da un residuo de Pearson promedio 0. Esto sugiere además una generalización para permitir derivadas medias funcionales no proporcionales y relaciones media-varianza.

Un enfoque de ecuación de estimación generalizada especificaría modelos lineales de la siguiente manera:

0 = \frac{\partial g (X β)}{\partial β} V^{- 1} (Y - g (X β))

$0 = \frac{\partial g(\mathbf{X}\beta)}{\partial \beta} \mathbf{V}^{-1}\left(Y - g(\mathbf{X}\beta)\right)$

$\mathbf{V}$ $g(\mathbf{X}\beta)$

$g$ $V_{ii}$ $g(\mathbf{X}_i \beta)(1-g(\mathbf{X}\beta))$ $\beta$ . Lo cual, dados los peligros bien documentados de interpretar los OR como RR, me corresponde preguntar por qué alguien ya se ajusta a los modelos de regresión logística.

AdamO
fuente

+1 gran respuesta. formularlo como un hallazgo de raíz en derivada es realmente nuevo para mí. y la segunda ecuación es realmente concisa.

Haitao Du