Soy nuevo en la conversión de fórmulas a forma de matriz. Pero esto es necesario para un código de aprendizaje automático eficiente. Así que quiero entender la forma "correcta", no las cosas de vaquero que hago.
Bien, aquí vamos, estoy tratando de convertir la suma ponderada de cuadrados del formulario a continuación en forma matricial. A menudo veo la forma de la matriz como equivalente a la siguiente, y no se da ninguna explicación sobre cómo se deriva.
donde es el peso de cada error de muestra . Además, , , , , . es el valor predicho, el resultado de multiplicar un vector de peso por un vector de características.
Esto es lo que pienso, y me vuelvo creativo. Así que siéntase libre de saltar hasta el final si voy por una tangente.
Sea un vector de columna de funciones que representa el error no cuadrado. Podemos representar sobre as
Los resultados del vector multiplicado por el vector es una matriz (escalar).
Vamos ser un vector de pesos que pesa cada error de la muestra. Como necesitamos sopesar los errores al cuadrado, debemos incorporar en la Fórmula antes de obtener el escalar. Como queremos que la primera permanezca como un vector , definimos que es una matriz diagonal con los términos diagonales que provienen de . Ahora tenemos:
Podemos simplificar esto a
Ahora ampliamos . Teníamos multiplicado por , dándonos donde X ahora es una matriz y es un vector de columna . Sea y el vector de columna que representa las etiquetas . Ahora . Sustituimos esto en la fórmula , dándonos la suma ponderada final de los cuadrados en forma de matriz:
Primero, ¿tiene sentido? Segundo, y lo más importante, ¿es así como se supone que debes hacerlo?
Gracias
Respuestas:
Voy a aventurar una respuesta a esta pregunta: todo lo que has presentado es correcto.
Lo que básicamente ha derivado es el teorema de Gauss-Markov: el estimador de mínimos cuadrados ponderado es el mejor estimador lineal imparcial para datos ponderados. Este estimador minimiza la suma de cuadrados ponderada (su primera pantalla) y está dado por: . Aquí es la matriz de diseño con la primera columna establecida en el vector de unos (este es el término de intercepción).β^WLS=(XTWX)(XTWY) X 1 n×1
Este resultado se aplica a una matriz de covarianza arbitraria. Sin embargo, los datos independientes ponderados se representan con un vector de pesos a lo largo de la diagonal de la matriz de pesos. (su notación tiene como el coeficiente de regresión como el peso, por lo que para evitar confusiones, la matriz de diseño sería y .w u X=[x],W=diag(u), β=[w]
La prueba del teorema de Gauss Markov es por contradicción. Ver aquí . Lo que eso significa es que no derivamos analíticamente tal estimador directamente de la función de pérdida. Es posible que haya visto este enfoque utilizado para derivar ecuaciones de estimación de regresión lineal y logística.
fuente