¿Cuáles son las notaciones clásicas en estadística, álgebra lineal y aprendizaje automático? ¿Y cuáles son las conexiones entre estas notaciones?

Cuando leemos un libro, entender las anotaciones juega un papel muy importante para comprender los contenidos. Desafortunadamente, diferentes comunidades tienen diferentes convenciones de notación para la formulación del modelo y el problema de optimización. ¿Podría alguien resumir algunas anotaciones de formulación aquí y proporcionar posibles razones?

Daré un ejemplo aquí: en la literatura de álgebra lineal, el libro clásico es la introducción de Strang al álgebra lineal . La notación más utilizada en el libro es

A x = b

$A x=b$

Donde es una matriz de coeficientes , son las variables a resolver y es un vector en el lado derecho de la ecuación . La razón por la cual el libro elige esta notación es el objetivo principal del álgebra lineal es resolver un sistema lineal y descubrir qué es el vector . Dada tal formulación, el problema de optimización de OLS es $A$ $x$ $b$ $x$

\underset{x}{minimize} ‖ A x - b ‖^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

En estadística o alfabetización de aprendizaje automático (del libro Elementos de aprendizaje estadístico ) las personas usan notación diferente para representar lo mismo:

X β = y

$X \beta= y$

Donde $X$ es la matriz de datos , $\beta$ son los coeficientes o pesos para aprender aprendiendo , $y$ es la respuesta. La razón por la que las personas usan esto es porque las personas en las estadísticas o en la comunidad de aprendizaje automático se basan en datos , por lo que los datos y la respuesta son lo más interesante para ellos, donde usan $X$ e $y$ para representar.

Ahora podemos ver que toda la posible confusión puede estar ahí: $A$ en la primera ecuación es igual a $X$ en la segunda ecuación. Y en la segunda ecuación, $X$ no es algo que deba resolverse. También para los términos: $A$ es la matriz de coeficientes en álgebra lineal, pero son datos en estadística. $\beta$ también se llama "coeficientes".

Además, mencioné que $X \beta=y$ no es exactamente lo que la gente usa ampliamente en el aprendizaje automático, la gente usa una versión medio vectorizada que resume todos los puntos de datos. Como

min \sum_{i} L (y_{i}, f (x_{i}))

$\min \sum_i \text{L}(y_i,f(x_i))$

Creo que la razón de esto es que es bueno cuando se habla del descenso de gradiente estocástico y otras funciones de pérdida diferentes. Además, la notación de matriz concisa desaparece por otros problemas además de la regresión lineal.

Notación matricial para regresión logística

¿Alguien podría dar más resúmenes sobre las notaciones que cruzan la literatura diferente? Espero que las respuestas inteligentes a esta pregunta puedan usarse como una buena referencia para las personas que leen libros que cruzan literatura diferente.

por favor no estar limitado por mi ejemplo y . Hay muchos otros Como $A x=b$ $X \beta=y$

¿Por qué hay dos formulaciones / anotaciones de pérdida logística diferentes?

machine-learning probability self-study optimization hxd1011
fuente

La notación realmente no existe como una especie de verdad verificable externamente. Es un lenguaje, por lo que es inherentemente contextual y está listo para la redefinición. Si escribo x * b y digo que significa vector de producto de matriz x punto b, simplemente está en negrita o no.

Sycorax dice Reinstate Monica

Yo diría que y tienen calificación equivalente. Solo los nombres de las variables han cambiado. En general, no encontrará nombres consistentes de las variables de papel a papel, incluso dentro de un campo.

A x = b

$Ax = b$

X β = y

$X \beta = y$

user20160

En la actualidad, esto tiene 10 votos a favor, 150 visitas; parece ser un hilo valioso y útil. Además, tiene una respuesta votada; así que no creo que sea demasiado amplio para ser respondido.

gung - Restablece a Monica

Estoy de acuerdo con @gung, la comunidad claramente tiene cierto interés en esta pregunta. Nominé para reabrir.

Matthew Drury

Creo que es demasiado amplio para una q normal. - pero como ya es CW y algo popular, he agregado mi voto para volver a abrir a los cuatro que estaban allí.

Scortchi - Restablece a Monica

Respuestas:

Tal vez una pregunta relacionada es: "¿Qué palabras se usan en diferentes idiomas y cuáles son las conexiones entre estas palabras?"

La notación es en cierto sentido como el lenguaje:

Algunas palabras tienen significados específicos de la región; Algunas palabras son ampliamente entendidas.
Al igual que las naciones poderosas difunden su idioma, los campos exitosos y los investigadores influyentes difunden su notación.
El lenguaje evoluciona con el tiempo: el lenguaje tiene una mezcla de orígenes históricos e influencia moderna.

Tu pregunta específica ...

No estaría de acuerdo con su afirmación de que los dos siguen una "notación completamente diferente". Tanto como usan letras mayúsculas para denotar matrices. No son que diferente. $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$
El aprendizaje automático está muy relacionado con las estadísticas, un campo grande y maduro. Usar para representar la matriz de datos es casi seguro la convención más legible y más estándar a seguir. Si bien es estándar para resolver sistemas lineales, no es así como las personas que hacen estadísticas escriben las ecuaciones normales. Encontrarás a tu audiencia más confundida si intentas hacer eso. Cuando en Roma... $X$ $A\mathbf{x} = \mathbf{b}$
En cierto sentido, el corazón de su pregunta revisada es: "¿Cuáles son los orígenes históricos de las estadísticas que usan la letra para representar datos y la letra para representar la variable desconocida por la que debemos resolver?" β
- ¡Esta es una pregunta para los historiadores estadísticos! Brevemente buscando, veo que el influyente estadístico británico y académico de Cambridge, Udny Yule, usó para representar datos en su Introducción a la teoría de la estadística (1911). Escribió una ecuación de regresión como , con el objetivo de mínimos cuadrados como minimizar , y con la solución . Al menos se remonta a entonces ... $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$
- El aún más influyente RA Fisher usó para la variable dependiente para la variable independiente en su libro de 1925 Métodos estadísticos para investigadores . (Sugerencia para @Nick Cox por proporcionar un enlace con información). $y$ $x$

La buena notación es como un buen lenguaje. Evite la jerga específica del campo siempre que sea posible. Escriba en el equivalente matemático de inglés de alto nivel de la BBC, idioma que sea comprensible para la mayoría de las personas que hablan inglés. Uno debería escribir, siempre que sea posible, usando notación que sea clara y que se entienda ampliamente.

Matthew Gunn
fuente

Este historiador aficionado de las estadísticas puede proporcionar una corrección pedante de que Yule nunca fue profesor ... Más interesante aún, hay un sitio web pertinente en jeff560.tripod.com/stat.html, excepto que parece estar caído en la actualidad.

Nick Cox

math.hawaii.edu/~tom/history/stat.html parece ser una copia. Convenciones sistemáticas como el griego para los parámetros y el romano para las variables entiendo que se debe en gran medida a RA Fisher, pero hay muchas limitaciones, por ejemplo, para la estadística de chi-cuadrado de la muestra no muestra signos de desvanecimiento.

χ^{2}

$\chi^2$

Nick Cox

@NickCox Fantástico enlace jeff560.tripod.com/stat.html (para mí ...) que hace referencia a Yule y RA Fisher. Los primeros orígenes matemáticos de la regresión, obviamente, se remontan antes a Gauss y Laplace, pero en mi búsqueda completa de aficionados, parecían usar notación diferente.

Matthew Gunn

jeff560.tripod.com/stat.html mientras escribo es una actualización de 2014; www.math.hawaii.edu/~tom/history/stat.html es una copia de una versión de 2007.

Nick Cox