En el aprendizaje automático, ¿por qué se usan superíndices en lugar de subíndices?

Estoy tomando el curso de Andrew Ng sobre Machine Learning a través de Coursera . Para las ecuaciones, se utilizan superíndices en lugar de subíndices. Por ejemplo, en la siguiente ecuación se usa $x^{(i)}$ lugar de $x_i$ :

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

Aparentemente, esta es una práctica común. Mi pregunta es ¿por qué usar superíndices en lugar de subíndices? Los superíndices ya se usan para exponenciación. De acuerdo, parece que puedo desambiguar entre los casos de uso de superíndice y exponenciación prestando atención a si hay paréntesis o no, pero aún parece confuso.

machine-learning notation entpnerd
fuente

Sospecho que tal vez sea porque algunas personas de la informática no están familiarizadas con la notación matemática estándar y, por lo tanto, inventan su propia notación. Los actuarios también hacen esto a veces, y es frustrante cuando llegas a conceptos más complicados.

rocinante

¿Está iindexando sobre el tamaño del conjunto de datos o sobre los elementos del vector x? Si es lo primero, eso es totalmente estándar. Si es lo último, eso es totalmente no estándar. Y la razón por la que se usa el superíndice es porque a veces desea referirse al elemento del vector usando el subíndice.

Rex Kerr

@rocinante lol no, es porque los subíndices ya están tomados para indexar vectores.

Neil G

@rocinante Eso es bastante presuntuoso. ¿Qué pasa con los vectores contravariantes / notación de Einstein ?

Will Vousden

@rocinante Tengo que hacerme eco de otros al subrayar que su redacción es desafortunada. Todos tenemos una tendencia a considerar lo que es local y familiar como estándar.

Nick Cox

Respuestas:

Si denota un vector entonces es una notación estándar para la coordenada -ésima de , es decir, $x$ $x \in \mathbb R^m$ $x_i$ $i$ $x$

x = (x_{1}, x_{2}, \dots, x_{m}) \in R^{m} .

$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$

Si tiene una colección de tales vectores, ¿cómo denotaría un -ésimo vector? No puedes escribir , esto tiene otro significado estándar. Entonces a veces la gente escribe $n$ $i$ $x_i$ y es por eso que creo que Andrew Ng lo hace. $x^{(i)}$

Es decir

x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}) \in R^{m} x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{m}^{(2)}) \in R^{m} \dots x^{(n)} = (x_{1}^{(n)}, x_{2}^{(n)}, \dots, x_{m}^{(n)}) \in R^{m} .

$\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}$

ameba dice Reinstate Monica
fuente

No estoy en desacuerdo, pero a menudo se usa

, es decir, para mediciones repetidas.

x_{i j}

$x_{ij}$

Cliff AB

Sí, pero

es equivalente a mi

; ¿Cuál sería el equivalente de

x_{i j}

$x_{ij}$

x_{j}^{(i)}

$x^{(i)}_j$

x^{(i)}

$x^{(i)}$

ameba dice Reinstate Monica

Sí, eso es una ventaja. Creo que

a veces se usa, pero esto podría confundirse con

x_{i .}

$x_{i.}$

\sum_{j = 1}^{n} x_{i j} / m

$\sum_{j= 1}^n x_{ij}/m$

Cliff AB

Si desea iterar sobre matrices, entonces

parece la forma más intuitiva de hacerlo. Por lo tanto, la notación se mantiene constante cuando se pasa de vectores a matrices.

x_{m n}^{(i)}

$x_{mn}^{(i)}$

josh

@JAB Sí, es para hacer la notación más explícita ("sugerencia de tipo" como usted dice). Por supuesto, uno puede aceptar usar

para el

-ésimo vector y

para el elemento

-ésimo del

-ésimo vector. Hay varias convenciones posibles, esta es solo una de ellas. Ni siquiera digo que sea la mejor, solo explicando la razón detrás de esto.

x_{i}

$x_i$

i

$i$

x_{i j}

$x_{ij}$

j

$j$

i

$i$

ameba dice Reinstate Monica

El uso de super scripts como usted ha dicho, creo que es no muy común en la literatura de aprendizaje automático. Tendría que revisar las notas del curso de Ng para confirmar, pero si él está poniendo ese uso allí, diría que sería el origen de la proliferación de esta notación. Esta es una posibilidad. De cualquier manera, para no ser demasiado cruel, pero no creo que muchos de los estudiantes del curso en línea estén publicando literatura sobre aprendizaje automático, por lo que esta notación no es muy común en la literatura real. Después de todo, estos son cursos introductorios de aprendizaje automático, no cursos de nivel de doctorado.

Lo que es muy común con los súper scripts es denotar la iteración de un algoritmo que usa súper scripts. Por ejemplo, podría escribir una iteración del método de Newton como

$\theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

donde es la arpillera y es el gradiente. $H(\theta^{(t)})$ $\nabla \theta^{(t)}$

(... sí, esta no es la mejor manera de implementar el método de Newton debido a la inversión de la matriz de Hesse ...)

Aquí, representa el valor de en la iteración . Este es el uso más común (pero ciertamente no solo) de super scripts que conozco. $\theta^{(t)}$ $\theta$ $t^{th}$

EDITAR: Para aclarar, en la pregunta original, parecía sugerir que en la notación ML, era equivalente a la notación estadística . En mi respuesta, afirmo que esto no es realmente frecuente en la literatura de ML. Esto es verdad. Sin embargo, como a cabo en punta por @amoeba, hay un montón de notación superíndice en la literatura ML para los datos, pero en estos casos típicamente no significa que el observación de un único vector . $x^{(i)}$ $x_i$ $x^{(i)}$ $i^{th}$ $x$

Acantilado
fuente

El choque con el uso de superíndices entre paréntesis / entre paréntesis para el recuento de iteraciones (una notación que es de uso común en una amplia gama de áreas) es algo muy importante para plantear.

Glen_b -Reinstale a Monica

También se usa comúnmente para indicar el índice de la muestra en el conjunto de entrenamiento, que es como la iteración pero no exactamente igual porque generalmente terminas iterando a través de tu conjunto de entrenamiento muchas veces.

Rex Kerr

También he visto recuentos de iteraciones observados usando subíndices (

a_{n + 1} = a_{n} + 1

a_{n + 1} = a_{n} + 1

$a_{n+1} = a_n + 1$ ) así como en línea (

a (n + 1) = a (n) + 1

$a(n+1) = a(n) + 1$ ) Es por eso que, cuando utilizo alguna notación específica, generalmente pongo algo al principio para desambiguar (por ejemplo, decir "en la siguiente serie, bla, bla, bla" y luego poner las matemáticas). Por lo tanto, cualquiera que sea la notación en uso, los lectores pueden (con suerte) intuir el significado de casos potencialmente ambiguos en lugar de tener que adivinar en función de las convenciones que conocen.

JAB

Estoy de acuerdo con @JAB. En general, no creo que sea atroz para las personas que escribirán y usarán código para tomar prestada la notación del software en tratamientos matemáticos. Por ejemplo, y polémicamente, las personas informáticas están muy por delante de muchos grupos matemáticos en el uso de notación limpia como

(x > 0)

$(x > 0)$ , para ser evaluado como 1 si es verdadero y 0 si es falso, en lugar de formalismos innecesarios como

I (x > 0)

$I(x > 0)$ ; aquí solo estoy siguiendo a Donald Knuth.

Nick Cox

@NickCox Generalmente solo veo el

I (x > 0)

$I(x > 0)$ forma cuando se trata de probabilidad; de otra manera,

x > 0

$x > 0$ es solo una restricción de desigualdad. Cuando se trata de ecuaciones matemáticas, se dividen en representaciones por partes o simplemente representan la ecuación en sí misma como una desigualdad, ya que de lo contrario induciría ambigüedad. (Es similar a cómo

=

$=$ en matemáticas es más sutil que cualquiera =o ==en la mayoría de los lenguajes de programación; introduce una restricción o definición en lugar de una asignación real o verificación de igualdad.)

JAB

Los superíndices ya se usan para exponenciación.

En matemáticas, los superíndices se usan de izquierda a derecha según el campo. La elección es siempre un legado histórico, nada más. Quien primero ingresó al campo estableció la convención de usar subíndices o superíndices.

Dos ejemplos Los superíndices se usan para denotar derivados: $f(x)^{(n)}$

En el álgebra tensorial, tanto súper como subíndices se usan mucho para lo mismo que $R^i_i$ puede significar $i$ rows and $j$ columns. It's quite expressive: $T_i^k=R_i^jC_j^k$

Also I remember using scripts before letters (prescripts) in Physics, e.g. $^i_jB_k^l$ . I think it was with tensors.

Hence, the choice of superscripts by Ng is purely historical too. There's no real reason to use or not use them, or prefer them to subscripts. Actually, I believe that here ML people are using tensor notation. They definitely are well versed in the subject, e.g. see this paper.

Aksakal
fuente

Another example for your point: Einstein notation

Neil G