¿Qué hay en un nombre: hiperparámetros?

19

Entonces, en una distribución normal, tenemos dos parámetros: media y varianza . En el libro Pattern Recognition and Machine Learning , de repente aparece un hiperparámetro en los términos de regularización de la función de error. $\mu$ $\sigma^2$ $\lambda$

¿Qué son los hiperparámetros? ¿Por qué son nombrados como tales? ¿Y cómo son intuitivamente diferentes de los parámetros en general?

terminology definition parameterization hyperparameter cgo
fuente

3

Personalmente, creo que es una epidemia de personas que se vuelven hiperactivas. Hiper esto, hiper aquello. Hiperesfera: es una esfera, d @ manit, deja de ponerte tan hiperactivo solo porque la dimensión excede 3. Hiperparámetro: es un parámetro, d @ mnit, deja de ponerte hiperactivo solo porque tienes varios de ellos y de alguna manera pareces pensar que necesitas indicar nivel jerárquico o algo. En cualquier caso, si tiene un problema de optimización, explique claramente qué parámetros se están optimizando y cualquier restricción (si se trata de una optimización de varios niveles, explíquelo). Espero no haberme hiperactivo en este comentario.

Mark L. Stone el

2

Siempre usé "hiperesfera" para significar "co-dimensionar una esfera", así que al menos en matemáticas, parece significar algo. O al menos cuando hablo de matemáticas. Me calmaré ahora.

Matthew Drury el

18

El término hiperparámetro es bastante vago. Lo usaré para referirme a un parámetro que está en un nivel más alto de la jerarquía que los otros parámetros. Por ejemplo, considere un modelo de regresión con una varianza conocida (1 en este caso)

y \sim N (X β, I)

$y \sim N(X\beta,I)$

y luego un previo sobre los parámetros, p. ej.

β \sim N (0, λ I)

$\beta \sim N(0,\lambda I)$

Aquí $\lambda$ determina la distribución de y determina la distribución de . Cuando solo quiero referirme a puedo llamarlo el parámetro y cuando quiero referirme a , puedo llamarlo el hiperparámetro. $\beta$ $\beta$ $y$ $\beta$ $\lambda$

La denominación se vuelve más complicada cuando los parámetros aparecen en varios niveles o cuando hay más niveles jerárquicos (y no desea utilizar el término hiperhíperparámetros). Es mejor si el autor especifica exactamente qué se quiere decir cuando usa el término hiperparámetro o parámetro para ese asunto.

jaradniemi
fuente

Esta es una buena explicación. Ahora lo estoy imaginando como una 'composición de funciones-ish'. Para traducir lo que pones en símbolos, normalmente se distribuye con media , pero a su vez, normalmente se distribuye más o menos. Gracias

y

$y$

X β

$X\beta$

b e t a

$beta$

cgo

10

Un hiperparámetro es simplemente un parámetro que impacta, total o parcialmente, otros parámetros. No resuelven directamente el problema de optimización que enfrenta, sino que optimizan los parámetros que pueden resolver el problema (de ahí el hiper , porque no son parte del problema de optimización, sino que son "complementos"). Por lo que he visto, pero no tengo referencia, esta relación es unidireccional (un hiperparámetro no puede ser influenciado por los parámetros en los que tiene influencia, por lo tanto, también el hiper ). Por lo general, se introducen en esquemas de regularización o metaoptimización.

Por ejemplo, su parámetro puede impactar libremente en y para ajustar el costo de regularización (pero y no tienen influencia en ). Por lo tanto, es un hiperparámetro para y . Si tuviera un parámetro adicional que influye en , sería un hiperparámetro para y un hiperparámetro para y (pero nunca he visto esta nomenclatura, pero no creo que esté mal si lo vi) $\lambda$ $\mu$ $\sigma$ $\mu$ $\sigma$ $\lambda$ $\lambda$ $\mu$ $\sigma$ $\tau$ $\lambda$ $\lambda$ $\mu$ $\sigma$

Encontré el concepto de hiperparámetro muy útil para la validación cruzada, porque le recuerda la jerarquía de parámetros, al tiempo que le recuerda que si todavía está modificando (hiper) parámetros, todavía está validando de forma cruzada y no generalizando, por lo que debe Tenga cuidado con sus conclusiones (para evitar el pensamiento circular).

gaborous
fuente

7

Las otras explicaciones son un poco vagas; Aquí hay una explicación más concreta que debería aclararlo.

Los hiperparámetros son parámetros del modelo solamente , no del proceso físico que se está modelando. Los presenta "artificialmente" para que su modelo "funcione" en presencia de datos finitos y / o tiempo de cálculo finito . Si tuviera un poder infinito para medir o calcular algo, los hiperparámetros ya no existirían en su modelo, ya que no estarían describiendo ningún aspecto físico del sistema real.

Los parámetros regulares, por otro lado, son aquellos que describen el sistema físico, y no son simplemente artefactos de modelado.

Mehrdad
fuente

6

No es un término definido con precisión, por lo que seguiré adelante y le daré otra definición que parece ser consistente con el uso común.

Un hiperparámetro es una cantidad estimada en un algoritmo de aprendizaje automático que no participa en la forma funcional de la función predictiva final.

Permítanme relajar eso con un ejemplo, regresión de cresta. En la regresión de crestas resolvemos el siguiente problema de optimización:

β^{*} (λ) = {argmin}_{β} ((y - X β)^{t} (y - X β) + λ β^{t} β)

$\beta^*(\lambda) = \text{argmin}_{\beta} \left( (y - X\beta)^t (y - X\beta) + \lambda \beta^t \beta \right)$

β^{*} = {argmin}_{λ} (y^{'} - X^{'} β (λ))^{t} (y^{'} - X^{'} β (λ))

$\beta^* = \text{argmin}_{\lambda} (y' - X'\beta(\lambda))^t (y' - X'\beta(\lambda))$

$X, y$ $X', y'$

F (X) = X β^{*}

$f(X) = X \beta^*$

$\lambda$ $\beta$ $\lambda$

Matthew Drury
fuente

3

Como señaló con precisión @jaradniemi, un uso del término hiperparámetro proviene del modelado jerárquico o multinivel, donde se tiene una cascada de modelos estadísticos, uno construido sobre / debajo de los otros, usando declaraciones de probabilidad generalmente condicionales.

Pero la misma terminología surge en otros contextos con diferentes significados también. Por ejemplo, he visto el término hiperparámetro utilizado para referirse a los parámetros de la simulación (longitud de carrera, número de repeticiones independientes, número de partículas que interactúan en cada replicación, etc.) de un modelo estocástico, que no resultó de un multinivel modelado.

Marcelo Ventura
fuente

1

FWIW Normalmente me referiría a la longitud de carrera, el número de partículas que interactúan, etc., como parámetros de ajuste.

jaradniemi

Estoy de acuerdo. Para mí, suena una opción más adecuada que los hiperparámetros. Sin embargo, para otros, en otras áreas del conocimiento, todavía sonaba lo suficientemente razonable.

Marcelo Ventura

¿Qué hay en un nombre: hiperparámetros?

Respuestas: