Entonces, en una distribución normal, tenemos dos parámetros: media y varianza . En el libro Pattern Recognition and Machine Learning , de repente aparece un hiperparámetro en los términos de regularización de la función de error.
¿Qué son los hiperparámetros? ¿Por qué son nombrados como tales? ¿Y cómo son intuitivamente diferentes de los parámetros en general?
Respuestas:
El término hiperparámetro es bastante vago. Lo usaré para referirme a un parámetro que está en un nivel más alto de la jerarquía que los otros parámetros. Por ejemplo, considere un modelo de regresión con una varianza conocida (1 en este caso)
y luego un previo sobre los parámetros, p. ej.
Aquíλ determina la distribución de y determina la distribución de . Cuando solo quiero referirme a puedo llamarlo el parámetro y cuando quiero referirme a , puedo llamarlo el hiperparámetro.β β y β λ
La denominación se vuelve más complicada cuando los parámetros aparecen en varios niveles o cuando hay más niveles jerárquicos (y no desea utilizar el término hiperhíperparámetros). Es mejor si el autor especifica exactamente qué se quiere decir cuando usa el término hiperparámetro o parámetro para ese asunto.
fuente
Un hiperparámetro es simplemente un parámetro que impacta, total o parcialmente, otros parámetros. No resuelven directamente el problema de optimización que enfrenta, sino que optimizan los parámetros que pueden resolver el problema (de ahí el hiper , porque no son parte del problema de optimización, sino que son "complementos"). Por lo que he visto, pero no tengo referencia, esta relación es unidireccional (un hiperparámetro no puede ser influenciado por los parámetros en los que tiene influencia, por lo tanto, también el hiper ). Por lo general, se introducen en esquemas de regularización o metaoptimización.
Por ejemplo, su parámetro puede impactar libremente en y para ajustar el costo de regularización (pero y no tienen influencia en ). Por lo tanto, es un hiperparámetro para y . Si tuviera un parámetro adicional que influye en , sería un hiperparámetro para y un hiperparámetro para y (pero nunca he visto esta nomenclatura, pero no creo que esté mal si lo vi)λ μ σ μ σ λ λ μ σ τ λ λ μ σ
Encontré el concepto de hiperparámetro muy útil para la validación cruzada, porque le recuerda la jerarquía de parámetros, al tiempo que le recuerda que si todavía está modificando (hiper) parámetros, todavía está validando de forma cruzada y no generalizando, por lo que debe Tenga cuidado con sus conclusiones (para evitar el pensamiento circular).
fuente
Las otras explicaciones son un poco vagas; Aquí hay una explicación más concreta que debería aclararlo.
Los hiperparámetros son parámetros del modelo solamente , no del proceso físico que se está modelando. Los presenta "artificialmente" para que su modelo "funcione" en presencia de datos finitos y / o tiempo de cálculo finito . Si tuviera un poder infinito para medir o calcular algo, los hiperparámetros ya no existirían en su modelo, ya que no estarían describiendo ningún aspecto físico del sistema real.
Los parámetros regulares, por otro lado, son aquellos que describen el sistema físico, y no son simplemente artefactos de modelado.
fuente
No es un término definido con precisión, por lo que seguiré adelante y le daré otra definición que parece ser consistente con el uso común.
Permítanme relajar eso con un ejemplo, regresión de cresta. En la regresión de crestas resolvemos el siguiente problema de optimización:
fuente
Como señaló con precisión @jaradniemi, un uso del término hiperparámetro proviene del modelado jerárquico o multinivel, donde se tiene una cascada de modelos estadísticos, uno construido sobre / debajo de los otros, usando declaraciones de probabilidad generalmente condicionales.
Pero la misma terminología surge en otros contextos con diferentes significados también. Por ejemplo, he visto el término hiperparámetro utilizado para referirse a los parámetros de la simulación (longitud de carrera, número de repeticiones independientes, número de partículas que interactúan en cada replicación, etc.) de un modelo estocástico, que no resultó de un multinivel modelado.
fuente