La idea "fundamental" de las estadísticas para estimar los parámetros es la máxima probabilidad . Me pregunto cuál es la idea correspondiente en el aprendizaje automático.
Qn 1. ¿Sería justo decir que la idea 'fundamental' en el aprendizaje automático para estimar parámetros es: 'Funciones de pérdida'
[Nota: tengo la impresión de que los algoritmos de aprendizaje automático a menudo optimizan una función de pérdida y, por lo tanto, la pregunta anterior.]
Qn 2: ¿Existe alguna literatura que intente cerrar la brecha entre las estadísticas y el aprendizaje automático?
[Nota: Quizás, por relacionar las funciones de pérdida con la máxima probabilidad. (por ejemplo, OLS es equivalente a la probabilidad máxima de errores normalmente distribuidos, etc.)]
fuente
Respuestas:
Si la estadística se trata de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar la pérdida. Como no conoce la pérdida en la que incurrirá en datos futuros, minimiza una aproximación, es decir, una pérdida empírica.
Por ejemplo, si tiene una tarea de predicción y es evaluado por el número de clasificaciones erróneas, podría entrenar parámetros para que el modelo resultante produzca el menor número de clasificaciones erróneas en los datos de entrenamiento. "Número de clasificaciones erróneas" (es decir, pérdida de 0-1) es una función de pérdida difícil de trabajar porque no es diferenciable, por lo que se aproxima con un "sustituto" suave. Por ejemplo, la pérdida de registro es un límite superior en la pérdida 0-1, por lo que podría minimizar eso, y esto será lo mismo que maximizar la probabilidad condicional de los datos. Con el modelo paramétrico, este enfoque se vuelve equivalente a la regresión logística.
En una tarea de modelado estructurado y una aproximación de pérdida de registro de pérdida 0-1, obtiene algo diferente de la probabilidad condicional máxima, en su lugar, maximizará el producto de las probabilidades marginales (condicionales).
Para obtener una mejor aproximación de la pérdida, las personas notaron que el modelo de entrenamiento para minimizar la pérdida y usar esa pérdida como una estimación de la pérdida futura es una estimación demasiado optimista. Entonces, para una minimización más precisa (pérdida real futura) agregan un término de corrección de sesgo a la pérdida empírica y minimizan eso, esto se conoce como minimización de riesgo estructurada.
En la práctica, descubrir el término correcto de corrección de sesgo puede ser demasiado difícil, por lo que agrega una expresión "en el espíritu" del término de corrección de sesgo, por ejemplo, la suma de cuadrados de parámetros. Al final, casi todos los enfoques de clasificación supervisada de aprendizaje automático paramétrico terminan entrenando el modelo para minimizar lo siguiente
donde es su modelo parametrizado por el vector w , i se toma sobre todos los puntos de datos { x i , y i } , L es una aproximación computacionalmente agradable de su pérdida real y P ( w ) es un término de corrección de sesgo / regularizaciónmetro w yo { xyo, yyo} L PAG( w )
Por ejemplo, si su , y ∈ { - 1 , 1 } , un enfoque típico sería dejar que m ( x ) = signo ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x ∈ { - 1 , 1 }re y∈ { - 1 , 1 } m (x)= signo (w⋅x) L ( m ( x ) , y) = - log( y× ( x ⋅ w ) ) , y elija q por validación cruzadaPAG( w ) = q× ( w ⋅ w ) q
fuente
Daré una respuesta detallada. Puede proporcionar más citas a pedido, aunque esto no es realmente controvertido.
No creo que haya una brecha entre los campos, solo muchos enfoques diferentes, todos superpuestos hasta cierto punto. No siento la necesidad de convertirlos en disciplinas sistemáticas con diferencias y similitudes bien definidas, y dada la velocidad a la que evolucionan, creo que de todos modos es una empresa condenada.
fuente
No puedo publicar un comentario (el lugar apropiado para este comentario) ya que no tengo suficiente reputación, pero la respuesta aceptada como la mejor respuesta por el propietario de la pregunta no entiende el punto.
"Si la estadística se trata de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar la pérdida".
La probabilidad es una función de pérdida. Maximizar la probabilidad es lo mismo que minimizar una función de pérdida: la desviación, que es solo -2 veces la función de probabilidad logarítmica. De manera similar, encontrar una solución de mínimos cuadrados consiste en minimizar la función de pérdida que describe la suma residual de cuadrados.
Tanto ML como estadísticas utilizan algoritmos para optimizar el ajuste de alguna función (en los términos más amplios) a los datos. La optimización necesariamente implica minimizar algunas funciones de pérdida.
fuente
Hay una respuesta trivial: ¡no hay estimación de parámetros en el aprendizaje automático! No asumimos que nuestros modelos son equivalentes a algunos modelos de fondo ocultos; tratamos tanto la realidad como el modelo como cajas negras e intentamos sacudir la caja del modelo (entrenar en terminología oficial) para que su salida sea similar a la de la caja de realidad.
El concepto no solo de probabilidad sino de toda la selección del modelo basada en los datos de entrenamiento se reemplaza por la optimización de la precisión (lo que sea definido; en principio, la bondad en el uso deseado) en los datos no vistos; Esto permite optimizar tanto la precisión como la recuperación de manera acoplada. Esto lleva al concepto de una capacidad de generalización, que se logra de diferentes maneras según el tipo de alumno.
La respuesta a la pregunta dos depende en gran medida de las definiciones; Todavía creo que las estadísticas no paramétricas es algo que conecta a los dos.
fuente
No creo que haya una idea fundamental sobre la estimación de parámetros en Machine Learning. La multitud de ML felizmente maximizará la probabilidad o la posterior, siempre que los algoritmos sean eficientes y predigan "con precisión". El foco está en la computación, y los resultados de las estadísticas son ampliamente utilizados.
Si está buscando ideas fundamentales en general, entonces, en la teoría del aprendizaje computacional, el PAC es central; en teoría del aprendizaje estadístico, minimización del riesgo estructural ; y hay otras áreas (por ejemplo, vea la publicación de Prediction Science de John Langford).
En el puente de estadísticas / ML, la división parece exagerada. Me gustó la respuesta de Gappy a la pregunta "Dos culturas".
fuente
Puede reescribir un problema de maximización de probabilidad como un problema de minimización de pérdida definiendo la pérdida como la probabilidad de registro negativa. Si la probabilidad es un producto de probabilidades independientes o densidades de probabilidad, la pérdida será una suma de términos independientes, que se pueden calcular de manera eficiente. Además, si las variables estocásticas se distribuyen normalmente, el problema de minimización de pérdidas correspondiente será un problema de mínimos cuadrados.
Si es posible crear un problema de minimización de pérdidas reescribiendo una maximización de probabilidad, esto debería ser preferir crear un problema de minimización de pérdidas desde cero, ya que dará lugar a un problema de minimización de pérdidas que es (con suerte) más teóricamente fundado y menos ad hoc. Por ejemplo, los pesos, como en los mínimos cuadrados ponderados, para los que generalmente tiene que adivinar los valores, simplemente surgirán del proceso de reescritura del problema original de maximización de probabilidad y ya tienen (con suerte) valores óptimos.
fuente