¿Cuál es la idea 'fundamental' del aprendizaje automático para estimar parámetros?

19

La idea "fundamental" de las estadísticas para estimar los parámetros es la máxima probabilidad . Me pregunto cuál es la idea correspondiente en el aprendizaje automático.

Qn 1. ¿Sería justo decir que la idea 'fundamental' en el aprendizaje automático para estimar parámetros es: 'Funciones de pérdida'

[Nota: tengo la impresión de que los algoritmos de aprendizaje automático a menudo optimizan una función de pérdida y, por lo tanto, la pregunta anterior.]

Qn 2: ¿Existe alguna literatura que intente cerrar la brecha entre las estadísticas y el aprendizaje automático?

[Nota: Quizás, por relacionar las funciones de pérdida con la máxima probabilidad. (por ejemplo, OLS es equivalente a la probabilidad máxima de errores normalmente distribuidos, etc.)]

kjetil b halvorsen
fuente
3
No veo el interés de estas preguntas sobre tratar de cerrar una brecha ficticia. ¿Cuál es el objetivo de todo eso? Además, hay muchas otras ideas que son fundamentales en estadística ... y la función de pérdida tiene al menos 100 años. ¿Puedes reducir estadísticas como esa? tal vez su pregunta sea sobre el concepto fundamental en minería de datos / estadística / aprendizaje automático como lo llame ... Entonces la pregunta ya existe y es demasiado amplia stats.stackexchange.com/questions/372/… .
robin girard
Bueno, no sé mucho sobre el aprendizaje automático o sus conexiones con las estadísticas. En cualquier caso, mire esta pregunta: stats.stackexchange.com/questions/6/… que sugiere que, como mínimo, los enfoques para responder las mismas preguntas son diferentes. ¿Es 'antinatural' preguntarse si hay algún tipo de vínculo entre ellos? Sí, estoy de acuerdo en que hay muchas ideas en estadísticas. Es por eso que tengo fundamental en las citas y restringí el alcance a la estimación de parámetros de interés.
@Srikant enlace entre qué? Tenga en cuenta que realmente me gusta buscar enlaces entre objetos bien definidos, me parece muy natural.
robin girard
66
Como podría decirse que es un aprendiz de máquina, estoy aquí para decirle que maximizamos al máximo las probabilidades. Todo el tiempo. Un montón de documentos de aprendizaje automático comienzan con "oye mi probabilidad, mira cómo se factoriza, mírame maximizar". Sugeriría que es peligroso afirmar una base fundamental de cualquiera de las disciplinas en términos de técnicas de inferencia. ¡Se trata más de a qué conferencia asistirás!
Mike Dewar
66
No creo que los bayesianos estén de acuerdo con la máxima probabilidad de ser la idea fundamental de las estadísticas.
Marc Claesen

Respuestas:

17

Si la estadística se trata de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar la pérdida. Como no conoce la pérdida en la que incurrirá en datos futuros, minimiza una aproximación, es decir, una pérdida empírica.

Por ejemplo, si tiene una tarea de predicción y es evaluado por el número de clasificaciones erróneas, podría entrenar parámetros para que el modelo resultante produzca el menor número de clasificaciones erróneas en los datos de entrenamiento. "Número de clasificaciones erróneas" (es decir, pérdida de 0-1) es una función de pérdida difícil de trabajar porque no es diferenciable, por lo que se aproxima con un "sustituto" suave. Por ejemplo, la pérdida de registro es un límite superior en la pérdida 0-1, por lo que podría minimizar eso, y esto será lo mismo que maximizar la probabilidad condicional de los datos. Con el modelo paramétrico, este enfoque se vuelve equivalente a la regresión logística.

En una tarea de modelado estructurado y una aproximación de pérdida de registro de pérdida 0-1, obtiene algo diferente de la probabilidad condicional máxima, en su lugar, maximizará el producto de las probabilidades marginales (condicionales).

Para obtener una mejor aproximación de la pérdida, las personas notaron que el modelo de entrenamiento para minimizar la pérdida y usar esa pérdida como una estimación de la pérdida futura es una estimación demasiado optimista. Entonces, para una minimización más precisa (pérdida real futura) agregan un término de corrección de sesgo a la pérdida empírica y minimizan eso, esto se conoce como minimización de riesgo estructurada.

En la práctica, descubrir el término correcto de corrección de sesgo puede ser demasiado difícil, por lo que agrega una expresión "en el espíritu" del término de corrección de sesgo, por ejemplo, la suma de cuadrados de parámetros. Al final, casi todos los enfoques de clasificación supervisada de aprendizaje automático paramétrico terminan entrenando el modelo para minimizar lo siguiente

yoL(metro(Xyo,w),yyo)+PAG(w)

donde es su modelo parametrizado por el vector w , i se toma sobre todos los puntos de datos { x i , y i } , L es una aproximación computacionalmente agradable de su pérdida real y P ( w ) es un término de corrección de sesgo / regularizaciónmetrowyo{Xyo,yyo}LPAG(w)

Por ejemplo, si su , y { - 1 , 1 } , un enfoque típico sería dejar que m ( x ) = signo ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (X{-1,1}rey{-1,1}metro(X)=firmar(wX)L(metro(X),y)=-Iniciar sesión(y×(Xw)) , y elija q por validación cruzadaPAG(w)=q×(ww)q

Yaroslav Bulatov
fuente
3
Me encantaría ver esta pérdida minimizándose en clustering, kNN o helechos aleatorios ...
Bueno, para una caracterización de la función de pérdida de k-significa vecino más cercano, consulte la subsección correspondiente (2.5) de este documento: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor
@ John Aún así, esto es mezclar objetivos con razones. En gran medida, puede explicar cada algoritmo en términos de minimizar algo y llamar a esto algo "pérdida". kNN no se inventó de esa manera: Chicos, he pensado en pérdidas como esta, ¡optimicémoslas y veamos qué sucederá !; más bien Chicos, digamos que la decisión es menos continua sobre el espacio de características, entonces si tuviéramos una buena medida de similitud ... y así sucesivamente.
2
"Si las estadísticas se tratan de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar las pérdidas" No estoy de acuerdo con su premisa, con fuerza y ​​en su totalidad. Tal vez fue cierto en las estadísticas en 1920, pero ciertamente no lo es hoy.
JMS
19

Daré una respuesta detallada. Puede proporcionar más citas a pedido, aunque esto no es realmente controvertido.

  • La estadística no se trata solo de maximizar la probabilidad (log). Eso es anatema para los bayesianos de principios que simplemente actualizan sus posteriores o propagan sus creencias a través de un modelo apropiado.
  • Una gran cantidad de estadísticas es sobre minimización de pérdidas. Y también lo es mucho Machine Learning. La minimización empírica de pérdidas tiene un significado diferente en ML. Para una visión clara y narrativa, echa un vistazo a "La naturaleza del aprendizaje estadístico" de Vapnik
  • El aprendizaje automático no se trata solo de minimizar las pérdidas. Primero, porque hay muchos bayesianos en ML; segundo, porque una serie de aplicaciones en ML tienen que ver con el aprendizaje temporal y el DP aproximado. Claro, hay una función objetivo, pero tiene un significado muy diferente que en el aprendizaje "estadístico".

No creo que haya una brecha entre los campos, solo muchos enfoques diferentes, todos superpuestos hasta cierto punto. No siento la necesidad de convertirlos en disciplinas sistemáticas con diferencias y similitudes bien definidas, y dada la velocidad a la que evolucionan, creo que de todos modos es una empresa condenada.

alegre
fuente
8

No puedo publicar un comentario (el lugar apropiado para este comentario) ya que no tengo suficiente reputación, pero la respuesta aceptada como la mejor respuesta por el propietario de la pregunta no entiende el punto.

"Si la estadística se trata de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar la pérdida".

La probabilidad es una función de pérdida. Maximizar la probabilidad es lo mismo que minimizar una función de pérdida: la desviación, que es solo -2 veces la función de probabilidad logarítmica. De manera similar, encontrar una solución de mínimos cuadrados consiste en minimizar la función de pérdida que describe la suma residual de cuadrados.

Tanto ML como estadísticas utilizan algoritmos para optimizar el ajuste de alguna función (en los términos más amplios) a los datos. La optimización necesariamente implica minimizar algunas funciones de pérdida.

Tilacoleo
fuente
1
Buen punto, aún las principales diferencias están en otro lugar; primero, las estadísticas se trata de ajustar un modelo a los datos que se tienen, ML se trata de ajustar un modelo a los datos que se tendrán; segundo, las estadísticas ASUMEN que un proceso que uno observa está totalmente impulsado por algún modelo "oculto" embarazosamente trivial que quieren excavar, mientras que ML INTENTA hacer que algún modelo lo suficientemente complejo como para ser independiente del problema se comporte como la realidad.
@mbq. Esa es una caricatura bastante dura de las estadísticas. He trabajado en cinco departamentos de estadística de la universidad y no creo haber conocido a nadie que piense en estadísticas como esa.
Rob Hyndman el
1
@ Caricatura de Rob? ¡Creo que esto es lo que hace que las estadísticas sean hermosas! Asumes todos esos gaussianos y linealidades y simplemente funciona, y hay una razón para eso que se llama expansión de Taylor. El mundo es un infierno de complejo, pero en lineal aprox. (que a menudo es noventa y tantos% de complejidad) vergonzosamente trivial. El LD (y las estadísticas no paramétricas) se presentan en este pequeño porcentaje de situaciones en las que se necesita un enfoque más sutil. Esto no es un almuerzo gratis: si quieres teoremas, necesitas suposiciones; Si no desea suposiciones, necesita métodos aproximados.
@mbq. Lo suficientemente justo. Debo haber malinterpretado tu comentario.
Rob Hyndman el
4

Hay una respuesta trivial: ¡no hay estimación de parámetros en el aprendizaje automático! No asumimos que nuestros modelos son equivalentes a algunos modelos de fondo ocultos; tratamos tanto la realidad como el modelo como cajas negras e intentamos sacudir la caja del modelo (entrenar en terminología oficial) para que su salida sea similar a la de la caja de realidad.

El concepto no solo de probabilidad sino de toda la selección del modelo basada en los datos de entrenamiento se reemplaza por la optimización de la precisión (lo que sea definido; en principio, la bondad en el uso deseado) en los datos no vistos; Esto permite optimizar tanto la precisión como la recuperación de manera acoplada. Esto lleva al concepto de una capacidad de generalización, que se logra de diferentes maneras según el tipo de alumno.

La respuesta a la pregunta dos depende en gran medida de las definiciones; Todavía creo que las estadísticas no paramétricas es algo que conecta a los dos.


fuente
No estoy seguro de que esto sea completamente correcto. ¿En qué sentido funcionan los métodos de aprendizaje automático sin estimación de parámetros (dentro de un conjunto de modelos paramétricos o sin distribución)?
John L. Taylor
1
Estás estimando / calculando algo (el término exacto puede ser diferente). Por ejemplo, considere una red neuronal. ¿No estás calculando los pesos de la red cuando intentas predecir algo? Además, cuando dice que entrena para hacer coincidir la salida con la realidad, parece estar hablando implícitamente de algún tipo de función de pérdida.
@John, @Srikant Los estudiantes tienen parámetros, pero esos no son los parámetros en un sentido estadístico. Considere la regresión lineal y = a x (sin término libre para simp.). a es un parámetro que encajarán los métodos estadísticos, alimentado por el supuesto de que y = a x. El aprendizaje automático solo intentará producir una x cuando se le pida x dentro del rango del tren (esto tiene sentido, ya que no supone que y = a x); Puede encajar cientos de parámetros para hacer esto.
3
[cita requerida]. En otras palabras, una respuesta intrigante, aunque no coincide (al menos) con mucha literatura de ML.
Gappy
1
El clásico es el "Modelo estadístico de Breiman: las dos culturas".
2

No creo que haya una idea fundamental sobre la estimación de parámetros en Machine Learning. La multitud de ML felizmente maximizará la probabilidad o la posterior, siempre que los algoritmos sean eficientes y predigan "con precisión". El foco está en la computación, y los resultados de las estadísticas son ampliamente utilizados.

Si está buscando ideas fundamentales en general, entonces, en la teoría del aprendizaje computacional, el PAC es central; en teoría del aprendizaje estadístico, minimización del riesgo estructural ; y hay otras áreas (por ejemplo, vea la publicación de Prediction Science de John Langford).

En el puente de estadísticas / ML, la división parece exagerada. Me gustó la respuesta de Gappy a la pregunta "Dos culturas".

ars
fuente
La multitud estadística está haciendo clic al azar en SPSS hasta que aparezca el valor p deseado ...
1

Puede reescribir un problema de maximización de probabilidad como un problema de minimización de pérdida definiendo la pérdida como la probabilidad de registro negativa. Si la probabilidad es un producto de probabilidades independientes o densidades de probabilidad, la pérdida será una suma de términos independientes, que se pueden calcular de manera eficiente. Además, si las variables estocásticas se distribuyen normalmente, el problema de minimización de pérdidas correspondiente será un problema de mínimos cuadrados.

Si es posible crear un problema de minimización de pérdidas reescribiendo una maximización de probabilidad, esto debería ser preferir crear un problema de minimización de pérdidas desde cero, ya que dará lugar a un problema de minimización de pérdidas que es (con suerte) más teóricamente fundado y menos ad hoc. Por ejemplo, los pesos, como en los mínimos cuadrados ponderados, para los que generalmente tiene que adivinar los valores, simplemente surgirán del proceso de reescritura del problema original de maximización de probabilidad y ya tienen (con suerte) valores óptimos.

Hola Adios
fuente