¿Dividir los datos en conjuntos de prueba y entrenamiento es puramente una "estadística"?

11

Soy un estudiante de física que estudia el aprendizaje automático / ciencia de datos, así que no me refiero a que esta pregunta inicie ningún conflicto :) Sin embargo, una gran parte de cualquier programa de pregrado de física es hacer laboratorios / experimentos, lo que significa una gran cantidad de datos procesamiento y análisis estadístico. Sin embargo, noto una gran diferencia entre la forma en que los físicos manejan los datos y la forma en que mis libros de ciencia de datos / aprendizaje estadístico tratan los datos.

La diferencia clave es que cuando se intenta realizar regresiones a datos obtenidos de experimentos de física, los algoritmos de regresión se aplican al conjunto de datos ENTERO , no hay absolutamente ninguna división en conjuntos de entrenamiento y prueba. En el mundo de la física, el R ^ 2 o algún tipo de pseudo-R ^ 2 se calcula para el modelo en función del conjunto de datos completo. En el mundo de las estadísticas, los datos casi siempre se dividen en 80-20, 70-30, etc., y luego el modelo se evalúa con respecto al conjunto de datos de prueba.

También hay algunos experimentos físicos importantes (ATLAS, BICEP2, etc.) que nunca hacen esta división de datos, por lo que me pregunto por qué hay una diferencia tan firme entre la forma en que los físicos / experimentadores hacen estadísticas y la forma en que los científicos de datos hacer estadísticas

Thomas Moore
fuente
1
(+1) muy buena pregunta (que no tengo el tiempo para responder correctamente). Comentario: La física tiene el lujo de "experimentos reales"; condiciones generalmente controladas / de laboratorio, en su mayoría resultados / variables bien definidos y repetibilidad asumida. Los proyectos habituales de Salud Pública / Econometría / Estadísticas de encuestas (por mencionar algunos subcampos obvios) simplemente no entienden eso. La confusión, la estacionalidad (dependencia del tiempo) y la deriva del concepto en general abundan en las estadísticas, por lo que esta "división de datos" es una de las formas obvias de evitar resultados totalmente tontos. Además, no todos los estimadores se crean igualmente eficientes. :)
usεr11852
3
Encontrará una gran cantidad de debates y antecedentes relevantes en un documento de discusión reciente de David Donoho, profesor de estadística en Stanford: cursos.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Vea particularmente la discusión sobre "Cultura predictiva "en contraste con las estadísticas tradicionales.
Gordon Smyth
1
Creo que es una cosa de "predicción en ausencia de teoría", que es un pequeño subconjunto de "estadísticas" y un gran subconjunto de aprendizaje automático.
The Laconic
los estadísticos tampoco dividen sus datos (p <.05)
rep_ho
@rep_ho algunos, quizás muchos, estadísticos involucrados en situaciones en las que la predicción fuera de la muestra es importante (y algunos lo han hecho durante mucho tiempo). ideas como la validación cruzada y las estadísticas de dejar de lado (por ejemplo) han existido durante siglos Sin embargo, los estadísticos tienden a no dividirse solo una vez, a menos que eso sea inevitable. Puede depender de los estadísticos con los que hable
Glen_b: reinstale a Monica el

Respuestas:

6

No todos los procedimientos estadísticos se dividen en datos de entrenamiento / prueba, también llamados "validación cruzada" (aunque todo el procedimiento involucra un poco más que eso).

Más bien, esta es una técnica que se usa específicamente para estimar el error fuera de la muestra ; es decir, ¿qué tan bien predecirá su modelo nuevos resultados usando un nuevo conjunto de datos? Esto se convierte en un problema muy importante cuando tiene, por ejemplo, una gran cantidad de predictores en relación con la cantidad de muestras en su conjunto de datos. En tales casos, es realmente fácil construir un modelo con un gran error en la muestra pero un terrible error fuera de la muestra (llamado "ajuste excesivo"). En los casos en que tiene tanto una gran cantidad de predictores como una gran cantidad de muestras, la validación cruzada es una herramienta necesaria para ayudar a evaluar qué tan bien se comportará el modelo al predecir datos nuevos. También es una herramienta importante al elegir entre modelos predictivos competitivos.

En otra nota, la validación cruzada casi siempre se usa cuando se intenta construir un modelo predictivo . En general, no es muy útil para los modelos cuando intenta estimar el efecto de algún tratamiento. Por ejemplo, si está comparando la distribución de la resistencia a la tracción entre los materiales A y B (el "tratamiento" es el tipo de material), no será necesaria la validación cruzada; Si bien esperamos que nuestra estimación del efecto del tratamiento se generalice fuera de la muestra, para la mayoría de los problemas la teoría estadística clásica puede responder a esto (es decir, "errores estándar" de las estimaciones) con mayor precisión que la validación cruzada. Lamentablemente, la metodología estadística clásica 1para errores estándar no se sostiene en el caso de sobreajuste. La validación cruzada a menudo funciona mucho mejor en ese caso.

Por otro lado, si está tratando de predecir cuándo se romperá un material en base a 10,000 variables medidas que arroje a un modelo de aprendizaje automático basado en 100,000 observaciones, ¡tendrá muchos problemas para construir un gran modelo sin validación cruzada!

Supongo que en muchos de los experimentos de física realizados, generalmente está interesado en la estimación de los efectos. En esos casos, hay muy poca necesidad de validación cruzada.

1 Se podría argumentar que los métodos bayesianos con antecedentes informativos son una metodología estadística clásica que aborda el sobreajuste. Pero esa es otra discusión.

Nota al margen: si bien la validación cruzada apareció por primera vez en la literatura estadística, y definitivamente es utilizada por personas que se hacen llamar estadísticas, se ha convertido en una herramienta fundamental requerida en la comunidad de aprendizaje automático. Muchos modelos de estadísticas funcionarán bien sin el uso de la validación cruzada, pero casi todos los modelos que se consideran "modelos predictivos de aprendizaje automático" necesitan validación cruzada, ya que a menudo requieren la selección de parámetros de ajuste, lo cual es casi imposible de hacer sin cruzar -validación.

Acantilado
fuente
Creo que su última edición sobre la distinción predicción / inferencia está un poco fuera de lugar y propensa a interpretaciones erróneas (lo que podría hacer en este momento). En todo caso, si inferimos que el material A es más fuerte que B, queremos que esto también quede fuera de la muestra. Además, tal idea ignoraría los enfoques de arranque / permutaciones. Y el ejemplo está un poco fuera de lugar; un no se salva realmente por un enfoque de división de prueba de tren, sino más bien por la regularización. np
usεr11852
@ usεr11852: sí, pero es casi imposible elegir penalizaciones de regularización razonables sin validación cruzada (aparte de pensar en las penalizaciones como antecedentes bayesianos, ¡pero eso es difícil con los modelos de caja negra!). Y si bien queremos que nuestros resultados al comparar A con B se mantengan fuera de la muestra, esto normalmente no es un problema que requiera un ajuste del modelo (como suele hacer la predicción), y con los números relativamente bajos de parámetros, la teoría estadística clásica puede manejar esto sin usar validación cruzada.
Cliff AB
Este es un argumento circular, la regularización utiliza validación cruzada pero la validación cruzada se realiza para la regularización. Es por eso que comenté algo en contra para empezar. Creo que la inferencia / causalidad estadística se aleja de este enfoque de ajuste no modelo (ver, por ejemplo, 2016 Johansson et al. "Aprendizaje de representaciones para la inferencia contrafáctica" - un artículo hermoso y desordenado). Finalmente, la investigación de Física Fundamental, cuando se presenta, los problemas difíciles también pueden depender de los enfoques de ML (por ejemplo, el desafío del aprendizaje automático de Boson de Higgs ).
usεr11852
@ usεr11852 La regularización no "utiliza" la validación cruzada, sino que el parámetro de ajuste para la regularización se elige mediante la validación cruzada. Por ejemplo, véase glment's cv.glmnetde todo el procedimiento en una función compacta agradable.
Cliff AB
1
Además, ¡nunca hice la afirmación de que la investigación física no puede usar enfoques ML ni validación cruzada! Solo estaba explicando que la validación cruzada generalmente se usa específicamente para elegir entre modelos complejos / parámetros de ajuste en modelos predictivos, y que en muchos experimentos de física clásicos, la validación cruzada no es necesaria. Entonces, lo que los físicos hacen con esos datos no está necesariamente en desacuerdo con lo que los estadísticos harían con esos datos, lo que creo que fue el núcleo de la pregunta del OP.
Cliff AB
3

Siendo químico (analítico) , encuentro dos enfoques: el cálculo analítico de las cifras de mérito [principalmente para la regresión univariada], así como la medición directa de las cifras predictivas de mérito.
La división del tren / prueba para mí es el "hermano pequeño" de un experimento de validación para medir la calidad de la predicción.


Respuesta larga:

Los experimentos típicos que hacemos, por ejemplo, en química física de pregrado, utilizan regresión univariada. La propiedad de interés son a menudo los parámetros del modelo, por ejemplo, la constante de tiempo al medir la cinética de reacción, pero a veces también las predicciones (por ejemplo, calibración lineal univariada para predecir / medir algún valor de interés).
Estas situaciones son muy benignas en términos de no sobreajustar: generalmente queda un número cómodo de grados de libertad después de que se estiman todos los parámetros, y se usan para entrenar (como en educación) a estudiantes con confianza clásica o cálculo de intervalo de predicción, y error clásico propagación: se desarrollaron para estas situaciones. E incluso si la situación no es del todo como un libro de texto (por ejemplo, tengo estructura en mis datos, por ejemplo, en la cinética, esperaría que los datos se describan mejor por la varianza entre las corridas de la reacción + la varianza entre las mediciones en una corrida que por un enfoque simple de una sola variación), normalmente puedo tener suficientes ejecuciones del experimento para obtener resultados útiles.

Sin embargo, en mi vida profesional, trato con conjuntos de datos espectroscópicos (típicamente de 100 a 1000 de variantes ) y, además, con conjuntos bastante limitados de casos independientes (muestras) . A menudo , por lo que usamos la regularización de la cual no siempre es fácil decir cuántos grados de libertad usamos, y además tratamos de compensar al menos un poco la pequeña usando números (grandes) de mediciones casi repetidas - lo que nos deja con un desconocido efectivo . Sin saber on n < p n n n d fpnn<pnnndf, los enfoques clásicos no funcionan. Pero como estoy haciendo predicciones, siempre tengo una posibilidad muy directa de medir la capacidad predictiva de mi modelo: hago predicciones y las comparo con los valores de referencia.

Este enfoque es realmente muy poderoso (aunque costoso debido a un mayor esfuerzo experimental), ya que me permite probar la calidad predictiva también para condiciones que no estaban cubiertas en los datos de entrenamiento / calibración. Por ejemplo, puedo medir cómo se deteriora la calidad predictiva con la extrapolación (la extrapolación también incluye, por ejemplo, mediciones realizadas, por ejemplo, un mes después de que se obtuvieron los datos del entrenamiento), puedo probar la robustez contra factores de confusión que espero sean importantes, etc. En otras palabras , podemos estudiar el comportamiento de nuestro modelo del mismo modo que estudiamos el comportamiento de cualquier otro sistema: investigamos ciertos puntos, lo perturbamos y observamos el cambio en la respuesta del sistema, etc.

Diría que cuanto más importante es la calidad predictiva (y mayor es el riesgo de sobreajuste), más tendemos a preferir las mediciones directas de la calidad predictiva en lugar de los números derivados analíticamente. (Por supuesto, podríamos haber incluido todos esos factores de confusión también en el diseño del experimento de capacitación). Algunas áreas, como el diagnóstico médico, exigen que se realicen estudios de validación adecuados antes de que el modelo se "suelte" en pacientes reales.

La división de tren / prueba (ya sea esperar * o validación cruzada o fuera de lugar o ...) toma este paso más fácil. Guardamos el experimento adicional y no extrapolamos (solo generalizamos para predecir casos independientes desconocidos de la misma distribución de los datos de entrenamiento). Describiría esto como una verificación en lugar de una validación (aunque la validación está profundamente en la terminología aquí). Este es a menudo el camino pragmático a seguir si no hay demandas demasiado altas sobre la precisión de las cifras de mérito (puede que no sea necesario conocerlas con mucha precisión en un escenario de prueba de concepto).

* no confunda una sola división aleatoria en tren y prueba con un estudio diseñado adecuadamente para medir la calidad de la predicción.

cbeleites descontentos con SX
fuente
2
+1 para señalar la diferencia en verificación y validación.
pronosticador