Soy un estudiante de física que estudia el aprendizaje automático / ciencia de datos, así que no me refiero a que esta pregunta inicie ningún conflicto :) Sin embargo, una gran parte de cualquier programa de pregrado de física es hacer laboratorios / experimentos, lo que significa una gran cantidad de datos procesamiento y análisis estadístico. Sin embargo, noto una gran diferencia entre la forma en que los físicos manejan los datos y la forma en que mis libros de ciencia de datos / aprendizaje estadístico tratan los datos.
La diferencia clave es que cuando se intenta realizar regresiones a datos obtenidos de experimentos de física, los algoritmos de regresión se aplican al conjunto de datos ENTERO , no hay absolutamente ninguna división en conjuntos de entrenamiento y prueba. En el mundo de la física, el R ^ 2 o algún tipo de pseudo-R ^ 2 se calcula para el modelo en función del conjunto de datos completo. En el mundo de las estadísticas, los datos casi siempre se dividen en 80-20, 70-30, etc., y luego el modelo se evalúa con respecto al conjunto de datos de prueba.
También hay algunos experimentos físicos importantes (ATLAS, BICEP2, etc.) que nunca hacen esta división de datos, por lo que me pregunto por qué hay una diferencia tan firme entre la forma en que los físicos / experimentadores hacen estadísticas y la forma en que los científicos de datos hacer estadísticas
fuente
Respuestas:
No todos los procedimientos estadísticos se dividen en datos de entrenamiento / prueba, también llamados "validación cruzada" (aunque todo el procedimiento involucra un poco más que eso).
Más bien, esta es una técnica que se usa específicamente para estimar el error fuera de la muestra ; es decir, ¿qué tan bien predecirá su modelo nuevos resultados usando un nuevo conjunto de datos? Esto se convierte en un problema muy importante cuando tiene, por ejemplo, una gran cantidad de predictores en relación con la cantidad de muestras en su conjunto de datos. En tales casos, es realmente fácil construir un modelo con un gran error en la muestra pero un terrible error fuera de la muestra (llamado "ajuste excesivo"). En los casos en que tiene tanto una gran cantidad de predictores como una gran cantidad de muestras, la validación cruzada es una herramienta necesaria para ayudar a evaluar qué tan bien se comportará el modelo al predecir datos nuevos. También es una herramienta importante al elegir entre modelos predictivos competitivos.
En otra nota, la validación cruzada casi siempre se usa cuando se intenta construir un modelo predictivo . En general, no es muy útil para los modelos cuando intenta estimar el efecto de algún tratamiento. Por ejemplo, si está comparando la distribución de la resistencia a la tracción entre los materiales A y B (el "tratamiento" es el tipo de material), no será necesaria la validación cruzada; Si bien esperamos que nuestra estimación del efecto del tratamiento se generalice fuera de la muestra, para la mayoría de los problemas la teoría estadística clásica puede responder a esto (es decir, "errores estándar" de las estimaciones) con mayor precisión que la validación cruzada. Lamentablemente, la metodología estadística clásica 1para errores estándar no se sostiene en el caso de sobreajuste. La validación cruzada a menudo funciona mucho mejor en ese caso.
Por otro lado, si está tratando de predecir cuándo se romperá un material en base a 10,000 variables medidas que arroje a un modelo de aprendizaje automático basado en 100,000 observaciones, ¡tendrá muchos problemas para construir un gran modelo sin validación cruzada!
Supongo que en muchos de los experimentos de física realizados, generalmente está interesado en la estimación de los efectos. En esos casos, hay muy poca necesidad de validación cruzada.
1 Se podría argumentar que los métodos bayesianos con antecedentes informativos son una metodología estadística clásica que aborda el sobreajuste. Pero esa es otra discusión.
Nota al margen: si bien la validación cruzada apareció por primera vez en la literatura estadística, y definitivamente es utilizada por personas que se hacen llamar estadísticas, se ha convertido en una herramienta fundamental requerida en la comunidad de aprendizaje automático. Muchos modelos de estadísticas funcionarán bien sin el uso de la validación cruzada, pero casi todos los modelos que se consideran "modelos predictivos de aprendizaje automático" necesitan validación cruzada, ya que a menudo requieren la selección de parámetros de ajuste, lo cual es casi imposible de hacer sin cruzar -validación.
fuente
glment
'scv.glmnet
de todo el procedimiento en una función compacta agradable.Siendo químico (analítico) , encuentro dos enfoques: el cálculo analítico de las cifras de mérito [principalmente para la regresión univariada], así como la medición directa de las cifras predictivas de mérito.
La división del tren / prueba para mí es el "hermano pequeño" de un experimento de validación para medir la calidad de la predicción.
Respuesta larga:
Los experimentos típicos que hacemos, por ejemplo, en química física de pregrado, utilizan regresión univariada. La propiedad de interés son a menudo los parámetros del modelo, por ejemplo, la constante de tiempo al medir la cinética de reacción, pero a veces también las predicciones (por ejemplo, calibración lineal univariada para predecir / medir algún valor de interés).
Estas situaciones son muy benignas en términos de no sobreajustar: generalmente queda un número cómodo de grados de libertad después de que se estiman todos los parámetros, y se usan para entrenar (como en educación) a estudiantes con confianza clásica o cálculo de intervalo de predicción, y error clásico propagación: se desarrollaron para estas situaciones. E incluso si la situación no es del todo como un libro de texto (por ejemplo, tengo estructura en mis datos, por ejemplo, en la cinética, esperaría que los datos se describan mejor por la varianza entre las corridas de la reacción + la varianza entre las mediciones en una corrida que por un enfoque simple de una sola variación), normalmente puedo tener suficientes ejecuciones del experimento para obtener resultados útiles.
Sin embargo, en mi vida profesional, trato con conjuntos de datos espectroscópicos (típicamente de 100 a 1000 de variantes ) y, además, con conjuntos bastante limitados de casos independientes (muestras) . A menudo , por lo que usamos la regularización de la cual no siempre es fácil decir cuántos grados de libertad usamos, y además tratamos de compensar al menos un poco la pequeña usando números (grandes) de mediciones casi repetidas - lo que nos deja con un desconocido efectivo . Sin saber on n < p n n n d fp n n<p n n n df , los enfoques clásicos no funcionan. Pero como estoy haciendo predicciones, siempre tengo una posibilidad muy directa de medir la capacidad predictiva de mi modelo: hago predicciones y las comparo con los valores de referencia.
Este enfoque es realmente muy poderoso (aunque costoso debido a un mayor esfuerzo experimental), ya que me permite probar la calidad predictiva también para condiciones que no estaban cubiertas en los datos de entrenamiento / calibración. Por ejemplo, puedo medir cómo se deteriora la calidad predictiva con la extrapolación (la extrapolación también incluye, por ejemplo, mediciones realizadas, por ejemplo, un mes después de que se obtuvieron los datos del entrenamiento), puedo probar la robustez contra factores de confusión que espero sean importantes, etc. En otras palabras , podemos estudiar el comportamiento de nuestro modelo del mismo modo que estudiamos el comportamiento de cualquier otro sistema: investigamos ciertos puntos, lo perturbamos y observamos el cambio en la respuesta del sistema, etc.
Diría que cuanto más importante es la calidad predictiva (y mayor es el riesgo de sobreajuste), más tendemos a preferir las mediciones directas de la calidad predictiva en lugar de los números derivados analíticamente. (Por supuesto, podríamos haber incluido todos esos factores de confusión también en el diseño del experimento de capacitación). Algunas áreas, como el diagnóstico médico, exigen que se realicen estudios de validación adecuados antes de que el modelo se "suelte" en pacientes reales.
La división de tren / prueba (ya sea esperar * o validación cruzada o fuera de lugar o ...) toma este paso más fácil. Guardamos el experimento adicional y no extrapolamos (solo generalizamos para predecir casos independientes desconocidos de la misma distribución de los datos de entrenamiento). Describiría esto como una verificación en lugar de una validación (aunque la validación está profundamente en la terminología aquí). Este es a menudo el camino pragmático a seguir si no hay demandas demasiado altas sobre la precisión de las cifras de mérito (puede que no sea necesario conocerlas con mucha precisión en un escenario de prueba de concepto).
* no confunda una sola división aleatoria en tren y prueba con un estudio diseñado adecuadamente para medir la calidad de la predicción.
fuente