¿Por qué no se utiliza el método de retención (división de datos en capacitación y pruebas) en las estadísticas clásicas?

12

En mi exposición en el aula a la minería de datos, el método de retención se introdujo como una forma de evaluar el rendimiento del modelo. Sin embargo, cuando tomé mi primera clase de modelos lineales, esto no se introdujo como un medio de validación o evaluación del modelo. Mi investigación en línea tampoco muestra ningún tipo de intersección. ¿Por qué el método de reserva no se usa en las estadísticas clásicas?

regression validation model-evaluation out-of-sample tirkquest
fuente

22

Una pregunta más productiva podría ser "¿por qué no se usó en las estadísticas clásicas que aprendí?"

Dependiendo del nivel o niveles en los que se enseñó, el contenido del curso (y el tiempo disponible) de esa elección puede deberse a una combinación de varios factores. A menudo, los temas importantes se dejan de lado porque se debe enseñar otro material por una razón u otra, con la esperanza de que se cubran en materias posteriores.

Al menos en algunos sentidos, la noción ha sido utilizada durante mucho tiempo por una variedad de personas. Era más común en algunas áreas que en otras. Muchos usos de las estadísticas no tienen predicción o selección de modelo como un componente principal (o en algunos casos, incluso en absoluto), y en ese caso, el uso de muestras de reserva puede ser menos crítico que cuando la predicción es el punto principal. Podría decirse que debería haber ganado un uso más extendido en una etapa anterior en algunas aplicaciones relevantes de lo que lo hizo, pero eso no es lo mismo que ser desconocido.

Si observa áreas que se centran en la predicción, la noción de evaluación del modelo al predecir los datos que no usó para estimar su modelo ciertamente existió (aunque no es universal). Ciertamente lo estaba haciendo con el modelo de series de tiempo que estaba haciendo en la década de 1980, por ejemplo, donde el rendimiento predictivo fuera de la muestra de los datos más recientes era particularmente importante.

La noción de omitir al menos algunos datos se usó en la regresión (residuos eliminados, PRENSA, Jacknife, etc.) y en análisis atípicos, por ejemplo.

Algunas de estas ideas datan mucho antes todavía. Stone (1974) [1] se refiere a documentos sobre validación cruzada (con la palabra en el título) de los años 50 y 60. Quizás incluso más cerca de su intención, menciona el uso de Simon (1971) de los términos "muestra de construcción" y "muestra de validación", pero también señala que "Larson (1931) empleó la división aleatoria de la muestra en un múltiplo educativo -regresión de estudio ".

Temas como la validación cruzada y el uso de estadísticas basadas en predicciones, etc., se estaban volviendo sustancialmente más frecuentes en la literatura estadística en los años 70 y 80, por ejemplo, pero muchas de las ideas básicas han existido durante bastante tiempo incluso luego.

[1]: Stone, M., (1974)
"Cross-Validatory Choice and Assessment of Statistic Predictions",
Journal of the Royal Statistical Society. Serie B (Metodológica) , vol. 36, núm. 2., págs. 111-147

Glen_b -Reinstate a Monica
fuente

Solo para que conste, que M. Stone no soy yo, ni está relacionado conmigo, excepto posiblemente a través de Adán y Eva.

Mark L. Stone

11

Para complementar la respuesta de Glen_b, las estadísticas clásicas a menudo tenían / tenían énfasis en el uso óptimo de los datos, las pruebas óptimas, los estimadores óptimos, la suficiencia, etc., y en ese marco teórico es difícil justificar el no usar parte de la información ! Parte de esa tradición es el énfasis en situaciones con muestras pequeñas, donde la resistencia es prácticamente difícil.

Fisher trabajó, por ejemplo, principalmente con la genética y la experimentación agrícola, y en esos campos la regla era un pequeño número de observaciones. Así que estuvo expuesto principalmente a tales problemas con pequeños conjuntos de datos.

kjetil b halvorsen
fuente

6

Contestaré desde un campo aplicado que tal vez esté entre las estadísticas clásicas y el aprendizaje automático: quimiometría, es decir, estadísticas para análisis químicos. Agregaré dos escenarios diferentes donde la resistencia no es tan importante como en las clases típicas de aprendizaje automático.

Escenario 1:

Creo que un punto crucial aquí es darse cuenta de que hay una diferencia fundamental en lo que es un tamaño de muestra pequeño para entrenamiento versus prueba:

Para la capacitación, generalmente la proporción de la cantidad de casos: la complejidad del modelo (cantidad de parámetros) es importante (grados de libertad)
Para las pruebas, el número absoluto de casos de prueba es importante.
(La calidad del procedimiento de prueba debe ser independiente del modelo: eso se trata como una caja negra mediante validación con casos de prueba independientes)

$\gg$

Ahora, las conferencias de estadística sobre modelos lineales "clásicos" a menudo enfatizan mucho los modelos univariantes. Para un modelo lineal univariante, el tamaño de la muestra de entrenamiento probablemente no sea pequeño: los tamaños de muestra de entrenamiento generalmente se juzgan en comparación con la complejidad del modelo, y el modelo lineal tiene solo dos parámetros, desplazamiento y pendiente. En química analítica, en realidad tenemos una norma que establece que debe tener al menos 10 muestras de calibración para su calibración lineal univariante. Esto garantiza una situación en la que la inestabilidad del modelo no es un problema confiable, por lo que no es necesario esperar.

Sin embargo, en el aprendizaje automático, así como con los detectores multicanal modernos en el análisis químico (a veces 10 "canales", por ejemplo, en espectrometría de masas), la estabilidad del modelo (es decir, la varianza) es un tema importante. Por lo tanto, se necesita un muestreo nuevo o mejor.

Escenario 2:

Una situación completamente diferente es que se puede omitir la resistencia a favor de una combinación de un método más fácil (residuos) más una medición de rendimiento más sofisticada. Tenga en cuenta que esperar en el sentido de (al azar) dejar de lado parte de un conjunto de datos y excluir esto de la capacitación no es equivalente a lo que pueden lograr las pruebas independientes. En química analítica, se pueden llevar a cabo experimentos de validación dedicados que incluirán, por ejemplo, medir la degradación del rendimiento a lo largo del tiempo (deriva del instrumento) que no se puede medir mediante retención y establecer, por ejemplo, el rendimiento del sensor en el entorno industrial real (mientras que la calibración del sensor se realizó en el laboratorio con muestras de calibración). Ver también /stats//a/104750/4598 para más detalles sobre pruebas independientes vs.

cbeleites descontentos con SX
fuente

Arriba, en el sceanario 1, ¿creo que quisiste decir (sesgo << varianza)? Por favor corrija!

kjetil b halvorsen

1

@kjetilbhalvorsen no, porque se está refiriendo a la falta de equipamiento en ese párrafo (modelo que no es lo suficientemente complejo).

Marc Claesen

@kjetilbhalvorsen; Marc Claesen tiene razón, enfaticé que esto es para situaciones en las que puede estar seguro de que el problema no es adecuado.

Cbeleites descontento con SX

OKAY. algunas cartas para satisfacer los requisitos

kjetil b halvorsen

¿Por qué no se utiliza el método de retención (división de datos en capacitación y pruebas) en las estadísticas clásicas?

Respuestas:

Escenario 1:

Escenario 2: