Una pregunta más productiva podría ser "¿por qué no se usó en las estadísticas clásicas que aprendí?"
Dependiendo del nivel o niveles en los que se enseñó, el contenido del curso (y el tiempo disponible) de esa elección puede deberse a una combinación de varios factores. A menudo, los temas importantes se dejan de lado porque se debe enseñar otro material por una razón u otra, con la esperanza de que se cubran en materias posteriores.
Al menos en algunos sentidos, la noción ha sido utilizada durante mucho tiempo por una variedad de personas. Era más común en algunas áreas que en otras. Muchos usos de las estadísticas no tienen predicción o selección de modelo como un componente principal (o en algunos casos, incluso en absoluto), y en ese caso, el uso de muestras de reserva puede ser menos crítico que cuando la predicción es el punto principal. Podría decirse que debería haber ganado un uso más extendido en una etapa anterior en algunas aplicaciones relevantes de lo que lo hizo, pero eso no es lo mismo que ser desconocido.
Si observa áreas que se centran en la predicción, la noción de evaluación del modelo al predecir los datos que no usó para estimar su modelo ciertamente existió (aunque no es universal). Ciertamente lo estaba haciendo con el modelo de series de tiempo que estaba haciendo en la década de 1980, por ejemplo, donde el rendimiento predictivo fuera de la muestra de los datos más recientes era particularmente importante.
La noción de omitir al menos algunos datos se usó en la regresión (residuos eliminados, PRENSA, Jacknife, etc.) y en análisis atípicos, por ejemplo.
Algunas de estas ideas datan mucho antes todavía. Stone (1974) [1] se refiere a documentos sobre validación cruzada (con la palabra en el título) de los años 50 y 60. Quizás incluso más cerca de su intención, menciona el uso de Simon (1971) de los términos "muestra de construcción" y "muestra de validación", pero también señala que "Larson (1931) empleó la división aleatoria de la muestra en un múltiplo educativo -regresión de estudio ".
Temas como la validación cruzada y el uso de estadísticas basadas en predicciones, etc., se estaban volviendo sustancialmente más frecuentes en la literatura estadística en los años 70 y 80, por ejemplo, pero muchas de las ideas básicas han existido durante bastante tiempo incluso luego.
[1]: Stone, M., (1974)
"Cross-Validatory Choice and Assessment of Statistic Predictions",
Journal of the Royal Statistical Society. Serie B (Metodológica) , vol. 36, núm. 2., págs. 111-147
Para complementar la respuesta de Glen_b, las estadísticas clásicas a menudo tenían / tenían énfasis en el uso óptimo de los datos, las pruebas óptimas, los estimadores óptimos, la suficiencia, etc., y en ese marco teórico es difícil justificar el no usar parte de la información ! Parte de esa tradición es el énfasis en situaciones con muestras pequeñas, donde la resistencia es prácticamente difícil.
Fisher trabajó, por ejemplo, principalmente con la genética y la experimentación agrícola, y en esos campos la regla era un pequeño número de observaciones. Así que estuvo expuesto principalmente a tales problemas con pequeños conjuntos de datos.
fuente
Contestaré desde un campo aplicado que tal vez esté entre las estadísticas clásicas y el aprendizaje automático: quimiometría, es decir, estadísticas para análisis químicos. Agregaré dos escenarios diferentes donde la resistencia no es tan importante como en las clases típicas de aprendizaje automático.
Escenario 1:
Creo que un punto crucial aquí es darse cuenta de que hay una diferencia fundamental en lo que es un tamaño de muestra pequeño para entrenamiento versus prueba:
(La calidad del procedimiento de prueba debe ser independiente del modelo: eso se trata como una caja negra mediante validación con casos de prueba independientes)
Ahora, las conferencias de estadística sobre modelos lineales "clásicos" a menudo enfatizan mucho los modelos univariantes. Para un modelo lineal univariante, el tamaño de la muestra de entrenamiento probablemente no sea pequeño: los tamaños de muestra de entrenamiento generalmente se juzgan en comparación con la complejidad del modelo, y el modelo lineal tiene solo dos parámetros, desplazamiento y pendiente. En química analítica, en realidad tenemos una norma que establece que debe tener al menos 10 muestras de calibración para su calibración lineal univariante. Esto garantiza una situación en la que la inestabilidad del modelo no es un problema confiable, por lo que no es necesario esperar.
Sin embargo, en el aprendizaje automático, así como con los detectores multicanal modernos en el análisis químico (a veces 10 "canales", por ejemplo, en espectrometría de masas), la estabilidad del modelo (es decir, la varianza) es un tema importante. Por lo tanto, se necesita un muestreo nuevo o mejor.
Escenario 2:
Una situación completamente diferente es que se puede omitir la resistencia a favor de una combinación de un método más fácil (residuos) más una medición de rendimiento más sofisticada. Tenga en cuenta que esperar en el sentido de (al azar) dejar de lado parte de un conjunto de datos y excluir esto de la capacitación no es equivalente a lo que pueden lograr las pruebas independientes. En química analítica, se pueden llevar a cabo experimentos de validación dedicados que incluirán, por ejemplo, medir la degradación del rendimiento a lo largo del tiempo (deriva del instrumento) que no se puede medir mediante retención y establecer, por ejemplo, el rendimiento del sensor en el entorno industrial real (mientras que la calibración del sensor se realizó en el laboratorio con muestras de calibración). Ver también /stats//a/104750/4598 para más detalles sobre pruebas independientes vs.
fuente