Antecedentes : no tengo una capacitación formal en estadísticas bayesianas (aunque estoy muy interesado en aprender más), pero sé lo suficiente, creo, para entender por qué muchos sienten que son preferibles a las estadísticas frequentistas. Incluso los estudiantes de pregrado en la clase de estadística introductoria (en ciencias sociales) que estoy enseñando encuentran atractivo el enfoque bayesiano: "¿Por qué estamos interesados en calcular la probabilidad de los datos, dada la nula? ¿Por qué no podemos cuantificar la probabilidad de ¿La hipótesis nula? ¿O la hipótesis alternativa? Y también he leído hilos como estos , que dan fe de los beneficios empíricos de las estadísticas bayesianas también. Pero luego encontré esta cita de Blasco (2001; énfasis agregado):
Si el criador de animales no está interesado en los problemas filosóficos asociados con la inducción, sino en herramientas para resolver problemas, las escuelas de inferencia bayesianas y frecuentistas están bien establecidas y no es necesario justificar por qué se prefiere una u otra escuela. Ninguno de ellos tiene ahora dificultades operativas, con la excepción de algunos casos complejos ... Elegir una escuela u otra debe estar relacionado con si hay soluciones en una escuela que la otra no ofrece , con qué tan fácilmente se resuelven los problemas. y qué tan cómodo se siente el científico con los resultados de la forma particular de expresión.
La pregunta : la cita de Blasco parece sugerir que podría haber ocasiones en las que un enfoque frecuente sea realmente preferible a uno bayesiano. Y por eso tengo curiosidad: ¿ cuándo sería preferible un enfoque frecuentista sobre un enfoque bayesiano? Me interesan las respuestas que abordan la pregunta tanto conceptual (es decir, ¿cuándo es especialmente útil conocer la probabilidad de los datos condicionados por la hipótesis nula?) Como empíricamente (es decir, ¿en qué condiciones se destacan los métodos frequentistas frente a los bayesianos?).
También sería preferible si las respuestas se transmitieran de la manera más accesible posible; sería bueno llevar algunas respuestas a mi clase para compartirlas con mis alumnos (aunque entiendo que se requiere cierto nivel de tecnicismo).
Finalmente, a pesar de ser un usuario habitual de las estadísticas frequentistas, estoy abierto a la posibilidad de que Bayesian gane en todos los ámbitos.
fuente
Respuestas:
Aquí hay cinco razones por las cuales los métodos frecuentistas pueden ser preferidos:
Más rápido. Dado que las estadísticas bayesianas a menudo dan respuestas casi idénticas a las respuestas frecuentistas (y cuando no lo hacen, no está 100% claro que Bayesiano sea siempre el camino a seguir), el hecho de que las estadísticas frecuentistas se pueden obtener a menudo varios órdenes de magnitud más rápido es Un argumento fuerte. Del mismo modo, los métodos frecuentistas no requieren tanta memoria para almacenar los resultados. Si bien estas cosas pueden parecer algo triviales, especialmente con conjuntos de datos más pequeños, el hecho de que Bayesian y Frequentist generalmente estén de acuerdo en los resultados (especialmente si tiene muchos datos informativos) significa que si le va a importar, puede comenzar a preocuparse por lo menos importante cosas. Y, por supuesto, si vives en el mundo de Big Data, no son triviales en absoluto.
Estadísticas no paramétricas. Reconozco que las estadísticas bayesianas tienen estadísticas no paramétricas, pero diría que el lado frecuente del campo tiene algunas herramientas realmente innegablemente prácticas, como la Función de Distribución Empírica. Ningún método en el mundo reemplazará el FED, ni las curvas de Kaplan Meier, etc. (aunque claramente eso no quiere decir que esos métodos sean el final de un análisis).
Menos diagnósticos. Los métodos MCMC, el método más común para ajustar modelos bayesianos, generalmente requieren más trabajo por parte del usuario que su contraparte frecuente. Por lo general, el diagnóstico para una estimación de MLE es tan simple que cualquier buena implementación de algoritmo lo hará automáticamente (aunque eso no quiere decir que todas las implementaciones disponibles sean buenas ...). Como tal, el diagnóstico algorítmico frecuente es "asegurarse de que no haya texto rojo al ajustar el modelo". Dado que todos los estadísticos tienen un ancho de banda limitado, esto libera más tiempo para hacer preguntas como "¿mis datos son realmente aproximadamente normales?" o "¿son estos riesgos realmente proporcionales?", etc.
Inferencia válida bajo especificación errónea del modelo. Todos hemos escuchado que "Todos los modelos están equivocados pero algunos son útiles", pero diferentes áreas de investigación se toman esto más o menos en serio. La literatura frequentista está llena de métodos para corregir la inferencia cuando el modelo está mal especificado: estimador de arranque, validación cruzada, estimador sándwich (el enlace también analiza la inferencia general de MLE bajo la especificación errónea del modelo), ecuaciones de estimación generalizadas (GEE), métodos de cuasi-verosimilitud, etc. Hasta donde yo sé, hay muy poco en la literatura bayesiana sobre la inferencia bajo la especificación errónea del modelo (aunque hay mucha discusión sobre la verificación del modelo, es decir, las comprobaciones predictivas posteriores). No creo que sea por casualidad: evaluar cómo se comporta un estimador en ensayos repetidos no requiere que el estimador se base en un modelo "verdadero", ¡pero el uso del teorema de Bayes sí!
Liberarse de lo anterior (esta es probablemente la razón más común por la cual las personas no usan los métodos bayesianos para todo). La fuerza del punto de vista bayesiano a menudo se promociona como el uso de antecedentes. Sin embargo, en todos los campos aplicados en los que he trabajado, no se considera la idea de un previo informativo en el análisis. Leer literatura sobre cómo obtener los antecedentes de expertos no estadísticos da un buen razonamiento para esto; He leído documentos que dicen cosas como (un hombre de paja cruel como parafraseando el mío) "Pregúntele al investigador que lo contrató porque tiene problemas para comprender las estadísticas para dar un rango de que están 90% seguros del tamaño del efecto que tienen problemas para imaginar que lo hará estar dentro. Este rango suele ser demasiado estrecho, así que intenta arbitrariamente hacer que lo amplíen un poco. Pregúntales si su creencia parece una distribución gamma. Probablemente tendrá que dibujar una distribución gamma para ellos y mostrar cómo puede tener colas pesadas si el parámetro de forma es pequeño. Esto también implicará explicar qué es un PDF para ellos "(nota: no creo que incluso los estadísticos sean realmente capaces de decir con precisióna priori si tienen una certeza del 90% o del 95% de si el tamaño del efecto se encuentra en un rango, ¡y esta diferencia puede tener un efecto sustancial en el análisis!). A decir verdad, estoy siendo bastante cruel y puede haber situaciones en las que obtener un prior sea un poco más directo. Pero puedes ver cómo es una lata de gusanos. Incluso si cambia a anteriores no informativos, aún puede ser un problema; Al transformar los parámetros, ¡lo que fácilmente se confunde con antecedentes no informativos de repente puede verse como muy informativo! Otro ejemplo de esto es que he hablado con varios investigadores que rotundamente nodesea saber cuál es la interpretación de los datos por parte de otro experto porque, empíricamente, los otros expertos tienden a ser demasiado confiados. Prefieren simplemente saber qué se puede inferir de los datos del otro experto y luego llegar a su propia conclusión. No recuerdo dónde lo escuché, pero en alguna parte leí la frase "si eres bayesiano, quieres que todos sean frequentistas". Interpreto que eso significa que, teóricamente, si eres bayesiano y alguien describe los resultados de su análisis, primero debes tratar de eliminar la influencia de sus anteriores y luego determinar cuál sería el impacto si hubieras utilizado el tuyo. ¡Este pequeño ejercicio se simplificaría si le hubieran dado un intervalo de confianza en lugar de un intervalo creíble!
Por supuesto, si abandona los antecedentes informativos, todavía hay utilidad en los análisis bayesianos. Personalmente, esto es donde creo que su mayor utilidad radica; Hay algunos problemas que son extremadamente difíciles de obtener al usar los métodos MLE, pero se pueden resolver fácilmente con MCMC. Pero mi opinión sobre que esta es la mayor utilidad de Bayesian se debe a fuertes antecedentes de mi parte, así que tómalo con un grano de sal.
fuente
Algunas ventajas concretas de las estadísticas frecuentistas:
fuente
La razón más importante para usar enfoques Frequentistas, que sorprendentemente aún no se ha mencionado, es el control de errores. Muy a menudo, la investigación conduce a interpretaciones dicotómicas (¿debería hacer un estudio sobre esto, o no? ¿Debería implementar una intervención o no?). Los enfoques frecuentes le permiten controlar estrictamente su tasa de error Tipo 1. Los enfoques bayesianos no lo hacen (aunque algunos heredan el límite universal de los enfoques de probabilidad, pero incluso entonces, las tasas de error pueden ser bastante altas en muestras pequeñas y con umbrales de evidencia relativamente bajos (por ejemplo, BF> 3). Puede examinar las propiedades frequentistas de Factores de Bayes (ver, por ejemplo, http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513) pero sigue siendo un enfoque frecuente. Pienso muy a menudo que los investigadores se preocupan más por el control de errores que por cuantificar la evidencia per se (en relación con alguna hipótesis específica), y creo que, al menos, a todos les importa el control de errores en cierta medida, y por lo tanto, se deben usar los dos enfoques. complementariamente
fuente
Creo que una de las preguntas más importantes, como estadístico, debe preguntarse si cree o no en el principio de probabilidad. Si no crees en el principio de probabilidad, entonces creo que el paradigma frecuentista de las estadísticas puede ser extremadamente poderoso, sin embargo, si crees en el principio de probabilidad, entonces (creo) que ciertamente debes abrazar el paradigma bayesiano en o para no violarlo
En caso de que no esté familiarizado con él, lo que nos dice el principio de probabilidad es lo siguiente:
El principio de probabilidad : al hacer inferencias o decisiones sobre después deobservaralgunos datos x , toda la información experimental relevante está contenida en la función de probabilidad : ℓ ( θ ; x ) = p ( x | θ ) donde x corresponde a los datos observados y está así arreglado.θ X
Además, si e y son dos puntos de muestra tales que ℓ ( θ ; x ) es proporcional a ℓ ( θ ; y ) , es decir, existe una constante C ( x , y ) tal queX y ℓ ( θ ; x ) ℓ ( θ ; y ) C( x , y )
entonces las conclusiones extraídas de e y deberían ser idénticas.X y
Ahora, uno de los atractivos de las estadísticas bayesianas es que, bajo las debidas circunstancias, el paradigma bayesiano nunca viola el principio de probabilidad. Sin embargo, hay escenarios muy simples en los que el paradigma frecuentista violará el principio de probabilidad.
Aquí hay un ejemplo muy simple basado en la prueba de hipótesis. Considera lo siguiente:
Considere un experimento en el que se realizaron 12 ensayos de Bernoulli y se observaron 3 éxitos. Dependiendo de la regla de detención, podríamos caracterizar los datos de la siguiente manera:
Y para concluir mis divagaciones, si no te importa el principio de probabilidad, ¡ser frecuente es genial! (Si no puedes decirlo, soy bayesiano :))
fuente
Usted y yo somos científicos, y como científicos, estamos interesados principalmente en cuestiones de evidencia. Por esa razón, creo que los enfoques bayesianos, cuando sea factible, son preferibles.
Los enfoques bayesianos responden a nuestra pregunta: ¿Cuál es la fuerza de la evidencia para una hipótesis sobre otra? Los enfoques frecuentes, por otro lado, no lo hacen: informan solo si los datos son extraños dada una hipótesis.
Dicho esto, Andrew Gelman, notable Bayesiano, parece propugnar el uso de valores p (o verificaciones gráficas similares a los valores p) como una verificación de errores en la especificación del modelo. Puede ver una alusión a este enfoque en esta publicación de blog .
Su enfoque, según tengo entendido, es algo así como un proceso de dos pasos: primero, hace la pregunta bayesiana de cuál es la evidencia de un modelo sobre el otro. En segundo lugar, hace la pregunta Frequentista sobre si el modelo preferido en realidad se considera plausible dada la información. Parece un enfoque híbrido razonable para mí.
fuente
Personalmente, estoy teniendo dificultades para pensar en una situación en la que la respuesta frecuentista sería preferible a la bayesiana. Mi pensamiento se detalla aquí y en otros artículos de blog en fharrell.com sobre los problemas con los valores p y las pruebas de hipótesis nulas. Los frecuentes tienden a ignorar algunos problemas fundamentales. Aquí hay solo una muestra:
Con respecto al primer punto, un modelo de uso común es el modelo logístico binario. Su probabilidad de registro es muy no cuadrática, y la gran mayoría de los límites de confianza y los valores p calculados para tales modelos no son muy precisos. Compare eso con el modelo logístico bayesiano, que proporciona una inferencia exacta.
Otros han mencionado el control de errores como una razón para usar la inferencia frecuentista. No creo que esto sea lógico, porque el error al que se refieren es el error a largo plazo, que visualiza un proceso en el que se ejecutan miles de pruebas estadísticas. Un juez que dijo que "la probabilidad de una condena falsa a largo plazo en mi tribunal es de solo 0.03" debe ser desestimado. Se le acusa de tener la mayor probabilidad de tomar la decisión correcta para el defensor actual . Por otro lado, uno menos la probabilidad posterior de un efecto es la probabilidad de cero o efecto hacia atrás y es la probabilidad de error que realmente necesitamos.
fuente
Muchas personas no parecen conocer una tercera escuela filosófica: el verosimilitud. El libro de AWF Edwards, Probabilidad, es probablemente el mejor lugar para leerlo. Aquí hay un breve artículo que escribió.
El verosimilitud evita los valores p, como el bayesianismo, pero también evita el dudoso anterior bayesiano. No es un tratamiento introducción aquí también.
fuente
Una de las mayores desventajas de los enfoques frecuentistas para la construcción de modelos siempre ha sido, como señala TrynnaDoStats en su primer punto, los desafíos involucrados con la inversión de grandes soluciones de forma cerrada. La inversión de matriz de forma cerrada requiere que toda la matriz sea residente en RAM, una limitación significativa en plataformas de CPU individuales con grandes cantidades de datos o características categóricas masivas. Los métodos bayesianos han podido solucionar este desafío simulando sorteos aleatorios de un previo especificado. Este siempre ha sido uno de los principales puntos de venta de soluciones bayesianas, aunque las respuestas se obtienen solo a un costo significativo en la CPU.
Andrew Ainslie y Ken Train, en un artículo de hace aproximadamente 10 años al que he perdido la referencia, compararon la mezcla finita (que es frecuente o cerrada) con los enfoques bayesianos para la construcción de modelos y descubrieron que en una amplia gama de formas funcionales y métricas de rendimiento, los dos métodos arrojaron resultados esencialmente equivalentes. Donde las soluciones bayesianas tenían una ventaja o poseían una mayor flexibilidad eran en aquellos casos en que la información era escasa y de muy alta dimensión.
Sin embargo, ese documento fue escrito antes de que se desarrollaran algoritmos de "divide y vencerás" que aprovechan plataformas paralelas masivas, por ejemplo, ver el documento de Chen y Minge para obtener más información sobre este http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf
El advenimiento de los enfoques de D&C ha significado que, incluso para los problemas dimensionales más peludos, más escasos y más altos, los enfoques bayesianos ya no tienen una ventaja sobre los métodos frecuentistas. Los dos métodos están a la par.
Vale la pena señalar este desarrollo relativamente reciente en cualquier debate sobre las ventajas prácticas o limitaciones de cualquiera de los métodos.
fuente
Las pruebas frecuentes se centran en falsificar la hipótesis nula. Sin embargo, las Pruebas de significación de hipótesis nulas (NHST) también se pueden hacer desde una perspectiva bayesiana, porque en todos los casos NHST es simplemente un cálculo de P (Efecto Observado | Efecto = 0). Por lo tanto, es difícil identificar un momento en que sería necesario realizar NHST desde una perspectiva frecuentista.
Dicho esto, el mejor argumento para llevar a cabo NHST utilizando un enfoque frecuentista es la facilidad y la accesibilidad. A las personas se les enseña estadísticas frecuentistas. Por lo tanto, es más fácil ejecutar un NHST frecuentista, porque hay muchos más paquetes estadísticos que simplifican la tarea. Del mismo modo, es más fácil comunicar los resultados de un HSTN frecuente porque las personas están familiarizadas con esta forma de HSTN. Entonces, lo veo como el mejor argumento para los enfoques frecuentistas: accesibilidad a los programas de estadísticas que los ejecutarán y facilidad de comunicación de resultados a los colegas. Sin embargo, esto es solo cultural, por lo que este argumento podría cambiar si los enfoques frecuentistas pierden su hegemonía.
fuente
Varios comentarios:
La diferencia fundamental entre el estadístico bayesiano y frecuentista es que el bayesiano está dispuesto a extender las herramientas de probabilidad a situaciones donde el frecuentista no lo haría.
En las estadísticas bayesianas, la esperanza es que después de observar los datos, el posterior abruma al anterior, que lo anterior no importa. Pero a menudo este no es el caso: ¡los resultados pueden ser sensibles a la elección de antes! Diferentes bayesianos con diferentes antecedentes no necesitan estar de acuerdo en el posterior.
¡Un punto clave a tener en cuenta es que las declaraciones del estadístico frecuentista son declaraciones en las que dos bayesianos pueden ponerse de acuerdo, independientemente de sus creencias anteriores!
El frecuentista no hace comentarios sobre anteriores o posteriores, simplemente la probabilidad.
Las declaraciones del estadístico frecuentista en cierto sentido son menos ambiciosas, pero las declaraciones más audaces del bayesiano pueden confiar significativamente en la asignación de un prior. En situaciones donde los antecedentes importan y donde hay desacuerdo sobre los antecedentes, las declaraciones condicionales más limitadas de las estadísticas frecuentas pueden tener un terreno más firme.
fuente
El objetivo de mucha investigación no es llegar a una conclusión final, sino obtener un poco más de evidencia para impulsar gradualmente el sentido de una pregunta de la comunidad en una dirección .
Las estadísticas bayesianas son indispensables cuando lo que necesita es evaluar una decisión o conclusión a la luz de la evidencia disponible. El control de calidad sería imposible sin las estadísticas bayesianas. Cualquier procedimiento en el que necesite tomar algunos datos y luego actuar sobre ellos (robótica, aprendizaje automático, toma de decisiones comerciales) se beneficia de las estadísticas bayesianas.
Pero muchos investigadores no están haciendo eso. Realizan algunos experimentos, recopilan algunos datos y luego dicen "Los datos apuntan de esta manera", sin preocuparse realmente de si esa es la mejor conclusión dada toda la evidencia que otros han reunido hasta ahora. La ciencia puede ser un proceso lento y una declaración como "¡La probabilidad de que este modelo sea correcto es del 72%!" A menudo es prematuro o innecesario.
Esto también es apropiado de una manera matemática simple, porque las estadísticas frecuentistas a menudo resultan ser matemáticamente lo mismo que el paso de actualización de una estadística bayesiana. En otras palabras, mientras que la estadística bayesiana es (Modelo anterior, Evidencia) → Nuevo modelo, las estadísticas frecuentas son solo Evidencia, y deja que otros completen las otras dos partes.
fuente
La ejecución real de un método bayesiano es más técnica que la de un frequentista. Por "más técnico" me refiero a cosas como: 1) elegir priors, 2) programar su modelo en BUGS / JAGS / STAN, y 3) pensar en el muestreo y la convergencia.
Obviamente, el # 1 es prácticamente no opcional, por definición de Bayesian. Aunque con algunos problemas y procedimientos, puede haber valores predeterminados razonables, ocultando el problema al usuario. (¡Aunque esto también puede causar problemas!)
Si el # 2 es un problema depende del software que use. La estadística bayesiana se inclina hacia soluciones más generales que los métodos estadísticos frecuentas, y las herramientas como BUGS, JAGS y STAN son una expresión natural de esto. Sin embargo, hay funciones bayesianas en varios paquetes de software que parecen funcionar como el típico procedimiento frecuente, por lo que esto no siempre es un problema. (Y las soluciones recientes como los paquetes R
rstanarm
ybrms
están cerrando esta brecha). Aún así, el uso de estas herramientas es muy similar a la programación en un nuevo lenguaje.El ítem n. ° 3 generalmente es aplicable, ya que la mayoría de las aplicaciones bayesianas del mundo real utilizarán el muestreo MCMC. (Por otro lado, los procedimientos frecuentes basados en MLE utilizan una optimización que puede converger a un mínimo local o no converger en absoluto, y me pregunto cuántos usuarios deberían verificar esto y no lo hacen).
Como dije en un comentario, no estoy seguro de que liberarse de los antecedentes sea realmente un beneficio científico. Ciertamente es conveniente de varias maneras y en varios puntos del proceso de publicación, pero no estoy seguro de que en realidad contribuya a una mejor ciencia. (Y en el panorama general, todos debemos ser conscientes de nuestros antecedentes como científicos, o sufriremos todo tipo de sesgos en nuestras investigaciones, independientemente de los métodos estadísticos que utilicemos).
fuente
Conceptualmente : no lo sé. Creo que las estadísticas bayesianas son la forma más lógica de pensar, pero no podría justificar por qué.
La ventaja del frecuentista es que es más fácil para la mayoría de las personas en el nivel primario. Pero para mí fue extraño. Pasaron años hasta que realmente pude aclarar intelectualmente qué es un intervalo de confianza. Pero cuando comencé a enfrentar situaciones prácticas, las ideas frecuentistas parecían simples y altamente relevantes.
Empíricamente
La pregunta más importante en la que intento centrarme hoy en día es más sobre la eficiencia práctica: tiempo de trabajo personal, precisión y velocidad de cálculo.
Tiempo de trabajo personal: para preguntas básicas, en realidad casi nunca uso métodos bayesianos: uso herramientas frecuentas básicas y siempre preferiré una prueba t sobre un equivalente bayesiano que solo me causaría dolor de cabeza. Cuando quiero saber si soy significativamente mejor en tictactoe que mi novia, hago un chi-cuadrado :-). En realidad, incluso en trabajos serios como informático, las herramientas básicas frecuentas son invaluables para investigar problemas y evitar conclusiones falsas debido al azar.
Precisión: en el aprendizaje automático donde la predicción es más importante que el análisis, no existe un límite absoluto entre bayesiano y frecuentista. MLE es un enfoque frecuente: solo un estimador. Pero el MLE regularizado (MAP) es un enfoque parcialmente bayesiano : encuentras el modo de la parte posterior y no te importa el resto de la parte posterior. No sé de una justificación frecuente de por qué usar la regularización. Prácticamente, la regularización a veces es inevitable porque la estimación bruta de MLE está tan sobreajustada que 0 sería un mejor predictor. Si se acuerda que la regularización es un método verdaderamente bayesiano, esto solo justifica que Bayes pueda aprender con menos datos.
Velocidad de cómputo: los métodos más frecuentes suelen ser computacionalmente más rápidos y fáciles de implementar. Y de alguna manera, la regularización proporciona una forma barata de introducir un poco de Bayes en ellos. Puede ser porque los métodos bayesianos todavía no están tan optimizados como podrían. Por ejemplo, algunas implementaciones de LDA son rápidas hoy en día. Pero requirieron un trabajo muy duro. Para las estimaciones de entropía, los primeros métodos avanzados fueron bayesianos. Funcionaron muy bien, pero pronto se descubrieron los métodos frecuentes y requieren mucho menos tiempo de cálculo ... Para el tiempo de cálculo, los métodos frecuentes generalmente son claramente superiores. No es absurdo, si usted es bayesiano, pensar en los métodos frecuentistas como aproximaciones de los métodos bayesianos.
fuente
Un tipo de problema en el que un enfoque basado en el frequentismo particular ha dominado esencialmente a cualquier Bayesiano es el de la predicción en el caso M-abierto.
¿Qué significa M-open?
En la mayoría de los casos, este es un gran problema para los análisis bayesianos; Casi toda la teoría que conozco se basa en que el modelo se especifique correctamente. Por supuesto, como estadísticos críticos, debemos pensar que nuestro modelo siempre está mal especificado. Esto es un gran problema; La mayor parte de nuestra teoría se basa en que el modelo es correcto, pero sabemos que nunca lo es. Básicamente, solo estamos cruzando los dedos con la esperanza de que nuestro modelo no sea demasiado incorrecto.
¿Por qué los métodos frequentistas manejan esto mejor?
No todos lo hacen. Por ejemplo, si usamos herramientas MLE estándar para crear los errores estándar o construir intervalos de predicción, no estamos mejor que usar métodos bayesianos.
Sin embargo, hay una herramienta Frequentista particular que está diseñada específicamente para este propósito: la validación cruzada. Aquí, para estimar qué tan bien nuestro modelo pronosticará los nuevos datos, simplemente dejamos algunos de los datos al ajustar el modelo y medimos qué tan bien nuestro modelo predice los datos no vistos.
Tenga en cuenta que este método es completamente ambivalente a la especificación errónea del modelo, simplemente proporciona un método para que podamos estimar qué tan bien un modelo pronosticará los nuevos datos, independientemente de si el modelo es "correcto" o no.
No creo que sea demasiado difícil argumentar que esto realmente cambia el enfoque del modelado predictivo que es difícil de justificar desde una perspectiva bayesiana (se supone que prior representa el conocimiento previo antes de ver los datos, la función de probabilidad es el modelo, etc.) a uno eso es muy fácil de justificar desde una perspectiva Frequentista (elegimos el modelo + los parámetros de regularización que, sobre el muestreo repetido, conduce a los mejores errores de muestra).
Esto ha revolucionado por completo cómo se hace la inferencia predictiva. No creo que ningún estadístico consideraría (o al menos debería) considerar seriamente un modelo predictivo que no fue construido o verificado con validación cruzada, cuando está disponible (es decir, podemos suponer razonablemente que las observaciones son independientes, sin tratar de dar cuenta para sesgo de muestreo, etc.).
fuente