¿Qué métodos no bayesianos existen para la inferencia predictiva?

En la inferencia bayesiana, se deriva una distribución predictiva para datos futuros integrando parámetros desconocidos; la integración sobre la distribución posterior de esos parámetros da una distribución predictiva posterior, una distribución para datos futuros condicional a los ya observados. ¿Qué métodos no bayesianos para la inferencia predictiva existen que tengan en cuenta la incertidumbre en las estimaciones de parámetros (es decir, que no solo conecten estimaciones de máxima verosimilitud o lo que sea de nuevo en una función de densidad)?

Todos saben cómo calcular los intervalos de predicción después de una regresión lineal, pero ¿cuáles son los principios detrás del cálculo y cómo se pueden aplicar en otras situaciones (por ejemplo, calcular un intervalo de predicción exacto para una nueva variante exponencial después de estimar el parámetro de tasa a partir de los datos)?

prediction inference prediction-interval Scortchi - Restablece a Monica
fuente

Creo que esta es una gran pregunta, y quiero proporcionar al menos una respuesta parcial, pero probablemente no tendré tiempo para hacerle justicia por un tiempo ... así que voy a tener una recompensa por esto por ahora .

Glen_b -Reinstate Monica

@ DavidC.Norris No veo por qué uno debería insistir en que necesariamente hay otras fuentes de incertidumbre de parámetros más allá de eso (de donde la inferencia predictiva tendría que tener en cuenta tanto eso como la variabilidad aleatoria en el proceso mismo). Eso en sí mismo no es trivial, incluso en ejemplos bastante básicos: intente producir intervalos de predicción para una suma de predicciones de una regresión binomial negativa o de Poisson, por ejemplo. Tampoco es necesario ser bayesiano para suponer que hay una variación en los parámetros entre las categorías (como las personas que usan modelos mixtos).

Glen_b: reinstala a Monica el

@ DavidC.Norris: pregunté acerca de los métodos no bayesianos simplemente porque el cálculo de las distribuciones predictivas posteriores está cubierto en cada introducción a las estadísticas bayesianas, mientras que los métodos generalistas frecuentes para calcular los intervalos de predicción no son ampliamente conocidos.

Scortchi - Restablece a Monica

@EngrStudent, el bootstrapping funciona mediante el remuestreo de los datos originales, y por lo tanto cae en la misma categoría que otros métodos frecuentados que tratan solo con la variación del muestreo como fuente de incertidumbre. No expande el concepto de incertidumbre en sí mismo.

David C. Norris

@ DavidC.Norris: Se está muestreando variación como una fuente de incertidumbre - que afecta a las predicciones de futuras observaciones en lugar de inferencia sobre los parámetros - que me preocupa aquí, en lugar de los métodos bayesianos no tener en cuenta otros tipos de incertidumbre.

Scortchi - Restablece a Monica

Respuestas:

La inferencia predictiva no bayesiana (aparte del caso SLR) es un campo relativamente reciente. Bajo el título de "no bayesiano" podemos subdividir los enfoques en aquellos que son frecuentadores "clásicos" versus aquellos que están basados en "probabilidad".

Predicción Frecuentista Clásica

Como saben, el "estándar de oro" en el frecuentismo es lograr la cobertura nominal bajo muestreo repetido. Por ejemplo, queremos que una región de confianza del 95% contenga los parámetros verdaderos en el 95% de las muestras de la misma población subyacente. O, esperamos cometer errores de Tipo I y II en una prueba de hipótesis en promedio igual a y . Finalmente, y más relacionado con esta pregunta, esperamos que nuestro intervalo de predicción del 95% contenga el siguiente punto de muestra el 95% del tiempo. $\alpha$ $\beta$

Ahora, en general, he tenido problemas con la forma en que se presentan y enseñan los IP clásicos en la mayoría de los cursos de estadísticas, porque la tendencia abrumadora es interpretarlos como intervalos predictivos posteriores bayesianos, que definitivamente no lo son. ¡Lo más fundamental es que están hablando de diferentes probabilidades! Los bayesianos no reclaman el rendimiento de muestreo repetido de sus cantidades (de lo contrario, serían frecuentas). En segundo lugar, un IP bayesiano en realidad está logrando algo más similar en espíritu a un intervalo de tolerancia clásico que a un intervalo de predicción clásico.

Como referencia: los intervalos de tolerancia deben especificarse mediante dos probabilidades: la confianza y la cobertura. La confianza nos dice con qué frecuencia es correcta en muestras repetidas. La cobertura nos dice la medida de probabilidad mínima del intervalo bajo la distribución verdadera (a diferencia del IP, que da la medida de probabilidad esperada ... nuevamente bajo muestreo repetido). Esto es básicamente lo que el IP bayesiano está tratando de hacer también, pero sin ningún reclamo de muestreo repetido.

Por lo tanto, la lógica básica de la regresión lineal simple de estadísticas 101 es derivar las propiedades de muestreo repetido del IP bajo el supuesto de normalidad. Es el enfoque frecuentista + gaussiano que generalmente se considera "clásico" y se enseña en las clases de estadísticas de introducción. Esto se basa en la simplicidad de los cálculos resultantes (ver Wikipedia para una buena visión general).

Las distribuciones de probabilidad no gaussianas son generalmente problemáticas porque pueden carecer de cantidades fundamentales que se pueden invertir cuidadosamente para obtener un intervalo. Por lo tanto, no existe un método "exacto" para estas distribuciones, a menudo porque las propiedades del intervalo dependen de los parámetros subyacentes verdaderos.

Al reconocer esta incapacidad, surgió otra clase de predicción (y de inferencia y estimación) con el enfoque de probabilidad.

Inferencia basada en la probabilidad

Los enfoques basados en la probabilidad, como muchos conceptos estadísticos modernos, se remontan a Ronald Fisher. La idea básica de esta escuela es que, excepto en casos especiales, nuestras inferencias estadísticas están en un terreno lógicamente más débil que cuando se trata de inferencias de una distribución normal (cuyas estimaciones de parámetros son ortogonales ), donde podemos hacer declaraciones de probabilidad exactas. Desde este punto de vista de la inferencia, uno realmente debería evitar las declaraciones sobre la probabilidad, excepto en el caso exacto; de lo contrario, debería hacer declaraciones sobre la probabilidad y reconocer que no se conoce la probabilidad exacta de error (en un sentido frecuente).

Por lo tanto, podemos ver la probabilidad como algo similar a la probabilidad bayesiana, pero sin los requisitos de integrabilidad o la posible confusión con la probabilidad frecuentista. Su interpretación es completamente subjetiva ... aunque a menudo se recomienda una razón de probabilidad de 0.15 para la inferencia de un solo parámetro.

Sin embargo, a menudo no se ven documentos que explícitamente den "intervalos de probabilidad". ¿Por qué? Parece que esto es en gran medida una cuestión de sociología, ya que todos nos hemos acostumbrado a las declaraciones de confianza basadas en la probabilidad. En cambio, lo que a menudo ve es un autor que se refiere a un intervalo de confianza "aproximado" o "asintótico" de tal y tal. Estos intervalos se derivan en gran medida de los métodos de probabilidad, en los que confiamos en la distribución asintótica de Chi-cuadrado de la razón de probabilidad de la misma manera en que confiamos en la normalidad asintótica de la media de la muestra.

Con esta "solución" ahora podemos construir regiones de confianza "aproximadas" del 95% con casi tanta coherencia lógica como los bayesianos.

De CI a PI en el Marco de Probabilidad

El éxito y la facilidad del enfoque de probabilidad anterior condujo a ideas sobre cómo extenderlo a la predicción. Aquí se da un muy buen artículo de encuesta sobre esto (no reproduciré su excelente cobertura). Se remonta a David Hinkley a fines de la década de 1970 (ver JSTOR ), quien acuñó el término. Lo aplicó al perenne " Problema de predicción binomial de Pearson ". Resumiré la lógica básica.

$y$ $y$ $y$

Las reglas básicas para deshacerse de los parámetros "molestos" para obtener una probabilidad predictiva son las siguientes:

$\mu, \sigma$
Si un parámetro es aleatorio (p. Ej., Otros datos no observados o "efectos aleatorios"), entonces los integra (como en el enfoque bayesiano).

La distinción entre un parámetro fijo y aleatorio es única para la inferencia de probabilidad, pero tiene conexiones con modelos de efectos mixtos, donde parece que los marcos bayesiano, frecuentista y de probabilidad chocan.

Esperemos que esto haya respondido a su pregunta sobre el área amplia de predicción "no bayesiana" (e inferencia para el caso). Dado que los hipervínculos pueden cambiar, también pondré un tapón para el libro "En toda probabilidad: modelado estadístico e inferencia usando la probabilidad", que analiza en profundidad el marco de probabilidad moderno, que incluye una buena cantidad de los problemas epistemológicos de probabilidad vs bayesiano versus frecuentista inferencia y predicción.

Referencias

Intervalos de predicción: métodos no paramétricos . Wikipedia Consultado el 13/09/2015.
Bjornstad, Jan F. Probabilidad predictiva: una revisión. Estadístico. Sci. 5 (1990), no. 2, 242--254. doi: 10.1214 / ss / 1177012175. http://projecteuclid.org/euclid.ss/1177012175 .
David Hinkley. Probabilidad predictiva . Los Anales de Estadísticas vol. 7, N ° 4 (julio de 1979), págs. 718-728 Publicado por: Instituto de Estadística Matemática URL estable: http://www.jstor.org/stable/2958920
Yudi Pawitan. En toda probabilidad: modelado estadístico e inferencia usando probabilidad. Prensa de la Universidad de Oxford; 1 edición (30 de agosto de 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Especialmente los capítulos 5.5-5.9, 10 y 16.

fuente

Dirigiré mi respuesta específicamente a la pregunta: "¿Qué métodos no bayesianos para la inferencia predictiva existen que tengan en cuenta la incertidumbre en las estimaciones de parámetros?" Organizaré mi respuesta en torno a ampliar el significado de incertidumbre .

Esperamos que los análisis estadísticos brinden soporte para varios tipos de reclamos, incluidas las predicciones . Pero seguimos sin estar seguros acerca de nuestras afirmaciones, y esta incertidumbre surge de muchas fuentes. Las estadísticas frecuentes se organizan característicamente en torno a abordar solo esa parte de nuestra incertidumbre que surge específicamente del muestreo . El muestreo puede haber sido la principal fuente de incertidumbre en los experimentos de campo agrícola que históricamente proporcionaron gran parte del estímulo para el desarrollo de estadísticas frecuentistas. Pero en muchas de las aplicaciones actuales más importantes, este no es el caso. Ahora nos preocupamos por todo tipo de otras incertidumbres, como la especificación errónea del modelo y diversas formas de sesgo, de las cuales aparentemente hay cientos (!) De tipos [1].

Sander Groenlandia tiene un maravilloso documento de debate [2] que señala lo importante que puede ser tener en cuenta estas otras fuentes de incertidumbre, y prescribe el análisis de sesgo múltiple como el medio para lograr esto. Desarrolla la teoría completamente en términos bayesianos, lo cual es natural. Si se desea llevar a cabo un tratamiento formal y coherente de la incertidumbre sobre los parámetros del modelo, se lo conduce naturalmente a distribuciones de probabilidad positivas (subjetivas) sobre los parámetros; en este punto estás perdido con el Diablo Bayesiano o has entrado en el Reino del Cielo Bayesiano (dependiendo de tu religión).

A su pregunta, @Scortchi, acerca de si esto se puede hacer con "métodos no bayesianos", una solución alternativa no bayesiana se demuestra en [3]. Pero para cualquiera que sepa lo suficiente sobre el bayesianismo como para escribir su pregunta, el tratamiento allí será más bien como un intento de implementar cálculos bayesianos "a escondidas", por así decirlo. De hecho, como reconocen los autores (ver p. 4), cuanto más se acerque a los métodos más avanzados hacia el final del libro, más se parecen los métodos precisamente a la integración que describe en su pregunta. Sugieren que el lugar donde se apartan del bayesianismo es, en última instancia, no postular previamente a sus parámetros antes de estimarlos.

$\theta(\alpha)$ $\alpha$ $\theta$

Chavalarias, David y John PA Ioannidis. "El análisis de mapeo científico caracteriza 235 sesgos en la investigación biomédica". Journal of Clinical Epidemiology 63, no. 11 (noviembre de 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.
Groenlandia, Sander. "Modelos de sesgo múltiple para el análisis de datos de observación (con discusión)". Revista de la Royal Statistical Society: Serie A (Estadísticas en la sociedad) 168, no. 2 (marzo de 2005): 267–306. doi: 10.1111 / j.1467-985X.2004.00349.x.
Lash, Timothy L., Matthew P. Fox y Aliza K. Fink. Aplicación del análisis cuantitativo de sesgo a los datos epidemiológicos. Estadísticas de biología y salud. Nueva York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .

David C. Norris
fuente

¡Gracias! Eso suena muy interesante, pero creo que sería útil si pudiera agregar un breve resumen de cómo se usa el análisis de sesgo múltiple / cuantitativo en la inferencia predictiva.

Scortchi - Restablece a Monica

Agregué un párrafo para hacer explícita la conexión a la predicción . Gracias por su solicitud de aclaración, @Scortchi.

David C. Norris