Digamos que tengo tres fuentes independientes y cada una de ellas hace predicciones para el clima mañana. El primero dice que la probabilidad de lluvia mañana es 0, luego el segundo dice que la probabilidad es 1, y finalmente el último dice que la probabilidad es 50%. Me gustaría saber la probabilidad total dada esa información.
Si aplico el teorema de multiplicación para eventos independientes obtengo 0, que no parece correcto. ¿Por qué no es posible multiplicar los tres si todas las fuentes son independientes? ¿Hay alguna forma bayesiana de actualizar la versión anterior a medida que obtengo nueva información?
Nota: Esto no es tarea, es algo en lo que estaba pensando.
probability
bayesian
pooling
model-averaging
forecast-combination
Biela Diela
fuente
fuente
Respuestas:
Usted pregunta acerca de tres cosas: (a) cómo combinar varios pronósticos para obtener un pronóstico único, (b) si el enfoque bayesiano se puede usar aquí, y (c) cómo lidiar con las probabilidades cero.
La combinación de pronósticos es una práctica común . Si tiene varios pronósticos que si toma el promedio de esos pronósticos, el pronóstico combinado resultante debería ser mejor en términos de precisión que cualquiera de los pronósticos individuales. Para promediarlos, puede usar el promedio ponderado donde los pesos se basan en errores inversos (es decir, precisión) o contenido de información . Si tuviera conocimiento sobre la confiabilidad de cada fuente, podría asignar pesos que sean proporcionales a la confiabilidad de cada fuente, de modo que las fuentes más confiables tengan un mayor impacto en el pronóstico combinado final. En su caso, no tiene ningún conocimiento sobre su confiabilidad, por lo que cada pronóstico tiene el mismo peso y puede utilizar la media aritmética simple de los tres pronósticos.
Como se sugirió en los comentarios de @AndyW y @ArthurB. , existen otros métodos además de la media ponderada simple. Muchos de estos métodos se describen en la literatura sobre el promedio de pronósticos expertos, con los que no estaba familiarizado antes, así que gracias chicos. Al promediar los pronósticos de los expertos, a veces queremos corregir el hecho de que los expertos tienden a retroceder a la media (Baron et al, 2013), o hacer que sus pronósticos sean más extremos (Ariely et al, 2000; Erev et al, 1994). Para lograr esto, se podrían usar transformaciones de pronósticos individuales , por ejemplo, la función logitpi
probabilidades a la potencia -ésimoa
donde , o una transformación más general de la forma0 < a < 1
donde si no se aplica transformación, si a > 1 los pronósticos individuales se hacen más extremos, si 0 < a < 1 los pronósticos se hacen menos extremos, lo que se muestra en la imagen a continuación (ver Karmarkar, 1978; Baron et al, 2013 )a = 1 a > 1 0 < a < 1
Luego de promediar tales pronósticos de transformación (usando la media aritmética, la mediana, la media ponderada u otro método). Si se usaron las ecuaciones (1) o (2), los resultados deben ser transformados de nuevo usando logit inverso para (1) y probabilidades inversas para (2). Alternativamente, se puede usar la media geométrica (ver Genest y Zidek, 1986; cf. Dietrich y List, 2014)
o enfoque propuesto por Satopää et al (2014)
donde son pesos. En la mayoría de los casos, se usan pesos iguales w i = 1 / N a menos que a priori exista información que sugiera otra opción. Dichos métodos se utilizan para promediar pronósticos de expertos para corregir el exceso o el exceso de confianza. En otros casos, debe considerar si la transformación de pronósticos a más o menos extremos está justificada, ya que puede hacer que la estimación agregada resultante caiga fuera de los límites marcados por el pronóstico individual más bajo y más grande.wyo wyo= 1 / N
Si tiene conocimiento a priori sobre la probabilidad de lluvia, puede aplicar el teorema de Bayes para actualizar los pronósticos dada la probabilidad a priori de lluvia de manera similar a la descrita aquí . También hay un enfoque simple que podría aplicarse, es decir, calcular el promedio ponderado de sus pronósticos de (como se describió anteriormente) donde la probabilidad previa π se trata como un punto de datos adicional con algún peso preespecificado w π como en este ejemplo IMDB (ver también la fuente , o aquí y aquí para discusión; cf. Genest y Schervish, 1985), es decirpagsyo π wπ
Sin embargo, a partir de su pregunta, no se deduce que tenga ningún conocimiento a priori sobre su problema, por lo que probablemente usaría uniforme antes, es decir, supondrá una probabilidad de lluvia del priori y esto realmente no cambia mucho en el caso de que proporcionó un ejemplo.50 %
Para tratar con ceros, hay varios enfoques diferentes posibles. Primero debe notar que el probabilidad de lluvia no es un valor realmente confiable, ya que dice que es imposible que llueva. Problemas similares ocurren a menudo en el procesamiento del lenguaje natural cuando en sus datos no observa algunos valores que posiblemente pueden ocurrir (por ejemplo, cuenta frecuencias de letras y en sus datos no aparece ninguna letra poco común). En este caso, el estimador clásico de probabilidad, es decir0 %
donde es un número de ocurrencias de i th valor (fuera de las categorías d ), le da p i = 0 si n i = 0 . Esto se llama problema de frecuencia cero . Para tales valores, sabe que su probabilidad es distinta de cero (¡existen!), Por lo que esta estimación es obviamente incorrecta. También existe una preocupación práctica: multiplicar y dividir por ceros conduce a ceros o resultados indefinidos, por lo que los ceros son problemáticos para tratar.norteyo yo re pagsyo= 0 norteyo= 0
La solución fácil y comúnmente aplicada es agregar un constante a sus recuentos, para queβ
La elección común para es 1 , es decir, la aplicación uniforme antes basado en la regla de Laplace de la sucesión , 1 / 2 para Krichevski-Trofimov estimación, o 1 / d para Schurmann-Grassberger (1996) estimador. Sin embargo, tenga en cuenta que lo que hace aquí es aplicar información fuera de los datos (anterior) en su modelo, por lo que obtiene un sabor bayesiano subjetivo. Al utilizar este enfoque, debe recordar las suposiciones que hizo y tomarlas en consideración. El hecho de que tenemos fuertes a prioriβ 1 1 / 2 1 / d El conocimiento de que no debería haber ninguna probabilidad cero en nuestros datos justifica directamente el enfoque bayesiano aquí. En su caso, no tiene frecuencias sino probabilidades, por lo que estaría agregando un valor muy pequeño para corregir los ceros. Sin embargo, tenga en cuenta que, en algunos casos, este enfoque puede tener malas consecuencias (por ejemplo, cuando se trata de registros ), por lo que debe usarse con precaución.
Schurmann, T. y P. Grassberger. (1996) Estimación de entropía de secuencias de símbolos. Caos, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS y Zauberman, G. (2000). Los efectos de promediar estimaciones de probabilidad subjetiva entre y dentro de los jueces. Revista de Psicología Experimental: Aplicada, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. y Ungar, LH (2014). Dos razones para hacer pronósticos de probabilidad agregados más extremos. Análisis de decisiones, 11 (2), 133-145.
Erev, I., Wallsten, TS y Budescu, DV (1994). Sobreconfianza y exceso de confianza simultáneas: el papel del error en los procesos de juicio. Revisión psicológica, 101 (3), 519.
Karmarkar, Estados Unidos (1978). Utilidad ponderada subjetivamente: una extensión descriptiva del modelo de utilidad esperado. Comportamiento organizacional y desempeño humano, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV y Wallsten, TS (2014). Agregación de pronósticos mediante recalibración. Aprendizaje automático, 95 (3), 261-289.
Genest, C. y Zidek, JV (1986). Combinando distribuciones de probabilidad: una crítica y una bibliografía anotada. Ciencia estadística, 1 , 114-135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE y Ungar, LH (2014). Combinando múltiples predicciones de probabilidad usando un modelo logit simple. International Journal of Forecasting, 30 (2), 344-356.
Genest, C. y Schervish, MJ (1985). Modelado de juicios expertos para la actualización bayesiana. Los Anales de Estadísticas , 1198-1212.
Dietrich, F. y List, C. (2014). Agrupación de opinión probabilística. (Inédito)
fuente
Hay dos formas de pensar en el problema. Una es decir que las fuentes observan una versión ruidosa de la variable latente "lloverá / no lloverá".
Este modelo funciona mejor si estás pensando en tres personas que te dicen si llovió ayer o no. En la práctica, sabemos que hay un componente aleatorio irreducible en el clima, por lo que podría ser mejor suponer que la naturaleza elige primero una probabilidad de lluvia, que las fuentes observan ruidosamente, y luego lanza una moneda sesgada para decidir si o no va a llover.
En ese caso, la estimación combinada se parecería mucho más a un promedio entre las diferentes estimaciones.
fuente
En el marco del Modelo de creencias transferibles (TBM) , es posible combinar diferentes predicciones utilizando, por ejemplo, la "regla conjuntiva de combinación". Para aplicar esta regla, debe transformar las probabilidades de las predicciones en asignaciones de creencias básicas. Esto se puede lograr con el llamado Principio de menor compromiso. En R:
Para el segundo ejemplo de tres predicciones independientes de 0,75, este enfoque devuelve un valor más alto:
Esto no está muy lejos del enfoque bayesiano que se muestra en la respuesta de Arthur B.
fuente
Creo que vale la pena mirar el esquema de ponderación basado en errores inversos mencionados en una de las respuestas. Si las fuentes son verdaderamente independientes y restringimos los pesos para que sumen uno, los pesos están dados por
fuente
Sus números de probabilidad de lluvia son solo la mitad de la historia, ya que tendríamos que moderar sus predicciones con la probabilidad de que sean precisas al hacer conjeturas.
Debido a que algo como la lluvia es mutuamente excluyente (está lloviendo o no, en esta configuración), no todos pueden ser correctos simultáneamente con un 75% de probabilidad como lo sugirió Karsten (creo que es difícil de decir con la confusión que escucho sobre lo que significa para encontrar "probabilidad combinada").
Teniendo en cuenta sus habilidades individuales para predecir el clima, podríamos apuñalar (a la Thomas Bayes, como en un tiro generalmente ciego en la oscuridad) sobre cuál es la probabilidad de lluvia mañana.
La estación 1 es correcta en sus predicciones el 60% del tiempo, el segundo 30% del tiempo y la última estación un pobre 10% del tiempo.
E [lluvia] = Px X + Py Y + Pz * Z es la forma que estamos viendo aquí:
(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [lluvia] = 35% de probabilidad de lluvia con precisiones de predicción inventadas.
fuente
Hay muchas respuestas complicadas dadas a esta pregunta, pero ¿qué pasa con la media ponderada de la varianza inversa: https://en.wikipedia.org/wiki/Inverse-variance_weighting
El promedio ponderado de la varianza inversa parece muy sencillo de calcular y, como bonificación, tiene la menor varianza entre todos los promedios ponderados.
fuente
Para combinar confiabilidad, mi fórmula de referencia es r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Entonces, para las 3 fuentes de confiabilidad, el 75% dice lo mismo, .75 ^ 3 ÷ (.75 ^ 3 + .25 ^ 3) => 96% de confiabilidad de la respuesta combinada
fuente