¿Cómo modelar una moneda sesgada con un sesgo variable en el tiempo?

10

Los modelos de monedas sesgadas generalmente tienen un parámetro . Una forma de estimar partir de una serie de sorteos es usar una distribución beta anterior y calcular la distribución posterior con probabilidad binomial.θθ=P(Head|θ)θ

En mi configuración, debido a algún proceso físico extraño, mis propiedades de monedas cambian lentamente y θ convierte en una función del tiempo t . Mis datos son un conjunto de dibujos ordenados, es decir, {H,T,H,H,H,T,...} . Puedo considerar que solo tengo un sorteo por cada t en una cuadrícula de tiempo discreta y regular.

¿Cómo modelarías esto? Estoy pensando en algo así como un filtro de Kalman adaptado al hecho de que la variable oculta es θ y que mantiene la probabilidad binomial. ¿Qué podría usar para modelar P(θ(t+1)|θ(t)) para mantener la inferencia manejable?

Edite las siguientes respuestas (¡gracias!) : Me gustaría modelar θ(t) como una Cadena de Markov de orden 1 como se hace en filtros HMM o Kalman. La única suposición que puedo hacer es que θ(t) es suave. Podría escribir P(θ(t+1)|θ(t))=θ(t)+ϵ con ϵ un pequeño ruido gaussiano (idea de filtro de Kalman), pero esto rompería el requisito de que θ debe permanecer en [0,1] . Siguiendo la idea de @J Dav, podría usar una función probit para mapear la línea real a [0,1] , pero tengo la intuición de que esto daría una solución no analítica. Una distribución beta con media θ(t) y una variación más amplia podría hacer el truco.

Estoy haciendo esta pregunta ya que tengo la sensación de que este problema es tan simple que debe haber sido estudiado antes.

repied2
fuente
Puede obtener una estimación si tiene un modelo de cómo la proporción de éxito cambia con el tiempo. Muchos modelos diferentes funcionarían y las estimaciones podrían variar mucho según el modelo asumido. No creo que la trazabilidad sea un criterio práctico para elegir un modelo. Me gustaría entender el proceso y buscar un modelo que demuestre características que estén de acuerdo con el comportamiento que espera.
Michael R. Chernick
@MichaelChernick: Gracias. La única suposición que puedo hacer es que se mueve suave y lentamente. Además, la capacidad de seguimiento es un criterio importante ya que realmente quiero extender la solución a casos multivariados con interdependencias no triviales. Una solución ideal sería analítica y proporcionaría una actualización "en línea" de las estimaciones de parámetros cuando lleguen nuevos datos. θ
repied2
1
¿Puedes cuantificar lo que quieres decir con " se mueve suave y lentamente?" Los enteros son discretos, y hay funciones suaves que toman valores arbitrarios en los enteros, lo que significa que la suavidad no da restricciones. Algunas nociones de "lentamente" todavía no dan ninguna restricción, mientras que otras sí. θ
Douglas Zare
¿Qué tan rápido es "lentamente", como un cambio en la probabilidad de 0.1 / unidad de tiempo o 0.001 o ... ¿Y cuánto tiempo espera tener una secuencia? ¿Es el rango relativamente estrecho (p. Ej., 0.2 - 0.4) o se acerca a (0,1)?
jbowman
@DouglasZare Por 'suave', quería decir que E [θ_t + 1 | θ_t] = θ_t (o muy cerca) y VAR (θ_t + 1 | θ_t) es pequeño. θ no está saltando (de lo contrario, no se podría hacer nada realmente).
repied2

Respuestas:

2

Dudo que pueda llegar a un modelo con solución analítica, pero la inferencia aún puede hacerse manejable utilizando las herramientas adecuadas, ya que la estructura de dependencia de su modelo es simple. Como investigador de aprendizaje automático, preferiría usar el siguiente modelo ya que la inferencia se puede hacer bastante eficiente usando la técnica de Propagación de expectativas:

Deje ser el resultado del ensayo -ésimo. Definamos el parámetro que varía con el tiempotX(t)t

t 0η(t+1)N(η(t),τ2) para .t0

Para vincular con , introduzca variables latentesη(t)X(t)

Y(t)N(η(t),β2) ,

y modelo para serX(t)

X(t)=1 si , y caso contrario. En realidad, puede ignorar y marginarlos para decir simplemente , (con cdf de estándar normal), pero la introducción de variables latentes facilita la inferencia. Además, tenga en cuenta que en su parametrización original .Y(t)0X(t)=0Y(t)P[X(t)=1]=Φ(η(t)/β)Φθ(t)=η(t)/β

Si está interesado en implementar el algoritmo de inferencia, eche un vistazo a este documento . Utilizan un modelo muy similar para que pueda adaptar fácilmente el algoritmo. Para entender EP, la siguiente página puede resultarle útil. Si está interesado en seguir este enfoque, hágamelo saber; Puedo proporcionar consejos más detallados sobre cómo implementar el algoritmo de inferencia.

d_ijk_stra
fuente
0

Para elaborar en mi comentario, un modelo como p (t) = p exp (-t) es un modelo simple y permite la estimación de p (t) estimando p usando la estimación de máxima verosimilitud. Pero, ¿la probabilidad realmente decae exponencialmente? Este modelo sería claramente incorrecto si observa períodos de tiempo con una alta frecuencia de éxito de lo que observó en épocas anteriores y posteriores. El comportamiento oscilatorio podría modelarse como p (t) = p | sint |. Ambos modelos son muy manejables y se pueden resolver con la máxima probabilidad, pero ofrecen soluciones muy diferentes.000

Michael R. Chernick
fuente
1
Parece que el OP está buscando modelar la probabilidad de éxito en el tiempo , , como un proceso markoviano, no para especificar alguna forma funcional para . tθ(t)θ(t)
Macro
1
@macro tiene razón, no puedo proporcionar una forma paramétrica para , y esto no es deseable ya que esta función podría ser algo suave. Quiero un modelo de Markov de orden 1 similar a un modelo oculto de Markov o un filtro de Kalman, pero con una variable oculta que tome valores reales entre 0 y 1, y con una probabilidad de Bernouilli. theta(t)
repied2
@pierre Bien, antes de la edición, parecía que estabas buscando estimar el tiempo que variaba p y solo sugerías el HMM como un posible enfoque. No estaba recomendando una forma funcional por la forma en que cambia con t. Estaba señalando que sin más información se podrían construir muchos modelos de varios tipos y mis dos ejemplos eran para mostrar que sin más información, las elecciones de modelos podrían dar respuestas muy diferentes. ¿Por qué insistirías en un HMM? Si uno trabajó y se ajustó a sus datos, ¿por qué rechazarlo porque es "no analítico"?
Michael R. Chernick
¡Sugiero que encontrar soluciones convenientes no es la forma de resolver problemas estadísticos prácticos!
Michael R. Chernick
1
@MichaelChernick Por último: me gustaría encontrar una solución analítica ya que espero que sea un problema bien conocido y la gente propuso una solución analítica lo suficientemente flexible. Pero estoy de acuerdo con nuestra sugerencia de que modelar la "dinámica real" es más importante que el costo computacional en general. Lamentablemente, esto es para Big Data y un algo lento será inútil :-(
repied2
0

tp

p=Φ(g(t,θ))g(t,θ)Φ

Φg()g()

Para responder a su pregunta reeditada :

Como dijiste, usar probit implicaría solo soluciones numéricas, pero puedes usar una función logística en su lugar:

P[θ(t+1)]=11+exp(θ(t)+ϵ)

logP1P=θ(t)+ϵ

θ(t+1)=at3+bt2+ct+dϵϵ

P[Coint+1=H|t]=11+exp(θ(t))

ϵt

JDav
fuente
Si usa un probit, una extensión multivariada es sencilla ya que se puede estimar un probit multivariante. Las dependencias estarían implícitas en la matriz de covarianza de la distribución normal multivariada implícita.
JDav