Lo sé, esto puede sonar como fuera de tema, pero escúchame.
En Stack Overflow y aquí obtenemos votos en las publicaciones, todo esto se almacena en forma de tabla.
P.ej:
Identificación del poste Identificación del votante Tipo de voto Fecha y hora ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... y así. El tipo de voto 2 es un voto a favor, el tipo de voto 3 es un voto a favor. Puede consultar una versión anónima de estos datos en http://data.stackexchange.com
Existe la percepción de que si una publicación alcanza el puntaje de -1 o inferior, es más probable que sea votada. Esto puede ser simplemente un sesgo de confirmación o puede estar enraizado de hecho.
¿Cómo analizaríamos estos datos para confirmar o negar esta hipótesis? ¿Cómo mediríamos el efecto de este sesgo?
Respuestas:
Puede usar un modelo de varios estados o una cadena de Markov (el paquete msm en R es una forma de ajustarlos). Luego puede ver si la probabilidad de transición de -1 a 0 es mayor que de 0 a 1, 1 a 2, etc. También puede ver el tiempo promedio en -1 en comparación con los demás para ver si es más corto .
fuente
Realizar un experimento. Vota al azar la mitad de las nuevas publicaciones en un momento determinado todos los días.
fuente
Resumen de mi respuesta. Me gusta el modelado en cadena de Markov, pero pierde el aspecto "temporal". En el otro extremo, enfocarse en el aspecto temporal (por ejemplo, tiempo promedio enes un intermedio del caso cuando solo se estima la probabilidad de transición y el caso cuando solo se mide el tiempo pasado en un estado dado. Espero que esto ayude.−1
pero en la línea de su pregunta, creo que asume implícitamente que Esto significa que para existe una secuencia determinista tal que .
Dentro de este formalismo, su pregunta puede reformularse como: "es probable que " (o al menos la diferencia sea mayor que un umbral dado).μ+−1−μ+0>0
Bajo este supuesto, es fácil demostrar que es un [proceso de Markov homogéneo] [3] en con el generador dado porYt Z Q
Respondiendo la pregunta (proponiendo una estimación de máxima verosimilitud para el problema estadístico) A partir de esta reformulación, la solución del problema se realiza estimando y construyendo una prueba sobre sus valores. Arreglemos y olvidemos el índice sin pérdida de generalidad. La estimación de (y ) se puede hacer sobre la observación de(μ+i) i μ+ μ−
Si olvida el caso con el último estado de observación, las parejas mencionadas son iid de una distribución que depende de y : se distribuye como (donde Exp es una var aleatoria de una distribución exponencial y es + o -1 dependiendo de quién se da cuenta del máximo). Luego, puede usar el siguiente lema simple (la prueba es sencilla):μ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lema Si y entonces, y .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Esto implica que la densidad de viene dada por: donde para es la función de densidad de una variable aleatoria exponencial con el parámetro . De esta expresión, es fácil derivar el estimador de máxima verosimilitud de y :f(t,ϵ) (T,η)
Comentarios para enfoques más avanzados
Si desea tener en cuenta los casos en que es el último estado observado (ciertamente más inteligente porque cuando pasa por , a menudo es su último puntaje ...), debe modificar un poco el razonamiento. La censura correspondiente es relativamente clásica ...i −1
Otro posible acercamiento puede incluir la posibilidad de
fuente