comprobar si una cadena de markov es igual a una teórica

8

Tengo una matriz de recuento de transiciones empírica Q. Tengo una cadena de Markov teórica de primer orden P. Digamos que N es el número de transiciones. Me gustaría probar si Q es compatible con P. ¿Es correcto encontrar la matriz de transición de recuento teórica (N * P) que calcula las estadísticas de chi-cuadrado,i,jK(Qij(NPij))2NPijy luego calcular el valor p de un χ2 distribución con K(K1) ¿grados de libertad?

Giorgio Spedicato
fuente
2
No estoy muy familiarizado con las pruebas de chi-cuadrado, pero hojeando, parece que se usa comúnmente para datos multinomiales (por ejemplo, aquí ). Yo pensaría que cada fila dePdebería corresponder a una distribución multinomial? Entonces podrías usarni por fila i, es decir, el número de transiciones "desde i". Es decir, "N"puede variar según el estado inicial?
GeoMatt22

Respuestas:

5

Asumiendo que sus matrices son algo así como

Pij=Pr[ji],Qij=t=1N[xt=i&xt+1=j]
entonces podrías interpretar cada fila i como una distribución multinomial con parámetros
pi=Pi,:,ni=j=1KQij

No estoy seguro de que pueda agrupar todas las filas, porque el "número de intentos" variará entre las filas.

Por ejemplo decir K=3 y tus datos son x=[1,1,2,1,2,3,1,2]. Entonces hayN=7 transiciones, con n1=4 procedente de x=1, pero n2=2 desde x=2 y solo y n3=1 desde x=3. Entonces creo que tu confianza enp^1 generalmente debe ser mayor que su confianza en p^3.

(En el caso extremo, tal vez para este ejemplo K Fue en realidad 4, pero no tiene datos en absoluto sobre esas transiciones, como n4=0. Tratar la "ausencia de evidencia como evidencia de ausencia" me parece problemático aquí).

No estoy muy familiarizado con las pruebas de ji cuadrado, pero esto sugiere que es posible que desee tratar las filas de forma independiente (es decir, sumar solo más de j, y use ni más bien que N) Este razonamiento no parece específico de la prueba de ji cuadrado, por lo que también debe aplicarse a cualquier otra prueba de significación que pueda usar (por ejemplo, multinomio exacto ).

La cuestión clave es que las probabilidades de transición son condicionales , por lo que para cada entrada de matriz solo son relevantes las transiciones que satisfacen su condición previa. De hecho, presumiblemente la matriz de transición satisfarájPij=1, por lo tanto, la "matriz de transición empírica" ​​debe ser P^ij=Qij/ni.


Actualización: en respuesta a la consulta de OP, una aclaración sobre los "parámetros de prueba".

Si hay K estados en la cadena de Markov, es decir PRK×K, luego por fila i, la distribución multinomial correspondiente tendrá un vector de probabilidadpiRK y número de ensayos niN, dado anteriormente.

Entonces habrá K categorías y el vector de probabilidad pi tendrá K1 grados de libertad, como j=1K(pi)j=1. Entonces para la filai el correspondiente χ2 estadística sería

χi2=j(QijniPij)2niPij
que seguirá asintóticamente un chi-cuadrado distribuido conK1grados de libertad (como se indica aquí y aquí ). Vea también aquí para una discusión de cuándoχ2 la prueba es apropiada y pruebas alternativas que pueden ser más apropiadas.

Se puede ser posible hacer una "prueba agrupados", asumiendoχP2=iχi2 sigue una distribución chi-cuadrado con K(K1)dof's (es decir, sumando dofs sobre filas). Sin embargo, no estoy seguro de si elχi2Puede ser tratado como independiente. En cualquier caso, las pruebas en filas parecen ser más informativas, por lo que pueden ser preferibles a una prueba agrupada.

GeoMatt22
fuente
Idea inteligente de tratarlo como una distribución multinomial. La suma de dos variables de Chi-cuadrado es chi-cuadrado, por lo que las estadísticas de prueba para cada fila pueden calcularse por computadora y sumarse juntas para producir una nueva estadística de prueba de chi-cuadrado. Esto tendráNKgrados de libertad
Hugh
@Hugh No estoy lo suficientemente familiarizado para evaluar, pero esto podría ser razonable. Mi punto principal fue más que el enfoque "fila por fila" parece justificable, y más informativo, que el enfoque "agrupado". (Supongo que un punto secundario es que todo el trabajo sobre chi-cuadrado para multinomios, por ejemplo, convergencia asintótica, podría ser un buen punto de partida. Todo lo que sé sobre estos temas lo aprendí hace un momento al leer las publicaciones de CV, así que eso es todo lo que puede ofrecer!) Podría considerar publicar una respuesta breve que aborde el aspecto chi-cuadrado más directamente.
GeoMatt22
@ GeoMatt22 ... Entonces, ¿está bien el número de grados de libertad para que la prueba de Chi-Cuadrado sea igual a N2Nsiendo N del tamaño de la dtmc?
Giorgio Spedicato
Giorgio, mira mi actualización.
GeoMatt22
@ Hugo, por favor vea mi respuesta actualizada. Tenga en cuenta que Wikipedia dice "Cabe señalar que los grados de libertad no se basan en el número de observaciones". No estoy seguro si miK(K1) los dof's para una "prueba agrupada" son correctos, pero también inciertos donde NKdof vendría de! Alguna aclaración?
GeoMatt22