Sospecho que una serie de secuencias observadas son una cadena de Markov ...
X=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AAD⋮BCA⋮E⎞⎠⎟⎟⎟⎟
Sin embargo, ¿cómo podría verificar que realmente respetan la propiedad sin memoria de
P(Xi=xi|Xj=xj)?
¿O al menos demostrar que son de naturaleza Markov? Tenga en cuenta que estas son secuencias observadas empíricamente. ¿Alguna idea?
EDITAR
Solo para agregar, el objetivo es comparar un conjunto predicho de secuencia de los observados. Por lo tanto, apreciaríamos los comentarios sobre la mejor manera de compararlos.
Matriz de transición de primer ordenMij=xij∑mxik
donde m = A..E indica
M=⎛⎝⎜⎜⎜⎜⎜⎜0.18340.46970.18270.23780.24580.30770.11360.24040.18180.17880.07690.00760.22120.06290.11730.14790.25000.19230.33570.17880.28400.15910.16350.18180.2793⎞⎠⎟⎟⎟⎟⎟⎟
Valores propios de M
E=⎛⎝⎜⎜⎜⎜⎜⎜1.000000000−0.2283000000.1344000000.1136−0.0430i000000.1136+0.0430i⎞⎠⎟⎟⎟⎟⎟⎟
Vectores propios de M
V=⎛⎝⎜⎜⎜⎜⎜⎜0.44720.44720.44720.44720.4472−0.58520.7838−0.2006−0.00100.0540−0.4219−0.42110.37250.70890.0589−0.2343−0.0421i−0.4479−0.2723i0.63230.2123−0.0908i0.2546+0.3881i−0.2343+0.0421i−0.4479+0.2723i0.63230.2123+0.0908i0.2546−0.3881i⎞⎠⎟⎟⎟⎟⎟⎟
Respuestas:
Me pregunto si lo siguiente daría una prueba válida de Pearson para las proporciones de la siguiente manera.χ2
Es tentador para mí pensar que cada , de modo que el total T ∼ χ 2 12 . Sin embargo, no estoy completamente seguro de eso, y agradecería sus pensamientos al respecto. No no soy asimismo sertain co acerca de si hay que ser paranoico acerca de la independencia, y sin querer dividir la muestra en dos mitades para estimar p y ˉ p .TU∼χ23 T∼χ212 p^ p¯
fuente
La propiedad de Markov puede ser difícil de probar directamente. Pero podría ser suficiente para ajustarse a un modelo que asume la propiedad de Markov y luego probar si el modelo cumple. Puede resultar que el modelo ajustado sea una buena aproximación que sea útil para usted en la práctica, y no debe preocuparse si la propiedad de Markov realmente es válida o no.
El paralelo se puede dibujar a la regresión lineal. La práctica habitual no es probar si la linealidad es válida, sino si el modelo lineal es una aproximación útil.
fuente
Para concretar la sugerencia de la respuesta anterior, primero debe estimar las probabilidades de Markov, suponiendo que sea Markov. Vea la respuesta aquí Estimación de las probabilidades de la cadena de Markov
Usted debe obtener una matriz de 4 x 4 en base a la proporción de las transiciones de un estado A a A, de A a B, etc. Llame a esta matriz . M 2 debería ser la matriz de transición de dos pasos: A a A en 2 pasos, y así sucesivamente. Luego puede probar si su matriz de transición de 2 pasos observada es similar a M 2 .M M2 M2
Como tiene muchos datos para la cantidad de estados, puede estimar partir de la mitad de los datos y probar M 2 utilizando la otra mitad; está probando las frecuencias observadas contra las probabilidades teóricas de un multinomio. Eso debería darte una idea de qué tan lejos estás.M M2
Otra posibilidad sería ver si las proporciones básicas del estado: proporción del tiempo pasado en A, tiempo pasado en B, coincide con el vector propio del valor propio de la unidad de M. Si su serie ha alcanzado algún tipo de estado estable, la proporción de tiempo en cada El estado debe tender a ese límite.
fuente
Más allá de la propiedad de Markov (MP), otra propiedad es la homogeneidad del tiempo (TH): puede ser Markov pero con su matriz de transición P ( t ) dependiendo del tiempo t . Por ejemplo, puede depender del día de la semana en t si las observaciones son diarias, y luego una dependencia X t de X t - 7 condicional en X t - 1 puede diagnosticarse si TH se asume indebidamente.Xt P(t) t t Xt Xt−7 Xt−1
Suponiendo que TH se cumple, una posible verificación para MP es probar que es independiente de X t - 2 condicional a X t - 1 , como sugirieron Michael Chernick y StasK. Esto se puede hacer usando una prueba para la tabla de contingencia. Podemos construir las n tablas de contingencia de X t y X t - 2 condicionadas a { X t - 1 = x j } para los n valores posibles x jXt Xt−2 Xt−1 n Xt Xt−2 {Xt−1=xj} n xj y prueba de independencia. Esto también se puede hacer usando
con ℓ > 1 en lugar de X t - 2 .Xt−ℓ ℓ>1 Xt−2
En R, tablas de contingencia o matrices se producen fácilmente gracias al factor de instalaciones y las funcionesp(Xt|Xt−1=xj,Xt−2=xi) i j como el índice de columna en enrejado debería bajo MP conducir a distribuciones similares dentro de una columna.
apply
,sweep
. La idea anterior también se puede explotar gráficamente. Los paquetes ggplot2 o retícula proporcionan fácilmente gráficos condicionales para comparar distribuciones condicionales . Por ejemplo, establecer i como índice de fila y jEl cap. 5 del libro El análisis estadístico de los procesos estocásticos en el tiempo por JK Lindsey contiene otras ideas para verificar los supuestos.
]
fuente
Creo que plácida y mpiktas han dado enfoques muy reflexivos y excelentes.
Entonces el estadístico de prueba sería la diferencia entre estas proporciones estimadas. La complicación de la comparación estándar de las secuencias de Bernoulli es que están correlacionadas. Pero podría hacer una prueba de arranque de proporciones binomiales en este caso.
fuente
You could bin the data into evenly spaced intervals, then compute the unbiased sample variances of subsets{Xn+1:Xn=x1,Xn−k=x2} . By the law of total variance,
The LHS, if it is almost zero, provides evidence that the transition probabilities do not depend onXn−k , though it is clearly a weaker statement: e.g., let Xn+1∼N(Xn,Xn−1) . Taking the expected value of both sides of the above equation, the RHS can be computed from the sample variances (i.e., replacing expected values with averages). If the expected value of the variance is zero then the variance is 0 almost always.
fuente