Probabilidad de que las letras ocurran en orden en una cadena

8

Supongamos que tenemos un alfabeto que contiene m+1 símbolos, {a,b,c,d,e,...,$}, dónde p=Pr(a)=Pr(b)=, y Pr($)=1(Pr(a)+Pr(b)+)=1mp .

Para una cadena aleatoria de longitud n , ¿cuál es la probabilidad de que las letras a,b,c,... (sin incluir $ ), aparezcan en orden (no necesariamente consecutivamente)? En otras palabras, la cadena es de longitud n satisface la expresión regular abc .

Algunas aclaraciones:

Solo necesito que las letras aparezcan en orden alguna vez. Entonces acbc está bien porque contiene abc en ese orden.

Necesito que todas las letras m aparezcan en orden.

Las letras se pueden repetir.

Andrew W
fuente

Respuestas:

11

Esa expresión regular representa una cadena de Markov en estados correspondientes a un estado de inicio cada una de las letras. Se realiza una transición de a , de a , ..., y de la penúltima letra a la última, siempre con probabilidad . De lo contrario, el estado sigue siendo el mismo. El estado final es un estado absorbente: cuando se ha alcanzado, todas las letras se han observado en secuencia.m+1ssaabp

En términos de los estados , la matriz de transición es(s,a,b,)

Pm=(1pp0001pp00p001pp0001)

Las técnicas algebraicas lineales estándar (la forma normal de Jordan de y su matriz de cambio de base son simples y dispersas, lo que hace que sea bastante fácil de hacer) establecen que para la última entrada en la primera fila de la poder de matriz esPmnmPmn

Pmn(1,m+1)=pmi=0nm(m1+im1)(1p)i.

Esta es la oportunidad de alcanzar el estado absorbente desde el estado inicial después de transiciones: responde la pregunta. Si lo desea, puede expresarse en "forma cerrada" en términos de una función hipergeométrica comon

Pmn(1,m+1)=1pm(nm1)(1p)m+n+12F1(1,n+1;n+2m;1p).

La suma tiene una agradable interpretación combinatoria. Sea la posición en la que aparece la última letra. Está precedido por una secuencia (posiblemente vacía) de no- , cada una con una probabilidad de de ocurrir; entonces una con una posibilidad de ocurrir; a continuación, una (posiblemente no vacío) secuencia de la no s, etc. Hay emplazamientos en los que para colocar la primera aparición de un , a continuación, la primera aparición de a después de eso, etc. Por lo tanto, incluyendo la primera aparición de la última letra en la posición probabilidad esm+ia1papb(m1+im1)abm+i(m1+im1)pm(1p)k . Esto da un término de la suma. Por lo tanto, la suma divide las secuencias de acuerdo con el lugar donde aparece la última letra, que puede estar en cualquier lugar desde la posición hasta , que obviamente son disjuntas, y suma sus probabilidades.m+0m+(nm)

Como un ejemplo simple para aclarar la interpretación, suponga que y considere . Hay cuatro secuencias de tres símbolos, cada uno de la probabilidad , y otras tres secuencias de la probabilidad , en los que los símbolos y aparecen en orden:m=2n=3p3p2(12p)ab

aab,aba,abb,bab;ab$,a$b,$ab.

La oportunidad por lo tanto es

4p3+3p2(12p)=3p22p3=p2(32p)=p2(1+2(1p))=P23(1,3).

La interpretación combinatoria es que la expresión regular ^ab(con en la posición ) ocurre con probabilidad ; y , con en la posición , ocurre de dos maneras como y , cada una con probabilidad .b2p2^[^a]*a[^b]*bb3^a[^b]b^[^a]abp2(1p)

whuber
fuente
0

Por "Las letras se pueden repetir", ¿quiere decir que abbc es una cadena válida? ¿'Aparecen en orden'?

Si no, parece ser la respuesta para mí. es la probabilidad de que en un espacio dado de caracteres no exista tal combinación, luego se extiende a todos los espacios posibles de caracteres1(1pm)nm+11pmmnm+1m

Si es así, entonces tienes un límite inferior

gsmafra
fuente
Esta fórmula no está de acuerdo con la enumeración completa de los casos, cuando y son pequeñas, por lo que no puede ser generalmente correcto. mn
whuber