Mecánica detrás de la desviación de la distribución aleatoria.

8

El sistema en el que estamos trabajando es biológico, más específicamente la distribución de eventos de daño de ADN programados a través de un cromosoma. Esto puede considerarse como una matriz 1D (el cromosoma) a través del cual se pueden elegir los puntos (los sitios de daño intencional). Hemos mapeado las posiciones de estos eventos experimentalmente e inicialmente preguntamos si se ajustan o no a una distribución aleatoria, es decir, el daño puede ocurrir en cualquier punto a lo largo del cromosoma con la misma probabilidad y cualquier sitio de daño dado es independiente el uno del otro. Al generar distribuciones aleatorias en MATLAB (randi), resultó que este no era el caso.

Al analizar las distancias entre puntos (IPD) de los datos reales y modelados, se ve que los datos reales se desvían de una distribución aleatoria solo por debajo de un cierto tamaño de IPD, antes de volver a unirse a la distribución aleatoria por encima, es decir, hay menos IPD más cortos de lo esperado por casualidad en los datos reales.

ingrese la descripción de la imagen aquí

Resultados de IPD de ejemplo:

ingrese la descripción de la imagen aquí

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

Los IPD se trazan aquí en un eje Y de registro y simplemente en orden creciente como si fuera un histograma. Como puede ver a continuación un cierto tamaño de IPD (eje Y), la línea azul se desvía de la línea roja.

La hipótesis que estamos probando (que tiene una base biológica sólida) es que la posición de un evento depende de los ya formados. Específicamente, tan pronto como se elige un sitio, invoca una zona de represión a su alrededor, lo que hace que sea menos probable que la región circundante sea elegida como el próximo sitio. Esto efectivamente espacia los eventos y explica la ausencia de IPD más cortos. Esta zona se reduce gradualmente en intensidad cuanto más te alejas de un punto elegido, lo que explica el retorno a la independencia por encima de una cierta distancia IPD.

ingrese la descripción de la imagen aquí

Pregunta : ¿Existe un método matemático por el cual podríamos derivar la forma de esta zona solo a partir de los conjuntos de datos aleatorios y reales? Por ejemplo, al calcular su fuerza (capacidad de desviarse de la aleatoriedad) en cada punto dado hasta que sus efectos ya no se vean?

La forma y la escala del triángulo en el diagrama anterior es lo principal que estoy tratando de obtener (no es necesariamente un triángulo).

Tenemos un segundo modelo que simula esta hipótesis, y que ofrece resultados prometedores, sin embargo, necesitamos orientación sobre la forma, la escala, etc. de la zona de represión; de lo contrario, se debe a prueba y error, y pueden encajar múltiples ventanas + parámetros diferentes.


He visto algo similar hecho antes agrupando los IPD en un histograma, ajustando una función de probabilidad gamma y luego convirtiéndola en una función de peligro, pero no soy matemático y no sé si este es el método correcto ni cómo hacerlo. eso.

Trabajo en gran medida en MATLAB, por lo que si alguien pudiera proporcionar ayuda en forma de MATLAB, sería genial, pero cualquier ayuda sería muy apreciada.

Datos utilizados en la trama:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
AnnaSchumann
fuente
El método que sugirió es una forma estándar para ajustar distribuciones. No me queda claro si el tiempo es importante para usted o no, aunque lo parezca, en cuyo caso puede estar lidiando con un proceso no homogéneo. Esto será más complicado.
Mandata
No estoy seguro de entender completamente lo que preguntas sobre el tiempo. ¿Podrías dar más detalles?
AnnaSchumann
"Esta zona se disipa gradualmente explicando el retorno a la independencia por encima de cierta distancia IPD". ¿Te importa esto?
Mandata
¿Puedes describir un poco tu fenómeno? Que estas midiendo Además, parece que por "aleatorio" te refieres a una cierta distribución que tienes en mente. La variable puede ser aleatoria pero de una distribución diferente, lo que puede producir colas más delgadas de lo esperado.
Aksakal
@mandata Mis disculpas, esto estaba mal redactado. Lo he actualizado a través de una edición. Quise decir que la intensidad de la zona se reduce gradualmente cuanto más te alejas de un punto elegido, no es que se disipe con el tiempo.
AnnaSchumann

Respuestas:

3

El problema es que asumió una cierta distribución aleatoria de IPD y no se ajusta a la distribución empírica. Entonces, la formulación de su pregunta es un poco confusa dada la explicación que ha dado hasta ahora. La "desviación" no es de la aleatoriedad, sino de la distribución empírica de la supuesta teórica.

Generas ubicaciones XyoU(0 0,1000), donde 0 y 1000 son límites. Por lo tanto, el IPD esΔXyo=El |Xyo-Xyo-1El |.

Podemos encontrar la probabilidad incondicional de un pequeño IPD

PAGS(ΔXyo)<ε
para cualquier pequeño dado ε>0 0 como sigue:

PAGS(ΔXyo)<ε=ε500-ε21,000,000

Esta es una distribución peculiar. Aquí están sus funciones acumulativas y de densidad:ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

El eje x es IPD, y el eje y es funciones de probabilidad acumulativas (izquierda) y de densidad (derecha).

Como puede ver su elección de modelo (es decir, función randi), implica que la probabilidad de una pequeña distancia es bastante alta, mucho más alta que la de un IPD grande. Su fenómeno biológico probablemente no se ajuste a este modelo. Tienes que probar otro modelo.

Aksakal
fuente
Inicialmente probamos para ver si nuestras distribuciones determinadas experimentalmente coincidían o no con una distribución aleatoria. No lo hacen, y eso lo sabemos. Ahora estamos tratando de formular un nuevo modelo utilizando la hipótesis establecida en el OP (que tiene una base biológica específica). El principal problema que tenemos es que múltiples combinaciones de formas / escalas para la zona de represión se ajustan a los datos, y necesitamos saber cuál es la correcta, por lo tanto, estoy preguntando si es posible derivar la forma / escala solo de los conjuntos de datos.
AnnaSchumann
@AnnaSchumann, busque una distribución que tenga una densidad menor para la cola izquierda que la distribución uniforme inducida. Por ejemplo, si notó que hay un modo en la distribución de IPD, entonces podría comenzar con Poisson, Neg Binomial, Lognormal o incluso normal solo para ver si el ajuste mejora.
Aksakal
¡Gracias! Voy a echar un vistazo ahora. ¿Cuáles son las etiquetas de los ejes en los gráficos en su respuesta anterior? No estoy seguro de entenderlos completamente.
AnnaSchumann
@AnnaSchumann, actualizó la respuesta
Aksakal
¿No dependerían las probabilidades de ciertos tamaños de IPD de cuántos números son elegidos por randi en cada iteración? En nuestro sistema, generalmente tenemos límites bastante grandes, pero quizás solo elegiremos 3-5 sitios de eventos. ¿Hay alguna forma de modelar las distribuciones de probabilidad para diferentes cantidades de sitios elegidos?
AnnaSchumann