¿Es significativa la superposición entre dos muestras de expresión génica?

8

He realizado un experimento para estudiar la respuesta de una levadura (que contiene 5000 genes) al estrés causado por el choque térmico. Tengo una lista de 48 genes que se sobreexpresan a 37ºC y otra lista de 145 genes que se sobreexpresan a 42ºC. Hay 38 genes que están sobreexpresados ​​en ambos.

Por casualidad, esperaba solo 1 gen sobreexpresado en ambos, ¿cómo puedo calcular si la superposición que he obtenido es significativamente? ¿Cómo puedo obtener el valor ? No sé nada sobre software bioestadístico o matemático. ¡¡¡Muchas gracias!!! Cualquier ayuda será muy bienvenida :)p

Laura
fuente
Podría construir un diagrama de Venn para exhibir la superposición.
Michael R. Chernick el
Pero, ¿cómo puedo calcular el valor p?
Laura
Un valor p siempre se calcula en relación con una hipótesis. ¿Cuál es la hipótesis que deseas investigar aquí? ¿Que diferentes genes se sobreexpresan a diferentes temperaturas?
MånsT
La hipótesis es que los genes sobreexpresados ​​a 37 ° C también se sobreexpresan a 42 ° C. Y parece que podría ser el caso porque 38 genes (de 48 genes en total) están sobreexpresados ​​tanto a 37ºC como a 42ºC.
Laura
Esa no es una hipótesis estadística que pueda ser probada. No creo que estés buscando valores p. Creo que quieres medir el grado de superposición.
Michael R. Chernick el

Respuestas:

4

La mesa se ve así

                37 deg C
42 deg C     yes      no
yes          38       97
no           10      4855

sí y no se refieren a casos sobreexpresados ​​o no Ejecuté la prueba exacta de Fisher en SAS El resultado se pega a continuación:

Laura Gene expression data 


The FREQ Procedure


Statistics for Table of Group by expressed

Fisher's Exact Test 
Cell (1,1) Frequency (F) 4855 
Left-sided Pr <= F 1.0000 
Right-sided Pr >= F 4.776E-53 

Table Probability (P) 8.132E-51 
Two-sided Pr <= P 4.776E-53 
Sample Size = 5000

Aquí puede ver que el valor p para la prueba exacta de Fisher es muy pequeño, mucho menor que 0.0001.

Esto muestra exactamente lo que dijo que los 38 sobreexpresados ​​observados a ambas temperaturas es mucho mayor de lo que espera bajo independencia, que como dijo sería 1.296.

Michael R. Chernick
fuente
3

La prueba exacta a la que hace referencia Michael es probablemente la forma en que recomendaría usar para resolver el problema (la menor cantidad de supuestos). Como referencia, la prueba estadística común correspondiente sería unχ2prueba de independencia .

russellpierce
fuente
1
La prueba de chi cuadrado tampoco es paramétrica, pero requiere una teoría asintótica. La prueba de Fisher tiene un supuesto adicional de márgenes fijos que el chi cuadrado y otras pruebas de tabla de contingencia no asumen.
Michael R. Chernick
@Laura: Tuviste un problema de prueba bien definido. Lamento que haya tomado tanto debate de ida y vuelta para encontrarlo.
Michael R. Chernick
Muchas gracias Michael! Ahora sé la prueba que debo usar y cómo ingresar los datos. Solo dos pequeñas preguntas más: ¿Hay alguna calculadora de prueba exacta en línea de Fischer? Porque no tengo SAS y me gustaría calcular más valor de p. Y en tu tabla, ¿cuál es el valor p que debo considerar? Tal vez la probabilidad de dos lados? ¡¡¡Gracias de nuevo!!! :)
Laura
1
Laura ... ve con el Pr de dos lados. quantitativeskills.com/sisa/statistics/fishrhlp.htm (enlace "ir al procedimiento"). La calculadora en línea carece de la fidelidad para darle un valor p tan bajo.
russellpierce