Fondo biologico
Con el tiempo, algunas especies de plantas tienden a duplicar sus genomas completos, obteniendo una copia adicional de cada gen. Debido a la inestabilidad de esta configuración, muchos de estos genes se eliminan y el genoma se reorganiza y se estabiliza, listo para duplicarse nuevamente. Estos eventos de duplicación están asociados con eventos de especiación e invasión, y la teoría es que la duplicación ayuda a las plantas a adaptarse más rápido a sus nuevos entornos.
Lupinus, un género de plantas con flores, invadió los Andes en uno de los eventos de especiación más rápidos jamás detectados, y lo que es más, parece tener más copias duplicadas en su genoma que el género más estrechamente relacionado, Baptisia.
Y ahora el problema matemático:
Los genomas de un miembro de Lupinus y un miembro de Baptisia han sido secuenciados, proporcionando datos en bruto sobre 25,000 genes en cada especie. Al consultar una base de datos de genes de función conocida, ahora tengo una "mejor suposición" sobre qué funciones podría desempeñar ese gen, por ejemplo, Gene1298 podría estar asociado con "metabolismo de la fructosa, respuesta al estrés salino, respuesta al estrés por frío". Quiero saber, si hubo un evento de duplicación entre Baptisia y Lupinus, si la pérdida de genes tuvo lugar al azar, o si los genes que realizan funciones particulares tenían más probabilidades de mantenerse o eliminarse.
Tengo un script que generará una tabla como la que se muestra a continuación. L * es un recuento de todos los genes de Lupinus asociados con la función. L 1+ es un recuento de genes de lupino asociados con la función donde existe al menos una copia duplicada. Puedo lograr que produzca L 2+, L 3+, etc., aunque L 1+ es un grupo mucho más confiable que L 2+ debido al proceso de secuenciación.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Lo que me gustaría hacer es evaluar, para cada función genética, si hay más o menos genes con duplicados de lo que podría esperarse por casualidad en Lupinus y Baptisia, y si Lupinus difiere de Baptisia en la proporción de lo observado a lo esperado.
Lo mejor que tengo hasta ahora
Estudios anteriores en diferentes especies han utilizado el Análisis de enriquecimiento, con la Prueba exacta de Fisher y la corrección FDR para muestreo múltiple, para hacer una prueba de contingencia en cada fila.
Sería bueno mejorar esto; No estoy seguro de que esto parezca la mejor manera de hacerlo.
Glen_b ha sugerido usar un GLM para analizar los datos; He jugado con GLM en JMP8, lo que ha sido interesante, pero admito que realmente no los entiendo.
Dicho esto, estoy tratando de usar R en su lugar ahora.
¿Para qué estoy usando esto?
Originalmente se suponía que esto era parte de un breve proyecto de investigación que estoy haciendo en la universidad, pero ahora se ha convertido en un enorme proyecto de anotación genómica. ¿Por qué? Porque la bioinformática es genial. Poder tomar una cadena de A, T, C y G y usarla para inferir información sobre eventos que sucedieron hace millones de años es increíble.
No hace falta decir que no voy a intentar enviar ninguna respuesta amablemente proporcionada como mi propio trabajo. Me complacería incluir un reconocimiento en el documento si uso un método sugerido aquí en el trabajo presentado.
Respuestas:
Si bien estoy de acuerdo en que la prueba de Fisher (o algo similar) puede ser el enfoque más natural aquí, ¿qué tal esto:
La prueba de Fisher modificada (denominada CERNO por los autores que la describieron por primera vez en este contexto) toma cualquier lista ordenada de genes como entrada, siempre que pueda agruparlos en algunas categorías útiles.
La ventaja de este enfoque es que, aparte de un valor p, puede calcular fácilmente el tamaño del efecto del enriquecimiento y visualizarlo (por ejemplo, como una curva ROC sobre la lista ordenada de genes). Esto te da una idea mucho mejor de cuánto importa realmente lo que observas para la biología que estudias.
fuente
Como dices, estás haciendo dos preguntas distintas.
Pregunta 1 "es la relación L * / L1 + diferente de B * / B1 + para una función genética dada"
Esto podría responderse mejor con la prueba exacta de Fisher utilizando datos en toda la fila como se encontró anteriormente.
Pregunta 2 "¿es la proporción: genes donde hay una sola copia / genes donde hay más de una copia, diferente entre las funciones genéticas?"
Creo que esto también podría responderse mejor con la prueba exacta de Fisher. Probaría la relación de L * / L1 + para la función génica 1 contra L * / L1 + para la función génica 2. Luego, la función génica 1 Vs la función génica 3, etc.
Ninguno de estos conjuntos de preguntas llega a saber si se mantienen o eliminan más rápido de lo esperado por pura casualidad, solo si se eliminan / mantienen a tasas diferentes entre sí. Para saber si se eliminaron / mantuvieron a una velocidad diferente de la casualidad, necesitaría saber la proporción de copias simples / copias múltiples para muchas regiones de ADN que solo se ven afectadas por casualidad. Si pudiera encontrar tales regiones, terminaría con un "Grupo de funciones" donde la función es "Ninguna". Luego compararía esto con sus otros grupos de funciones genéticas de la misma manera que describí en la pregunta 2.
fuente