¿Poder en proteómica?

9

Las subvenciones a menudo requieren un análisis de potencia para admitir un tamaño de muestra propuesto. En proteómica (y la mayoría de los ómics), hay de 100 a 1000 de características / variables medidas en 10 de las muestras (tal vez 100, pero poco probable). Además, se sabe que algunas de estas unidades de medida (p. Ej., Recuentos espectrales de proteínas) no se distribuyen normalmente y, por lo tanto, utilizaremos pruebas no paramétricas para el análisis. He visto el poder de un tamaño de muestra determinado asumiendo una sola medición y asumiendo una prueba t, pero no creo que esto sea completamente correcto. Otro problema con los recuentos espectrales específicamente es que cada uno de los cientos de características está en escalas muy diferentes con errores muy diferentes (los valores más grandes tienen menos errores). [Este problema se describe muy bien en el modelo de cambio de límite de plegado, Mutch et al., 2002 ]

¿Cuál sería la forma apropiada de determinar el poder de un tamaño de muestra propuesto dados algunos supuestos de FDR y un cambio de pliegue aceptable? Usando la herramienta aquí pude determinar dado lo siguiente:

  • 300 genes
  • 3 falsos positivos
  • 1.4 diferencias de pliegue
  • 0.8 potencia deseada
  • 0.7 stdev

requiere un tamaño de muestra por grupo de 49.

Esto fue útil ya que estoy proponiendo un diseño 50v50, sé que el cambio de 1,4 veces es bastante aceptado, el 1% de FDR está bien, y probablemente mediré 300 proteínas en este experimento. Este problema de potencia o cálculo del tamaño de la muestra continuará ocurriendo, por lo que sería bueno contar con un enfoque referenciado.

EDITAR: leí donde un colega propuso modelar los recuentos espectrales a partir de distribuciones binominales negativas utilizando la función de probabilidad seguida de una prueba de Wald. Básicamente utiliza datos preliminares para obtener estimaciones de varianza de proteínas y luego calcula cambios de pliegue detectables entre grupos para cada cuantil. También hay una entrada FDR (alfa). Entonces, dada una potencia> 80% y un tamaño de muestra establecido, pueden determinar cambios de pliegue detectables para una varianza más baja del 25%, una varianza más pequeña del 50% y una varianza más alta del 25%. El problema es que no sé cómo hicieron esto. No estoy seguro si compartir este enfoque ayudará a alguien con una posible respuesta.

Ben
fuente
Algunos otros recursos que he encontrado sobre este tema: Levin 2011 Dicker et al., 2010
Ben
1
Esa calculadora del MD Anderson me parece demasiado optimista. ¿Cuántas comparaciones se hacen? (Estoy demasiado oxidado en microarrays: 300 genes en un diseño 50v50 significa que haces cuántas comparaciones ??) Cuando configuras la calculadora FDR en 3 falsos positivos, ¿estás diciendo que estás configurando un error falso positivo para que solo 3 se espera que sean falsos positivos bajo nulo? Eso es demasiado estricto para más de 60 comparaciones.
AdamO
1
Puedo mostrarle cómo se haría esto en R, pero solo necesito algunos antecedentes sobre la biología.
AdamO

Respuestas:

1

En las aplicaciones (especialmente las aplicaciones éticas, donde hay que hacer un estudio de potencia), me gusta usar esta referencia [Wang y Chen 2004], porque explica muy bien el concepto detrás de un cálculo de potencia para datos de alto rendimiento (cualesquiera que sean los datos realmente) .

En esencia, además de los parámetros habituales (α, β, N, tamaño del efecto), utiliza dos parámetros adicionales, λ y η. El último, η, es el número supuesto de genes verdaderamente alterados, y λ es la fracción de los genes verdaderamente alterados que desea poder detectar. Es bastante sencillo ampliar cualquier cálculo de potencia conocido a datos de alto rendimiento utilizando este enfoque.

Wang, Sue-Jane y James J. Chen. "Tamaño de la muestra para identificar genes expresados ​​diferencialmente en experimentos de microarrays". Journal of Computational Biology 11.4 (2004): 714-726.

enero
fuente