El uso del esmalte mediano para la selección de características

En un artículo que estaba leyendo recientemente me encontré con el siguiente bit en su sección de análisis de datos:

La tabla de datos se dividió en tejidos y líneas celulares, y las dos subtablas se pulieron medianamente por separado (las filas y columnas se ajustaron iterativamente para tener una mediana de 0) antes de volver a unirlas en una sola tabla. Finalmente, seleccionamos el subconjunto de genes cuya expresión varió al menos 4 veces de la mediana en este conjunto de muestras en al menos tres de las muestras analizadas.

Tengo que decir que realmente no sigo el razonamiento aquí. Me preguntaba si podría ayudarme a responder las siguientes dos preguntas:

¿Por qué es deseable / útil ajustar la mediana en los conjuntos de datos? ¿Por qué debería hacerse por separado para diferentes tipos de muestras?
¿Cómo es que esto no modifica los datos experimentales? ¿Es esta una forma conocida de elegir una serie de genes / variables de un gran conjunto de datos, o es más bien ad hoc?

Gracias,

feature-selection median genetics posdef
fuente

¿Puedes explicar qué tipo de datos estás viendo? Creo que a juzgar por lo que ha citado, para mí, el método parece muy ad hoc.

suncoolsu

@suncoolsu: son datos de microarrays, si está familiarizado con el concepto. Si no, tal vez podría resumirlo como; qué genes se expresan, en qué medida en las muestras estudiadas. Aquí hay una mejor explicación: en.wikipedia.org/wiki/Gene_expression_profiling

posdef

@suncoolsu Casi definitivamente datos de análisis de expresión génica.

kriegar

Ok, no estaba seguro, la secuenciación de próxima generación también se está volviendo popular.

suncoolsu

Respuestas:

El algoritmo Tukey Median Polish se utiliza en la normalización RMA de microarrays. Como puede saber, los datos de microarrays son bastante ruidosos, por lo tanto, necesitan una forma más sólida de estimar las intensidades de las sondas teniendo en cuenta las observaciones de todas las sondas y microarrays. Este es un modelo típico utilizado para normalizar las intensidades de las sondas en las matrices.

Y_{i j} = μ_{i} + α_{j} + ϵ_{i j}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

i = 1, \dots, I j = 1, \dots, J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Donde es el intensidad PM transformado para el sonda en el matriz. son ruido de fondo y se puede suponer que corresponden al ruido en una regresión lineal normal. Sin embargo, una suposición distributiva sobre puede ser restrictiva, por lo tanto, usamos Tukey Median Polish para obtener las estimaciones para y . Esta es una forma robusta de normalizar entre matrices, ya que queremos separar la señal, la intensidad debida a la sonda, del efecto de matriz, $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ . Podemos obtener la señal normalizando el efecto de matriz para todas las matrices. Por lo tanto, solo nos quedan los efectos de la sonda más un poco de ruido aleatorio. $\alpha$ $\hat{\alpha_j}$

El enlace que he citado antes usa el esmalte mediano de Tukey para estimar los genes expresados diferencialmente o genes "interesantes" clasificándolos según el efecto de la sonda. Sin embargo, el documento es bastante antiguo, y probablemente en ese momento la gente todavía estaba tratando de descubrir cómo analizar los datos de microarrays. El documento de métodos bayesianos empíricos no paramétricos de Efron llegó en 2001, pero probablemente no haya sido ampliamente utilizado.

Sin embargo, ahora entendemos mucho sobre microarrays (estadísticamente) y estamos bastante seguros de su análisis estadístico.

Los datos de microarrays son bastante ruidosos y RMA (que utiliza el polaco medio) es uno de los métodos de normalización más populares, puede deberse a su simplicidad. Otros métodos populares y sofisticados son: GCRMA, VSN. Es importante normalizar ya que el interés es el efecto de sonda y no el efecto de matriz.

Como es de esperar, el análisis podría haberse beneficiado de algunos métodos que aprovechan el préstamo de información entre genes. Estos pueden incluir métodos bayesianos o bayesianos empíricos. Puede ser que el periódico que está leyendo sea antiguo y estas técnicas no estuvieron disponibles hasta entonces.

Con respecto a su segundo punto, sí, probablemente estén modificando los datos experimentales. Pero, creo, esta modificación es por una causa mejor, por lo tanto justificable. La razón es

a) Los datos de microarrays son bastante ruidosos. Cuando el interés es el efecto de la sonda, es necesario normalizar los datos mediante RMA, GCRMA, VSN, etc. y puede estar aprovechando que cualquier estructura especial en los datos es buena. Pero evitaría hacer la segunda parte. Esto se debe principalmente a que si no conocemos la estructura de antemano, es mejor no imponer muchas suposiciones.

b) La mayoría de los experimentos de microarrays son de naturaleza exploratoria, es decir, los investigadores están tratando de reducir a un conjunto de genes "interesantes" para su posterior análisis o experimentos. Si estos genes tienen una señal fuerte, modificaciones como las normalizaciones no deberían (sustancialmente) afectar los resultados finales.

Por lo tanto, las modificaciones pueden estar justificadas. Pero debo señalar que exagerar las normalizaciones puede conducir a resultados incorrectos.

suncoolsu
fuente

+1 Esta es una respuesta mucho mejor que mi intento. Gracias.

kriegar

@posdef. Me pregunto si hubo algún estadístico involucrado en el análisis estadístico del documento.

suncoolsu

Gracias por su respuesta completa. Creo que el hecho de que este es un paso de preprocesamiento no está bien explicado (o simplemente se supone que es bien conocido) en el documento. Hablando de eso, el artículo se publicó en 2000 (en Nature), por lo que supongo que tenían al menos un vistazo estadístico a sus métodos, si no estaban involucrados en la escritura. Pero, por supuesto, solo puedo especular .. :)

posdef

@posdef. Ok, genial responde muchas preguntas. 2000 fue el momento en que la gente todavía estaba descubriendo cómo analizar datos de microarrays. FDR no era lujoso en ese entonces :-)

suncoolsu

Puede encontrar algunas pistas en las páginas 4 y 5 de este

y_{i, j} = m + a_{i} + b_{j} + e_{i, j}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

$m$ $a_i$ $b_j$

La ventaja de usar la mediana es la robustez de un pequeño número de valores atípicos; La desventaja es que está desechando información potencialmente útil si no hay valores atípicos.

Enrique
fuente

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$

@Henry ¿Qué información se "descarta" con el esmalte medio cuando no hay "valores atípicos" (y qué quiere decir exactamente con "valor atípico" de todos modos)? Después de todo, puede reconstruir los datos exactamente por medio de la gran mediana, las medianas de fila y columna y los residuos, todo lo cual constituye la salida del pulido mediano. Si quiere decir que los residuos se descartan, ¿en qué sentido el "pulido medio" (equivalente a OLS) es diferente a este respecto?

whuber

@whuber: los residuos se mantienen en ambos casos. El pulido medio tiene en cuenta qué tan lejos están las observaciones del centro (en cierto sentido, equilibra los pesos de los residuos), mientras que el pulido mediano solo mira si están por encima o por debajo del centro (en cierto sentido, equilibra el cantidad de residuos). Por lo tanto, la información de peso no se usa cuando se usa la mediana como centro; Esto puede ser bueno cuando algunos de los pesos / residuos sustanciales son tan dudosos que no se puede confiar en el resultado para el centro, pero implica no usar información si no es así.

Henry

@Henry Si puede recuperar todos los datos originales del esmalte, entonces, ¿cómo se "usa" la "información"? Por cierto, el pulido mediano no se comporta como parece describir: sus residuos son las diferencias en los valores , no en los rangos, de los datos.

whuber

Parece que estás leyendo un artículo que tiene un análisis de expresión diferencial de genes. Después de investigar un poco sobre los chips de microarrays, puedo compartir el poco conocimiento (con suerte correcto) que tengo sobre el uso de esmalte mediano.

Usar el pulido mediano durante el paso de resumen del preprocesamiento de microarrays es algo así como una forma estándar de eliminar datos de valores atípicos con chips de sonda de coincidencia perfecta (al menos para RMA).

El pulido mediano para datos de microarrays es donde tiene el efecto de chip y el efecto de sonda como sus filas y columnas:

para cada conjunto de sondas (compuesto de n número de la misma sonda) en x chips:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

donde iv son valores de intensidad

Debido a la variabilidad de las intensidades de la sonda, casi todos los análisis de datos de microarrays se procesan previamente utilizando algún tipo de corrección y normalización de fondo antes del resumen.

Aquí hay algunos enlaces a los hilos de la lista de correo bioC que hablan sobre el uso del pulido mediano frente a otros métodos:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Los datos de tejidos y líneas celulares generalmente se analizan por separado porque cuando las células se cultivan, sus perfiles de expresión cambian drásticamente a partir de muestras de tejido recolectadas. Sin tener más papel, es difícil decir si el procesamiento de las muestras por separado fue apropiado o no.

La normalización, la corrección de fondo y los pasos de resumen en la tubería de análisis son todas modificaciones de datos experimentales, pero en su estado no procesado, los efectos de chip, los efectos de lote y los efectos de procesamiento eclipsarían cualquier señal de análisis. Estos experimentos de microarrays generan listas de genes que son candidatos para experimentos de seguimiento (qPCR, etc.) para confirmar los resultados.

En cuanto a ser ad hoc, pregunte a 5 personas qué diferencia de pliegues se requiere para que un gen se considere expresado diferencialmente y obtendrá al menos 3 respuestas diferentes.

kriegar
fuente

Gracias por las actualizaciones en su respuesta, creo que estoy empezando a tener una idea ahora. Entonces, si entiendo correctamente, ¿se utiliza el pulido mediano para evaluar la variabilidad técnica con respecto a la sonda y el chip? ... antes de que el experimento se sume a 1 matriz con valores de expresión para genes en diferentes condiciones?

posdef

@posdef desde mi entendimiento, sí. Para cada conjunto de sondas en un chip (sondas de la misma secuencia) hay sondas dispersas por todas partes. plmimagegallery.bmbolstad.com para algunas pseudo imágenes de chips. Además de la variabilidad dentro de un solo chip, hay variabilidad entre chips. Debido a la variabilidad técnica, los algoritmos se ejecutan en los valores de intensidad sin procesar para obtener un único "valor de expresión" para el conjunto de sondas. La matriz de estos valores se ajusta entonces para determinar si los genes se expresan diferencialmente en diferentes condiciones.

kriegar