En un artículo que estaba leyendo recientemente me encontré con el siguiente bit en su sección de análisis de datos:
La tabla de datos se dividió en tejidos y líneas celulares, y las dos subtablas se pulieron medianamente por separado (las filas y columnas se ajustaron iterativamente para tener una mediana de 0) antes de volver a unirlas en una sola tabla. Finalmente, seleccionamos el subconjunto de genes cuya expresión varió al menos 4 veces de la mediana en este conjunto de muestras en al menos tres de las muestras analizadas.
Tengo que decir que realmente no sigo el razonamiento aquí. Me preguntaba si podría ayudarme a responder las siguientes dos preguntas:
¿Por qué es deseable / útil ajustar la mediana en los conjuntos de datos? ¿Por qué debería hacerse por separado para diferentes tipos de muestras?
¿Cómo es que esto no modifica los datos experimentales? ¿Es esta una forma conocida de elegir una serie de genes / variables de un gran conjunto de datos, o es más bien ad hoc?
Gracias,
fuente
Respuestas:
El algoritmo Tukey Median Polish se utiliza en la normalización RMA de microarrays. Como puede saber, los datos de microarrays son bastante ruidosos, por lo tanto, necesitan una forma más sólida de estimar las intensidades de las sondas teniendo en cuenta las observaciones de todas las sondas y microarrays. Este es un modelo típico utilizado para normalizar las intensidades de las sondas en las matrices.
i = 1 , ... , I
Donde es el l o g intensidad PM transformado para el i t h sonda en el j t h matriz. ϵ i j son ruido de fondo y se puede suponer que corresponden al ruido en una regresión lineal normal. Sin embargo, una suposición distributiva sobre ϵ puede ser restrictiva, por lo tanto, usamos Tukey Median Polish para obtener las estimaciones para ^ μ i y ^ α j . Esta es una forma robusta de normalizar entre matrices, ya que queremos separar la señal, la intensidad debida a la sonda, del efecto de matriz,Yyo j l o g yot h jt h ϵyo j ϵ μyo^ αj^ . Podemos obtener la señal normalizando el efecto de matriz ^ α j para todas las matrices. Por lo tanto, solo nos quedan los efectos de la sonda más un poco de ruido aleatorio.α αj^
El enlace que he citado antes usa el esmalte mediano de Tukey para estimar los genes expresados diferencialmente o genes "interesantes" clasificándolos según el efecto de la sonda. Sin embargo, el documento es bastante antiguo, y probablemente en ese momento la gente todavía estaba tratando de descubrir cómo analizar los datos de microarrays. El documento de métodos bayesianos empíricos no paramétricos de Efron llegó en 2001, pero probablemente no haya sido ampliamente utilizado.
Sin embargo, ahora entendemos mucho sobre microarrays (estadísticamente) y estamos bastante seguros de su análisis estadístico.
Los datos de microarrays son bastante ruidosos y RMA (que utiliza el polaco medio) es uno de los métodos de normalización más populares, puede deberse a su simplicidad. Otros métodos populares y sofisticados son: GCRMA, VSN. Es importante normalizar ya que el interés es el efecto de sonda y no el efecto de matriz.
Como es de esperar, el análisis podría haberse beneficiado de algunos métodos que aprovechan el préstamo de información entre genes. Estos pueden incluir métodos bayesianos o bayesianos empíricos. Puede ser que el periódico que está leyendo sea antiguo y estas técnicas no estuvieron disponibles hasta entonces.
Con respecto a su segundo punto, sí, probablemente estén modificando los datos experimentales. Pero, creo, esta modificación es por una causa mejor, por lo tanto justificable. La razón es
a) Los datos de microarrays son bastante ruidosos. Cuando el interés es el efecto de la sonda, es necesario normalizar los datos mediante RMA, GCRMA, VSN, etc. y puede estar aprovechando que cualquier estructura especial en los datos es buena. Pero evitaría hacer la segunda parte. Esto se debe principalmente a que si no conocemos la estructura de antemano, es mejor no imponer muchas suposiciones.
b) La mayoría de los experimentos de microarrays son de naturaleza exploratoria, es decir, los investigadores están tratando de reducir a un conjunto de genes "interesantes" para su posterior análisis o experimentos. Si estos genes tienen una señal fuerte, modificaciones como las normalizaciones no deberían (sustancialmente) afectar los resultados finales.
Por lo tanto, las modificaciones pueden estar justificadas. Pero debo señalar que exagerar las normalizaciones puede conducir a resultados incorrectos.
fuente
Puede encontrar algunas pistas en las páginas 4 y 5 de este
La ventaja de usar la mediana es la robustez de un pequeño número de valores atípicos; La desventaja es que está desechando información potencialmente útil si no hay valores atípicos.
fuente
Parece que estás leyendo un artículo que tiene un análisis de expresión diferencial de genes. Después de investigar un poco sobre los chips de microarrays, puedo compartir el poco conocimiento (con suerte correcto) que tengo sobre el uso de esmalte mediano.
Usar el pulido mediano durante el paso de resumen del preprocesamiento de microarrays es algo así como una forma estándar de eliminar datos de valores atípicos con chips de sonda de coincidencia perfecta (al menos para RMA).
El pulido mediano para datos de microarrays es donde tiene el efecto de chip y el efecto de sonda como sus filas y columnas:
para cada conjunto de sondas (compuesto de n número de la misma sonda) en x chips:
donde iv son valores de intensidad
Debido a la variabilidad de las intensidades de la sonda, casi todos los análisis de datos de microarrays se procesan previamente utilizando algún tipo de corrección y normalización de fondo antes del resumen.
Aquí hay algunos enlaces a los hilos de la lista de correo bioC que hablan sobre el uso del pulido mediano frente a otros métodos:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Los datos de tejidos y líneas celulares generalmente se analizan por separado porque cuando las células se cultivan, sus perfiles de expresión cambian drásticamente a partir de muestras de tejido recolectadas. Sin tener más papel, es difícil decir si el procesamiento de las muestras por separado fue apropiado o no.
La normalización, la corrección de fondo y los pasos de resumen en la tubería de análisis son todas modificaciones de datos experimentales, pero en su estado no procesado, los efectos de chip, los efectos de lote y los efectos de procesamiento eclipsarían cualquier señal de análisis. Estos experimentos de microarrays generan listas de genes que son candidatos para experimentos de seguimiento (qPCR, etc.) para confirmar los resultados.
En cuanto a ser ad hoc, pregunte a 5 personas qué diferencia de pliegues se requiere para que un gen se considere expresado diferencialmente y obtendrá al menos 3 respuestas diferentes.
fuente