Correlacionar variables clínicas continuas y datos de expresión génica

8

En los análisis de clasificación SVM (núcleo lineal) de un conjunto de datos de expresión génica (~ 400 variables / genes) para ~ 25 cada uno de los casos y controles, encuentro que los clasificadores basados ​​en la expresión génica tienen características de rendimiento muy buenas. Los casos y los controles no difieren significativamente para una serie de variables clínicas / demográficas categóricas y continuas (según las pruebas exactas o t de Fisher), pero difieren significativamente para la edad.

¿Hay alguna manera de mostrar que los resultados del análisis de clasificación están o no influenciados por la edad?

Estoy pensando en reducir los datos de expresión génica a componentes principales, y hacer un análisis de correlación de Spearman de los componentes contra la edad.

¿Es este un enfoque razonable? Alternativamente, ¿puedo verificar la correlación entre la edad y los valores de probabilidad de pertenencia a la clase obtenidos en el análisis SVM.

Gracias.

usuario4045
fuente
1
¿Es este un estudio de casos y controles? O estudio de cohorte? ¿Por qué hay una diferencia de edad (esquema de muestreo, patomecanismo?)? ¿La edad es edad al momento del diagnóstico? ¿O es una enfermedad crónica y la edad es la edad actual para tomar muestras de tejido para el análisis de expresión génica? ¿Se sabe que la edad está relacionada con la enfermedad? ¿Es el efecto de la edad en la expresión génica más el efecto del tiempo desde el nacimiento o desde el diagnóstico? --- Necesitaría las respuestas a estas preguntas para ver su pregunta si "los resultados del análisis de clasificación están o no influenciados por la edad". en la perspectiva adecuada
GaBorgulya
Este es un estudio retrospectivo sobre la expresión de microARN en sangre y el cáncer de pulmón. Los casos tienen cáncer de pulmón. Los controles no y fueron elegidos de la población de pacientes que aparecen en una clínica de detección de cáncer de pulmón, generalmente debido a un historial de tabaquismo. La selección por edad, género, etc., no se realizó al seleccionar casos y controles. El cáncer de pulmón generalmente se diagnostica después de los 45-50 años de edad. No se sabe si la expresión de microARN en sangre se ve afectada por el cáncer de pulmón, pero se sabe que algunas otras enfermedades afectan la expresión.
user4045
Se desconoce el efecto de la edad sobre la expresión de microARN en sangre. La edad media (y desviación estándar) de los casos y los controles del estudio son 71 (7) y 60 (9) y, respectivamente.
user4045
Cuando dices "influenciado por la edad", ¿qué quieres decir exactamente? Aquí hay dos posibilidades. Una posibilidad es que sus microarrays no contengan marcadores de enfermedad. Pero sí contienen información sobre la edad, y dado que en su caso las poblaciones enfermas y de control son de diferentes edades, se obtiene la ilusión de un buen rendimiento de clasificación. Otra posibilidad es que los microarrays sí contienen marcadores de enfermedades y, además, estos marcadores es exactamente en lo que se enfoca SVM. Sin embargo, dado que en sus datos las edades son diferentes, todavía existe una correlación entre la edad y la categoría.
SheldonCooper
@SheldonCooper: Correcto, y quiero saber si podemos o no saber cuál de las dos posibilidades es. Si no es así, ¿podemos estimar aproximadamente el valor adicional que proporcionan los marcadores genéticos a lo largo de la edad? El clasificador SVM tiene buenas características de rendimiento (precisión en validaciones cruzadas internas> 90% y AUC> 0,95). El AUC en el análisis ROC de la edad es de 0,82.
user4045

Respuestas:

2

Hay al menos dos posibilidades para estos datos. Una posibilidad es que sus microarrays no contengan marcadores de enfermedad. Pero sí contienen información sobre la edad, y dado que en su caso las poblaciones enfermas y de control son de diferentes edades, se obtiene la ilusión de un buen rendimiento de clasificación. Otra posibilidad es que los microarrays sí contienen marcadores de enfermedades y, además, estos marcadores es exactamente en lo que se enfoca SVM.

Parece que los componentes principales de los datos pueden estar correlacionados con la edad en ambas posibilidades. En el primer caso será porque la edad es lo que expresan los datos. En el segundo caso, será porque la enfermedad es lo que expresan los datos, y esta enfermedad se correlaciona con la edad (para su conjunto de datos). No creo que haya una manera fácil de ver el valor de correlación y concluir cuál es el caso.

Podría pensar en varias formas de evaluar el efecto de manera diferente. Una opción es dividir su conjunto de entrenamiento en grupos de igual edad. En este caso, para las edades "jóvenes", la clase normal tendrá más ejemplos de entrenamiento que la clase de enfermedad, y viceversa para las edades más avanzadas. Pero mientras haya suficientes ejemplos, esto no debería ser un problema. Otra opción es hacer lo mismo con los conjuntos de prueba, es decir, ver si el clasificador tiende a decir "enfermo" con más frecuencia para los pacientes mayores. Ambas opciones podrían ser difíciles ya que no tienes tantos ejemplos.

Una opción más es entrenar dos clasificadores. En el primero, la única característica será la edad. Parece que esto tiene un AUC de 0,82. En el segundo, habrá datos de edad y microarrays. (Parece que actualmente entrena un clasificador diferente que solo utiliza los datos de microarrays, y le da AUC 0.95. Agregar la función de edad explícitamente probablemente mejorará el rendimiento, por lo que AUC será aún mayor). Si el segundo clasificador funciona mejor que el primero, esto indica que la edad no es lo único de interés en estos datos. Según su comentario, la mejora en AUC es de 0.13 o más, lo que parece justo.

Sheldon Cooper
fuente
Gracias por las diversas sugerencias. Creo que tiene razón en que verificar la correlación de edad con los componentes principales no proporciona una respuesta. Hice ese análisis y hay buenas correlaciones (Spearman r> 0.5) para cada una de las primeras tres PC (juntas contribuyen a ~ 55% de la varianza). También hay una buena correlación de edad con los valores de probabilidad del análisis SVM. Para las dos primeras opciones que sugiera, tengo que verificar si hay suficientes muestras y cómo hacerlo (uso LOOCV y CV de Monte Carlo de 1000 iteraciones con división 4: 1 para entrenamiento y pruebas).
user4045
Con respecto a ROC usando datos de edad y microarrays, lo intentaré. Un aumento en el AUC de 0.95 (datos de microarrays solos) sugerirán que los datos de expresión tienen información específica de la enfermedad que es independiente de la edad. Sin embargo, la ausencia de un aumento no significará nada, ya que los datos de expresión se ven afectados por la edad. ¿Derecha?
usuario4045
Ya tiene un aumento en el AUC, de 0.82 para la edad solo a 0.95 para microarrays. Esto es lo importante, creo. Si obtiene un aumento adicional, genial. Si no obtiene un aumento adicional, tiene razón en que no significa nada. La parte importante es que tienes el aumento de 0,82 a 0,95.
SheldonCooper
En un nuevo análisis, con la edad agregada como una variable al conjunto de datos de expresión, el AUC aumenta ~ 0.04. Supongo que uno no puede concluir nada de esto.
user4045
¿El nuevo AUC (para edad + microarrays) es 0,99 o es 0,86?
SheldonCooper