Tengo una matriz , donde p es el número de genes yn es el número de pacientes. Cualquiera que haya trabajado con estos datos sabe que p siempre es mayor que n . Usando la selección de características, pude obtener p a un número más razonable, sin embargo, p es aún mayor que n .
Me gustaría calcular la similitud de los pacientes en función de sus perfiles genéticos; Podría usar la distancia euclidiana, sin embargo, Mahalanobis parece más apropiado ya que explica la correlación entre las variables. El problema (como se señaló en esta publicación ) es que la distancia de Mahalanobis, específicamente la matriz de covarianza, no funciona cuando . Cuando ejecuto la distancia de Mahalanobis en R, el error que obtengo es:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
Hasta ahora para tratar de resolver esto, he usado PCA y en lugar de usar genes, uso componentes y esto parece permitirme calcular la distancia de Mahalanobis; 5 componentes representan aproximadamente el 80% de la varianza, por lo que ahora .
Mis preguntas son: ¿Puedo usar PCA para obtener significativamente la distancia de Mahalanobis entre pacientes, o es inapropiado? ¿Existen métricas de distancia alternativas que funcionan cuando y también hay mucha correlación entre las n variables?
fuente
PCA
podría romper las correlaciones variables, a menos que use algo como una rotación oblicua. Tampoco estoy seguro de cómo la distribución de la varianzaPCA
afectará la distancia de Mahalanobis entre pacientes similares.PCA
trabajo, tengo curiosidad por saber si se puede utilizar alguna métrica de distancia en las salidas.Respuestas:
Si mantiene todos los componentes de un PCA, entonces las distancias euclidianas entre pacientes en el nuevo espacio PCA serán iguales a sus distancias de Mahalanobis en el espacio variable observado. Si omite algunos componentes, eso cambiará un poco, pero de todos modos. Aquí me refiero a los componentes PCA de varianza unitaria, no al tipo cuya varianza es igual al valor propio (no estoy seguro acerca de la implementación de su PCA).
Solo quiero decir que si desea evaluar la distancia de Mahalanobis entre los pacientes, puede aplicar PCA y evaluar la distancia euclidiana. Evaluar la distancia de Mahalanobis después de aplicar PCA me parece algo sin sentido.
fuente
Eche un vistazo al siguiente documento:
Zuber, V., Silva, APD y Strimmer, K. (2012). Un algoritmo novedoso para la selección simultánea de SNP en estudios de asociación de todo el genoma de alta dimensión . BMC bioinformática , 13 (1), 284.
Se trata exactamente de su problema. Los autores suponen el uso de una nueva medición de importancia variable, además de que anteriormente introdujeron un método de estimación penalizado para la matriz de correlación de variables explicativas que se ajusta a su problema. ¡También usan la distancia de Mahalanobis para la descorrelación!
Los métodos están incluidos en el paquete de atención 'R', disponible en CRAN
fuente
Las puntuaciones de PCA (o resultados de PCA) se utilizan en la literatura para calcular la distancia de Mahalanobis entre la muestra y una distribución de muestras. Para ver un ejemplo, vea este artículo . En la sección "Métodos de análisis", los autores declaran:
He visto otros ejemplos de análisis discriminante basado en la distancia PCA / Mahalanobis en la literatura y en el menú de ayuda del software de quimiometría GRAMS IQ. Esta combinación tiene sentido ya que la distancia de Mahalanobis no funciona bien cuando el número de variables es mayor que el número de muestras disponibles, y PCA reduce el número de variables.
Los algoritmos de aprendizaje automático de clasificación de una clase (es decir, Bosque de aislamiento, One-ClassSVM, etc.) son posibles alternativas al análisis discriminante basado en la distancia PCA / Mahalanobis. En nuestro laboratorio, el bosque de aislamiento combinado con el procesamiento previo de datos ha producido buenos resultados en la clasificación de los espectros de infrarrojo cercano.
En una nota ligeramente relacionada, la detección de valores atípicos o novedosos con PCA / distancia de Mahalanobis, para datos dimensionales altos, a menudo requiere el cálculo del límite de distancia de Mahalanobis . Este artículo sugiere que el límite puede calcularse como la raíz cuadrada del valor crítico de la distribución de chi-cuadrado , suponiendo que los datos se distribuyen normalmente. Este valor crítico requiere el número de grados de libertad y el valor de probabilidad asociado con los datos. El artículo parece sugerir que el número de componentes principales retenidos es igual al número de grados de libertad necesarios para calcular el valor crítico porque los autores utilizaron el número de características en el conjunto de datos para su cálculo.
fuente