¿Cómo evaluar la repetibilidad de los resultados multivariados y específicos del método?

8

El método "A" describe muestras biológicas usando "huellas digitales" multivariadas que consisten en aproximadamente 30 variables diferentes. Las diferentes variables muestran una distribución típica diferente y muchas de ellas se correlacionan estrechamente entre sí. Por experiencia previa se supone que no podemos transformar muchas de las variables en distribución normal.

El método "B" está diseñado para ser una versión mejorada del método "A" y deseamos comparar la repetibilidad de estos dos métodos. Si estuviéramos tratando con una sola variable, realizaríamos análisis independientes de varias muestras y usaríamos ANOVA para comparar la variabilidad dentro del método con la entre métodos. Pero aquí estamos tratando con salidas multivariadas y no deseamos realizar un análisis por variable. ¿Cuáles son los enfoques correctos para esta pregunta?

Resolución

La respuesta por gui11aume de respuesta , proporciona información útil y valiosa. Adaptaré la "aplicación aguas abajo" de la respuesta de gui11aume seguida de 7 análisis unidireccionales como lo sugiere AdamO.

David D
fuente
(Aquí está mi enfoque. Por favor, hágame saber cuán legítimo es). ¿Qué pasa con el uso de un método robusto de reducción de dimensionalidad para reducir los datos multivariados a una sola dimensión y analizarlos?
David D
1
David, este problema parece que quieres hacer una descomposición de la varianza en un resultado multivariante, pero el título parece indicar que buscas algo más. ¿Puedes aclarar? Además, ¿puedes decir algo más sobre los datos que estás analizando?
Macro
David, ¿puedes explicar más explícitamente lo que quieres decir con "repetibilidad"? Sospecho que es similar a lo que nosotros (mi campo es el análisis quimiométrico de conjuntos de datos espectroscópicos [muestras biológicas]) generalmente llamamos estabilidad (de sth. Wrt. Sth.), Por ejemplo: estabilidad de predicciones o parámetros del modelo (dos tipos muy distintos de estabilidad!) wrt. a nuevas muestras / intercambiando el 10% de las muestras, ...
cbeleites descontento con SX
1
Además, ¿son las 30 variables de salida iguales (teóricamente) para ambos métodos?
cbeleites descontento con SX
1
Wrt. a su reducción de dimensionalidad: correría el riesgo de medir más las características del método de reducción de dimensionalidad que de la entrada al mismo. Ciertamente perderá cualquier información que sea ortogonal a la dirección capturada por la dimensión retenida.
Cbeleites descontento con SX

Respuestas:

7

Esto me recuerda a los diagnósticos de cáncer, donde las firmas antiguas de expresión génica son reemplazadas por otras más nuevas, que por supuesto se supone que son mejores. ¿Pero cómo demostrar que son mejores?

Aquí hay un par de sugerencias para comparar la repetibilidad de los métodos.

1. Utilice el análisis de co-inercia (CIA).
La CIA debería ser más publicitada, desafortunadamente no se usa ampliamente (no hay página de Wikipedia, por ejemplo). CIA es un método de dos tablas que funciona según el mismo principio que el análisis canónico (CA), que consiste en buscar un par de puntajes lineales con una correlación máxima entre dos conjuntos de mediciones multidensionales. Su ventaja sobre CA es que puede hacerlo incluso si tiene más dimensiones que observaciones. Puede medir ambos métodos en las mismas muestras para obtener dos tablas acopladas de 30 columnas ynobservaciones El primer par de componentes principales debe estar fuertemente correlacionado (si los métodos realmente miden lo mismo). Si el método B es mejor, la varianza residual debería ser menor que la varianza residual del método A. Con este enfoque, usted aborda tanto el acuerdo de los métodos como su desacuerdo, que interpreta como ruido.

2. Use una distancia .
Puede usar la distancia euclidiana en 30 dimensiones entre la prueba y la nueva prueba para medir la repetibilidad de un método. Genera una muestra de esa puntuación para cada método y puede comparar las muestras con la prueba de Wilcoxon.

3. Utilice la aplicación aguas abajo.
Probablemente esté obteniendo estas huellas digitales para tomar una decisión o clasificar pacientes o material biológico. Puede contar los acuerdos frente a desacuerdos entre las pruebas y las nuevas pruebas para ambos métodos y compararlos con la prueba de Wilcoxon.

El método 3 es el más simple, pero también el más realista. Incluso para entradas de altas dimensiones, las decisiones suelen ser bastante simples. Y por complejo que sea nuestro problema, tenga en cuenta que la estadística es la ciencia de la decisión.

Respecto a la pregunta en tu comentario.

¿Qué pasa con el uso de un método robusto de reducción de dimensionalidad para reducir los datos multivariados a una sola dimensión y analizarlos?

La reducción de la dimensionalidad, por fuerte que sea, se asociará con una pérdida de varianza. Si hay una manera de transformar su huella digital multivariada en un solo puntaje capturando casi toda su variación, entonces seguro, esto es, con mucho, lo mejor que puede hacer. Pero entonces, ¿por qué la huella digital es multivariada en primer lugar?

Asumí por el contexto del OP que la huella digital es multivariada precisamente porque es difícil reducir aún más su dimensionalidad sin perder información. En ese caso, su repetibilidad en un solo puntaje no tiene que ser un buen indicador de la repetibilidad general, ya que puede descuidar la mayoría de la varianza (cerca de 29/30 en el peor de los casos).

gui11aume
fuente
1. Tiene casi razón sobre la aplicación de esta prueba. 2. Con respecto a la distancia de Mahalanobis, no entiendo cómo se puede usar para evaluar la repetibilidad. ¿Sugiere calcular la matriz de covarianza para todos los puntos en todos los métodos JUNTOS y luego comparar los métodos muestreando MD usando esa matriz? 3. La aplicación aguas abajo es una opción valiosa, sin embargo, no reducirá la dimensionalidad t
David D
Con respecto al punto 2. tiene razón en que es difícil aplicar la distancia de Mahalanobis. Lo eliminé de la respuesta.
gui11aume
@ gui11aume: la entrada multivariada puede ser multivariada porque son datos medidos sin procesar, es decir, variables = canales de medición (de una matriz de sensores, espectrómetro, ...). En este caso, la naturaleza multivariada proviene de la naturaleza de la medición (aunque desde otro punto de vista, por lo general, ya se aplica una cierta reducción de la dimensión en la forma de seleccionar este chip sensor o este rango espectral particular)
cbeleites descontento con SX
@ gui11aume: también use su tercer enfoque para comparar clasificadores. Pero: leí de la pregunta y del comentario sobre la reducción de la dimensionalidad que esta aplicación posterior (que de hecho es una reducción drástica de la dimenasionalidad) probablemente no esté disponible (o al menos las 30 variantes en sí mismas deberían compararse).
Cbeleites descontento con SX
@ gui11aume: una disctancia mide la similitud, pero en mi humilde opinión, también debe verificar la dirección de las desviaciones, que se pierde por la distancia.
cbeleites descontento con SX
3

Supongo a partir de su pregunta y comentario que las 30 variables de salida no pueden (fácilmente) o no deben transformarse en una sola variable.

Una idea para tratar con datos de XA(n×pA)XB(n×pB) es que podrías hacer una regresión de XA(n×pA)XB(n×pB)y viceversa. Conocimiento adicional (por ejemplo, esa variantei en el conjunto A corresponde a la variante i también en el conjunto B) puede ayudar a restringir el modelo de mapeo y / o con la interpretación.

Entonces, ¿qué pasa con la PCA multibloque (o -PLS) que lleva esta idea más allá? Para estos métodos, ambas huellas digitales multivariadas para las mismas muestras (o los mismos individuos) se analizan juntas como variables independientes, con o sin un tercer bloque dependiente.

R. Brereton: "Chemometrics for Pattern Recognition" discute algunas técnicas en el último capítulo ("Comparación de diferentes patrones") y el google te llevará a una serie de artículos, también introducciones. Tenga en cuenta que sus situaciones suenan similares a problemas en los que, por ejemplo, las mediciones genéticas y espectroscópicas se analizan juntas (dos matrices con una correspondencia en fila en lugar de analizar, por ejemplo, series temporales de espectros en los que se analiza un cubo de datos).

Aquí hay un artículo que trata sobre el análisis multibloque : Sahar Hassani: Análisis de los datos ómnicos: Interpretación gráfica y herramientas de validación en métodos multibloque .

Además, quizás este sea un buen punto de partida en otra dirección: Hoefsloot et.al., Análisis de datos de múltiples conjuntos: Análisis simultáneo de componentes ANOVA y métodos relacionados, en: Quimiometría integral: análisis de datos químicos y bioquímicos (no tengo acceso a él) , acabo de ver el resumen)

cbeleites descontentos con SX
fuente
1

30 análisis unidireccionales es sin duda una opción y sería un tipo ideal de análisis de "tabla 2", en el que el rendimiento general se resume de forma lógica. Es posible que el Método B produzca los primeros 20 factores con una precisión ligeramente mejorada, mientras que los últimos 10 son mucho más variables. Tiene el problema de la inferencia usando un espacio parcialmente ordenado: ciertamente, si los 30 factores son más precisos en B, entonces B es un mejor método. Pero hay un área "gris" y con la gran cantidad de factores, es casi seguro que aparezca en la práctica.

Si el objetivo de esta investigación es aterrizar en un solo análisis, es importante considerar el peso de cada resultado y su aplicación de punto final. Si estas 30 variables se usan en la clasificación, predicción y / o agrupación de datos de observación, me gustaría ver la validación de estos resultados y una comparación de A / B en la clasificación (usando algo como tablas de estratificación de riesgo o porcentaje de sesgo medio) , predicción (usando el MSE) y agrupamiento (usando algo como validación cruzada). Esta es la forma correcta de manejar el área gris en la que no se puede decir que B es mejor analíticamente, pero funciona mucho mejor en la práctica.

AdamO
fuente
1

Probaré un enfoque ANOVA multivariante basado en pruebas de permutación ( PERMANOVA ). Un análisis de ordenación (basado en el resultado del análisis de longitud de gradiente) también podría ayudar.

AnastD
fuente
1
En R existe la función adonis en el paquete Vegan que realiza ANOVA multivariante permutacional. Esto generará una prueba estadística para decirle si el método A es diferente del método B. Este paquete proviene de la ecología de las plantas, donde cuenta varias especies (las variables) en diferentes parcelas pequeñas. Relacionado con esto está AMOVA, análisis de varianza molecular , donde las variables son datos moleculares. Para esto, puede usar el paquete R ade4, pero hay otro software gratuito y en línea que puede encontrar en el enlace.
Jdub
0

Si pudieras asumir la normalidad multivariada (que dijiste que no podías), podrías hacer una prueba de igualdad de vectores medios de Hotelling T2 para ver si puedes reclamar diferencias entre distribuciones o no. Sin embargo, aunque no puede hacer eso, en teoría puede comparar las distribuciones para ver si difieren mucho. Divide el espacio de 30 dimensiones en cuadrículas rectangulares. Úselos como contenedores de 30 dimensiones. Cuente el número de vectores que caen en cada contenedor y aplique una prueba de chi cuadrado para ver si las distribuciones se ven iguales. El problema con esta sugerencia es que requiere seleccionar juiciosamente los contenedores para cubrir los puntos de datos de manera adecuada. Además, la maldición de la dimensionalidad hace que sea difícil identificar diferencias entre las distribuciones multivariadas sin tener un número muy grande de puntos en cada grupo. Creo que las sugerencias que gui11aume dio son sensatas. No creo que los otros lo sean. Como comparar las distribuciones no es factible en 30 dimensiones con una muestra típica, me parece apropiado algún tipo de comparación válida de los vectores medios.

Michael R. Chernick
fuente
1
Hola Michael. ¿Te importaría aclarar lo que estás sugiriendo sobre binning? Que suena como si estuviera sugiriendo hurgar en la basura cada dimensión por separado y luego clasificar en los contenedores. Pero, digamos que tenemos dos contenedores por dimensión, eso es230>109contenedores Eso no suena como un buen candidato para unχ2prueba. Por lo tanto, lo que está sugiriendo?
cardenal
Además, según su sugerencia, no está claro cómo se debe hacer el binning: ¿debería cada bin tener el mismo número de casos, el mismo rango, el mismo rango de registro, etc.?
Boris Gorelik
@cardinal No, lo que dije fue construir 30 contenedores de dimensiones rectangulares. Hago la prueba de chi-cuadrado habitual para comparar dos distribuciones.
Michael R. Chernick
2
Después de pensarlo más, creo que mi recomendación no funcionaría en grandes dimensiones porque (1) aunque una elección juiciosa de contenedores es práctica en 1, 2 y posiblemente 3 dimensiones, no me parece que identificar dichos contenedores en 30 dimensiones podría hacerse (2) debido a la maldición de la dimensionalidad, incluso si tal selección pudiera lograrse puntos en 30 dimensiones distribuidas de tal manera que sería difícil detectar diferencias entre las distribuciones sin un número muy grande de puntos. Entonces el cardenal hace algunos buenos puntos.
Michael R. Chernick
1
Debí haber sido más especifico; por "aplicación ingenua", quise decir que uno no puede simplemente aplicar la prueba estándar de inmediato. Como mínimo, se deben hacer algunos ajustes para los grados de libertad, aunque a veces determinar cuáles deberían ser los grados de libertad no es una cuestión completamente sencilla.
cardenal