El método "A" describe muestras biológicas usando "huellas digitales" multivariadas que consisten en aproximadamente 30 variables diferentes. Las diferentes variables muestran una distribución típica diferente y muchas de ellas se correlacionan estrechamente entre sí. Por experiencia previa se supone que no podemos transformar muchas de las variables en distribución normal.
El método "B" está diseñado para ser una versión mejorada del método "A" y deseamos comparar la repetibilidad de estos dos métodos. Si estuviéramos tratando con una sola variable, realizaríamos análisis independientes de varias muestras y usaríamos ANOVA para comparar la variabilidad dentro del método con la entre métodos. Pero aquí estamos tratando con salidas multivariadas y no deseamos realizar un análisis por variable. ¿Cuáles son los enfoques correctos para esta pregunta?
Resolución
La respuesta por gui11aume de respuesta , proporciona información útil y valiosa. Adaptaré la "aplicación aguas abajo" de la respuesta de gui11aume seguida de 7 análisis unidireccionales como lo sugiere AdamO.
Respuestas:
Esto me recuerda a los diagnósticos de cáncer, donde las firmas antiguas de expresión génica son reemplazadas por otras más nuevas, que por supuesto se supone que son mejores. ¿Pero cómo demostrar que son mejores?
Aquí hay un par de sugerencias para comparar la repetibilidad de los métodos.
1. Utilice el análisis de co-inercia (CIA).n observaciones El primer par de componentes principales debe estar fuertemente correlacionado (si los métodos realmente miden lo mismo). Si el método B es mejor, la varianza residual debería ser menor que la varianza residual del método A. Con este enfoque, usted aborda tanto el acuerdo de los métodos como su desacuerdo, que interpreta como ruido.
La CIA debería ser más publicitada, desafortunadamente no se usa ampliamente (no hay página de Wikipedia, por ejemplo). CIA es un método de dos tablas que funciona según el mismo principio que el análisis canónico (CA), que consiste en buscar un par de puntajes lineales con una correlación máxima entre dos conjuntos de mediciones multidensionales. Su ventaja sobre CA es que puede hacerlo incluso si tiene más dimensiones que observaciones. Puede medir ambos métodos en las mismas muestras para obtener dos tablas acopladas de 30 columnas y
2. Use una distancia .
Puede usar la distancia euclidiana en 30 dimensiones entre la prueba y la nueva prueba para medir la repetibilidad de un método. Genera una muestra de esa puntuación para cada método y puede comparar las muestras con la prueba de Wilcoxon.
3. Utilice la aplicación aguas abajo.
Probablemente esté obteniendo estas huellas digitales para tomar una decisión o clasificar pacientes o material biológico. Puede contar los acuerdos frente a desacuerdos entre las pruebas y las nuevas pruebas para ambos métodos y compararlos con la prueba de Wilcoxon.
El método 3 es el más simple, pero también el más realista. Incluso para entradas de altas dimensiones, las decisiones suelen ser bastante simples. Y por complejo que sea nuestro problema, tenga en cuenta que la estadística es la ciencia de la decisión.
Respecto a la pregunta en tu comentario.
La reducción de la dimensionalidad, por fuerte que sea, se asociará con una pérdida de varianza. Si hay una manera de transformar su huella digital multivariada en un solo puntaje capturando casi toda su variación, entonces seguro, esto es, con mucho, lo mejor que puede hacer. Pero entonces, ¿por qué la huella digital es multivariada en primer lugar?
Asumí por el contexto del OP que la huella digital es multivariada precisamente porque es difícil reducir aún más su dimensionalidad sin perder información. En ese caso, su repetibilidad en un solo puntaje no tiene que ser un buen indicador de la repetibilidad general, ya que puede descuidar la mayoría de la varianza (cerca de 29/30 en el peor de los casos).
fuente
Supongo a partir de su pregunta y comentario que las 30 variables de salida no pueden (fácilmente) o no deben transformarse en una sola variable.
Una idea para tratar con datos deXA(n×pA)↔XB(n×pB) es que podrías hacer una regresión de XA(n×pA)↦XB(n×pB) y viceversa. Conocimiento adicional (por ejemplo, esa variantei en el conjunto A corresponde a la variante i también en el conjunto B) puede ayudar a restringir el modelo de mapeo y / o con la interpretación.
Entonces, ¿qué pasa con la PCA multibloque (o -PLS) que lleva esta idea más allá? Para estos métodos, ambas huellas digitales multivariadas para las mismas muestras (o los mismos individuos) se analizan juntas como variables independientes, con o sin un tercer bloque dependiente.
R. Brereton: "Chemometrics for Pattern Recognition" discute algunas técnicas en el último capítulo ("Comparación de diferentes patrones") y el google te llevará a una serie de artículos, también introducciones. Tenga en cuenta que sus situaciones suenan similares a problemas en los que, por ejemplo, las mediciones genéticas y espectroscópicas se analizan juntas (dos matrices con una correspondencia en fila en lugar de analizar, por ejemplo, series temporales de espectros en los que se analiza un cubo de datos).
Aquí hay un artículo que trata sobre el análisis multibloque : Sahar Hassani: Análisis de los datos ómnicos: Interpretación gráfica y herramientas de validación en métodos multibloque .
Además, quizás este sea un buen punto de partida en otra dirección: Hoefsloot et.al., Análisis de datos de múltiples conjuntos: Análisis simultáneo de componentes ANOVA y métodos relacionados, en: Quimiometría integral: análisis de datos químicos y bioquímicos (no tengo acceso a él) , acabo de ver el resumen)
fuente
30 análisis unidireccionales es sin duda una opción y sería un tipo ideal de análisis de "tabla 2", en el que el rendimiento general se resume de forma lógica. Es posible que el Método B produzca los primeros 20 factores con una precisión ligeramente mejorada, mientras que los últimos 10 son mucho más variables. Tiene el problema de la inferencia usando un espacio parcialmente ordenado: ciertamente, si los 30 factores son más precisos en B, entonces B es un mejor método. Pero hay un área "gris" y con la gran cantidad de factores, es casi seguro que aparezca en la práctica.
Si el objetivo de esta investigación es aterrizar en un solo análisis, es importante considerar el peso de cada resultado y su aplicación de punto final. Si estas 30 variables se usan en la clasificación, predicción y / o agrupación de datos de observación, me gustaría ver la validación de estos resultados y una comparación de A / B en la clasificación (usando algo como tablas de estratificación de riesgo o porcentaje de sesgo medio) , predicción (usando el MSE) y agrupamiento (usando algo como validación cruzada). Esta es la forma correcta de manejar el área gris en la que no se puede decir que B es mejor analíticamente, pero funciona mucho mejor en la práctica.
fuente
Probaré un enfoque ANOVA multivariante basado en pruebas de permutación ( PERMANOVA ). Un análisis de ordenación (basado en el resultado del análisis de longitud de gradiente) también podría ayudar.
fuente
Si pudieras asumir la normalidad multivariada (que dijiste que no podías), podrías hacer una prueba de igualdad de vectores medios de Hotelling T2 para ver si puedes reclamar diferencias entre distribuciones o no. Sin embargo, aunque no puede hacer eso, en teoría puede comparar las distribuciones para ver si difieren mucho. Divide el espacio de 30 dimensiones en cuadrículas rectangulares. Úselos como contenedores de 30 dimensiones. Cuente el número de vectores que caen en cada contenedor y aplique una prueba de chi cuadrado para ver si las distribuciones se ven iguales. El problema con esta sugerencia es que requiere seleccionar juiciosamente los contenedores para cubrir los puntos de datos de manera adecuada. Además, la maldición de la dimensionalidad hace que sea difícil identificar diferencias entre las distribuciones multivariadas sin tener un número muy grande de puntos en cada grupo. Creo que las sugerencias que gui11aume dio son sensatas. No creo que los otros lo sean. Como comparar las distribuciones no es factible en 30 dimensiones con una muestra típica, me parece apropiado algún tipo de comparación válida de los vectores medios.
fuente