Tengo varios cientos de medidas. Ahora, estoy considerando utilizar algún tipo de software para correlacionar cada medida con cada medida. Esto significa que hay miles de correlaciones. Entre estos debería haber (estadísticamente) una alta correlación, incluso si los datos son completamente aleatorios (cada medida tiene solo unos 100 puntos de datos).
Cuando encuentro una correlación, ¿cómo incluyo en ella la información sobre qué tanto busqué una correlación?
No estoy en un nivel alto en estadísticas, así que tengan paciencia conmigo.
R
en esta máquina tarda 18 segundos en obtener 1000 realizaciones de la distribución de permutación nula del coeficiente de correlación máximo para una matriz de 300 por 100x
:correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
Respuestas:
Esta es una excelente pregunta, digna de alguien que es un pensador estadístico claro, porque reconoce un aspecto sutil pero importante de las pruebas múltiples.
Existen métodos estándar para ajustar los valores p de múltiples coeficientes de correlación (o, de manera equivalente, para ampliar sus intervalos de confianza), como los métodos Bonferroni y Sidak ( qv ). Sin embargo, estos son demasiado conservadores con grandes matrices de correlación debido a las relaciones matemáticas inherentes que deben mantenerse entre los coeficientes de correlación en general. (Para algunos ejemplos de tales relaciones, vea la pregunta reciente y el hilo resultante ). Uno de los mejores enfoques para tratar esta situación es realizar una prueba de permutación (o remuestreo). Es fácil hacer esto con correlaciones: en cada iteración de la prueba, simplemente aleatorice aleatoriamente el orden de los valores de cada uno de los campos (destruyendo así cualquier correlación inherente) y recalcule la matriz de correlación completa. Haga esto durante varios miles de iteraciones (o más), luego resuma las distribuciones de las entradas de la matriz de correlación, por ejemplo, dando sus percentiles 97.5 y 2.5: estos servirían como intervalos de confianza mutuos simétricos bilaterales del 95% bajo nulo hipótesis de no correlación. (La primera vez que hace esto con una gran cantidad de variables, se sorprenderá de cuán altos pueden ser algunos de los coeficientes de correlación, incluso cuando no hay una correlación inherente).
Al informar los resultados, no importa qué cálculos haga, debe incluir lo siguiente:
El tamaño de la matriz de correlación ( es decir , cuántas variables ha examinado).
Cómo determinó los valores p o "significancia" de cualquiera de los coeficientes de correlación ( por ejemplo , los dejó como están, aplicó una corrección de Bonferroni, hizo una prueba de permutación o lo que sea).
Si buscó medidas alternativas de correlación, como la correlación de rango de Spearman . Si lo hizo, indique también por qué eligió el método sobre el que realmente está informando y utilizando.
fuente
Según su respuesta de seguimiento a la pregunta de Peter Flom, parece que podría ser mejor atendido por técnicas que observan la estructura de nivel superior en su matriz de correlación.
Las técnicas como análisis factorial, PCA, escalamiento multidimensional y análisis de variables en grupo se pueden usar para agrupar sus variables en conjuntos de variables relativamente más relacionadas.
Además, es posible que desee pensar teóricamente sobre qué tipo de estructura debería estar presente. Cuando su número de variables es grande y el número de observaciones es pequeño, a menudo confía más en las expectativas previas.
fuente
Este es un ejemplo de comparaciones múltiples. Hay una gran literatura sobre esto.
Si tiene, digamos, 100 variables, entonces tendrá 100 * 99/2 = 4950 correlaciones.
Si los datos son solo ruido, entonces esperaría que 1 de cada 20 de estos sea significativo en p = .05. Eso es 247,5
Sin embargo, antes de continuar, sería bueno si pudieras decir POR QUÉ estás haciendo esto. ¿Cuáles son estas variables, por qué las correlaciona, cuál es su idea sustantiva?
¿O simplemente estás buscando correlaciones altas?
fuente
Tal vez podría hacer un análisis preliminar en un subconjunto aleatorio de los datos para formar hipótesis y luego probar esas pocas hipótesis de interés utilizando el resto de los datos. De esa forma no tendría que corregir casi tantas pruebas múltiples. (Yo creo que...)
Por supuesto, si utiliza dicho procedimiento, reducirá el tamaño del conjunto de datos utilizado para el análisis final y, por lo tanto, reducirá su poder para encontrar efectos reales. Sin embargo, las correcciones para comparaciones múltiples también reducen la potencia y, por lo tanto, no estoy seguro de que necesariamente pierda algo.
fuente