Descargo de responsabilidad: si considera que esta pregunta es demasiado similar a otra, me alegra que se fusione. Sin embargo, no encontré una respuesta satisfactoria en ningún otro lugar (y todavía no tengo la "reputación" de comentar o votar), así que pensé que sería mejor hacer una nueva pregunta yo mismo.
Mi pregunta es esta Para cada uno de los 12 sujetos humanos, he calculado un coeficiente de correlación (rho de Spearman) entre 6 niveles de una variable independiente X y las observaciones correspondientes de una variable dependiente Y. (Nota: los niveles de X no son iguales entre los sujetos). La hipótesis nula es que en la población general, esta correlación es igual a cero. He probado esta hipótesis de dos maneras:
Usando una prueba t de una muestra sobre los coeficientes de correlación obtenidos de mis 12 sujetos.
Al centrar mis niveles de X y las observaciones de Y de manera que para cada participante, media (X) = 0 y media (Y) = 0, y luego calcular una correlación sobre los datos agregados (72 niveles de X y 72 observaciones de Y) .
Ahora, al leer sobre trabajar con coeficientes de correlación (aquí y en otros lugares), he comenzado a dudar si el primer enfoque es válido. Particularmente, he visto aparecer la siguiente ecuación en varios lugares, presentada (aparentemente) como una prueba t para coeficientes de corelación promedio:
donde sería el coeficiente de correlación promedio (y supongamos que lo hemos obtenido usando la transformación de Fisher en los coeficientes por sujeto primero) el número de observaciones. Intuitivamente, esto me parece incorrecto ya que no incluye ninguna medida de la variabilidad entre sujetos. En otras palabras, si tuviera 3 coeficientes de correlación, obtendría el mismo estadístico t si fueran [0.1, 0.5, 0.9] o [0.45 0.5 0.55] o cualquier rango de valores con la misma media ( )n n = 3
Sospecho, por lo tanto, que la ecuación anterior no se aplica de hecho cuando se prueba la importancia de un promedio de coeficientes de correlación, sino cuando se prueba la importancia de un solo coeficiente de correlación basado en observaciones de 2 variables.
¿Alguien podría confirmar esta intuición o explicar por qué está mal? Además, si esta fórmula no se aplica a mi caso, ¿alguien sabe cuál es el enfoque correcto? ¿O tal vez mi propia prueba número 2 ya es válida? Cualquier ayuda es muy apreciada (incluidos los punteros a respuestas anteriores que podría haber perdido o malinterpretado)
fuente
Respuestas:
Un mejor enfoque para analizar estos datos es utilizar un modelo mixto (también conocido como modelo de efectos mixtos, modelo jerárquico) con
subject
un efecto aleatorio (intercepción aleatoria o intercepción aleatoria + pendiente). Para resumir una respuesta diferente mía:Esto es esencialmente una regresión que modela una relación general única mientras permite que esa relación difiera entre los grupos (los sujetos humanos). Este enfoque se beneficia de la agrupación parcial y utiliza sus datos de manera más eficiente.
fuente
Supongo que las variables ( 's y ' s) son las mismas para todas las personas (en realidad no estoy seguro de entender lo que quieres decir al decir que los niveles no son iguales en todas las materias: espero que lo seas) refiriéndose a la independencia entre los rangos de las variables, no sobre qué variables se miden para cada individuo). Sí, la fórmula que mostró se aplica al coeficiente de correlación entre dos variables.12 6 X 6 Y
En su punto 2, habla de normalización: creo que esto tendría sentido si lo hiciera para cada una de las variables separado. Sin embargo, aun así, el problema con este enfoque es que no controla la dependencia dentro del individuo.6∗2
Creo que su enfoque 1 tampoco es válido, porque sería una prueba entre variables con distribución con solo grados de libertad, por lo que no creo que pueda aplicar el Teorema del límite central en este caso.6 t 10
Tal vez, con números más grandes, podría usar un enfoque de efecto aleatorio, que permita una pendiente aleatoria y al mismo tiempo probar tanto un coeficiente promedio nulo (de en ) como la inexistencia de un coeficiente aleatorio. Sin embargo, creo que 6 variables y 12 observaciones no son suficientes para hacerlo.Xi Yi
Le sugiero que lo vea como una prueba de 6 valores (que se convierten en 12 si también considera valores por debajo de la diagonal) de la matriz de correlación entre las variables (tanto la como la ), es decir, las que están en la diagonal de la segunda (y equivalente del 3er) cuadrante. Por lo tanto, haría una prueba de razón de probabilidad entre el modelo restringido y el no restringido.12 X Y
@ Alexis Entiendo que centrar , , reemplazándolos con tendría sentido (creo que también tendría sentido dividirlos por sus 's). De esta manera, las variables e (creadas considerando como si fueran ocurrencias de una variable única, y lo mismo para ) tendrían todas una media de . Por el contrario, si construimos dos variables primero (creado considerandoX1,…,X6 Y1,…,Y6 X∗1=X1−X1¯,…,X∗6=X6−X6¯,Y∗1=Y1−Y1¯,…,Y∗6=Y6−Y6¯ SE X∗ Y∗ X∗i,1≤i≤6 Y∗i 0 X,Y Xi,1≤i≤6 como si fueran ocurrencias de una variable única, y lo mismo para ), entonces, por supuesto, restar la media (y también dividir por el SE de e ) no cambiaría las cosas.Yi X Y
EDITAR 01/01/18
Let indican la variable y ( ) del individuo. Entonces, supongamos que tenemos:i j 1≤j≤12
La correlación en este caso debe ser .0.5428
Si cada variable, dado que, para , tanto como no tienen variación, tenemos: . En cuanto a , obtenemos los valores (es decir, para las 's: , y exactamente lo contrario para las 's). Como y , obtenemos: , implicando una correlación de .1≤i≤5 Xi Yi X∗ij=Y∗ij=0 i=6 X∗6j=j−6.5,Y∗j6=(13−j)−6.5=6.5−j X −5.5,−4.5,−3.5,−2.5,−1.5,−0.5,0.5,1.5,2.5,3.5,4.5,5.5 Y 0=−0 j−6.5=−(6.5−j) X∗ij=−Y∗ij∀i,j→X∗=−Y∗ −1
fuente