Antecedentes: leí un artículo donde los autores informan la correlación de Pearson 0.754 del tamaño de la muestra 878. El valor p resultante para la prueba de correlación es "dos estrellas" significativo (es decir, p <0.01). Sin embargo, creo que con un tamaño de muestra tan grande, el valor p correspondiente debería ser inferior a 0,001 (es decir, tres estrellas significativas).
- ¿Se pueden calcular los valores p para esta prueba solo a partir del coeficiente de correlación de Pearson y el tamaño de la muestra?
- En caso afirmativo, ¿cómo se puede hacer esto en R?
hypothesis-testing
correlation
p-value
fraud
Miroslav Sabo
fuente
fuente
Respuestas:
Sí, se puede hacer si usa la transformación de Fisher de R a Z. Otros métodos (por ejemplo, bootstrap) pueden tener algunas ventajas, pero requieren los datos originales. En R ( r es el coeficiente de correlación de la muestra, n es el número de observaciones):
Vea también esta publicación en mi blog .
Dicho esto, si es .01 o .001 no importa mucho. Como dijiste, esto es principalmente una función del tamaño de la muestra y ya sabes que el tamaño de la muestra es grande. La conclusión lógica es que probablemente ni siquiera necesite una prueba en absoluto (especialmente no una prueba de la llamada hipótesis 'nula' de que la correlación es 0). Con N = 878, puede confiar bastante en la precisión de la estimación y centrarse en interpretarla directamente (es decir, ¿tiene 0.75 de largo en su campo?).
Sin embargo, formalmente, cuando realiza una prueba estadística en el marco de Neyman-Pearson, debe especificar el nivel de error por adelantado. Por lo tanto, si los resultados de la prueba realmente importan y el estudio se planificó con .01 como umbral, solo tiene sentido informar p <.01 y no debería hacerlo oportunistamente p <.001 en función del valor p obtenido . Este tipo de flexibilidad no revelada es incluso una de las principales razones detrás de las críticas a las pequeñas estrellas y, más en general, de la forma en que las pruebas de significación de hipótesis nulas se practican en las ciencias sociales.
Ver también Meehl, PE (1978). Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el lento progreso de la psicología blanda. Revista de consultoría y psicología clínica, 46 (4), 806-834. (El título contiene una referencia a estas "estrellas", pero el contenido es una discusión mucho más amplia sobre el papel de las pruebas de significación).
fuente
Hay una estadística alternativa:
que tiene distribución t con n-2 grados de libertad. Así es como funciona, por ejemplo: http://www.danielsoper.com/statcalc3/calc.aspx?id=44
fuente