Algunos autores (por ejemplo, Pallant, 2007, p. 225; ver imagen a continuación) sugieren calcular el tamaño del efecto para una prueba de rango con signo de Wilcoxon dividiendo el estadístico de prueba por la raíz cuadrada del número de observaciones:
Z
es el resultado estadístico de prueba de SPSS (vea la imagen a continuación) así como también wilcoxsign_test
en R. (Vea también mi pregunta relacionada: teststatistic vs linearstatistic en wilcoxsign_test )
Otros sugieren los coeficientes de correlación de Bravais-Pearson ( ) o Spearman ( ) (según el tipo de datos).
Cuando los calcula, los dos r
s ni siquiera son remotamente iguales. Por ejemplo, para mis datos actuales:
r = 0.23 (para )
r = 0,43 (Pearson)
Esto implicaría tamaños de efectos bastante diferentes.
Entonces, ¿cuál es el tamaño de efecto correcto para usar y cómo se relacionan los dos r
s?
Páginas 224 (parte inferior) y 225 de Pallant, J. (2007). Manual de supervivencia de SPSS:
fuente
n
in es el número de todas las observaciones, es decir, la suma de la longitud de ambos vectores, es decir, , no el número de participantes. Entonces, la fórmula es la misma, solo tiene que entender correctamente lo que significa "n". Si eso está mal, por favor educarme. Después de todo, esto es a lo que apunta mi pregunta.Respuestas:
Sin embargo, hay otra arruga. Si bien desea una estimación del tamaño del efecto general, las personas generalmente usan la prueba de rango con signo de Wilcoxon con datos que son solo ordinales. Es decir, donde no confían en que los datos pueden indicar de manera confiable la magnitud del turno dentro de un estudiante, sino solo que ocurrió un turno. Eso me lleva a la proporción mejorada discutida anteriormente.
Por otro lado, si confía en que los valores son intrínsecamente significativos (p. Ej., Solo usó la prueba de rango con signo por su solidez a la normalidad y valores atípicos), podría usar una diferencia de media o mediana sin procesar, o la diferencia de medias estandarizada como medida de efecto.
fuente
Sin saber qué tipo de datos se estaban evaluando, es muy difícil dar buenos consejos aquí. Y realmente, eso es todo lo que puedes conseguir. Simplemente no existe una mejor medida del tamaño del efecto para preguntas como esta ... tal vez alguna vez.
Los tamaños de efectos mencionados en la pregunta son todos tamaños de efectos estandarizados. Pero es completamente posible que los medios o las medianas de las medidas originales estén bien. Por ejemplo, si está midiendo cuánto tiempo tarda en completarse un proceso de fabricación, la diferencia de tiempos debería ser un tamaño de efecto perfectamente razonable. Cualquier cambio en el proceso, mediciones futuras, mediciones a través de sistemas y mediciones a través de fábricas, todo se realizará a tiempo. Tal vez desee la media o tal vez desee la mediana, o incluso el modo, pero lo primero que debe hacer es mirar la escala de medición real y ver si el tamaño del efecto allí es razonable de interpretar y está fuertemente relacionado con la medida.
Para ayudar a pensar en eso, los efectos que deberían estandarizarse son cosas que se miden de manera más indirecta y de muchas maneras. Por ejemplo, las escalas psicológicas pueden variar con el tiempo y de muchas maneras e intentar llegar a una variable subyacente que no se evalúa directamente. En esos casos, desea tamaños de efectos estandarizados.
Con tamaños de efectos estandarizados, el problema crítico no es solo cuál usar sino lo que significan. Como implica en su pregunta, tampoco sabe lo que significan y eso es lo crítico. Si no sabe cuál es el efecto estandarizado, entonces no puede informarlo correctamente, interpretarlo o usarlo correctamente. Además, si hay una variedad de formas en que le gustaría discutir los datos, no hay absolutamente nada que le impida informar más de un tamaño de efecto. Puede analizar sus datos en términos de relación lineal, como con la correlación de momento del producto, o en términos de relación entre los rangos con Spearman
r
y las diferencias entre ellos o simplemente proporcionar toda la información en la tabla. No hay nada malo con eso en absoluto. Pero, más que nada, tendrá que decidir qué quiere que signifiquen sus resultados. Eso es algo que no puede responderse a partir de la información proporcionada y puede requerir mucha más información y conocimiento específico del dominio de lo que es razonable para una pregunta en este tipo de foro.Y siempre piense metaanalíticamente sobre cómo informa los efectos. ¿Podrán las personas en el futuro tomar los resultados que estoy informando e integrarlos con otros? Quizás haya un estándar en su campo para estas cosas. Tal vez seleccionó una prueba no paramétrica principalmente porque no confía en las conclusiones que otros han hecho sobre las distribuciones subyacentes y desea ser más conservador en sus suposiciones en un campo que utiliza principalmente pruebas paramétricas. En ese caso, no hay nada de malo en proporcionar adicionalmente un tamaño de efecto típicamente utilizado con las pruebas paramétricas. Es necesario tener en cuenta estos y muchos otros aspectos al pensar en cómo ubicar su hallazgo en una literatura más amplia de investigación similar. Por lo general, las buenas estadísticas descriptivas resuelven estos problemas.
Ese es el consejo principal. Tengo algunos comentarios adicionales. Si desea que el tamaño de su efecto esté fuertemente relacionado con la prueba que realizó, entonces la
Z
recomendación basada es obviamente la mejor. Su tamaño de efecto estandarizado significará lo mismo que la prueba. Pero tan pronto como no esté haciendo eso, no hay nada de malo en usar casi cualquier otra cosa, incluso algo como el de Cohend
que está asociado con las pruebas paramétricas. No se asume la normalidad para calcular medias, desviaciones estándar od
puntuaciones. De hecho, hay supuestos más débiles que para el coeficiente de correlación recomendado. Y siempre informe buenas medidas descriptivas. Una vez más, las medidas descriptivas no tienen supuestos que estaría violando, pero tenga en cuenta su significado sustantivo. Usted informa estadísticas descriptivas que dicen algo sobre sus datos que quiere decir y los medios y las medianas dicen cosas diferentes.Si desea analizar medidas repetidas versus tamaños de efectos de diseño independientes, entonces esa es realmente una pregunta completamente nueva.
fuente