¿Qué estadísticas descriptivas no son tamaños de efectos?

12

Wikipedia dice

El tamaño del efecto es una medida de la fuerza de un fenómeno o una estimación basada en muestras de esa cantidad. El tamaño del efecto calculado a partir de los datos es una estadística descriptiva que transmite la magnitud estimada de una relación sin hacer ninguna declaración sobre si la relación aparente en los datos refleja una relación verdadera en la población.

Para entenderlo mejor, me preguntaba qué estadísticas descriptivas no son el tamaño del efecto, excepto los gráficos y las parcelas.

Tim
fuente
Los gráficos y las gráficas pueden ser realmente excelentes para medir el tamaño de un efecto de formas más intuitivas que las medidas de tamaño del efecto. Si realmente ve la superposición entre dos grupos en algunas medidas (que correspondería aproximadamente a una d más pequeña ), quizás sea más fácil darse cuenta de que una diferencia significativa no significa que todos los miembros de un grupo tengan puntajes más bajos que los miembros del otro grupo , etc.
Gala

Respuestas:

18

Tamaños de efecto

  • Los tamaños de efectos estandarizados comunes suelen cuantificar la cantidad o el grado de una relación o efecto. Las medidas de tamaño del efecto más comunes son probablemente la de d de Cohen, la r de Pearson y la razón de posibilidades (particularmente para un predictor binario).
  • Medidas de tamaño de efecto menos comunes:Dicho esto, puede tener medidas de tamaño de efecto estandarizadas y no estandarizadas. Cualquier estadística que comunique el grado de relaciones y no esté especialmente contaminada por el tamaño de la muestra es probablemente una medida del tamaño del efecto. Por lo tanto, los coeficientes Beta, el cuadrado R, la covarianza, las diferencias de medias brutas entre los grupos, etc., capturan el grado de efecto. Dicho esto, encuentro que algunos investigadores aplican medidas de tamaño del efecto de forma algo ciega y olvidan que el objetivo más amplio es dar a los lectores una idea del grado de efecto. Y por lo tanto, a menudo no se dan cuenta de que medidas como las diferencias de medias o los coeficientes de regresión sin procesar son, en cierto sentido, una medida del tamaño del efecto. Otro ejemplo del uso ciego de los tamaños de efectos implica el uso de medidas de tamaño de efectos que no tienen una interpretación intuitiva, pero que han sido recomendados por algunos libros de texto.

No tamaños de efecto:

  • La mayoría de las estadísticas de prueba no son tamaños de efectos. Por ejemplo, prueba de Chi-cuadrado, prueba t, prueba z, prueba F. Se hacen más grandes a medida que aumenta el tamaño del efecto de la población y a medida que aumenta el tamaño de la muestra. En muchos aspectos, se ha enfatizado todo el lenguaje de los tamaños de los efectos en los últimos años porque los investigadores se estaban enfocando demasiado en cuán grandes eran sus estadísticas de prueba en lugar de qué tan grandes eran sus tamaños de efectos. Esto es especialmente importante cuando tiene un tamaño de muestra grande cuando incluso los efectos pequeños pueden ser estadísticamente significativos.
  • La mayoría de las estadísticas univariantes no son tamaños de efectos. Para la mayoría de los propósitos, el tamaño del efecto se refiere a la relación entre al menos dos variables. Por lo tanto, la media muestral, la desviación estándar, el sesgo, la curtosis, el mínimo, el máximo, etc., no son medidas del tamaño del efecto.
  • Las estadísticas que no pertenecen al grado de relación no son medidas de tamaño del efecto. Por ejemplo, las pruebas de normalidad multivariada, los valores propios de una matriz, etc., generalmente no tienen como objetivo directo cuantificar un efecto en el sentido ordinario de la palabra.

Consideraciones más amplias

  • Consideraciones de escala: la utilidad de una estadística como medida del tamaño del efecto se relaciona en gran medida con su capacidad para comunicar el tamaño de un efecto. A veces esto se logra mediante el uso de medidas de efecto estandarizadas familiares (p. Ej., Cohen's d). Otras veces, una consideración cuidadosa de la escala de las variables puede producir una interpretación aún más clara del tamaño del efecto. Por ejemplo, supongamos que tuve un estudio sobre un programa de capacitación sobre niveles de ingresos. Podría informar que el programa de capacitación aumentó los ingresos en desviaciones estándar de .2 o podría decir que el programa aumentó los ingresos en $ 3,500 dólares estadounidenses. Ambos son útiles; ambos son medidas de tamaño del efecto. El primero está estandarizado (d de Cohen), el segundo no está estandarizado (diferencias de medias del grupo sin procesar).
  • Precisión en la estimación de los tamaños del efecto: a menudo extraemos estimaciones muestrales de las medidas del tamaño del efecto (p. Ej., Cohen's d, pearson r, etc.). Este contexto puede llevar a un contraste de pruebas de significación con medidas de tamaño del efecto. No obstante, el objetivo aún debe ser estimar de manera precisa e imparcial el tamaño del efecto de la población. Desde una perspectiva frecuentista, los intervalos de confianza en torno a los tamaños de los efectos proporcionan una estimación de precisión. Desde una perspectiva bayesiana, hay densidades posteriores en los tamaños de los efectos. En muchos casos, se debe tener cuidado para asegurarse de que está utilizando una medida de tamaño de efecto imparcial.
Jeromy Anglim
fuente
1
(+1) Buena respuesta.
chl
El tercer y último punto probablemente explican de dónde provienen los autores del artículo de Wikipedia. Dado el énfasis en la psicología, creo que el punto no es tanto contrastar el tamaño del efecto con otras estadísticas descriptivas, sino más bien con estadísticas de prueba y valores p (es decir, estadísticas inferenciales) y enfatizar que las medidas del tamaño del efecto no dicen nada sobre la variabilidad del muestreo.
Gala
Muchas gracias por tu buena respuesta. Sin embargo, tengo una pregunta: ¿quiere decir que el intervalo de confianza no se puede usar como una medida del tamaño del efecto, porque está directamente relacionado con el tamaño de la muestra? (por intervalo de confianza, me refiero al valor que se agrega o se resta de la prevalencia, la media, etc., no los límites superior e inferior de un IC).
Vic
2
@Vic puede tener un intervalo de confianza en una medida del tamaño del efecto, pero el intervalo de confianza en sí no es el tamaño del efecto.
Jeromy Anglim
Uh muchas gracias querida Jeromy. Por todos estos años me equivoqué. :)
Vic
6

Primero, los tamaños de los efectos se pueden usar de manera inferencial y descriptiva. r y OR son todos tamaños de efecto y ciertamente todos se usan en estadísticas inferenciales.

Las estadísticas univariadas generalmente no son tamaños de efecto, aunque pueden serlo. Por ejemplo, si compara las edades de hombres y mujeres que están casados ​​entre sí, la edad media de los hombres no es un tamaño de efecto (entonces la diferencia de medias sería un tamaño de efecto). Pero si quieres ver si la media de algo es 0, entonces la media sería un tamaño de efecto.

Si mide un efecto, ¡es un tamaño de efecto!

Peter Flom - Restablece a Monica
fuente
Supongo que eso es cierto en @Peter, pero el tamaño del efecto es un término que Cohen ha definido más estrictamente: (Mean1-Mean2) / PooledSD. Esto suena un poco como si la diferencia fuera significativa, o solo estadísticamente significativa: el uso de palabras comunes para definir un término estadístico.
doug.numbers
2
¿Dónde lo define Cohen de esa manera? Si te refieres a su libro sobre Power Analysis, creo que lo usa como el tipo de estándar para convertir otros tamaños de efectos. Pero cada tabla de análisis de poder en ese libro (y hay MUCHO) usa algún tamaño de efecto (y no todos usan ese)
Peter Flom - Restablece a Monica
1
Cohen's d es siempre la forma en que lo entendí. Similar a lo descrito en en.wikipedia.org/wiki/Effect_size . Pero tiene toda la razón, hay muchos métodos descritos como tamaño del efecto.
doug.numbers
44
La prueba t y la prueba z no son tamaños de efectos. el mismo tamaño del efecto producirá valores de t y z sustancialmente diferentes para diferentes tamaños de muestra.
Jeromy Anglim
1
@JeromyAnglim tiene razón; +1. Edité mi respuesta
Peter Flom - Restablece a Monica