¿Qué sentido tiene comparar los valores p entre sí?

20

Tengo dos poblaciones (hombres y mujeres), cada una con muestras. Para cada muestra tengo dos propiedades A y B (promedio de calificaciones del primer año y puntaje SAT). He usado una prueba t por separado para A y B: ambos encontraron diferencias significativas entre los dos grupos; A con y B con .p = 0.008 p = 0.0021000pags=0.008pags=0.002

¿Está bien afirmar que la propiedad B está mejor discriminada (más importante) que la propiedad A? ¿O es que una prueba t es solo una medida de sí o no (significativa o no significativa)?

Actualización : de acuerdo con los comentarios aquí y lo que he leído en wikipedia , creo que la respuesta debería ser: soltar el valor p sin sentido e informar el tamaño de su efecto . ¿Alguna idea?

Dov
fuente
+ por favor perdóname que no soy un hablante nativo de inglés :)
Dov
No hay problema: si cree que las ediciones (menores) que realicé cambiaron su pregunta de manera significativa, no dude en corregirlas.
whuber
¿Cuál es el resultado que mediste? (es decir, ¿qué es lo que difiere entre los grupos definidos por A / no A o B / no B?) ¿Se mide en las 1000 muestras o faltan algunas?
invitado
3
Sería una buena idea informar los dos tamaños de efectos diferentes, o los intervalos de confianza para los dos tamaños de efectos diferentes. Sería más fácil interpretar esto si el resultado en cada uno de sus dos conjuntos de datos fuera el mismo (¿lo es?).
Peter Ellis
2
¡Puede mostrar la significación estadística y el tamaño del efecto de manera muy conveniente mediante el uso de una parcela forestal! Presentar un IC del 95% significa que está utilizando 4 números en lugar de 2, pero como todos aluden, representa lo suficiente la información necesaria para comparar experimentos.
AdamO

Respuestas:

20

Mucha gente argumentaría que un valor puede ser significativo ( p < α ) o no, por lo que (nunca) tiene sentido comparar dos valores p entre sí. Esto está mal; en algunos casos lo hace.pagspags<αpags

En su caso particular, no hay absolutamente ninguna duda de que puede comparar directamente los valores . Si el tamaño de la muestra es fijo ( n = 1000 ), entonces los valores p están monotónicamente relacionados con los valores t , que a su vez están monotónicamente relacionados con el tamaño del efecto medido por la d de Cohen . Específicamente, d = 2 t / pagsnorte=1000pagstre . Esto significa que susvalorespestán en correspondencia uno a uno con el tamaño del efecto, por lo que puede estar seguro de que si elvalorppara la propiedad A es mayor que para la propiedad B, entonces el tamaño del efecto para A es menor que para la propiedad B.re=2t/ /nortepagspags

Creo que esto responde a tu pregunta.

Varios puntos adicionales:

  1. Esto solo es cierto dado que el tamaño de la muestra es fijo. Si obtiene p = 0.008 para la propiedad A en un experimento con un tamaño de muestra, y p = 0.002 para la propiedad B en otro experimento con otro tamaño de muestra, es más difícil compararlos.nortepags=0.008pags=0.002

    • pagsnorte

    • pagspags

  2. Decir que el tamaño del efecto para B es mayor que para A, no significa que sea significativamente mayor. Necesita una comparación directa entre A y B para hacer tal reclamo.

  3. pags

ameba dice Reinstate Monica
fuente
3
Buenos puntos sobre monotonicidad y buenos 3 puntos finales. Ahora, re: la afirmación "puedes estar seguro": ¿es lo suficientemente cierto para la muestra, pero "significativamente"? (Es decir, ¿con implicaciones confiables para la población?) Abordaste esto brevemente en el n. ° 2. Un tratamiento más completo de esto sería bienvenido. Saludos ~
rolando2
44
Esto es correcto, pero también traté de aclarar que solo es necesariamente correcto en este caso (también lo notas). Creo que Michelle estaba haciendo un punto que valía la pena de que, en general, no debería usar los valores p de esta manera.
gung - Restablece a Monica
1
pags
1
@ AndrewM Quizás. He editado el comienzo de mi respuesta. Mira si te gusta más ahora.
ameba dice Reinstate Monica
0

Gracias a quien acaba de rechazarme, ya que ahora tengo una respuesta completamente diferente a esta pregunta. En consecuencia, he eliminado mi respuesta original ya que es incorrecta desde esta perspectiva.

En el contexto de esta pregunta, que solo se ocupa de la pregunta "si A o B fue un mejor discriminador en mi estudio", estamos tratando con un censo y no con una muestra. Por lo tanto, el uso de estadísticas inferenciales como las utilizadas para producir valores p son irrelevantes. Las estadísticas inferenciales se usan para inferir estimaciones de población de las que obtenemos de nuestra muestra. Si no deseamos generalizar a una población, entonces esos métodos son innecesarios. (Hay algunos problemas específicos relacionados con los valores perdidos en un censo, pero son irrelevantes en esta situación).

No hay probabilidad de obtener un resultado en una población. Obtuvimos el resultado que obtuvimos. Por lo tanto, la probabilidad de nuestros resultados es del 100%. No es necesario construir un intervalo de confianza: la estimación puntual de la muestra es exacta. Simplemente no tenemos que estimar nada en absoluto.

En el caso específico de "qué variable funcionó mejor con los datos que tengo", todo lo que hay que hacer es mirar los resultados en forma de resumen simple. Una tabla puede ser suficiente, tal vez un gráfico como un diagrama de caja.

Michelle
fuente
-1

Se obtiene una diferencia en p, pero no está claro qué significa esa diferencia (¿es grande, pequeña, significativa?)

Tal vez use bootstrapping:

seleccione (con reemplazo) de sus datos, rehaga sus pruebas, calcule la diferencia de p (p_a - p_b), repita 100-200 veces

verifique qué fracción de su delta p es <0 (lo que significa que p de A está por debajo de p de B)

Nota: He visto esto hecho, pero no soy un experto.

martín
fuente
1
Esta respuesta describe una forma de comparar los valores p, pero la pregunta original parece no tener respuesta: ¿tiene sentido el procedimiento y cómo se interpretan los resultados?
whuber
-1

¡Agregué una respuesta porque era demasiado largo para un comentario!

Michelle tiene una buena respuesta, pero los muchos comentarios muestran algunas discusiones comunes que surgen sobre los valores p. Las ideas básicas son las siguientes:

1) Un valor p menor no significa que un resultado sea más o menos significativo. Simplemente significa que las posibilidades de obtener un resultado al menos tan extremo son menos probables. La significancia es un resultado binario basado en el nivel de significancia elegido (que elige antes de ejecutar la prueba).

2) El tamaño del efecto (a menudo estandarizado a # 's de desviaciones estándar) es una buena manera de cuantificar "cuán diferentes" son dos números. Entonces, si la Cantidad A tiene un tamaño de efecto de .8 desviaciones estándar y la Cantidad B tiene un tamaño de efecto de .5 desviaciones estándar, diría que hay una diferencia mayor entre los dos grupos en la Cantidad A que en la Cantidad B. Las medidas estándar son :

.2 desviaciones estándar = efecto "pequeño"

.5 desviaciones estándar = efecto "medio"

.8 desviaciones estándar = efecto "grande"

Duncan
fuente
1
¡Pero dado un tamaño de muestra fijo, el valor p está directamente relacionado monotónicamente con el tamaño del efecto!
ameba dice Reinstate Monica