Tengo dos poblaciones (hombres y mujeres), cada una con muestras. Para cada muestra tengo dos propiedades A y B (promedio de calificaciones del primer año y puntaje SAT). He usado una prueba t por separado para A y B: ambos encontraron diferencias significativas entre los dos grupos; A con y B con .p = 0.008 p = 0.002
¿Está bien afirmar que la propiedad B está mejor discriminada (más importante) que la propiedad A? ¿O es que una prueba t es solo una medida de sí o no (significativa o no significativa)?
Actualización : de acuerdo con los comentarios aquí y lo que he leído en wikipedia , creo que la respuesta debería ser: soltar el valor p sin sentido e informar el tamaño de su efecto . ¿Alguna idea?
Respuestas:
Mucha gente argumentaría que un valor puede ser significativo ( p < α ) o no, por lo que (nunca) tiene sentido comparar dos valores p entre sí. Esto está mal; en algunos casos lo hace.pags p < α pags
En su caso particular, no hay absolutamente ninguna duda de que puede comparar directamente los valores . Si el tamaño de la muestra es fijo ( n = 1000 ), entonces los valores p están monotónicamente relacionados con los valores t , que a su vez están monotónicamente relacionados con el tamaño del efecto medido por la d de Cohen . Específicamente, d = 2 t / √pags n = 1000 pags t re . Esto significa que susvalorespestán en correspondencia uno a uno con el tamaño del efecto, por lo que puede estar seguro de que si elvalorppara la propiedad A es mayor que para la propiedad B, entonces el tamaño del efecto para A es menor que para la propiedad B.re= 2 t / n--√ pags pags
Creo que esto responde a tu pregunta.
Varios puntos adicionales:
Esto solo es cierto dado que el tamaño de la muestra es fijo. Si obtiene p = 0.008 para la propiedad A en un experimento con un tamaño de muestra, y p = 0.002 para la propiedad B en otro experimento con otro tamaño de muestra, es más difícil compararlos.norte p = 0.008 p = 0.002
Decir que el tamaño del efecto para B es mayor que para A, no significa que sea significativamente mayor. Necesita una comparación directa entre A y B para hacer tal reclamo.
fuente
Gracias a quien acaba de rechazarme, ya que ahora tengo una respuesta completamente diferente a esta pregunta. En consecuencia, he eliminado mi respuesta original ya que es incorrecta desde esta perspectiva.
En el contexto de esta pregunta, que solo se ocupa de la pregunta "si A o B fue un mejor discriminador en mi estudio", estamos tratando con un censo y no con una muestra. Por lo tanto, el uso de estadísticas inferenciales como las utilizadas para producir valores p son irrelevantes. Las estadísticas inferenciales se usan para inferir estimaciones de población de las que obtenemos de nuestra muestra. Si no deseamos generalizar a una población, entonces esos métodos son innecesarios. (Hay algunos problemas específicos relacionados con los valores perdidos en un censo, pero son irrelevantes en esta situación).
No hay probabilidad de obtener un resultado en una población. Obtuvimos el resultado que obtuvimos. Por lo tanto, la probabilidad de nuestros resultados es del 100%. No es necesario construir un intervalo de confianza: la estimación puntual de la muestra es exacta. Simplemente no tenemos que estimar nada en absoluto.
En el caso específico de "qué variable funcionó mejor con los datos que tengo", todo lo que hay que hacer es mirar los resultados en forma de resumen simple. Una tabla puede ser suficiente, tal vez un gráfico como un diagrama de caja.
fuente
Se obtiene una diferencia en p, pero no está claro qué significa esa diferencia (¿es grande, pequeña, significativa?)
Tal vez use bootstrapping:
seleccione (con reemplazo) de sus datos, rehaga sus pruebas, calcule la diferencia de p (p_a - p_b), repita 100-200 veces
verifique qué fracción de su delta p es <0 (lo que significa que p de A está por debajo de p de B)
Nota: He visto esto hecho, pero no soy un experto.
fuente
¡Agregué una respuesta porque era demasiado largo para un comentario!
Michelle tiene una buena respuesta, pero los muchos comentarios muestran algunas discusiones comunes que surgen sobre los valores p. Las ideas básicas son las siguientes:
1) Un valor p menor no significa que un resultado sea más o menos significativo. Simplemente significa que las posibilidades de obtener un resultado al menos tan extremo son menos probables. La significancia es un resultado binario basado en el nivel de significancia elegido (que elige antes de ejecutar la prueba).
2) El tamaño del efecto (a menudo estandarizado a # 's de desviaciones estándar) es una buena manera de cuantificar "cuán diferentes" son dos números. Entonces, si la Cantidad A tiene un tamaño de efecto de .8 desviaciones estándar y la Cantidad B tiene un tamaño de efecto de .5 desviaciones estándar, diría que hay una diferencia mayor entre los dos grupos en la Cantidad A que en la Cantidad B. Las medidas estándar son :
.2 desviaciones estándar = efecto "pequeño"
.5 desviaciones estándar = efecto "medio"
.8 desviaciones estándar = efecto "grande"
fuente