¿Puedo confiar en un resultado significativo de una prueba t si el tamaño de la muestra es pequeño?

17

Si el resultado de mi prueba t unilateral es significativo pero el tamaño de la muestra es pequeño (por ejemplo, inferior a 20 o menos), ¿puedo confiar en este resultado? Si no es así, ¿cómo debo tratar y / o interpretar este resultado?

Eric
fuente
8
Solo un comentario, no quiero agregar a los maravillosos comentarios a continuación; no confía en el resultado de una prueba t, confía en el procedimiento en sí. Un resultado individual es correcto o incorrecto, pero sin más investigación, nunca sabrá cuál. Una prueba t en la metodología de Fisher o la metodología de Pearson y Neyman es confiable si se cumplen los supuestos. Si establece , lo engañará, con una repetición infinita, no más del 5% del tiempo, posiblemente un poco menos. La pregunta que debe hacer es "¿se cumplen los supuestos?" α<.05
Dave Harris

Respuestas:

15

En teoría, si todas las suposiciones de la prueba t son verdaderas, entonces no hay problema con un tamaño de muestra pequeño.

En la práctica, existen algunas suposiciones que no son del todo ciertas que podemos evitar para tamaños de muestra grandes, pero pueden causar problemas para tamaños de muestra pequeños. ¿Sabes si la distribución subyacente se distribuye normalmente? ¿Son todas las muestras independientes e idénticamente distribuidas?

Si duda de la validez de la prueba, una alternativa que puede utilizar es el arranque. Bootstrapping implica volver a tomar muestras de su muestra para ver con qué frecuencia la hipótesis nula es verdadera o falsa. Quizás su hipótesis nula es y su valor p es 0.05, pero el arranque muestra que la media de la muestra es menor que cero el 10% del tiempo. Esto indicaría que fue una casualidad lo que causó un valor p de 0.05 y usted debería estar menos seguro de que la hipótesis nula es falsa.μ<0 0

Hugh
fuente
1
Por ejemplo, si sabe que la distribución subyacente es más o menos una distribución normal y las 10 muestras son menores que un valor particular, entonces claramente las probabilidades de que la población signifique que sea mayor que ese valor son como máximo uno de cada 2 ^ 10, o uno de cada mil. Es claramente una probabilidad de 1 en 2 ^ 10 de que las diez muestras de una población distribuida normalmente estén en el mismo lado de la media. El problema será que obtendrá resultados confiables, pero serán muy débiles, como "la altura promedio de un hombre adulto es casi definitivamente entre 5 y 7 pies".
David Schwartz
Muchas gracias por la explicación y el enfoque alternativo. Realmente los aprecio! ¡Muchas gracias!
Eric
No entiendo tu sugerencia de arranque. Si vuelve a muestrear de la muestra (que tiene p <0.05), entonces esperaría que la mayoría de las muestras de arranque tengan un resultado significativo, tal vez alrededor del 95%, no del 5 o 10%. ¿Puedes por favor elaborar? CC a @Eric.
ameba dice Reinstate Monica
3
Como observación más general, bootstrap funciona bien en muestras grandes, pero con muestras pequeñas la cobertura puede diferir bastante de la nominal. Además, con un tamaño de muestra muy bajo, la potencia es baja. Por lo tanto, no es necesariamente cierto que una "prueba de arranque" siempre sea superior a la prueba t.
ameba dice Reinstate Monica
3
@amoeba Realmente me gusta tu estilo de corrección. No solo me dijiste lo que estaba bien / mal, sino que señalaste una extraña consecuencia de mis ideas y me hiciste repensar mi respuesta y entender la fuente de mi error. ¡Así que gracias por eso! En el pasado, Whuber también me ha hecho esto
Hugh
21

Rara vez debe confiar en un resultado significativo único. No dijo por qué estaba usando una prueba de una cola en lugar de una de dos colas, ¡así que espero que tenga una buena razón para hacerlo además de luchar para poder reclamar un resultado estadísticamente significativo!

Dejando eso de lado, considere lo siguiente de la pág. 261 de Sauro, J. y Lewis, JR (2016). Cuantificación de la experiencia del usuario: estadísticas prácticas para la investigación del usuario, 2ª ed. Cambridge, MA: Morgan-Kaufmann.


Cómo Ronald Fisher recomendó usar valores p

Cuando Karl Pearson era el gran anciano de las estadísticas y Ronald Fisher era un recién llegado relativo, Pearson, aparentemente amenazado por las ideas y la habilidad matemática de Fisher, usó su influencia para evitar que Fisher publicara en las principales revistas estadísticas de la época, Biometrika and the Journal. de la Real Sociedad Estadística. En consecuencia, Fisher publicó sus ideas en una variedad de otros lugares, como revistas agrícolas y meteorológicas, incluidos varios documentos para las Actas de la Sociedad para la Investigación Psíquica. Fue en uno de los artículos de esta última revista que mencionó la convención de establecer lo que ahora llamamos el error aceptable de Tipo I (alfa) a 0.05 y, críticamente, también mencionó la importancia de la reproducibilidad cuando se encuentra con un resultado significativo inesperado:

Se considera que una observación es significativa, si rara vez se hubiera producido, en ausencia de una causa real del tipo que estamos buscando. Es una práctica común juzgar un resultado significativo, si es de tal magnitud que hubiera sido producido por casualidad no más de una vez en veinte juicios. Este es un nivel de importancia arbitrario, pero conveniente, para el investigador práctico, pero no significa que se deje engañar una vez cada veinte experimentos. La prueba de significación solo le dice qué ignorar, es decir, todos los experimentos en los que no se obtienen resultados significativos. Solo debe afirmar que un fenómeno es experimentalmente demostrable cuando sabe cómo diseñar un experimento para que rara vez no se obtenga un resultado significativo. Por consiguiente, resultados significativos aislados que no sabe cómo reproducir se dejan en suspenso a la espera de una mayor investigación. (Fisher, 1929, p. 191)

Referencia

Fisher, RA (1929). El método estadístico en la investigación psíquica. Actas de la Society for Psychical Research, 39, 189-192.

Jim Lewis
fuente
2
Fisher también publicó varios documentos importantes que recogen la estimación de máxima verosimilitud en The Annals of Eugenics. Su método fue a menudo mejor que el método de los momentos que Karl Pearson usó. Fisher llamó a su método inferencia fiducial. Más tarde fue formalizado por Jerzy Neyman y Egon Pearson (hijo de Karl Pearson).
Michael R. Chernick
3
Neyman y Pearson no formalizaron la inferencia fiducial de Fisher. Desarrollaron un método alternativo.
Michael Lew - reinstalar a Monica el
55
En los días de Fisher, "significativo" significaba que significa algo, no que es importante.
David Lane,
1
¡Muchas gracias por la información altamente detallada! ¡Realmente me ayuda mucho!
Eric
16

Imagínese estar en una situación en la que está haciendo muchas pruebas similares, en un conjunto de circunstancias en las que una fracción de los valores nulos son ciertos.

De hecho, modelémoslo usando un modelo de urna super simple; en la urna, hay bolas numeradas, cada una correspondiente a un experimento que puede elegir hacer, algunas de las cuales tienen el valor nulo verdadero y otras que tienen el valor nulo falso. Llame a la proporción de verdaderos nulos en la urnat

(1-β)β

norteMETROnorteMETRO

¿Qué proporción de sus rechazos será "correcta"?

nortetα+norte(1-t)(1-β)
norte(1-t)(1-β)

(1-t)(1-β)tα+(1-t)(1-β)

tαtα+(1-t)(1-β)

(1-t)(1-β)tα

1-βα (es decir, si no tiene una potencia bastante alta), ¡muchos de nuestros rechazos son errores!

Entonces, cuando el tamaño de su muestra es pequeño (y, por lo tanto, la potencia es baja), si una fracción razonable de nuestros valores nulos fuera cierta, a menudo estaríamos cometiendo un error cuando la rechazamos.

La situación no es mucho mejor si casi todos nuestros valores nulos son estrictamente falsos, mientras que la mayoría de nuestros rechazos serán correctos (trivialmente, ya que los pequeños efectos siguen siendo estrictamente falsos), si el poder no es alto, una fracción sustancial de esos los rechazos serán "en la dirección equivocada" - concluiremos que el nulo es falso con bastante frecuencia porque por casualidad la muestra resultó estar en el lado equivocado (este puede ser un argumento para usar pruebas unilaterales - cuando las pruebas unilaterales hacen sentido: al menos para evitar rechazos que no tienen sentido si es difícil obtener muestras de gran tamaño).

Podemos ver que los tamaños de muestra pequeños ciertamente pueden ser un problema.

[Esta proporción de rechazos incorrectos se denomina tasa de descubrimiento falso ]


Si tiene una idea del tamaño probable del efecto, está en una mejor posición para juzgar cuál podría ser un tamaño de muestra adecuado. Con grandes efectos anticipados, un rechazo con un tamaño de muestra pequeño no sería necesariamente una preocupación importante.

Glen_b -Reinstate a Monica
fuente
¡Muchas gracias! Ese es un punto que puedo pasar por alto muy fácilmente. Muchas gracias por el pin que señala eso!
Eric
1
Buen trabajo. Esta podría ser la respuesta aceptada.
Richard Hardy
@Eric la respuesta original se confundió un poco en el medio; Lo he corregido.
Glen_b -Reinstalar a Monica
9

Algunos de los trabajos originales de Gosset (también conocidos como Student), para los cuales desarrolló la prueba t, incluyeron muestras de levadura de n = 4 y 5. La prueba fue diseñada específicamente para muestras muy pequeñas. De lo contrario, la aproximación normal estaría bien. Dicho esto, Gosset estaba haciendo experimentos muy cuidadosos y controlados sobre datos que él entendía muy bien. Hay un límite para la cantidad de cosas que una cervecería tiene que probar, y Gosset pasó su vida laboral en Guinness. Él conocía sus datos.

Sospecho un poco tu énfasis en las pruebas unilaterales. La lógica de las pruebas es la misma sea cual sea la hipótesis, pero he visto a personas que realizan una prueba unilateral significativa cuando la de dos lados no era significativa.

Esto es lo que implica una prueba unilateral (superior). Está probando que una media es 0. Realiza los cálculos y está preparado para rechazar cuando T> 2.5. Ejecutas tu experimento y observas que T = -50,000. Dices "phhhhht" y la vida continúa. A menos que sea físicamente imposible que el estadístico de prueba se hunda muy por debajo del valor del parámetro hipotético, y a menos que nunca tome ninguna decisión si el estadístico de prueba va en la dirección opuesta a la esperada, debe usar una prueba de dos lados.

Placidia
fuente
6

Lo principal de lo que debe preocuparse es el poder de su prueba. En particular, es posible que desee hacer un análisis de potencia post-hoc para determinar qué tan probable es, dado el tamaño de su muestra, para identificar un verdadero efecto significativo de un tamaño razonable. Si los efectos típicos son muy grandes, un n de 8 podría ser totalmente adecuado (como con muchos experimentos en biología molecular). Sin embargo, si los efectos que le interesan suelen ser sutiles (como en muchos experimentos de psicología social), un n de miles aún podría tener poca potencia.

Esto es importante porque las pruebas de baja potencia pueden dar resultados muy engañosos. Por ejemplo, si su prueba tiene poca potencia, incluso si encuentra un resultado significativo, tiene una probabilidad relativamente alta de hacer lo que Andrew Gelman llama un error "Tipo S", es decir, hay un efecto real pero en la dirección opuesta, o un error de "Tipo M", es decir, hay un efecto real pero la magnitud real es mucho más débil que la estimada a partir de los datos.

Gelman y Carlin escribieron un documento útil sobre el análisis de poder post-hoc que creo que se aplica en su caso. Es importante destacar que recomiendan el uso de datos independientes (es decir, no los datos que probó, sino las revisiones, el modelado, los resultados de experimentos similares, etc.) para estimar un tamaño de efecto real plausible. Al realizar un análisis de potencia utilizando ese tamaño de efecto verdadero estimado plausible y compararlo con sus resultados, puede determinar la probabilidad de cometer un error de Tipo S y la "tasa de exageración" típica, y así tener una mejor idea de cuán fuerte es realmente su evidencia.

Patrick B.
fuente
4

Se podría decir que todo el punto de significación estadística es responder la pregunta "¿Puedo confiar en este resultado, dado el tamaño de la muestra?". En otras palabras, el objetivo es controlar el hecho de que con tamaños de muestra pequeños, puede obtener platijas, cuando no existe un efecto real. El significado estadístico, es decir, el valor p, es precisamente la respuesta a la pregunta, "si no existiera un efecto real, ¿qué posibilidades tendría de tener una casualidad tan grande como esta?". Si es muy poco probable, eso indica que no es una casualidad.

Entonces, la respuesta es "sí", si el valor p es bajo, y si ha seguido los procedimientos estadísticos correctos y está cumpliendo con los supuestos relevantes, entonces sí, es una buena evidencia y tiene el mismo peso que si fuera obtuvo el mismo valor p con un tamaño de muestra muy grande.

Denziloe
fuente