Al realizar una prueba t, ¿por qué preferiría asumir (o probar) varianzas iguales en lugar de utilizar siempre una aproximación Welch de df?

47

Parece que cuando se cumple el supuesto de homogeneidad de la varianza, los resultados de una prueba t ajustada de Welch y una prueba t estándar son aproximadamente los mismos. ¿Por qué no simplemente usar siempre la t ajustada de Welch?

russellpierce
fuente

Respuestas:

33

Me gustaría oponerme a las otras dos respuestas basadas en un documento (en alemán) de Kubinger, Rasch y Moder (2009) .

Argumentan, basándose en simulaciones "extensas" de distribuciones que cumplen o no con los supuestos impuestos por una prueba t (normalidad y homogeneidad de varianza) que las pruebas de welch funcionan igualmente bien cuando se cumplen los supuestos (es decir, básicamente iguales probabilidad de cometer errores alfa y beta) pero supera la prueba t si no se cumplen los supuestos, especialmente en términos de potencia. Por lo tanto, recomiendan usar siempre la prueba de soldadura si el tamaño de la muestra excede 30.

Como meta-comentario: Para las personas interesadas en las estadísticas (como yo y probablemente la mayoría aquí), un argumento basado en datos (como el mío) debería contar al menos por igual como argumentos basados ​​únicamente en motivos teóricos (como los otros aquí).


Actualización:
Después de pensar nuevamente en este tema, encontré dos recomendaciones más, de las cuales la más nueva me ayuda a entender. Mire los documentos originales (que son ambos, al menos para mí, disponibles gratuitamente) para ver los argumentos que conducen a estas recomendaciones.

La primera recomendación proviene de Graeme D. Ruxton en 2006: " Si desea comparar la tendencia central de 2 poblaciones en base a muestras de datos no relacionados, entonces la prueba t de varianza desigual siempre debe usarse con preferencia a la prueba t de Student o prueba U de Mann-Whitney " .
En:
Ruxton, GD, 2006. La prueba t de varianza desigual es una alternativa subutilizada a la prueba t de Student y la prueba U de Mann-Whitney . Behav Ecol . 17, 688-690.

La segunda recomendación (más antigua) es de Coombs et al. (1996, p. 148): " En resumen, la prueba t de muestras independientes es generalmente aceptable en términos de control de las tasas de error Tipo I, siempre que haya muestras suficientemente grandes de igual tamaño, incluso cuando se viola el supuesto de varianza de población igual. Por desigual sin embargo, es preferible utilizar una prueba de segundo orden de James cuando las distribuciones sean simétricas o normales de cola corta. Las alternativas prometedoras incluyen las pruebas de medios recortados Wilcox H y Yuen, que proporcionan un control más amplio de las tasas de error Tipo I que la prueba de Welch o la prueba de James y tienen mayor poder cuando los datos tienen cola larga ". (énfasis agregado)
En:
Coombs WT, Algina J, Oltman D. 1996. Pruebas de hipótesis ómnibus univariadas y multivariadas seleccionadas para controlar las tasas de error tipo I cuando las variaciones de población no son necesariamente iguales . Rev Educ Res 66: 137–79.

Henrik
fuente
3
Meta-respuesta: buen punto. ¡Pero sus datos podrían no comportarse como los míos! :-)
whuber
Henrik, ¿te importaría si edito la respuesta a: (1) cambiar la terminología llamando a las pruebas de la prueba t de Student y la prueba t de Welch (como he encontrado en la mayoría de la literatura); (2) incluya otro documento que lo sugiera en la discusión: rips-irsp.com/article/10.5334/irsp.82 (enfatiza el sesgo que ocurre cuando selecciona las pruebas basadas en la prueba de homogeneidad de Levene).
Bruno
13

por supuesto, uno podría deshacerse de ambas pruebas y comenzar a usar una prueba t bayesiana (prueba de relación Savage-Dickey), que puede explicar las variaciones desiguales y desiguales, y lo mejor de todo, permite una cuantificación de la evidencia a favor de la hipótesis nula (lo que significa, no más de la vieja conversación de "fracaso para rechazar")

Esta prueba es muy simple (y rápida) de implementar, y hay un documento que explica claramente a los lectores que no están familiarizados con las estadísticas bayesianas cómo usarlo, junto con un script R. básicamente puede insertar sus datos y enviar los comandos a la consola R:

Wetzels, R., Raaijmakers, JGW, Jakab, E. y Wagenmakers, E.-J. (2009) Cómo cuantificar el apoyo a favor y en contra de la hipótesis nula: una implementación flexible de WinBUGS de una prueba t bayesiana predeterminada.

También hay un tutorial para todo esto, con datos de ejemplo:

http://www.ruudwetzels.com/index.php?src=SDtest

Sé que esto no es una respuesta directa a lo que se preguntó, pero pensé que los lectores podrían disfrutar de esta buena alternativa

salud

Dave Kellen
fuente
8
siempre estos chicos bayesianos ...
Henrik
3
Otra alternativa bayesiana a la prueba t es la rutina BEST de Kruschke (la estimación bayesiana reemplaza a la prueba t). Más información aquí: indiana.edu/~kruschke/BEST . Una versión en línea aquí: sumsar.net/best_online .
Rasmus Bååth
7

Debido a que los resultados exactos son preferibles a las aproximaciones, y evite los casos de borde impar donde la aproximación puede conducir a un resultado diferente al método exacto.

El método Welch no es una forma más rápida de hacer una prueba t antigua, es una aproximación manejable a un problema que de otra manera sería muy difícil: cómo construir una prueba t bajo variaciones desiguales. El caso de la varianza igual se entiende bien, es simple y exacto, y por lo tanto siempre debe usarse cuando sea posible.

Rico
fuente
66
Creo que tiendo a estar más de acuerdo con John Tukey: " Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta incorrecta, que siempre puede ser precisa " .
Glen_b
44
La prueba t de varianza igual (Student) en sí misma es simplemente una aproximación (mal entendida) cuando las varianzas de la muestra de población son desiguales. Por lo tanto, a menos que se sepa que las varianzas de población son iguales, es mejor usar una aproximación a la distribución de muestreo correcta (Welch-Satterthwaite) que usar una distribución perfectamente precisa que no se aplique al modelo de datos.
whuber
4

Dos razones por las que puedo pensar:

  1. La T de Student regular es bastante robusta a la heterocedasticidad si los tamaños de muestra son iguales.

  2. Si crees firmemente a priori que los datos son homoscedastic, entonces no pierdes nada y podrías ganar una pequeña cantidad de energía usando Studen'ts T en lugar de Welch's T.

Una razón que no daría es que la T de Student es exacta y la T de Welch no. En mi humilde opinión, la exactitud de la T de Student es académica porque solo es exacta para datos distribuidos normalmente, y no hay datos reales exactamente distribuidos normalmente. No puedo pensar en una sola cantidad que la gente realmente mida y analice estadísticamente donde la distribución podría tener un soporte de todos los números reales. Por ejemplo, solo hay tantos átomos en el universo, y algunas cantidades no pueden ser negativas. Por lo tanto, cuando utiliza cualquier tipo de prueba T en datos reales, de todos modos está haciendo una aproximación.

dsimcha
fuente
2
(1) es incorrecto cuando las variaciones de población subyacentes son muy diferentes. Como un caso extremo, para ver por qué es así, considere lo que sucede cuando una población no tiene variación alguna. En efecto, la t de Student estaría comparando datos de la otra población con una constante, pero pensaría que tiene el doble de grados de libertad. El error que comete sería comparable al uso de una prueba Z.
whuber
Si bien esto es cierto @whuber es solo para casos muy extremos. Estaba mirando una diferencia de varianza de 1e6: 1 y p ≈ .053. Por lo tanto, puede suceder, pero aún argumentaría que es bastante robusto con igual N.
John
@John Una relación de varianza 1e6: 1 es enorme , independientemente de cuál sea el . Es probable que la t de Student sea engañosa en ese caso. ni
whuber
@whuber, solo estoy sugiriendo que si bien su comentario anterior es técnicamente cierto, la corrección de Welch no es la solución al problema que plantea como ejemplo y ni siquiera es realmente muy crítico de la solidez de la prueba en términos de tasas alfa (que es lo que (1) generalmente significa). Como sugiere, cuando la varianza desigual (extrema) es un problema, tiene otros problemas, pero ese es realmente un tema diferente.
John
3

El hecho de que algo más complejo se reduzca a algo menos complejo cuando se verifica alguna suposición no es suficiente para descartar el método más simple.


fuente
44
Especialmente en lo que concierne a los estudiantes.
Matt Parker
2

Tomaría la vista opuesta aquí. ¿Por qué molestarse con la prueba de Welch cuando la prueba t de estudiante no emparejada estándar le da resultados casi idénticos? Estudié este problema hace un tiempo y exploré una variedad de escenarios en un intento de desglosar la prueba t y favorecer la prueba de Welch. Para hacerlo, utilicé tamaños de muestra hasta 5 veces mayores para un grupo frente al otro. Y exploré las variaciones hasta 25 veces mayores para un grupo frente al otro. Y, realmente no hizo ninguna diferencia material. La prueba t no emparejada todavía generó un rango de valores de p que eran casi idénticos a la prueba de Welch.

Puede ver mi trabajo en el siguiente enlace y centrarse especialmente en las diapositivas 5 y 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

Sympa
fuente
Lo siento, ¿qué distinción haces entre la fórmula de muestra grande y la fórmula de muestra pequeña? ¿Está calculando las variaciones utilizando una fórmula de población en muestras grandes en lugar de utilizar una estimación muestral de la variación de población?
russellpierce
La prueba t de Student no emparejada tiene dos fórmulas. La fórmula de muestra grande se aplica a muestras con más de 30 observaciones. La fórmula de muestra pequeña se aplica a muestras con menos de 30 observaciones. La principal diferencia en esas fórmulas es cómo calculan el error estándar agrupado. La fórmula de muestra pequeña es mucho más complicada y contraintuitiva. Y, en realidad, realmente hace muy poca diferencia. Lo he probado varias veces. Por eso creo que la mayoría de la gente se ha olvidado de esta distinción. Y, utilizan la mayor parte del tiempo la fórmula de muestra grande.
Sympa
0

Es cierto que las propiedades frecuentistas de la prueba corregida de Welch son mejores que la T de Student ordinaria, al menos para los errores. Estoy de acuerdo en que solo eso es un argumento bastante bueno para la prueba de Welch. Sin embargo, generalmente soy reacio a recomendar la corrección de Welch porque su uso a menudo es engañoso. Lo cual, ciertamente, no es una crítica de la prueba en sí.

La razón por la que no recomiendo la corrección de Welch es que no solo cambia los grados de libertad y la distribución teórica posterior de la que se extrae el valor p. Hace que la prueba no sea paramétrica. Para realizar una prueba t corregida de Welch, uno agrupa la varianza como si se pudiera suponer una varianza igual, pero luego cambia el procedimiento de prueba final, lo que implica que no se puede suponer una varianza igual o que solo le interesan las variaciones de la muestra. Esto lo convierte en una prueba no paramétrica porque la varianza agrupada se considera no representativa de la población y admitió que solo está probando sus valores observados.

En sí mismo, no hay nada particularmente malo en eso. Sin embargo, lo encuentro engañoso porque a) generalmente no se informa con suficiente especificidad; yb) las personas que lo usan tienden a pensarlo indistintamente con una prueba t. La única forma en que sé que se ha hecho en documentos publicados es cuando veo un DF extraño para la distribución t. Esa fue también la única forma en que Rexton (al que se hace referencia en la respuesta de Henrik) podía verlo en la revisión. Desafortunadamente, la naturaleza no paramétrica de la prueba corregida de Welch ocurre si los grados de libertad han cambiado o no (es decir, incluso si las variaciones de la muestra son iguales). Pero este problema de informe es sintomático del hecho de que la mayoría de las personas que usan la corrección de Welch no reconocen este cambio en la prueba.

Por lo tanto, debido a esto, creo que si va a recomendar una prueba no paramétrica, no use una que a menudo parezca paramétrica o al menos tenga muy claro lo que está haciendo. El nombre oficial de la prueba debe ser Prueba T corregida Welch no paramétrica. Si la gente lo informara de esa manera, estaría mucho más feliz con la recomendación de Henrik.

John
fuente
No pude encontrar ningún apoyo en su respuesta de por qué la prueba de Welch podría ser "engañosa". ¿Podría explicar la base para eso?
whuber
Quizás mis ediciones aclararon cosas @whuber. Debería haber sido claro que no se garantiza que sea engañoso, pero a menudo lo es tanto para el usuario de la prueba como para el lector de los resultados de la prueba.
John
1
Gracias. Además del problema de los informes, que sería injusto caracterizar como una falla de la prueba, parece que se trata de una objeción de su parte de que la prueba de Welch no es paramétrica. ¿Qué podría ser el problema con eso? Ceteris paribus , que debe considerarse una ventaja, no un problema.
whuber
1
Es una distinción que generalmente no se aclara. Admito en la respuesta que no es un problema en sí mismo, pero la mayoría de las personas tienden a tratarlo paramétricamente, lo cual es un error. No creo que este sea el lugar para debatir sobre los beneficios o los costos de las pruebas no paramétricas. Además, no se mencionó en el hilo y puede ser un problema para muchas personas. Además, dos de nuestra clase de estadísticas de introducción lo enseñan en paralelo con la prueba t de Student y lo promueven, pero tienen una sección completamente separada sobre pruebas no paramétricas.
John
¿Puede aclarar qué quiere decir con "hace que la prueba no sea paramétrica"?
Glen_b