Prueba T usando solo datos de resumen en un diagrama de caja

8

Tengo el resumen de 5 números (mínimo, Q1, Mediano, Q3, máximo) de dos diagramas de caja y quería probar si los promedios de los grupos en los dos diagramas de caja eran significativamente diferentes.

Me gustaría hacer esto usando una prueba t, pero no tengo los datos disponibles (solo el resumen de 5 números).

¿Hay alguna forma de probar las diferencias de la media? ¿O una aproximación burda a una prueba t? Además, sé el tamaño de la muestra y la media.

James Stanley
fuente
¿Conoces también la desviación estándar?
Glen_b -Reinstate Monica
No, no lo hago. Si lo supiera, no tendría este problema :)
¿Hay una aproximación a la desviación estándar que puedo usar?
Ambos grupos tienen un tamaño de muestra 30.
Edite la información relevante en su pregunta
Glen_b -Reinstate Monica

Respuestas:

10

Como tiene las medias muestrales y su hipótesis se relaciona con las medias poblacionales, he asumido que definitivamente querrá usar las medias muestrales a continuación.

Con algunos supuestos de distribución, ciertamente puede llegar a algún lado.

  1. Si los tamaños de muestra son bastante grandes, puede suponer una distribución para escalar los IQR a una estimación de σy solo trátalo como una prueba z. (n = 30 no es realmente "grande")

    por ejemplo, si supone normalidad, el rango intercuartil de la población es de aproximadamente 1.35σ, por lo que si la muestra es lo suficientemente grande como para que el IQR de la población se calcule con poco error, puede estimar σ y tener una prueba efectiva a la normalidad.

    En este caso, si no asume variaciones iguales, entonces obtiene σi~=IQRi/1.35, luego calcular σ~D2=σ~12/n1+σ~22/n2 y luego tomar z=x¯1x¯2σ~D y buscar tablas z.

    [A modo de verificación, acabo de hacer una simulación en la que generé muestras normales de tamaño 30 (con igual varianza, aunque no lo asumí en el cálculo), y la prueba es anticonservadora (es decir, la tasa de error tipo I es más alto que el nominal), por lo que cuando intentas hacer una prueba del 5% parece que en realidad estás llegando a algún lugar en la región del 6,8% (la aproximación probablemente será un poco peor si las variaciones difieren). Si puedes tolerar eso, entonces probablemente esté bien. Por supuesto, podría reducir el nivel de significación para compensar el anticonservadurismo, pero me inclinaría a morder la bala y probar la opción 2. Sin embargo, una vez que los tamaños de muestra lleguen a 200, esto funciona bastante bien.]

  2. Si cualquiera de los tamaños de muestra no es grande, aún puede hacer algo, pero la distribución de la estadística dependerá del método exacto por el cual se calcularon los cuartiles, así como los tamaños de muestra particulares.

    En particular, podrías

    a. asumir variaciones iguales y usar un estadístico de prueba similar a un estadístico t de igual varianza pero con una estimación deσ2basado en un promedio ponderado de los cuadrados de los dos IQR; o

    si. no suponga una varianza igual y use una estadística de prueba más parecida a una estadística de tipo Welch-Satterthwaite.

    En el primer caso, la distribución del estadístico de prueba podría obtenerse de manera bastante simple mediante la simulación de la distribución supuesta. (En el segundo caso, las cosas son un poco más complicadas porque la distribución dependerá de la forma en que difieren los spreads, pero aún se podría hacer algo).

Si no está preparado para hacer una suposición distributiva, aún puede limitar la desviación estándar de la muestra y obtener límites superior e inferior en la estadística t; sin embargo, los límites pueden no ser muy estrechos.


Si no hubiera tenido las medias de muestra, podría usar las medianas en un análogo de la prueba t. Si está asumiendo la normalidad (o incluso la simetría y la existencia de medios), entonces las medianas estimarán los medios respectivos; sin embargo, dado que solo necesitamos lidiar con la diferencia de medios, bastarán suposiciones sustancialmente más débiles para que esto funcione como prueba.

En este caso, puede obtener valores críticos (o, de hecho, valores p) a través de la simulación con bastante facilidad, pero la distribución nula bajo un supuesto normal está bastante cerca de t-distribuido; Se puede obtener una aproximación bastante decente al valor p de las tablas t, pero los grados de libertad adecuados son sustancialmente más bajos de lo que se obtendría de una prueba t (¡cerca de la mitad!), y el estadístico de la prueba debe escalarse también, ya que las variaciones no se corresponden exactamente.

Esto no tendrá un poder especialmente bueno en la normalidad, pero tendrá una buena robustez ante las desviaciones de la normalidad.

Como ejemplo, para una estadística de esta forma:

t=x~1x~2q12/n+q22/n

dónde xi~ es la mediana de la muestra i y qi es el rango intercuartil de muestra i(que es análogo a una forma particular de prueba t de dos muestras para la misma varianza e igualn) Simulé 40,000 muestras de tamaño 30 y 30.

ingrese la descripción de la imagen aquí

Una gráfica QQ de valores absolutos de t vs valores absolutos de cuantiles de ct40 (para c=1.064) se traza a continuación (gris) y la línea de 45 grados se dibuja en verde. La segunda gráfica muestra detalles en la región de niveles de significación típicos (incluidos, entre otros, valores entre 1% y 10%). La aproximación es precisa a aproximadamente 3 cifras en la mayor parte de ese rango.

ingrese la descripción de la imagen aquí

[Se obtienen parcelas similares para una variedad de otros grados de libertad en la vecindad (con una elección adecuada c) para cada. Las simulaciones en una variedad de tamaños de muestra sugieren que las aproximaciones de distribución t funcionan bien en una amplia gama denpara el caso de igual varianza de igual tamaño de muestra. Espero que la aproximación a través de distribuciones t sea adecuada para el caso de tamaño de muestra desigual de varianza igual, pero las simulaciones y análisis requeridos tomarían una cantidad de tiempo más sustancial.]

Glen_b -Reinstate a Monica
fuente
Vamos, entonces, con la opción 1. ¿Cómo averiguaría σ¿de eso?
¿Estás asumiendo variaciones iguales?
Glen_b -Reinstate Monica
Hice una edición en la opción 1 sin asumir variaciones iguales dando algunos detalles, e hice un pequeño estudio de simulación en n = 30.
Glen_b -Reinstate Monica
También agregó algunos comentarios sobre lo que se puede hacer si no tiene los medios.
Glen_b -Reinstale Monica