¿Debo usar la prueba t en datos muy sesgados? Prueba científica, por favor?

15

Tengo muestras de un conjunto de datos muy sesgado (que parece una distribución exponencial) sobre la participación de los usuarios (por ejemplo, número de publicaciones), que tienen diferentes tamaños (pero no menos de 200) y quiero comparar su media. Para eso, estoy usando pruebas t no emparejadas de dos muestras (y pruebas t con el factor de Welch, cuando las muestras tenían diferentes variaciones). Como he escuchado, para muestras realmente grandes, no importa que la muestra no esté distribuida normalmente.

Alguien, al revisar lo que he hecho, dijo que las pruebas que estoy usando no eran adecuadas para mis datos. Sugirieron transformar mis muestras antes de usar las pruebas t.

Soy un principiante, por lo que me parece realmente confuso responder a mis preguntas de investigación con la "métrica de registro de participación".

¿Están equivocados? ¿Me equivoco? Si están equivocados, ¿hay algún libro o artículo científico que pueda citar / mostrarles? Si me equivoco, ¿qué prueba debo usar?

Milena Araujo
fuente
1
La prueba T tiene una suposición de distribución normal csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Puede estar pensando que la distribución t que se aproxima a la normal cuando la muestra es suficientemente grande.
rdorlearn
66
¿Qué significa "prueba científica" en este contexto?
Glen_b -Reinstale a Monica el
1
Pensé que la suposición era que todos los medios de todas las muestras posibles de una determinada población deberían ser normales. Entonces, según el CLT, también sería cierto para mi conjunto de datos.
Milena Araujo
1
prueba científica = algo académico relevante: un libro, un artículo, etc.
Milena Araujo

Respuestas:

36

No llamaría 'exponencial' particularmente particularmente sesgada. Su registro es claramente sesgado a la izquierda, por ejemplo, y su sesgo de momento es solo 2.

1) Está bien usar la prueba t con datos exponenciales cerca de 500norte :

a) El numerador del estadístico de prueba debe estar bien: si los datos son exponenciales independientes con escala común (y no tienen una cola sustancialmente más pesada que eso), entonces sus promedios están distribuidos en gamma con un parámetro de forma igual al número de observaciones. Su distribución se ve muy normal para un parámetro de forma mayor de aproximadamente 40 (dependiendo de qué tan lejos de la cola necesite precisión).

Esto es capaz de una prueba matemática, pero las matemáticas no son ciencia. Puede verificarlo empíricamente mediante simulación, por supuesto, pero si está equivocado acerca de la exponencialidad, puede necesitar muestras más grandes. Así es como se ve la distribución de sumas de muestra (y, por lo tanto, medias de muestra) de datos exponenciales cuando n = 40:

ingrese la descripción de la imagen aquí

Muy ligeramente sesgada. Esta asimetría disminuye a medida que la raíz cuadrada del tamaño de la muestra. Entonces, en n = 160, es la mitad de sesgo. En n = 640 es un cuarto como sesgo:

ingrese la descripción de la imagen aquí

Se puede ver que esto es efectivamente simétrico volteándolo sobre la media y dibujándolo en la parte superior:

ingrese la descripción de la imagen aquí

El azul es el original, el rojo se voltea. Como ves, son casi una coincidencia.

-

norte=40

ingrese la descripción de la imagen aquí

norte=500

-

c) Sin embargo, lo que realmente importa es la distribución de toda la estadística bajo nulo. La normalidad del numerador no es suficiente para que el estadístico t tenga una distribución t. Sin embargo, en el caso de datos exponenciales, tampoco es un gran problema:

ingrese la descripción de la imagen aquí

La curva roja es la distribución de la estadística t con df = 78, el histograma es lo que obtiene la prueba t de Welch en muestras exponenciales (bajo el nulo de igual media; los grados de libertad reales de Welch-Satterthwaite en una muestra dada tenderá a ser un poco más pequeña que 78). En particular, las áreas de cola en la región de su nivel de significancia deben ser similares (a menos que tenga algunos niveles de significancia muy inusuales, lo son). Recuerde, esto está en norte=40norte=500norte=500

Sin embargo, tenga en cuenta que para los datos realmente exponenciales, la desviación estándar solo será diferente si las medias son diferentes. Si la presunción exponencial es el caso, entonces, bajo nulo, no hay necesidad particular de preocuparse por las diferentes variaciones de población, ya que solo ocurren bajo la alternativa. Por lo tanto, una prueba t de varianza igual todavía debería estar bien (en cuyo caso, la buena aproximación anterior que ve en el histograma puede incluso ser un poco mejor).


2) Sin embargo, tomar registros puede permitirle darle sentido.

Iniciar sesiónλ1Iniciar sesiónλ2λ1λ2

[Si haces esa prueba en los registros, me inclinaría a sugerirte hacer una prueba de varianza igual en ese caso.]

Entonces, con la mera intervención de quizás una o dos oraciones que justifiquen la conexión, similar a lo que tengo arriba, debería poder escribir sus conclusiones no sobre el registro de la métrica de participación, sino sobre la métrica de participación en sí.


3) ¡ Hay muchas otras cosas que puedes hacer!

a) puede hacer una prueba adecuada para datos exponenciales. Es fácil derivar una prueba basada en la razón de probabilidad. De hecho, para datos exponenciales se obtiene una prueba F de muestra pequeña (basada en una relación de medias) para esta situación en el caso de una cola; los LRT de dos colas generalmente no tendrían una proporción igual en cada cola para tamaños de muestra pequeños. (Esto debería tener una mejor potencia que la prueba t, pero la potencia para la prueba t debería ser bastante razonable, y esperaría que no haya mucha diferencia en los tamaños de muestra).

b) puede hacer una prueba de permutación, incluso basarla en la prueba t si lo desea. Entonces, lo único que cambia es el cálculo del valor p. O puede hacer alguna otra prueba de remuestreo, como una prueba basada en bootstrap. Esto debería tener un buen poder, aunque dependerá en parte de la estadística de prueba que elija en relación con la distribución que tenga.

c) puede hacer una prueba no paramétrica basada en el rango (como Wilcoxon-Mann-Whitney). Si supone que si las distribuciones difieren, solo difieren en un factor de escala (apropiado para una variedad de distribuciones sesgadas, incluida la exponencial), incluso puede obtener un intervalo de confianza para la relación de los parámetros de la escala.

[Para ese propósito, sugeriría trabajar en la escala de registro (el cambio de ubicación en los registros es el registro del cambio de escala). No cambiará el valor p, pero le permitirá exponer la estimación puntual y los límites de CI para obtener un intervalo para el cambio de escala.]

Esto también debería tender a tener un poder bastante bueno si te encuentras en una situación exponencial, pero probablemente no sea tan bueno como usar la prueba t.


Una referencia que considera un conjunto de casos considerablemente más amplio para la alternativa de cambio de ubicación (con variación y asimetría heterogeneidad bajo nulo, por ejemplo) es

Fagerland, MW y L. Sandvik (2009),
"Realización de cinco pruebas de ubicación de dos muestras para distribuciones sesgadas con variaciones desiguales",
Contemporary Clinical Trials , 30 , 490–496

En general, tiende a recomendar la prueba U de Welch (una de las varias pruebas consideradas por Welch y la única que probaron). Si no está utilizando exactamente la misma estadística de Welch, las recomendaciones pueden variar un poco (aunque probablemente no mucho). [Tenga en cuenta que si sus distribuciones son exponenciales, le interesará una alternativa de escala a menos que tome registros ... en cuyo caso no tendrá variaciones desiguales.]

Glen_b -Reinstate a Monica
fuente
44
¡Gran respuesta! Realmente me sorprendió la cantidad de información que empacó en una sola publicación
Christian Sauer
@Glen_b, ¡esta es una respuesta increíble! Muchas gracias. Solo una pregunta más: mis muestras provienen del mismo conjunto de datos. Quiero comparar muestras de usuarios con característica X y usuarios con características Y. Las muestras para usuarios X son alrededor de ~ 500 y las muestras para usuarios Y son alrededor de ~ 10000. Hay una gran diferencia de tamaño, pero no parece tener una gran diferencia en su forma (observando las gráficas de densidad y probabilidad). ¿Sería un problema usar pruebas t de todos modos?
Milena Araujo
Cuando dice "gran diferencia de tamaño", ¿está hablando del tamaño de la muestra (10000 frente a 500) o de los valores típicos dentro de cada grupo? (Por cierto, estas son las continuas o discretas ¿Qué tan pequeño son valores mínimos típicos de este tipo de datos son los registros de forma similar -?? Es decir, se trata sólo de un cambio de escala que estamos considerando?)
Glen_b -Reinstate Mónica
1
Puede que esté mejor con una tabla para datos como ese. La información crítica es que no solo es discreta, sino que casi todos los valores se encuentran en el menor número de preguntas. Si traza un histograma, complételo sin las oscilaciones y asegúrese de que todos los valores bajos estén separados (barras para cada uno de 0, 1, 2, sin combinarlos). Es mejor cortar la derecha y extender más la izquierda (donde se encuentran casi todos los datos), siempre y cuando deje en claro que hay más a la derecha si corta alguna. Incluya información sobre lo que está midiendo y lo que está tratando de lograr ... (ctd)
Glen_b -Reinstate Monica
1
@ScottH parte 1.c de mis direcciones de responder a esta explícita y mira lo mucho que importa en el caso que nos ocupa (distribución aproximadamente exponencial en el tamaño de las muestras similares)
Glen_b -Reinstate Monica