Prueba t emparejada versus no emparejada

20

Supongamos que tengo 20 ratones. Emparejo los ratones de alguna manera, de modo que obtengo 10 pares. Para el propósito de esta pregunta, podría ser un emparejamiento aleatorio, O podría ser un emparejamiento sensato, como tratar de emparejar ratones de la misma camada, del mismo sexo, con un peso similar, O podría ser un emparejamiento deliberadamente estúpido como tratando de emparejar ratones con pesos tan desiguales como podrían ser. Luego uso números aleatorios para asignar un mouse en cada par al grupo de control y el otro mouse al grupo a tratar. Ahora hago el experimento, tratando solo a los ratones que van a ser tratados, pero sin prestar atención a los arreglos que acabo de hacer.

Cuando se trata de analizar los resultados, se puede usar una prueba t no emparejada o una prueba t emparejada. ¿De qué manera, si hay alguna, diferirán las respuestas? (Básicamente, estoy interesado en las diferencias sistemáticas de cualquier parámetro estadístico que deba estimarse).

La razón por la que pregunto esto es que un artículo en el que estuve involucrado recientemente fue criticado por un biólogo por usar una prueba t pareada en lugar de una prueba t no pareada. Por supuesto, en el experimento real, la situación no fue tan extrema como la que he bosquejado y, en mi opinión, había buenas razones para emparejar. Pero el biólogo no estuvo de acuerdo.

Me parece que no es posible mejorar incorrectamente la significación estadística (disminuir el valor p), en las circunstancias que bosquejé, usando una prueba t emparejada, en lugar de una prueba no emparejada, incluso si no es apropiado emparejar. Sin embargo, podría empeorar la significación estadística si los ratones estuvieran mal emparejados. ¿Es esto correcto?

David Epstein
fuente

Respuestas:

23

Estoy de acuerdo con los puntos que Frank y Peter hacen, pero creo que hay una fórmula simple que llega al meollo del problema y puede valer la pena que el OP lo considere.

Deje e ser dos variables aleatorias cuya correlación es desconocida.YXY

DejeZ=XY

¿Cuál es la varianza de ?Z

Aquí está la fórmula simple: ¿Qué si (es decir, e están positivamente correlacionados)?Cov ( X , Y ) > 0 X Y

Var(Z)=Var(X)+Var(Y)2Cov(X,Y).
Cov(X,Y)>0XY

Entoncest X i A Y i AVar(Z)<Var(X)+Var(Y). En este caso, si el emparejamiento se realiza debido a una correlación positiva, como cuando se trata del mismo tema antes y después de la intervención, el emparejamiento ayuda porque la diferencia emparejada independiente tiene una varianza menor que la varianza que obtiene para el caso no emparejado. El método redujo la varianza. La prueba es más poderosa. Esto se puede mostrar dramáticamente con datos cíclicos. Vi un ejemplo en un libro donde querían ver si la temperatura en Washington DC es más alta que en la ciudad de Nueva York. Entonces tomaron la temperatura promedio mensual en ambas ciudades durante 2 años. Por supuesto, hay una gran diferencia en el transcurso del año debido a las cuatro estaciones. Esta variación es demasiado grande para que una prueba t no emparejada detecte una diferencia. Sin embargo, el emparejamiento basado en el mismo mes en el mismo año elimina este efecto estacional y el emparejadot prueba mostró claramente que la temperatura promedio en DC tendía a ser más alta que en Nueva York. (temperatura en NY en el mes ) e (temperatura en DC en el mes ) se correlacionan positivamente porque las estaciones son las mismas en NY y DC y las ciudades están lo suficientemente cerca como para que a menudo experimenten los mismos sistemas climáticos que afectan la temperatura . DC puede ser un poco más cálido porque está más al sur.XiAYiA

Tenga en cuenta que cuanto mayor es la covarianza o correlación, mayor es la reducción de la varianza.

Ahora suponga que es negativo.Cov(X,Y)

Entonces . ¡Ahora el emparejamiento será peor que no emparejar porque la varianza en realidad aumenta!Var(Z)>Var(X)+Var(Y)

Cuando e no están correlacionados, entonces probablemente no importa qué método uses. El caso de emparejamiento aleatorio de Peter es como esta situación.YXY

Michael R. Chernick
fuente
3
Michael, debido a que "<" y ">" tienen significados especiales en las páginas web, para evitar que grandes extensiones de texto simplemente desaparezcan de tu vista, es esencial que uses el marcado para ellas en las ecuaciones (los códigos son "\ lt "y" \ gt "respectivamente). Marqué las dos ecuaciones que te causaron este problema. En el futuro, lea lo que publica inmediatamente después de publicarlo para asegurarse de que las personas estén viendo lo que pensaba que verían, y luego siéntase libre de marcar su publicación para atención del moderador si hay algún problema con el marcado. TEX
whuber
@whuber Gracias. Por lo general, verifico durante y después de la publicación porque encuentro que estropeo mucho las ecuaciones, especialmente al suscribirme. Perder este es inusual y probablemente sucedió porque fue una publicación larga y descuidadamente pasé a otra cosa que quería o necesitaba hacer. A veces una llamada telefónica me distrae y me olvido de verificar. Con respecto a los símbolos especiales que hacen que el texto desaparezca en una publicación, lo he observado. Creo que una solución simple es asegurarse de dejar un espacio después del símbolo. Creo que me ha funcionado en el pasado.
Michael R. Chernick
+1, realmente a punto. Tenga en cuenta que si e se correlacionan perfectamente en su muestra , . XYVar(Z)=Var(X)+Var(Y)
gung - Restablecer Monica
@MichaelChernick Para el caso en que Cov (X, Y) <0, tengo una pregunta: si mi objetivo es inferir E [X] -E [Y] a partir de mi experimento, entonces AUNQUE Hice un estudio emparejado, cuando yo analizar mis datos, todavía puedo pretender que el resultado de mi experimento es una realización de un experimento aleatorio SIN PAREJA. ¿Puedo hacer esto? Porque si realmente hiciste un experimento aleatorio no emparejado, literalmente puedes obtener el mismo resultado. Luego puedo tomar el promedio de cada grupo (ignorar las cosas de emparejamiento) y tomar la diferencia de la media de los dos grupos. Este es un estimador imparcial de E [Z]. Para variar mi estimador, solo uso ...
KevinKim
@MichaelChernick la varianza de muestra del grupo X y el grupo Y y resumirlos
KevinKim
7

En lugar de emparejar, probablemente sea mejor comprender el modelo de datos subyacente. Si el emparejamiento se realiza para lidiar con la heterogeneidad no controlada, generalmente es el caso (excepto en estudios gemelos) que el emparejamiento solo controla parcialmente esta fuente de variabilidad y la regresión múltiple sería mejor. Esto se debe a que la coincidencia en variables continuas con frecuencia da como resultado una variabilidad residual debido a que no se puede hacer una coincidencia exacta en dichas variables.

Frank Harrell
fuente
2
Si todos deberíamos estar haciendo regresión, ¿por qué los libros sobre Diseño Experimental, como el libro de David Cox, enfatizan la importancia de emparejar o agrupar en experimentos biológicos? El emparejamiento evita el supuesto oculto de dependencia lineal que conlleva la regresión. Pero tal vez hay otras razones: ¿alguien?
David Epstein
6

Las dos pruebas (emparejadas y no emparejadas) hacen preguntas diferentes para que puedan obtener respuestas diferentes. El emparejamiento correcto casi siempre es más poderoso que el no emparejado; ese es realmente el punto del emparejamiento. Entonces, dado que usted dice que el emparejamiento es correcto, es probable que el valor p para su prueba emparejada sea más bajo que para los mismos datos no emparejados. Podrías, por supuesto, hacer ambas cosas y ver por ti mismo.

Por lo tanto, la respuesta a su dilema es sustantiva, no estadística. ¿Es correcto tu emparejamiento?

¿Podría obtener un resultado más significativo del emparejamiento aleatorio que de una prueba no emparejada? Veamos:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Sí puede, aunque aquí la diferencia es muy pequeña, el emparejado tuvo una p más baja. Ejecuté ese código varias veces. No es sorprendente que a veces una p sea más baja, a veces la otra, pero la diferencia fue pequeña en todos los casos. Sin embargo, estoy seguro de que en algunas situaciones la diferencia en los valores de p podría ser grande.

Peter Flom - Restablece a Monica
fuente
Gracias por la respuesta, pero mi pregunta pedía diferencias sistemáticas . Obviamente, en una larga serie de x e y, x e y ocasionalmente parecen estar muy bien emparejados, y ocasionalmente como si hubieran sido mal emparejados deliberadamente. Seguramente es una pregunta estadística si, al elegir x e y aleatoriamente, la distribución de los valores p es la misma en las dos pruebas. Supongo que no debería ser demasiado difícil para alguien que conoce más estadísticas teóricas que yo para calcular las dos distribuciones teóricas de los valores p. Supongo que son lo mismo.
David Epstein
En el caso real en el que estuve involucrado, el valor p para no emparejado era de alrededor de .04 y para .001 emparejado. Según el biólogo crítico, deberíamos citar .04. Según yo, la mejora en el valor p indica fuertemente que nuestro emparejamiento fue válido. Afirmo que hay una pregunta objetiva en las estadísticas aquí, con una respuesta objetiva, y que no se trata solo de un buen juicio biológico en cuanto a la validez del emparejamiento en particular: esta última parece ser la opinión de Peter Flom y de El biólogo crítico.
David Epstein
1
Creo que las estadísticas cuentan la historia. Ambos resultados deben divulgarse, pero siempre que los datos sean correctos y se pueda explicar la correlación, la prueba emparejada es más precisa porque tiene en cuenta la correlación.
Michael R. Chernick
5

Ahora entiendo mucho mejor lo que me preocupaba de las pruebas t pareadas y no pareadas, y los valores p asociados. Descubrirlo ha sido un viaje interesante, y ha habido muchas sorpresas en el camino. Una sorpresa ha resultado de una investigación de la contribución de Michael. Esto es irreprochable en términos de consejos prácticos. Además, dice lo que creo que prácticamente todos los estadísticos creen, y tiene varios votos a favor para respaldar esto. Sin embargo, como una teoría, no es literalmente correcta. Descubrí esto elaborando las fórmulas para los valores p y luego pensando cuidadosamente cómo usar las fórmulas para conducir a contraejemplos. Soy matemático por formación, y el contraejemplo es un "contraejemplo de matemático". No es algo con lo que te encuentres en las estadísticas prácticas, El tipo de cosas que estaba tratando de averiguar cuando hice mi pregunta original.

Aquí está el código R que da el contraejemplo:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Tenga en cuenta las siguientes características: X e Y son dos 10 tuplas cuya diferencia es enorme y casi constante. Para muchas cifras significativas, la correlación es 1.000 ... El valor p para la prueba no emparejada es alrededor de 10 ^ 40 veces menor que el valor p para la prueba emparejada. Así que esto contradice el relato de Michael, siempre que uno lea su relato literalmente, al estilo matemático. Aquí termina la parte de mi respuesta relacionada con la respuesta de Michael.


Aquí están los pensamientos provocados por la respuesta de Peter. Durante la discusión de mi pregunta original, conjeturé en un comentario que dos distribuciones particulares de valores p que suenan diferentes son, de hecho, las mismas. Ahora puedo probar esto. Lo más importante es que la prueba revela la naturaleza fundamental de un valor p, tan fundamental que ningún texto (que me he encontrado) se molesta en explicar. Quizás todos los estadísticos profesionales conocen el secreto, pero para mí, la definición del valor p siempre me pareció extraña y artificial. Antes de revelar el secreto del estadístico, permítame especificar la pregunta.

Deje y elija al azar e independientemente dos tuplas aleatorias de alguna distribución normal. Hay dos formas de obtener un valor p de esta elección. Una es usar una prueba t no emparejada, y la otra es usar una prueba t emparejada. Mi conjetura fue que la distribución de los valores p que se obtiene es la misma en los dos casos. Cuando empecé a pensar en ello, decidí que esta conjetura había sido insensata y falsa: la prueba no asociada se asocia a una estadística t en grados de libertad, y la prueba asociada a una t- estadística enn>1n2(n1)n1grados de libertad. Estas dos distribuciones son diferentes, entonces, ¿cómo podrían las distribuciones asociadas de valores p ser las mismas? Solo después de pensarlo mucho más me di cuenta de que esta obvia desestimación de mi conjetura era demasiado fácil.

La respuesta proviene de las siguientes consideraciones. Suponga que es un pdf continuo (es decir, su integral tiene el valor uno). Un cambio de coordenadas convierte la distribución asociada en la distribución uniforme en . La fórmula es y esto se explica en muchos textos. Lo que los textos no señalan en el contexto de los valores p es que esta es exactamente la fórmula que da el valor p del estadístico t, cuandof:(0,)(0,)[0,1]f ( - , ) [ 0 , )

p=tf(s)ds
fes el pdf para la distribución t. (Estoy tratando de mantener la discusión lo más simple posible, porque realmente es simple. Una discusión más completa trataría las pruebas t unilaterales y bilaterales de manera ligeramente diferente, podrían surgir factores de 2 y el estadístico t podría estar en lugar de en . Omito todo ese desorden).(,)[0,)

Exactamente la misma discusión se aplica cuando se encuentra el valor p asociado con cualquiera de las otras distribuciones estándar en estadística. Una vez más, si los datos se distribuyen aleatoriamente (esta vez de acuerdo con alguna distribución diferente), los valores p resultantes se distribuirán uniformemente en .[0,1]

¿Cómo se aplica esto a nuestras pruebas t pareadas y no pareadas? El punto está en la prueba t pareada, con muestras elegidas de forma independiente y aleatoria, como en mi código anterior, el valor de t sigue una distribución t (con grados de libertad). Entonces, los valores p que resultan de replicar la elección de X e Y muchas veces siguen la distribución uniforme en . Lo mismo es cierto para la prueba t no emparejada, aunque esta vez la distribución t tiene grados de libertad. Sin embargo, los valores p que resultan también tienen una distribución uniforme en , según el argumento general que di anteriormente. Si el código de Peter anterior se aplica para determinar los valores p, entonces obtenemos dos métodos distintos de extraer una muestra aleatoria de la distribución uniforme en[ 0 , 1 ] 2 ( n - 1 ) [ 0 , 1 ] [ 0 , 1 ]n1[0,1]2(n1)[0,1][0,1] . Sin embargo, las dos respuestas no son independientes.

David Epstein
fuente
No creo que el valor p tenga ningún secreto misterioso. Algunas personas tienen dificultades con eso. Es la probabilidad de observar un valor como extereme o más extremo de lo que realmente se observó cuando la hipótesis nula es VERDADERA. Creo que tenías eso en una de tus fórmulas. Creo que usted dijo que los valores p están distribuidos uniformemente. Sí, estoy de acuerdo con eso cuando la hipótesis nula es cierta. Tenga en cuenta que con su prueba t la hipótesis nula puede no ser cierta. Entonces el valor p no es uniforme. Debería concentrarse más cerca de 0.
Michael R. Chernick
En segundo lugar, estamos hablando de dos estadísticas de prueba diferentes. Uno se basa en el emparejamiento y el otro no en su ejemplo. Ya sea que lo mencione en mi respuesta o no, la prueba t no emparejada tiene una distribución t central con 2n-2 grados de libertad, mientras que la distribución t correspondiente para la prueba t emparejada tiene n-1 grados de libertad. Entonces el que tiene el mayor número de grados de libertad está más cerca de la distribución normal estándar que el otro. ¿Importa eso cuando aplica estas pruebas a datos reales? ¡No! No cuando n es razonablemente grande.
Michael R. Chernick
Como nota al margen, una limitación de la prueba emparejada requiere el mismo tamaño de muestra que debe tener si todos los datos se pueden emparejar. Pero la prueba no emparejada es válida con tamaños de muestra desiguales. Entonces, en general, la prueba no emparejada tiene n + m-2 grados de libertad.
Michael R. Chernick
Su respuesta es larga y abstracta y traté de leerla, pero no entendí el contraejemplo. Simplemente no veo dónde tomas en cuenta la hipótesis nula y los datos reales. El valor p observado es la integral de la distribución t adecuada para el estadístico de prueba dados los datos. Usted compara esos números para las dos distribuciones t y el mismo conjunto de datos común. Si condiciona los datos observados, estas distribuciones uniformes no juegan ningún papel. Lo siento, pero no veo que tu respuesta realmente responda a tu pregunta.
Michael R. Chernick
Michael: solo concéntrate en el código R que di. Solo lleva un segundo correr. La hipótesis nula es que X e Y provienen de la misma distribución normal, lo cual, por supuesto, es tremendamente falso en mi caso. En mi ejemplo, Cov (X, Y)> 0 y, sin embargo, la prueba no emparejada da más importancia que la prueba emparejada.
David Epstein
1

Ofrecería otra perspectiva. A menudo, el emparejamiento se realiza reduce el sesgo. Suponga que está interesado en saber si la exposición E es un factor de riesgo para un resultado continuo Y. Para cada sujeto E +, obtiene un sujeto de edad y sexo que es E-. Ahora, podríamos hacer una prueba t emparejada o una prueba t no emparejada. Creo que deberíamos tener en cuenta la coincidencia explícitamente y realizar una prueba t pareada. Tiene más principios porque tiene en cuenta el diseño. Si se debe tener en cuenta la coincidencia en el análisis es una cuestión del equilibrio entre sesgo y varianza. Tener en cuenta la coincidencia en el análisis proporciona más protección contra el sesgo, pero puede aumentar la varianza. Hacer una prueba t no emparejada puede ser más eficiente, pero no proporcionaría ninguna protección contra el sesgo.

Ravi Varadhan
fuente