Supongamos que tengo 20 ratones. Emparejo los ratones de alguna manera, de modo que obtengo 10 pares. Para el propósito de esta pregunta, podría ser un emparejamiento aleatorio, O podría ser un emparejamiento sensato, como tratar de emparejar ratones de la misma camada, del mismo sexo, con un peso similar, O podría ser un emparejamiento deliberadamente estúpido como tratando de emparejar ratones con pesos tan desiguales como podrían ser. Luego uso números aleatorios para asignar un mouse en cada par al grupo de control y el otro mouse al grupo a tratar. Ahora hago el experimento, tratando solo a los ratones que van a ser tratados, pero sin prestar atención a los arreglos que acabo de hacer.
Cuando se trata de analizar los resultados, se puede usar una prueba t no emparejada o una prueba t emparejada. ¿De qué manera, si hay alguna, diferirán las respuestas? (Básicamente, estoy interesado en las diferencias sistemáticas de cualquier parámetro estadístico que deba estimarse).
La razón por la que pregunto esto es que un artículo en el que estuve involucrado recientemente fue criticado por un biólogo por usar una prueba t pareada en lugar de una prueba t no pareada. Por supuesto, en el experimento real, la situación no fue tan extrema como la que he bosquejado y, en mi opinión, había buenas razones para emparejar. Pero el biólogo no estuvo de acuerdo.
Me parece que no es posible mejorar incorrectamente la significación estadística (disminuir el valor p), en las circunstancias que bosquejé, usando una prueba t emparejada, en lugar de una prueba no emparejada, incluso si no es apropiado emparejar. Sin embargo, podría empeorar la significación estadística si los ratones estuvieran mal emparejados. ¿Es esto correcto?
fuente
En lugar de emparejar, probablemente sea mejor comprender el modelo de datos subyacente. Si el emparejamiento se realiza para lidiar con la heterogeneidad no controlada, generalmente es el caso (excepto en estudios gemelos) que el emparejamiento solo controla parcialmente esta fuente de variabilidad y la regresión múltiple sería mejor. Esto se debe a que la coincidencia en variables continuas con frecuencia da como resultado una variabilidad residual debido a que no se puede hacer una coincidencia exacta en dichas variables.
fuente
Las dos pruebas (emparejadas y no emparejadas) hacen preguntas diferentes para que puedan obtener respuestas diferentes. El emparejamiento correcto casi siempre es más poderoso que el no emparejado; ese es realmente el punto del emparejamiento. Entonces, dado que usted dice que el emparejamiento es correcto, es probable que el valor p para su prueba emparejada sea más bajo que para los mismos datos no emparejados. Podrías, por supuesto, hacer ambas cosas y ver por ti mismo.
Por lo tanto, la respuesta a su dilema es sustantiva, no estadística. ¿Es correcto tu emparejamiento?
¿Podría obtener un resultado más significativo del emparejamiento aleatorio que de una prueba no emparejada? Veamos:
Sí puede, aunque aquí la diferencia es muy pequeña, el emparejado tuvo una p más baja. Ejecuté ese código varias veces. No es sorprendente que a veces una p sea más baja, a veces la otra, pero la diferencia fue pequeña en todos los casos. Sin embargo, estoy seguro de que en algunas situaciones la diferencia en los valores de p podría ser grande.
fuente
Ahora entiendo mucho mejor lo que me preocupaba de las pruebas t pareadas y no pareadas, y los valores p asociados. Descubrirlo ha sido un viaje interesante, y ha habido muchas sorpresas en el camino. Una sorpresa ha resultado de una investigación de la contribución de Michael. Esto es irreprochable en términos de consejos prácticos. Además, dice lo que creo que prácticamente todos los estadísticos creen, y tiene varios votos a favor para respaldar esto. Sin embargo, como una teoría, no es literalmente correcta. Descubrí esto elaborando las fórmulas para los valores p y luego pensando cuidadosamente cómo usar las fórmulas para conducir a contraejemplos. Soy matemático por formación, y el contraejemplo es un "contraejemplo de matemático". No es algo con lo que te encuentres en las estadísticas prácticas, El tipo de cosas que estaba tratando de averiguar cuando hice mi pregunta original.
Aquí está el código R que da el contraejemplo:
Tenga en cuenta las siguientes características: X e Y son dos 10 tuplas cuya diferencia es enorme y casi constante. Para muchas cifras significativas, la correlación es 1.000 ... El valor p para la prueba no emparejada es alrededor de 10 ^ 40 veces menor que el valor p para la prueba emparejada. Así que esto contradice el relato de Michael, siempre que uno lea su relato literalmente, al estilo matemático. Aquí termina la parte de mi respuesta relacionada con la respuesta de Michael.
Aquí están los pensamientos provocados por la respuesta de Peter. Durante la discusión de mi pregunta original, conjeturé en un comentario que dos distribuciones particulares de valores p que suenan diferentes son, de hecho, las mismas. Ahora puedo probar esto. Lo más importante es que la prueba revela la naturaleza fundamental de un valor p, tan fundamental que ningún texto (que me he encontrado) se molesta en explicar. Quizás todos los estadísticos profesionales conocen el secreto, pero para mí, la definición del valor p siempre me pareció extraña y artificial. Antes de revelar el secreto del estadístico, permítame especificar la pregunta.
Deje y elija al azar e independientemente dos tuplas aleatorias de alguna distribución normal. Hay dos formas de obtener un valor p de esta elección. Una es usar una prueba t no emparejada, y la otra es usar una prueba t emparejada. Mi conjetura fue que la distribución de los valores p que se obtiene es la misma en los dos casos. Cuando empecé a pensar en ello, decidí que esta conjetura había sido insensata y falsa: la prueba no asociada se asocia a una estadística t en grados de libertad, y la prueba asociada a una t- estadística enn>1 n 2(n−1) n−1 grados de libertad. Estas dos distribuciones son diferentes, entonces, ¿cómo podrían las distribuciones asociadas de valores p ser las mismas? Solo después de pensarlo mucho más me di cuenta de que esta obvia desestimación de mi conjetura era demasiado fácil.
La respuesta proviene de las siguientes consideraciones. Suponga que es un pdf continuo (es decir, su integral tiene el valor uno). Un cambio de coordenadas convierte la distribución asociada en la distribución uniforme en . La fórmula es y esto se explica en muchos textos. Lo que los textos no señalan en el contexto de los valores p es que esta es exactamente la fórmula que da el valor p del estadístico t, cuandof:(0,∞)→(0,∞) [0,1] f ( - ∞ , ∞ ) [ 0 , ∞ )
Exactamente la misma discusión se aplica cuando se encuentra el valor p asociado con cualquiera de las otras distribuciones estándar en estadística. Una vez más, si los datos se distribuyen aleatoriamente (esta vez de acuerdo con alguna distribución diferente), los valores p resultantes se distribuirán uniformemente en .[0,1]
¿Cómo se aplica esto a nuestras pruebas t pareadas y no pareadas? El punto está en la prueba t pareada, con muestras elegidas de forma independiente y aleatoria, como en mi código anterior, el valor de t sigue una distribución t (con grados de libertad). Entonces, los valores p que resultan de replicar la elección de X e Y muchas veces siguen la distribución uniforme en . Lo mismo es cierto para la prueba t no emparejada, aunque esta vez la distribución t tiene grados de libertad. Sin embargo, los valores p que resultan también tienen una distribución uniforme en , según el argumento general que di anteriormente. Si el código de Peter anterior se aplica para determinar los valores p, entonces obtenemos dos métodos distintos de extraer una muestra aleatoria de la distribución uniforme en[ 0 , 1 ] 2 ( n - 1 ) [ 0 , 1 ] [ 0 , 1 ]n−1 [0,1] 2(n−1) [0,1] [0,1] . Sin embargo, las dos respuestas no son independientes.
fuente
Ofrecería otra perspectiva. A menudo, el emparejamiento se realiza reduce el sesgo. Suponga que está interesado en saber si la exposición E es un factor de riesgo para un resultado continuo Y. Para cada sujeto E +, obtiene un sujeto de edad y sexo que es E-. Ahora, podríamos hacer una prueba t emparejada o una prueba t no emparejada. Creo que deberíamos tener en cuenta la coincidencia explícitamente y realizar una prueba t pareada. Tiene más principios porque tiene en cuenta el diseño. Si se debe tener en cuenta la coincidencia en el análisis es una cuestión del equilibrio entre sesgo y varianza. Tener en cuenta la coincidencia en el análisis proporciona más protección contra el sesgo, pero puede aumentar la varianza. Hacer una prueba t no emparejada puede ser más eficiente, pero no proporcionaría ninguna protección contra el sesgo.
fuente