Prueba t para datos parcialmente emparejados y parcialmente no emparejados

28

Un investigador desea producir un análisis combinado de varios conjuntos de datos. En algunos conjuntos de datos hay observaciones emparejadas para el tratamiento A y B. En otros, hay datos A y / o B no emparejados. Estoy buscando una referencia para una adaptación de la prueba t, o para una prueba de razón de probabilidad, para esos datos parcialmente emparejados. Estoy dispuesto a (por ahora) asumir la normalidad con igual varianza y que las medias poblacionales para A son las mismas para cada estudio (y también para B).

Frank Harrell
fuente
2
Hola frank Quizás sería útil hacer más explícitos los supuestos de modelado. Normalmente, cuando pienso en diseños emparejados, pienso en uno de los siguientes (i) tratando de eliminar los efectos fijos no observables a nivel de unidad, (ii) reduciendo la variabilidad de un efecto aleatorio entre las unidades experimentales, o (iii) ajustando la no normalidad de la respuesta tomando diferencias entre los pares, obteniendo así una mejor aproximación. En particular, no veo ningún beneficio inmediato en pares coincidentes si la suposición bajo nulo es que todas las observaciones son normales.
cardenal
44
Cardenal, en realidad tengo muchos datos que también se ven así. Intentábamos recopilar datos completamente emparejados, pero debido a problemas técnicos o mala suerte, algunas mediciones de muestras en A o B a veces se estropean. Las dos soluciones obvias, pero insatisfactorias, son 1) descartar todos los pares incompletos y hacer una prueba t emparejada, o 2) ignorar el emparejamiento y hacer una prueba t no emparejada en todos los datos. Creo que el póster está pidiendo una forma de aprovechar el emparejamiento donde existe (por su razón # 1 y # 2), mientras recupera todo lo que pueda de los otros puntos de datos no emparejados.
Matt Krause el
2
Agradezco todos los comentarios. Para los pares emparejados, los sujetos fueron evaluados tanto en A como en B. Una forma de aprovechar el emparejamiento es usar el intervalo de confianza percentil no paramétrico bootstrap para la diferencia entre las medias en A y B. Esto implicaría usar el bootstrap en racimo, muestreo con reemplazo de asignaturas. Un sujeto que no tiene datos emparejados tendrá una observación guardada o eliminada en una nueva muestra, y los datos emparejados tendrán dos registros guardados o eliminados. Esto parece respetar el emparejamiento pero es necesario definir un estimado y no sabemos acerca de la optimización.
Frank Harrell
1
El enfoque bayesiano es fácil de implementar.
Stéphane Laurent
2
Hani M. Samawi y Robert Vogel, Journal of Applied Statistics (2013): Notas sobre dos pruebas de muestra para datos parcialmente correlacionados (emparejados), dx.doi.org/10.1080/02664763.2013.830285
Suresh el

Respuestas:

8

Bueno, si conociera las variaciones en los pares y en los pares (que generalmente sería mucho más pequeño), los pesos óptimos para las dos estimaciones de diferencia en grupos significan tener pesos inversamente proporcionales a la varianza del individuo estimaciones de la diferencia de medias.

[Editar: resulta que cuando se estiman las variaciones, esto se denomina estimador Graybill-Deal. Ha habido bastantes documentos al respecto. Aquí hay uno]

La necesidad de estimar la varianza causa cierta dificultad (la razón resultante de las estimaciones de varianza es F, y creo que los pesos resultantes tienen una distribución beta, y una estadística resultante es un poco complicada), pero dado que está considerando el arranque, esto puede ser menos de una preocupación.

Una posibilidad alternativa que podría ser más agradable en algún sentido (o al menos un poco más robusta a la no normalidad, ya que estamos jugando con relaciones de variación) con muy poca pérdida de eficiencia en la normalidad es basar una estimación combinada de desplazamiento. pruebas de rango emparejadas y no emparejadas: en cada caso una especie de estimación de Hodges-Lehmann, en el caso no emparejado basado en medianas de diferencias de muestras cruzadas por pares y en el caso emparejado fuera de medianas de diferencias de promedios por pares de pares. Nuevamente, la combinación lineal ponderada de varianza mínima de los dos sería con pesos proporcionales a inversos de varianzas. En ese caso, probablemente me inclinaría hacia una permutación (/ aleatorización) en lugar de un bootstrap, pero dependiendo de cómo implemente su bootstrap, pueden terminar en el mismo lugar.

En cualquier caso, es posible que desee robustecer sus variaciones / reducir su relación de variación. Entrar en el estadio correcto para el peso es bueno, pero perderá muy poca eficiencia en la normalidad al hacerlo ligeramente robusto. ---

Algunos pensamientos adicionales que antes no tenía suficientemente claros en mi cabeza:

Este problema tiene similitudes distintas con el problema de Behrens-Fisher, pero es aún más difícil.

Si nos fijamos los pesos, nos podríamos simplemente golpear en un tipo de aproximación de Welch-Satterthwaite; La estructura del problema es la misma.

Nuestro problema es que queremos optimizar los pesos, lo que efectivamente significa que la ponderación no es fija, y de hecho, tiende a maximizar la estadística (al menos aproximadamente y más cerca en muestras grandes, ya que cualquier conjunto de pesos es una cantidad aleatoria que estima lo mismo numerador, y estamos tratando de minimizar el denominador; los dos no son independientes).

Esto, supongo, empeoraría la aproximación de chi-cuadrado y casi seguramente afectaría aún más el df de una aproximación.

[Si este problema es factible, también podría ser una buena regla general que diga 'puedes hacerlo casi tan bien si usas solo los datos emparejados en estos conjuntos de circunstancias, solo los no emparejados bajo estos otros conjuntos de condiciones y en el resto, este esquema de peso fijo generalmente es muy cercano al óptimo ', pero no aguantaré la respiración esperando esa oportunidad. Tal regla de decisión sin duda tendría algún impacto en la verdadera importancia en cada caso, pero si ese efecto no fuera tan grande, tal regla general daría una manera fácil para que las personas utilicen el software heredado existente, por lo que podría ser deseable trate de identificar una regla como esa para los usuarios en tal situación.

---

Editar: Nota para uno mismo: es necesario volver y completar los detalles del trabajo en las pruebas de 'muestras superpuestas', especialmente las pruebas t de muestras superpuestas

---

Se me ocurre que una prueba de aleatorización debería funcionar bien.

  • donde los datos están emparejados, al azar permutas las etiquetas de grupo dentro de pares

  • donde los datos no están emparejados pero se supone que tienen una distribución común (debajo de nulo), permuta las asignaciones de grupo

  • ahora puede basar los pesos en las dos estimaciones de desplazamiento de las estimaciones de varianza relativa ( w1=1/(1+v1v2)), calcule la estimación ponderada de desplazamiento de cada muestra aleatorizada y vea dónde encaja la muestra en la distribución de aleatorización.


(Agregado mucho más tarde)

Documento posiblemente relevante:

Derrick, B., Russ B., Toher, D. y White, P. (2017),
"Estadísticas de prueba para la comparación de medias para dos muestras que incluyen observaciones emparejadas e independientes"
Journal of Modern Applied Statistical Methods , mayo Vol. 16, N ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm

Glen_b -Reinstate a Monica
fuente
1
+1. Tengo una pregunta sobre la última parte de tu respuesta. ¿Qué estimaciones de varianza (es decir, qué pesos) usaría en la prueba de permutación, las reales calculadas en la muestra real, o calcularía los pesos para cada permutación en función de los datos de esa permutación?
ameba dice Reinstate Monica
@amoeba para tener en cuenta adecuadamente la naturaleza basada en muestras del cálculo, lo basaría en esa permutación particular.
Glen_b: reinstala a Monica
@amoeba Debería comparar eso con otros enfoques del problema.
Glen_b: reinstala a Monica
1
Por cierto, me encontré con este hilo porque alguien se me acercó con los siguientes datos: dos sujetos con datos emparejados más dos sujetos con datos no emparejados (es decir, 3 mediciones en el grupo A, 3 mediciones en el grupo B, de estos 6 valores 2+ 2 están emparejados y el resto no está emparejado). En este caso, no hay suficientes datos para estimar la varianza de la estimación de cambio no apareado, por lo que no podría sugerir nada más que ignorar el emparejamiento y hacer una prueba no emparejada ... Pero esta es, por supuesto, una situación bastante extrema.
ameba dice Reinstate Monica
6

Aquí hay algunos pensamientos. Básicamente llego a la conclusión de Greg Snow de que este problema tiene similitudes distintas con el problema de Behrens-Fisher . Para evitar el movimiento manual, primero introduzco algunas notaciones y formalizo las hipótesis.

  • norteXyopagsUNAXyopagssiyo=1,...,norte
  • norteUNAnortesiXyoUNAyo=1,...,norteUNAXyosiyo=1,...,nortesi
  • cada observación es la suma de un efecto del paciente y un efecto del tratamiento. Las variables aleatorias correspondientes son

    • XyopagsUNA=PAGSyo+TyoUNAXyopagssi=PAGSyo+Tyosi
    • XyoUNA=Qyo+UyoUNAXyosi=Ryo+Vyosi

    PAGSyo,Qyo,Ryonorte(0 0,σPAGS2)Tyoτ,Uyoτ,Vyoτnorte(μτ,σ2)τ=UNA,si

    • μUNA=μsi

Xyo=XyopagsUNA-XyopagssiXyonorte(μUNA-μsi,2σ2)

XyonorteXyoUNAnorteUNAXyosinortesi

  • Xnorte(μUNA-μsi,2norteσ2)
  • XUNAnorte(μUNA,1norteUNA(σPAGS2+σ2))
  • Xsinorte(μsi,1nortesi(σPAGS2+σ2))

El siguiente paso natural es considerar

  • Y=X+XUNA-Xsinorte(2(μUNA-μsi),2norteσ2+(1norteUNA+1nortesi)(σPAGS2+σ2))

σ2norte-1σPAGS2+σ2norteUNA-1nortesi-1(1norteUNA+1nortesi)(σPAGS2+σ2)norteUNA+nortesi-2Y

En este punto, creo que se puede conectar cualquier solución propuesta al problema de Behrens Fisher para obtener una solución a su problema.

Elvis
fuente
1
Arregle algunos errores tipográficos en las fórmulas. ¡Por favor, compruebe!
kjetil b halvorsen
5

Mi primer pensamiento fue un modelo de efectos mixtos, pero eso ya se ha discutido, así que no diré nada más sobre eso.

Mi otro pensamiento es que si fuera teóricamente posible que pudieras haber medido datos emparejados sobre todos los sujetos pero debido a costos, errores u otra razón por la que no tienes todos los pares, entonces podrías tratar el efecto no medido para los sujetos no emparejados como datos faltantes y use herramientas como el algoritmo EM o la Imputación múltiple (fallar al azar parece razonable a menos que la razón por la que un sujeto se midió solo bajo 1 tratamiento estuviera relacionada con cuál sería su resultado bajo el otro tratamiento).

Puede ser incluso más simple ajustar una normal bivariada a los datos utilizando la máxima verosimilitud (con la verosimilitud basada en los datos disponibles por sujeto), luego hacer una prueba de razón de verosimilitud comparando la distribución con las medias igual vs. medias diferentes.

Ha pasado mucho tiempo desde mis clases de teoría, por lo que no sé cómo se comparan con la optimización.

Greg Snow
fuente
1
Gracias Greg Me estoy inclinando hacia el enfoque personalizado de máxima probabilidad.
Frank Harrell
4

tal vez el modelado mixto con el paciente como efecto aleatorio podría ser una forma. Con el modelado mixto, la estructura de correlación en el caso emparejado y las faltas parciales en el caso no emparejado podrían explicarse.

psj
fuente
2
Dado que ninguno de los conjuntos de datos analizados individualmente llevaría a uno a usar efectos aleatorios, no veo por qué los efectos aleatorios son útiles aquí. Pero puede ser posible utilizar mínimos cuadrados generalizados para permitir que cada sujeto tenga su propia estructura de correlación. Las observaciones no emparejadas tendrían correlación cero. Vale la pena pensar en eso. Gracias.
Frank Harrell
Sí, tiene razón, los conjuntos de datos no requerirían modelado mixto si se usan por separado. Pero si los agrega en un solo conjunto de datos, podría usar el enfoque para incorporar la correlación en los datos emparejados y simultáneamente usar los datos no emparejados especificando una correlación cero.
psj
1
Sí; Mi punto fue que un modelo mixto puede ser una exageración, ya que puede especificar fácilmente la estructura de correlación que varía según el sujeto utilizando mínimos cuadrados generalizados (utilizando, por ejemplo, la glsfunción de R en el nlme4paquete.
Frank Harrell
3

Uno de los métodos propuestos en Hani M. Samawi y Robert Vogel (Journal of Applied Statistics, 2013) consiste en una combinación ponderada de puntajes T de muestras independientes y dependientes de tal manera que el nuevo puntaje T sea igual a

To=γ(μY-μXSX2/ /norteX+Sy2/ /norteY)+(1-γ)μreSre2/ /nortere

reγγ

bonobo
fuente
1
T0 0