Un investigador desea producir un análisis combinado de varios conjuntos de datos. En algunos conjuntos de datos hay observaciones emparejadas para el tratamiento A y B. En otros, hay datos A y / o B no emparejados. Estoy buscando una referencia para una adaptación de la prueba t, o para una prueba de razón de probabilidad, para esos datos parcialmente emparejados. Estoy dispuesto a (por ahora) asumir la normalidad con igual varianza y que las medias poblacionales para A son las mismas para cada estudio (y también para B).
hypothesis-testing
t-test
paired-data
change-scores
Frank Harrell
fuente
fuente
Respuestas:
Guo y Yuan sugieren un método alternativo denominado prueba t agrupada óptima derivada de la prueba t agrupada de Samawi y Vogel.
Enlace a la referencia: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
Gran lectura con múltiples opciones para esta situación.
Nuevo en comentar, así que avíseme si necesito agregar algo más.
fuente
Bueno, si conociera las variaciones en los pares y en los pares (que generalmente sería mucho más pequeño), los pesos óptimos para las dos estimaciones de diferencia en grupos significan tener pesos inversamente proporcionales a la varianza del individuo estimaciones de la diferencia de medias.
[Editar: resulta que cuando se estiman las variaciones, esto se denomina estimador Graybill-Deal. Ha habido bastantes documentos al respecto. Aquí hay uno]
La necesidad de estimar la varianza causa cierta dificultad (la razón resultante de las estimaciones de varianza es F, y creo que los pesos resultantes tienen una distribución beta, y una estadística resultante es un poco complicada), pero dado que está considerando el arranque, esto puede ser menos de una preocupación.
Una posibilidad alternativa que podría ser más agradable en algún sentido (o al menos un poco más robusta a la no normalidad, ya que estamos jugando con relaciones de variación) con muy poca pérdida de eficiencia en la normalidad es basar una estimación combinada de desplazamiento. pruebas de rango emparejadas y no emparejadas: en cada caso una especie de estimación de Hodges-Lehmann, en el caso no emparejado basado en medianas de diferencias de muestras cruzadas por pares y en el caso emparejado fuera de medianas de diferencias de promedios por pares de pares. Nuevamente, la combinación lineal ponderada de varianza mínima de los dos sería con pesos proporcionales a inversos de varianzas. En ese caso, probablemente me inclinaría hacia una permutación (/ aleatorización) en lugar de un bootstrap, pero dependiendo de cómo implemente su bootstrap, pueden terminar en el mismo lugar.
En cualquier caso, es posible que desee robustecer sus variaciones / reducir su relación de variación. Entrar en el estadio correcto para el peso es bueno, pero perderá muy poca eficiencia en la normalidad al hacerlo ligeramente robusto. ---
Algunos pensamientos adicionales que antes no tenía suficientemente claros en mi cabeza:
Este problema tiene similitudes distintas con el problema de Behrens-Fisher, pero es aún más difícil.
Si nos fijamos los pesos, nos podríamos simplemente golpear en un tipo de aproximación de Welch-Satterthwaite; La estructura del problema es la misma.
Nuestro problema es que queremos optimizar los pesos, lo que efectivamente significa que la ponderación no es fija, y de hecho, tiende a maximizar la estadística (al menos aproximadamente y más cerca en muestras grandes, ya que cualquier conjunto de pesos es una cantidad aleatoria que estima lo mismo numerador, y estamos tratando de minimizar el denominador; los dos no son independientes).
Esto, supongo, empeoraría la aproximación de chi-cuadrado y casi seguramente afectaría aún más el df de una aproximación.
[Si este problema es factible, también podría ser una buena regla general que diga 'puedes hacerlo casi tan bien si usas solo los datos emparejados en estos conjuntos de circunstancias, solo los no emparejados bajo estos otros conjuntos de condiciones y en el resto, este esquema de peso fijo generalmente es muy cercano al óptimo ', pero no aguantaré la respiración esperando esa oportunidad. Tal regla de decisión sin duda tendría algún impacto en la verdadera importancia en cada caso, pero si ese efecto no fuera tan grande, tal regla general daría una manera fácil para que las personas utilicen el software heredado existente, por lo que podría ser deseable trate de identificar una regla como esa para los usuarios en tal situación.
---
Editar: Nota para uno mismo: es necesario volver y completar los detalles del trabajo en las pruebas de 'muestras superpuestas', especialmente las pruebas t de muestras superpuestas
---
Se me ocurre que una prueba de aleatorización debería funcionar bien.
donde los datos están emparejados, al azar permutas las etiquetas de grupo dentro de pares
donde los datos no están emparejados pero se supone que tienen una distribución común (debajo de nulo), permuta las asignaciones de grupo
ahora puede basar los pesos en las dos estimaciones de desplazamiento de las estimaciones de varianza relativa (w1=1/(1+v1v2) ), calcule la estimación ponderada de desplazamiento de cada muestra aleatorizada y vea dónde encaja la muestra en la distribución de aleatorización.
(Agregado mucho más tarde)
Documento posiblemente relevante:
Derrick, B., Russ B., Toher, D. y White, P. (2017),
"Estadísticas de prueba para la comparación de medias para dos muestras que incluyen observaciones emparejadas e independientes"
Journal of Modern Applied Statistical Methods , mayo Vol. 16, N ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
fuente
Aquí hay algunos pensamientos. Básicamente llego a la conclusión de Greg Snow de que este problema tiene similitudes distintas con el problema de Behrens-Fisher . Para evitar el movimiento manual, primero introduzco algunas notaciones y formalizo las hipótesis.
cada observación es la suma de un efecto del paciente y un efecto del tratamiento. Las variables aleatorias correspondientes son
El siguiente paso natural es considerar
En este punto, creo que se puede conectar cualquier solución propuesta al problema de Behrens Fisher para obtener una solución a su problema.
fuente
Mi primer pensamiento fue un modelo de efectos mixtos, pero eso ya se ha discutido, así que no diré nada más sobre eso.
Mi otro pensamiento es que si fuera teóricamente posible que pudieras haber medido datos emparejados sobre todos los sujetos pero debido a costos, errores u otra razón por la que no tienes todos los pares, entonces podrías tratar el efecto no medido para los sujetos no emparejados como datos faltantes y use herramientas como el algoritmo EM o la Imputación múltiple (fallar al azar parece razonable a menos que la razón por la que un sujeto se midió solo bajo 1 tratamiento estuviera relacionada con cuál sería su resultado bajo el otro tratamiento).
Puede ser incluso más simple ajustar una normal bivariada a los datos utilizando la máxima verosimilitud (con la verosimilitud basada en los datos disponibles por sujeto), luego hacer una prueba de razón de verosimilitud comparando la distribución con las medias igual vs. medias diferentes.
Ha pasado mucho tiempo desde mis clases de teoría, por lo que no sé cómo se comparan con la optimización.
fuente
tal vez el modelado mixto con el paciente como efecto aleatorio podría ser una forma. Con el modelado mixto, la estructura de correlación en el caso emparejado y las faltas parciales en el caso no emparejado podrían explicarse.
fuente
gls
función de R en elnlme4
paquete.Uno de los métodos propuestos en Hani M. Samawi y Robert Vogel (Journal of Applied Statistics, 2013) consiste en una combinación ponderada de puntajes T de muestras independientes y dependientes de tal manera que el nuevo puntaje T sea igual a
fuente