Se necesita un buen ejemplo de datos con covariables afectadas por tratamientos

19

He analizado muchos conjuntos de datos R, publicaciones en DASL y en otros lugares, y no encuentro muchos buenos ejemplos de conjuntos de datos interesantes que ilustren el análisis de covarianza para datos experimentales. Existen numerosos conjuntos de datos "de juguete" con datos artificiales en los libros de texto de estadísticas.

Me gustaría tener un ejemplo donde:

  • Los datos son reales, con una historia interesante.
  • Hay al menos un factor de tratamiento y dos covariables.
  • Al menos una covariable se ve afectada por uno o más de los factores de tratamiento, y uno no se ve afectado por los tratamientos.
  • Experimental en lugar de observacional, preferiblemente

Antecedentes

Mi verdadero objetivo es encontrar un buen ejemplo para poner en la viñeta de mi paquete R. Pero un objetivo más amplio es que las personas necesitan ver buenos ejemplos para ilustrar algunas preocupaciones importantes en el análisis de covarianza. Considere el siguiente escenario inventado (y comprenda que mi conocimiento de la agricultura es superficial en el mejor de los casos).

  • Hacemos un experimento donde los fertilizantes se asignan al azar a las parcelas, y se siembra un cultivo. Después de un período de crecimiento adecuado, cosechamos el cultivo y medimos algunas características de calidad, esa es la variable de respuesta. Pero también registramos la precipitación total durante el período de crecimiento y la acidez del suelo en el momento de la cosecha, y, por supuesto, qué fertilizante se usó. Así tenemos dos covariables y un tratamiento.

La forma habitual de analizar los datos resultantes sería ajustar un modelo lineal con el tratamiento como factor y los efectos aditivos para las covariables. Luego, para resumir los resultados, se calculan los "medios ajustados" (también conocidos como medios de mínimos cuadrados), que son predicciones del modelo para cada fertilizante, con la precipitación promedio y la acidez promedio del suelo. Esto pone todo en pie de igualdad, porque cuando comparamos estos resultados, mantenemos constantes las precipitaciones y la acidez.

Pero probablemente esto sea algo incorrecto, porque el fertilizante probablemente afecta la acidez del suelo y la respuesta. Esto hace que los medios ajustados sean engañosos, porque el efecto del tratamiento incluye su efecto sobre la acidez. Una forma de manejar esto sería eliminar la acidez del modelo, luego los medios ajustados por la lluvia proporcionarían una comparación justa. Pero si la acidez es importante, esta equidad tiene un gran costo, en el aumento de la variación residual.

Hay formas de evitar esto utilizando una versión ajustada de la acidez en el modelo en lugar de sus valores originales. La próxima actualización de mi paquete R lsmeans lo hará francamente fácil. Pero quiero tener un buen ejemplo para ilustrarlo. Estaré muy agradecido y debidamente reconoceré a cualquiera que pueda señalarme algunos buenos conjuntos de datos ilustrativos.

rvl
fuente
1
Si bien esto es tanto una cuestión importante e interesante, sin duda, parece como si fuera a caer mal de las reglas acerca de lo que es en el tema : " Las preguntas sobre la obtención de conjuntos de datos particulares están fuera de tema (son demasiado especializados). "
Glen_b -Reinstate Mónica
1
Mi impresión de las respuestas hasta ahora es que somos cautelosos para dar a otras preguntas como esta un cheque en blanco al decidir firmemente a favor de ella, pero que estamos principalmente a favor de esta pregunta en particular e incluso estamos un poco ansiosos por ver qué tipos de respuestas que podrías obtener (tal vez esa parte solo soy yo). Lo que no quisiéramos son imitaciones mal escritas de esta pregunta que soliciten conjuntos de datos con los que demostrar puntos con estadísticas pero no con estadísticas. Es decir, una cosa es pedir ayuda para demostrar un principio estadístico, pero sería otra pedir conjuntos de datos específicos del dominio ...
Nick Stauner
3
OK, suena como una buena idea. He hecho cosas mucho peores en el pasado para bajar mi reputación ...
rvl
2
@SteveS Estoy de acuerdo en que es un buen candidato para una recompensa; De hecho, acabo de venir aquí para ponerme uno , solo para descubrir que Russ ya lo había hecho. Si no hay algunas buenas respuestas en una semana, podría considerar darle una segunda recompensa. Russ: las recompensas por preguntas interesantes tienden a atraer suficiente atención como para que las votaciones posteriores a menudo casi las paguen de todos modos, por lo que la pérdida de reputación a menudo es mucho menos pronunciada de lo que parece a primera vista.
Glen_b -Reinstale a Monica el

Respuestas:

6

Es posible que desee consultar el mediationpaquete R. Incluye datos experimentales como jobsy framingdonde la variable de tratamiento afecta tanto a una variable de respuesta como a covariables (es decir, mediadores del efecto del tratamiento), junto con covariables no afectadas por el tratamiento.

Investigué la literatura sobre mediación porque pensé que usted describió exactamente un estudio de mediación: el efecto del fertilizante en la calidad del cultivo está mediado por su efecto sobre la acidez del suelo. Incluso si los conjuntos de datos en el mediationpaquete no lo satisfacen, puede encontrar uno si busca en la literatura de mediación.

Masato Nakazawa
fuente
Gracias. Instalé el paquete y lo miraré. Y una oportunidad para aprender algo nuevo.
rvl
Es interesante que los datos del trabajo se
hayan
1
Bueno, desearía poder dividir la recompensa de alguna manera. Pero este paquete tiene conjuntos de datos listos que son muy adecuados para lo que pedí, por lo que @MasatoNakazawa obtiene la recompensa. Muchas gracias. Usando los framingdatos, las gráficas de interacción de los medios LS (basados ​​en un modelo logístico) cuando la variable mediadora se mantienen fijas son dramáticamente diferentes de aquellas en las que se establece en valores pronosticados por tratamientos y otras covariables, lo que muestra cuán importante es tomar la mediación. variable en cuenta.
rvl
1
Gracias Dr. Lenth. En realidad, he citado tus artículos en mi disertación. Me siento honrado de haber podido ayudar de alguna manera a un estadístico establecido como usted.
Masato Nakazawa
4

Pensé en mostrar cómo sale un análisis con uno de los conjuntos de datos en el paquete de mediación . En framing, se realiza un experimento donde los sujetos tienen la oportunidad de enviar un mensaje al Congreso sobre inmigración. Sin embargo, a algunos sujetos ( treat=1) se les mostró por primera vez una noticia que retrata a los latinos de manera negativa. Además de la respuesta binaria (tanto si enviaron un mensaje como si no), también medimos empel estado emocional de los sujetos después de aplicar el tratamiento. También hay varias variables demográficas.

Primero, carguemos los paquetes necesarios en R y cambiemos las etiquetas por educcadenas más cortas.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Ahora ajusta un modelo de regresión logística

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Aquí es una muestra de los medios ajustados convencionales, donde se hacen predicciones con las covariables age, incomey emofijan en sus valores medios:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Gráfico de interacción de "medias ajustadas" convencionales, transformado a la escala de respuesta)

Este es un resultado curioso porque los efectos del tratamiento que se muestran son opuestos para las mujeres que para los hombres, y el efecto de la educación no es monótono como cabría esperar.

Nota, sin embargo, emoes una medición posterior al tratamiento. Esto significa que el tratamiento podría haberlo afectado, emoes decir, es una covariable mediadora; y entonces puede no ser significativo comparar predicciones de la variable de respuesta mientras se mantiene emoconstante. En cambio, echemos un vistazo a las predicciones donde emose establece a sus valores predichos dados treaty las variables demográficas.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Gráfico de interacción de predicciones teniendo en cuenta los efectos mediadores)

Este resultado es bastante diferente, lo que sugiere que emojuega un papel mediador fuerte. (El paquete de mediación tiene funciones para estimar la fuerza de estos efectos). Las predicciones anteriores sugieren que, teniendo en cuenta la respuesta emocional, los sujetos masculinos expuestos a las noticias negativas tienen más probabilidades de enviar el mensaje que las mujeres o las que no ven la información. noticia negativa Además, el efecto de educes (casi) monótono.

Gracias nuevamente a @MasatoNakagawa por señalarme este interesante ejemplo y sintonizarme con alguna investigación reciente sobre causalidad.

rvl
fuente
3

Buscar estudios de interacción gen-ambiente GWAS. El análisis estadístico que realizan en esencia es lo que usted ha descrito. La pregunta es si su entorno es importante para un fenotipo (característica observable). Una escuela de pensamiento generalmente ignora toda la información ambiental y dice que su composición genética describe su fenotipo. Esto está en completo contraste con los estudios ecológicos donde la historia es el ambiente lo es todo e ignoran los genes. Dado que ambas partes están tratando de entender el mismo problema, ha habido intentos recientes de fusionar los dos.

Digamos que estamos estudiando el IMC. Tomamos los primeros componentes principales de la matriz genética como los efectos fijos debido a los genes. Ajustamos la educación con un índice 1 para personas con buena educación y 0 para personas con poca educación como efecto fijo. Existe una correlación razonablemente fuerte entre el índice de educación y la riqueza de la comunidad de la que proviene la persona. Entonces uno podría argumentar que las comunidades de bajos ingresos tienen más probabilidades de tener más restaurantes de comida rápida. La comida rápida actúa como un desencadenante obesogénico. "Activa algo en su configuración genética que fomenta la acumulación de grasa" para que aparezca de alguna forma en la composición genética.

Simular tales datos no es un problema. Buscar

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Esto le permite simular datos de GWAS (piense en esto como unidades genéticas) responsables de un síntoma. Si no se indica lo contrario, generará 1000 con el síntoma y 1000 controles. La norma en estas simulaciones que uso es que 9990 SNP no causan el síntoma y 10 SNP sí. Lea las instrucciones sobre cómo se simulan.

La salida será 1 si la persona es obesa y 0 si no lo es. Simule factores educativos (educación universitaria terminada / educación universitaria no terminada) en base a una correlación razonable con los niveles de obesidad.

¡¡¡Espero que esto ayude!!!

Sid
fuente
Gracias. Sin embargo, sigo esperando algunos datos reales ... Además, no estoy seguro de qué es un estudio de GWAS. DUH, acabo de enterarme siguiendo el enlace.
rvl
Aunque le di la recompensa a otro encuestado, aprecio esta sugerencia y tengo la intención de seguirla. Gracias.
rvl
1

Recomiendo leer Freakonomics, encontrar los documentos en los que se basa su trabajo y ver si puede obtener esos datos. Tienen un trabajo realmente interesante sobre conjuntos de datos realmente interesantes, y en algunos casos encuentran formas muy inteligentes de probar hipótesis a pesar de las limitaciones en los datos.

Nir Friedman
fuente