He analizado muchos conjuntos de datos R, publicaciones en DASL y en otros lugares, y no encuentro muchos buenos ejemplos de conjuntos de datos interesantes que ilustren el análisis de covarianza para datos experimentales. Existen numerosos conjuntos de datos "de juguete" con datos artificiales en los libros de texto de estadísticas.
Me gustaría tener un ejemplo donde:
- Los datos son reales, con una historia interesante.
- Hay al menos un factor de tratamiento y dos covariables.
- Al menos una covariable se ve afectada por uno o más de los factores de tratamiento, y uno no se ve afectado por los tratamientos.
- Experimental en lugar de observacional, preferiblemente
Antecedentes
Mi verdadero objetivo es encontrar un buen ejemplo para poner en la viñeta de mi paquete R. Pero un objetivo más amplio es que las personas necesitan ver buenos ejemplos para ilustrar algunas preocupaciones importantes en el análisis de covarianza. Considere el siguiente escenario inventado (y comprenda que mi conocimiento de la agricultura es superficial en el mejor de los casos).
- Hacemos un experimento donde los fertilizantes se asignan al azar a las parcelas, y se siembra un cultivo. Después de un período de crecimiento adecuado, cosechamos el cultivo y medimos algunas características de calidad, esa es la variable de respuesta. Pero también registramos la precipitación total durante el período de crecimiento y la acidez del suelo en el momento de la cosecha, y, por supuesto, qué fertilizante se usó. Así tenemos dos covariables y un tratamiento.
La forma habitual de analizar los datos resultantes sería ajustar un modelo lineal con el tratamiento como factor y los efectos aditivos para las covariables. Luego, para resumir los resultados, se calculan los "medios ajustados" (también conocidos como medios de mínimos cuadrados), que son predicciones del modelo para cada fertilizante, con la precipitación promedio y la acidez promedio del suelo. Esto pone todo en pie de igualdad, porque cuando comparamos estos resultados, mantenemos constantes las precipitaciones y la acidez.
Pero probablemente esto sea algo incorrecto, porque el fertilizante probablemente afecta la acidez del suelo y la respuesta. Esto hace que los medios ajustados sean engañosos, porque el efecto del tratamiento incluye su efecto sobre la acidez. Una forma de manejar esto sería eliminar la acidez del modelo, luego los medios ajustados por la lluvia proporcionarían una comparación justa. Pero si la acidez es importante, esta equidad tiene un gran costo, en el aumento de la variación residual.
Hay formas de evitar esto utilizando una versión ajustada de la acidez en el modelo en lugar de sus valores originales. La próxima actualización de mi paquete R lsmeans lo hará francamente fácil. Pero quiero tener un buen ejemplo para ilustrarlo. Estaré muy agradecido y debidamente reconoceré a cualquiera que pueda señalarme algunos buenos conjuntos de datos ilustrativos.
Respuestas:
Es posible que desee consultar el
mediation
paquete R. Incluye datos experimentales comojobs
yframing
donde la variable de tratamiento afecta tanto a una variable de respuesta como a covariables (es decir, mediadores del efecto del tratamiento), junto con covariables no afectadas por el tratamiento.Investigué la literatura sobre mediación porque pensé que usted describió exactamente un estudio de mediación: el efecto del fertilizante en la calidad del cultivo está mediado por su efecto sobre la acidez del suelo. Incluso si los conjuntos de datos en el
mediation
paquete no lo satisfacen, puede encontrar uno si busca en la literatura de mediación.fuente
framing
datos, las gráficas de interacción de los medios LS (basados en un modelo logístico) cuando la variable mediadora se mantienen fijas son dramáticamente diferentes de aquellas en las que se establece en valores pronosticados por tratamientos y otras covariables, lo que muestra cuán importante es tomar la mediación. variable en cuenta.Pensé en mostrar cómo sale un análisis con uno de los conjuntos de datos en el paquete de mediación . En
framing
, se realiza un experimento donde los sujetos tienen la oportunidad de enviar un mensaje al Congreso sobre inmigración. Sin embargo, a algunos sujetos (treat=1
) se les mostró por primera vez una noticia que retrata a los latinos de manera negativa. Además de la respuesta binaria (tanto si enviaron un mensaje como si no), también medimosemp
el estado emocional de los sujetos después de aplicar el tratamiento. También hay varias variables demográficas.Primero, carguemos los paquetes necesarios en R y cambiemos las etiquetas por
educ
cadenas más cortas.Ahora ajusta un modelo de regresión logística
Aquí es una muestra de los medios ajustados convencionales, donde se hacen predicciones con las covariables
age
,income
yemo
fijan en sus valores medios:Este es un resultado curioso porque los efectos del tratamiento que se muestran son opuestos para las mujeres que para los hombres, y el efecto de la educación no es monótono como cabría esperar.
Nota, sin embargo,
emo
es una medición posterior al tratamiento. Esto significa que el tratamiento podría haberlo afectado,emo
es decir, es una covariable mediadora; y entonces puede no ser significativo comparar predicciones de la variable de respuesta mientras se mantieneemo
constante. En cambio, echemos un vistazo a las predicciones dondeemo
se establece a sus valores predichos dadostreat
y las variables demográficas.Este resultado es bastante diferente, lo que sugiere que
emo
juega un papel mediador fuerte. (El paquete de mediación tiene funciones para estimar la fuerza de estos efectos). Las predicciones anteriores sugieren que, teniendo en cuenta la respuesta emocional, los sujetos masculinos expuestos a las noticias negativas tienen más probabilidades de enviar el mensaje que las mujeres o las que no ven la información. noticia negativa Además, el efecto deeduc
es (casi) monótono.Gracias nuevamente a @MasatoNakagawa por señalarme este interesante ejemplo y sintonizarme con alguna investigación reciente sobre causalidad.
fuente
Buscar estudios de interacción gen-ambiente GWAS. El análisis estadístico que realizan en esencia es lo que usted ha descrito. La pregunta es si su entorno es importante para un fenotipo (característica observable). Una escuela de pensamiento generalmente ignora toda la información ambiental y dice que su composición genética describe su fenotipo. Esto está en completo contraste con los estudios ecológicos donde la historia es el ambiente lo es todo e ignoran los genes. Dado que ambas partes están tratando de entender el mismo problema, ha habido intentos recientes de fusionar los dos.
Digamos que estamos estudiando el IMC. Tomamos los primeros componentes principales de la matriz genética como los efectos fijos debido a los genes. Ajustamos la educación con un índice 1 para personas con buena educación y 0 para personas con poca educación como efecto fijo. Existe una correlación razonablemente fuerte entre el índice de educación y la riqueza de la comunidad de la que proviene la persona. Entonces uno podría argumentar que las comunidades de bajos ingresos tienen más probabilidades de tener más restaurantes de comida rápida. La comida rápida actúa como un desencadenante obesogénico. "Activa algo en su configuración genética que fomenta la acumulación de grasa" para que aparezca de alguna forma en la composición genética.
Simular tales datos no es un problema. Buscar
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Esto le permite simular datos de GWAS (piense en esto como unidades genéticas) responsables de un síntoma. Si no se indica lo contrario, generará 1000 con el síntoma y 1000 controles. La norma en estas simulaciones que uso es que 9990 SNP no causan el síntoma y 10 SNP sí. Lea las instrucciones sobre cómo se simulan.
La salida será 1 si la persona es obesa y 0 si no lo es. Simule factores educativos (educación universitaria terminada / educación universitaria no terminada) en base a una correlación razonable con los niveles de obesidad.
¡¡¡Espero que esto ayude!!!
fuente
Recomiendo leer Freakonomics, encontrar los documentos en los que se basa su trabajo y ver si puede obtener esos datos. Tienen un trabajo realmente interesante sobre conjuntos de datos realmente interesantes, y en algunos casos encuentran formas muy inteligentes de probar hipótesis a pesar de las limitaciones en los datos.
fuente