Actualmente estoy terminando un trabajo y me encontré con esta pregunta de ayer que me llevó a plantearme la misma pregunta. ¿Es mejor proporcionar a mi gráfico el error estándar real de los datos o el estimado de mi ANOVA?
Como la pregunta de ayer era bastante inespecífica y la mía es bastante específica, pensé que sería apropiado plantear esta pregunta de seguimiento.
Detalles:
He realizado un experimento en algún dominio de psicología cognitiva (razonamiento condicional) comparando dos grupos (instrucciones inductivas y deductivas, es decir, una manipulación entre sujetos) con dos manipulaciones dentro de los sujetos (tipo de problema y contenido del problema, cada uno con dos niveles de factores).
Los resultados se ven así (panel izquierdo con estimaciones de SE de la salida ANOVA, panel derecho con SEs estimados a partir de los datos):
tenga en cuenta que las diferentes líneas representan los dos grupos diferentes (es decir, la manipulación entre sujetos) y el Las manipulaciones de los sujetos se trazan en el eje x (es decir, los niveles de factor 2x2).
En el texto proporciono los resultados respectivos del ANOVA e incluso comparaciones planificadas para la interacción cruzada crítica en el medio. Los SE están ahí para dar al lector alguna pista sobre la variabilidad de los datos. Prefiero SEs sobre desviaciones estándar e intervalos de confianza, ya que no es común trazar SDs y existen problemas graves al comparar ICs dentro y entre sujetos (como lo mismo se aplica seguramente para SEs, no es tan común inferir falsamente diferencias significativas de ellos).
Para repetir mi pregunta: ¿Es mejor trazar los SE estimados a partir del ANOVA o debería trazar los SE estimados a partir de los datos sin procesar?
Actualización:
creo que debería ser un poco más claro en lo que son los SE estimados. La salida ANOVA en SPSS me proporciona los estimated marginal means
SE y CI correspondientes. Esto es lo que se traza en el gráfico de la izquierda. Hasta donde yo entiendo esto, deberían ser los SD de los residuos. Pero, al guardar los residuos, sus SD no están de alguna manera cerca de los SE estimados. Entonces, una pregunta secundaria (potencialmente SPSS específica) sería:
¿Qué son estos SE?
ACTUALIZACIÓN 2: Finalmente logré escribir una función R que debería ser capaz de hacer una trama como finalmente me gustó (ver mi respuesta aceptada) por sí sola. Si alguien tiene tiempo, agradecería mucho que lo vieras. Aquí está.
Respuestas:
Como consecuencia de las respuestas inspiradoras y la discusión de mi pregunta, construí los siguientes gráficos que no se basan en ningún parámetro basado en el modelo, pero presentan los datos subyacentes.
Las razones son que, independientemente de cualquier tipo de error estándar que pueda elegir, el error estándar es un parámetro basado en el modelo. Entonces, ¿por qué no presentar los datos subyacentes y así transmitir más información?
Además, si elijo el SE del ANOVA, surgen dos problemas para mis problemas específicos.
Primero (al menos para mí) de alguna manera no está claro cuáles son los SE de la
SPSS
Salida ANOVA en realidad ( ver también esta discusión, en los comentarios ). De alguna manera están relacionados con el MSE, pero no sé exactamente cómo.En segundo lugar, solo son razonables cuando se cumplen los supuestos subyacentes. Sin embargo, como muestran las siguientes gráficas, se violan claramente los supuestos de homogeneidad de varianza.
Las parcelas con diagramas de caja:
Las parcelas con todos los puntos de datos:
Tenga en cuenta que los dos grupos se dislocan un poco a la izquierda o la derecha: deductivo a la izquierda, inductivo a la derecha. Los medios todavía se trazan en negro y los datos o diagramas de caja en el fondo en gris. Las diferencias entre las parcelas a la izquierda y a la derecha son si las medias se dislocan de la misma manera que los puntos o las gráficas de caja o si se presentan centralmente.
Perdón por la calidad no óptima de los gráficos y las etiquetas faltantes del eje x.
La pregunta que queda es cuál de las parcelas anteriores es la que debe elegir ahora. Tengo que pensarlo y preguntarle al otro autor de nuestro artículo. Pero en este momento, prefiero los "puntos con medios dislocados". Y todavía estaría muy interesado en los comentarios.
Actualización: después de un poco de programación, finalmente logré escribir una función R para crear automáticamente una trama como puntos con medios dislocados. ¡Compruébalo (y envíame comentarios) !
fuente
No encontrará una sola barra de error razonable para fines de inferencia con este tipo de diseño experimental. Este es un viejo problema sin una solución clara.
Parece imposible tener la estimación de SE que tiene aquí. Hay dos tipos principales de error en dicho diseño, el error entre y dentro de S. Suelen ser muy diferentes entre sí y no comparables. Realmente no hay una buena barra de error única para representar sus datos.
Se podría argumentar que las SE o SD sin procesar de los datos son más importantes en un sentido descriptivo que inferencial. O bien informan sobre la calidad de la estimación de tendencia central (SE) o la variabilidad de los datos (SD). Sin embargo, incluso entonces es algo falso porque lo que está probando y midiendo dentro de S no es ese valor bruto sino el efecto de la variable dentro de S. Por lo tanto, informar la variabilidad de los valores brutos no tiene sentido o es engañoso con respecto a los efectos S.
Por lo general, no he aprobado barras de error en tales gráficos y gráficos de efectos adyacentes que indiquen la variabilidad de los efectos. Uno podría tener CI en ese gráfico que sean perfectamente razonables. Ver Masson y Loftus (2003) para ejemplos de los gráficos de efectos. Simplemente elimine sus barras de error (casi completamente inútiles) alrededor de los valores medios que muestran y simplemente use las barras de error de efectos.
Para su estudio, primero respondería los datos como el diseño 2 x 2 x 2 que es (2 paneles 2x2) y luego trazaré inmediatamente junto a un gráfico con intervalos de confianza de los efectos de validez, plausibilidad, instrucción e interacción. Coloque SD y SE para los grupos de instrucción en una tabla o en el texto.
(esperando la respuesta esperada del análisis de efectos mixtos;))
ACTUALIZACIÓN: OK, después de editar está claro que lo único que desea es que se use un SE para mostrar la calidad de la estimación del valor. En ese caso, use los valores de su modelo. Ambos valores se basan en un modelo y no hay un valor "verdadero" en su muestra. Utilice los del modelo que aplicó a sus datos. PERO, asegúrese de advertir a los lectores en el pie de figura que estos SE no tienen ningún valor inferencial para sus efectos o interacciones dentro de S.
ACTUALIZACIÓN2: Mirando hacia atrás a los datos que presentó ... parece sospechosamente porcentajes que no deberían haber sido analizados con ANOVA en primer lugar. Ya sea que sea o no, es una variable que alcanza un máximo de 100 y ha reducido las variaciones en los extremos, por lo que aún no debe analizarse con ANOVA. Me gustan mucho tus parcelas rm.plot. Todavía estaría tentado a hacer trazados separados de las condiciones entre, mostrando los datos sin procesar y dentro de las condiciones que muestran los datos con la variabilidad entre S eliminada.
fuente
Esto parece un muy buen experimento, ¡así que felicidades!
Estoy de acuerdo con John Christie, es un modelo mixto, pero siempre que pueda especificarse correctamente en un diseño ANOVA (y está equilibrado), no veo por qué no puede formularse así. Dos factores dentro y 1 factor entre sujetos, pero el factor entre sujetos (inductivo / deductivo) interactúa claramente (modifica) los efectos dentro de los sujetos. Supongo que las medias trazadas son del modelo ANOVA (LHS) y, por lo tanto, el modelo está correctamente especificado. Bien hecho, ¡esto no es trivial!
Algunos puntos: 1) El "error" "estimado" vs "real" es una falsa dicotomía. Ambos asumen un modelo subyacente y hacen estimaciones sobre esa base. Si el modelo es razonable, diría que es mejor usar las estimaciones basadas en el modelo (se basan en la combinación de muestras más grandes). Pero como James menciona, los errores difieren dependiendo de la comparación que esté haciendo, por lo que no es posible una representación simple.
2) Preferiría ver diagramas de caja o puntos de datos individuales trazados (si no hay demasiados), tal vez con algunas fluctuaciones laterales, por lo que se pueden distinguir puntos con el mismo valor.
http://en.wikipedia.org/wiki/Box_plot
3) Si debe trazar una estimación del error de la media, nunca trace las DE: son una estimación de la desviación estándar de la muestra y se relacionan con la variabilidad de la población, no una comparación estadística de medias. En general, es preferible trazar intervalos de confianza del 95% en lugar de SE, pero no en este caso (ver 1 y punto de John)
4) El único problema con estos datos que me preocupa es el supuesto de que la variación uniforme probablemente se viola, ya que los datos "MP válidos y plausibles" están claramente restringidos por el límite del 100%, especialmente para las personas deductivas. Estoy pensando en lo importante que es este problema. Pasar a un logit de efectos mixtos (probabilidad binomial) es probablemente la solución ideal, pero es una pregunta difícil. Puede ser mejor dejar que otros respondan.
fuente
Últimamente he estado usando análisis de efectos mixtos, y al intentar desarrollar un enfoque de análisis de datos visuales complementario, he estado usando bootstrapping ( vea mi descripción aquí ), que produce intervalos de confianza que no son susceptibles a los problemas internos. de CI convencionales.
Además, evitaría asignar múltiples variables a la misma estética visual, como lo ha hecho en el gráfico anterior; tiene 3 variables (MP / AC, válidas / inválidas, plausibles / inverosímiles) asignadas al eje x, lo que hace que sea bastante difícil analizar el diseño y los patrones. En su lugar, sugeriría asignar, por ejemplo, MP / AC al eje x, válido / inválido a las columnas de facetas y plausible / inverosímil a las filas de facetas. Echa un vistazo a ggplot2 en R para lograr esto fácilmente, por ejemplo:
fuente