Seguimiento: ¿En una parcela ANOVA mixta entre SE estimada o SE real?

14

Actualmente estoy terminando un trabajo y me encontré con esta pregunta de ayer que me llevó a plantearme la misma pregunta. ¿Es mejor proporcionar a mi gráfico el error estándar real de los datos o el estimado de mi ANOVA?
Como la pregunta de ayer era bastante inespecífica y la mía es bastante específica, pensé que sería apropiado plantear esta pregunta de seguimiento.

Detalles:
He realizado un experimento en algún dominio de psicología cognitiva (razonamiento condicional) comparando dos grupos (instrucciones inductivas y deductivas, es decir, una manipulación entre sujetos) con dos manipulaciones dentro de los sujetos (tipo de problema y contenido del problema, cada uno con dos niveles de factores).

Los resultados se ven así (panel izquierdo con estimaciones de SE de la salida ANOVA, panel derecho con SEs estimados a partir de los datos): texto alternativo
tenga en cuenta que las diferentes líneas representan los dos grupos diferentes (es decir, la manipulación entre sujetos) y el Las manipulaciones de los sujetos se trazan en el eje x (es decir, los niveles de factor 2x2).

En el texto proporciono los resultados respectivos del ANOVA e incluso comparaciones planificadas para la interacción cruzada crítica en el medio. Los SE están ahí para dar al lector alguna pista sobre la variabilidad de los datos. Prefiero SEs sobre desviaciones estándar e intervalos de confianza, ya que no es común trazar SDs y existen problemas graves al comparar ICs dentro y entre sujetos (como lo mismo se aplica seguramente para SEs, no es tan común inferir falsamente diferencias significativas de ellos).

Para repetir mi pregunta: ¿Es mejor trazar los SE estimados a partir del ANOVA o debería trazar los SE estimados a partir de los datos sin procesar?

Actualización:
creo que debería ser un poco más claro en lo que son los SE estimados. La salida ANOVA en SPSS me proporciona los estimated marginal meansSE y CI correspondientes. Esto es lo que se traza en el gráfico de la izquierda. Hasta donde yo entiendo esto, deberían ser los SD de los residuos. Pero, al guardar los residuos, sus SD no están de alguna manera cerca de los SE estimados. Entonces, una pregunta secundaria (potencialmente SPSS específica) sería:
¿Qué son estos SE?


ACTUALIZACIÓN 2: Finalmente logré escribir una función R que debería ser capaz de hacer una trama como finalmente me gustó (ver mi respuesta aceptada) por sí sola. Si alguien tiene tiempo, agradecería mucho que lo vieras. Aquí está.

Henrik
fuente
1
¿Puedes aclarar la variable pronosticada, "endoso medio"? ¿Es esta una escala de 0 a 100 que los participantes usaron para la respuesta, o es una medida de la proporción de ensayos en los que los participantes dijeron "sí, apoyo" (frente a "no, no apoyo"). Si es lo último, entonces es inapropiado analizar estos datos como proporciones. En cambio, debe analizar los datos sin procesar, ensayo por ensayo, utilizando un modelo de efectos mixtos con una función de enlace binomial.
Mike Lawrence el
Lo sentimos, por omitir esto: es una escala de respuesta 0-100.
Henrik
¿Tienes muchos 0 o 100? Si no, consideraría dividir por 100 y realizar una transformación logit para tener en cuenta la restricción del rango en los extremos. Esto es esencialmente lo que se logra mediante la función de enlace binomial cuando tiene datos binarios, pero es útil si solo tiene datos de proporciones como parece tener aquí. Sin embargo, no puede iniciar sesión transformar 1 o 0, por lo que tendría que arrojar cualquier respuesta de 100 o 0.
Mike Lawrence
Vaya, me acabo de dar cuenta de que mi primer comentario no fue 100% correcto. Cada media representada representa la media de dos respuestas en una escala de 0-100. En estos datos hay muchos valores muy cercanos a 100, y algunos directamente en 100, pero en realidad muy poco en 0 y alrededor de 0. ¿Tiene alguna literatura para justificar su recomendación?
Henrik
1
Otras personas de visualización de datos podrían afirmar que los gráficos de barras son un crimen contra la humanidad: Op
Mike Lawrence

Respuestas:

9

Como consecuencia de las respuestas inspiradoras y la discusión de mi pregunta, construí los siguientes gráficos que no se basan en ningún parámetro basado en el modelo, pero presentan los datos subyacentes.

Las razones son que, independientemente de cualquier tipo de error estándar que pueda elegir, el error estándar es un parámetro basado en el modelo. Entonces, ¿por qué no presentar los datos subyacentes y así transmitir más información?

Además, si elijo el SE del ANOVA, surgen dos problemas para mis problemas específicos.
Primero (al menos para mí) de alguna manera no está claro cuáles son los SE de la SPSSSalida ANOVA en realidad ( ver también esta discusión, en los comentarios ). De alguna manera están relacionados con el MSE, pero no sé exactamente cómo.
En segundo lugar, solo son razonables cuando se cumplen los supuestos subyacentes. Sin embargo, como muestran las siguientes gráficas, se violan claramente los supuestos de homogeneidad de varianza.

Las parcelas con diagramas de caja: texto alternativo

Las parcelas con todos los puntos de datos: texto alternativo

Tenga en cuenta que los dos grupos se dislocan un poco a la izquierda o la derecha: deductivo a la izquierda, inductivo a la derecha. Los medios todavía se trazan en negro y los datos o diagramas de caja en el fondo en gris. Las diferencias entre las parcelas a la izquierda y a la derecha son si las medias se dislocan de la misma manera que los puntos o las gráficas de caja o si se presentan centralmente.
Perdón por la calidad no óptima de los gráficos y las etiquetas faltantes del eje x.

La pregunta que queda es cuál de las parcelas anteriores es la que debe elegir ahora. Tengo que pensarlo y preguntarle al otro autor de nuestro artículo. Pero en este momento, prefiero los "puntos con medios dislocados". Y todavía estaría muy interesado en los comentarios.


Actualización: después de un poco de programación, finalmente logré escribir una función R para crear automáticamente una trama como puntos con medios dislocados. ¡Compruébalo (y envíame comentarios) !

Henrik
fuente
Excelente Henrik. También prefiero los "puntos con medios dislocados". Vincular sujetos con segmentos de línea puede parecer demasiado abarrotado. Lástima. En cuanto a la homogeneidad de la varianza, soy un poco más optimista. El problema de la varianza puede no ser tan malo como parece en los datos sin procesar. En su mayor parte, sospecho que compararás los contrastes, dentro de las diferencias grupales. Las variaciones de contraste serán más homogéneas que las variaciones de los datos sin procesar. Si se comparan medidas sin procesar con diferentes variaciones (por ejemplo, inductivo frente a deductivo en el grupo de valores de MP y plausibles), se podría utilizar una prueba no paramétrica como respaldo.
Thylacoleo
1
Me gustan los puntos con significado central. Tiene una representación más verdadera de las líneas. Podrías hacer los puntos más pequeños.
John
8

No encontrará una sola barra de error razonable para fines de inferencia con este tipo de diseño experimental. Este es un viejo problema sin una solución clara.

Parece imposible tener la estimación de SE que tiene aquí. Hay dos tipos principales de error en dicho diseño, el error entre y dentro de S. Suelen ser muy diferentes entre sí y no comparables. Realmente no hay una buena barra de error única para representar sus datos.

Se podría argumentar que las SE o SD sin procesar de los datos son más importantes en un sentido descriptivo que inferencial. O bien informan sobre la calidad de la estimación de tendencia central (SE) o la variabilidad de los datos (SD). Sin embargo, incluso entonces es algo falso porque lo que está probando y midiendo dentro de S no es ese valor bruto sino el efecto de la variable dentro de S. Por lo tanto, informar la variabilidad de los valores brutos no tiene sentido o es engañoso con respecto a los efectos S.

Por lo general, no he aprobado barras de error en tales gráficos y gráficos de efectos adyacentes que indiquen la variabilidad de los efectos. Uno podría tener CI en ese gráfico que sean perfectamente razonables. Ver Masson y Loftus (2003) para ejemplos de los gráficos de efectos. Simplemente elimine sus barras de error (casi completamente inútiles) alrededor de los valores medios que muestran y simplemente use las barras de error de efectos.

Para su estudio, primero respondería los datos como el diseño 2 x 2 x 2 que es (2 paneles 2x2) y luego trazaré inmediatamente junto a un gráfico con intervalos de confianza de los efectos de validez, plausibilidad, instrucción e interacción. Coloque SD y SE para los grupos de instrucción en una tabla o en el texto.

(esperando la respuesta esperada del análisis de efectos mixtos;))

ACTUALIZACIÓN: OK, después de editar está claro que lo único que desea es que se use un SE para mostrar la calidad de la estimación del valor. En ese caso, use los valores de su modelo. Ambos valores se basan en un modelo y no hay un valor "verdadero" en su muestra. Utilice los del modelo que aplicó a sus datos. PERO, asegúrese de advertir a los lectores en el pie de figura que estos SE no tienen ningún valor inferencial para sus efectos o interacciones dentro de S.

ACTUALIZACIÓN2: Mirando hacia atrás a los datos que presentó ... parece sospechosamente porcentajes que no deberían haber sido analizados con ANOVA en primer lugar. Ya sea que sea o no, es una variable que alcanza un máximo de 100 y ha reducido las variaciones en los extremos, por lo que aún no debe analizarse con ANOVA. Me gustan mucho tus parcelas rm.plot. Todavía estaría tentado a hacer trazados separados de las condiciones entre, mostrando los datos sin procesar y dentro de las condiciones que muestran los datos con la variabilidad entre S eliminada.

John
fuente
1
Tengo buenas razones (no estadísticas) para trazar el gráfico tal como está: Usted ve directamente la respuesta a la pregunta de investigación. Además, no estoy buscando barras de error con fines inferenciales, ya que sé acerca de los problemas intermedios. Pero, gracias a señalarme de nuevo a Mason & Loftus, debo haber olvidado que tenían un ejemplo mixto. Tengo que pensar si sirve o no para mi propósito.
Henrik
7

Esto parece un muy buen experimento, ¡así que felicidades!

Estoy de acuerdo con John Christie, es un modelo mixto, pero siempre que pueda especificarse correctamente en un diseño ANOVA (y está equilibrado), no veo por qué no puede formularse así. Dos factores dentro y 1 factor entre sujetos, pero el factor entre sujetos (inductivo / deductivo) interactúa claramente (modifica) los efectos dentro de los sujetos. Supongo que las medias trazadas son del modelo ANOVA (LHS) y, por lo tanto, el modelo está correctamente especificado. Bien hecho, ¡esto no es trivial!

Algunos puntos: 1) El "error" "estimado" vs "real" es una falsa dicotomía. Ambos asumen un modelo subyacente y hacen estimaciones sobre esa base. Si el modelo es razonable, diría que es mejor usar las estimaciones basadas en el modelo (se basan en la combinación de muestras más grandes). Pero como James menciona, los errores difieren dependiendo de la comparación que esté haciendo, por lo que no es posible una representación simple.

2) Preferiría ver diagramas de caja o puntos de datos individuales trazados (si no hay demasiados), tal vez con algunas fluctuaciones laterales, por lo que se pueden distinguir puntos con el mismo valor.

http://en.wikipedia.org/wiki/Box_plot

3) Si debe trazar una estimación del error de la media, nunca trace las DE: son una estimación de la desviación estándar de la muestra y se relacionan con la variabilidad de la población, no una comparación estadística de medias. En general, es preferible trazar intervalos de confianza del 95% en lugar de SE, pero no en este caso (ver 1 y punto de John)

4) El único problema con estos datos que me preocupa es el supuesto de que la variación uniforme probablemente se viola, ya que los datos "MP válidos y plausibles" están claramente restringidos por el límite del 100%, especialmente para las personas deductivas. Estoy pensando en lo importante que es este problema. Pasar a un logit de efectos mixtos (probabilidad binomial) es probablemente la solución ideal, pero es una pregunta difícil. Puede ser mejor dejar que otros respondan.

Tilacoleo
fuente
No estoy muy seguro de entender su recomendación en 1. Como el SE real [es decir, SD / sqrt (n)] y el SE estimado están basados ​​en el modelo, usted recomienda usar el modelo. ¿Cuál? O quieres decir: ve con el modelo más complicado (aquí: ANOVA) porque ambos modelos son razonables.
Henrik
de acuerdo con el punto 1 por completo
John
Hola Henrik, ejemplo simple: compara dos grupos (x1, x2) asumidos ND. Suposiciones y modelos: 1) Muestra independiente, varianza diferente. SE para x1, x2 estimado por separado. Esto es implícitamente el supuesto en muchas presentaciones gráficas. Los SE estimados difieren. 2) Indep., Misma var. Supuesto ANOVA habitual. Estime los SEs usando RSS agrupado. La estimación es más robusta si los supuestos IF son correctos. 3) Cada x1 tiene un par x2. SEs estimadas de x1-x2. Para trazarlos efectivamente, debe trazar la diferencia x1-x2. Una vez que mezcla 1) y 2) tiene un problema real para trazar SE o CI significativos.
Thylacoleo
Henrik, un comentario sobre la trama. ¿Cuántas asignaturas tienes? Recomiendo encarecidamente trazar los datos individualmente y usar segmentos de línea para vincular individuos. (Los medios de enlace de segmentos de línea son engañosos). No es necesario trazar SE. La idea es apoyar visualmente su análisis estadístico. Siempre que la trama no esté demasiado abarrotada, un lector debería ver (por ejemplo) que la mayoría clara de los puntajes sube de MP-valid-implaus a AC-inval-plaus para el grupo Inductive y baja para el grupo Deductive. Ver: jstor.org/stable/2685323?seq=1 Especialmente los paneles inferiores de las figuras 1 y 9.
Thylacoleo
3

Últimamente he estado usando análisis de efectos mixtos, y al intentar desarrollar un enfoque de análisis de datos visuales complementario, he estado usando bootstrapping ( vea mi descripción aquí ), que produce intervalos de confianza que no son susceptibles a los problemas internos. de CI convencionales.

Además, evitaría asignar múltiples variables a la misma estética visual, como lo ha hecho en el gráfico anterior; tiene 3 variables (MP / AC, válidas / inválidas, plausibles / inverosímiles) asignadas al eje x, lo que hace que sea bastante difícil analizar el diseño y los patrones. En su lugar, sugeriría asignar, por ejemplo, MP / AC al eje x, válido / inválido a las columnas de facetas y plausible / inverosímil a las filas de facetas. Echa un vistazo a ggplot2 en R para lograr esto fácilmente, por ejemplo:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)
Mike Lawrence
fuente
Mike, en el lenguaje de paquete R, la función pvals.fnc hace un MCMC para evaluar las hipótesis del modelo lmer, sin embargo, no maneja diseños con pendientes aleatorias, lo que me lleva a sospechar que había alguna razón para hacer MCMC con pendientes aleatorias. de alguna manera problemático, ¿sabes definitivamente que no existe tal problema?
russellpierce
Tengo que admitir que todavía no he descubierto cómo funciona MCMC, que es una de las razones por las que opté por bootstrapping. Si bien el arranque debería ser posible con pendientes aleatorias, como lo insinuó, puede ser que pvals.fnc no le permita hacer CI para modelos con pendientes aleatorias porque esto es inválido por alguna razón, y es posible que esta invalidez se extienda a bootstrapping tales modelos. No creo intuitivamente que haya algún problema con el arranque, pero eso puede ser una función de mi experiencia limitada.
Mike Lawrence