Desarrollé el paquete ez para R como un medio para ayudar a la gente a hacer la transición de paquetes de estadísticas como SPSS a R. Esto se logra (con suerte) simplificando la especificación de varios sabores de ANOVA y proporcionando una salida similar a SPSS (incluidos los tamaños de los efectos y la suposición pruebas), entre otras características. La ezANOVA()
función sirve principalmente para envolver car::Anova()
, pero la versión actual de ezANOVA()
implementa solo sumas de cuadrados de tipo II, mientras que car::Anova()
permite la especificación de sumas de cuadrados de tipo II o -III. Como posiblemente debería haber esperado, varios usuarios han solicitado que proporcione un argumento enezANOVA()
que permite al usuario solicitar tipo II o tipo III. He sido reticente a hacerlo y describo mi razonamiento a continuación, pero agradecería la opinión de la comunidad sobre mi o cualquier otro razonamiento que tenga relación con el tema.
Razones para no incluir un argumento "SS_type" en ezANOVA()
:
- La diferencia entre los cuadrados de suma de tipo I, II y III solo surge cuando los datos están desequilibrados, en cuyo caso diría que se obtiene más beneficio de mejorar el desequilibrio mediante una recopilación de datos adicional que jugar con el cálculo ANOVA.
- La diferencia entre los tipos II y III se aplica a los efectos de orden inferior que están calificados por los efectos de orden superior, en cuyo caso considero que los efectos de orden inferior no son científicamente interesantes. (Pero vea a continuación la posible complicación del argumento)
- Para esas raras circunstancias en las que (1) y (2) no se aplican (cuando la recopilación de datos adicional es imposible y el investigador tiene un interés científico válido en un efecto principal calificado que actualmente no puedo imaginar), se puede modificar con relativa facilidad la
ezANOVA()
fuente o se empleacar::Anova()
para lograr pruebas de tipo III De esta manera, veo el esfuerzo / comprensión adicional requerido para obtener pruebas de tipo III como un medio por el cual puedo asegurarme de que solo aquellos que realmente saben lo que están haciendo sigan ese camino.
Ahora, el solicitante de tipo III más reciente señaló que el argumento (2) se ve socavado por la consideración de circunstancias donde los efectos de orden superior existentes pero "no significativos" pueden sesgar el cálculo de sumas de cuadrados para efectos de orden inferior. En tales casos, es imaginable que un investigador observe el efecto de orden superior y, al ver que es "no significativo", recurra a la interpretación de los efectos de orden inferior que, sin el conocimiento del investigador, se han visto comprometidos. Mi reacción inicial es que esto no es un problema con sumas de cuadrados, sino con valores p y la tradición de la prueba de hipótesis nulas. Sospecho que una medida de evidencia más explícita, como la razón de probabilidad, podría ser más probable que produzca una imagen menos ambigua de los modelos compatibles con los datos. Sin embargo, no tengo
fuente
Respuestas:
Solo para amplificar: creo que soy el solicitante más reciente.
En comentarios específicos sobre los puntos de Mike:
Es claramente cierto que la diferencia I / II / III solo se aplica con predictores correlacionados (de los cuales los diseños desequilibrados son el ejemplo más común, ciertamente en ANOVA factorial), pero esto me parece un argumento que descarta el análisis de la situación desequilibrada (y, por lo tanto, cualquier debate de Tipo I / II / III). Puede ser imperfecto, pero así es como suceden las cosas (y en muchos contextos los costos de una mayor recopilación de datos superan el problema estadístico, a pesar de las advertencias).
Esto es completamente justo y representa la carne de la mayoría de los argumentos de "II versus III, favoreciendo II" que he encontrado. El mejor resumen que he encontrado es Langsrud (2003) "ANOVA para datos desequilibrados: use sumas de cuadrados de Tipo II en lugar de Tipo III", Estadísticas y Computación 13: 163-167 (Tengo un PDF si el original es difícil de encontrar ) Él argumenta (tomando el caso de dos factores como el ejemplo básico) que si hay una interacción, hay una interacción, por lo que la consideración de los efectos principales generalmente no tiene sentido (un punto obviamente claro), y si no hay interacción, el análisis de Tipo II de Los efectos principales son más potentes que el Tipo III (sin duda), por lo que siempre debe ir con el Tipo II. He visto otros argumentos (por ejemplo, Venables,
Y estoy de acuerdo con esto: si tiene una interacción pero también tiene alguna pregunta sobre el efecto principal, entonces es probable que esté en territorio de bricolaje.
Está claro que hay quienes solo quieren el Tipo III porque SPSS lo hace, o alguna otra referencia a la Autoridad Superior estadística. No estoy totalmente en contra de este punto de vista, si se trata de una elección de muchas personas que se apegan a SPSS (que tengo algunas cosas en contra, a saber, el tiempo, el dinero y las condiciones de caducidad de la licencia) y las SS Tipo III, o muchas personas cambiando a R y Tipo III SS. Sin embargo, este argumento es claramente cojo estadísticamente.
Sin embargo, el argumento que encontré más sustancial a favor del Tipo III es el que Myers & Well (2003, "Diseño de investigación y análisis estadístico", págs. 323, 626-629) y Maxwell & Delaney (2004, hicieron independientemente). Diseño de experimentos y análisis de datos: una perspectiva de comparación de modelo ", págs. 324-328, 332-335). Eso es lo siguiente:
Entonces, mi interpretación (¡y no soy un experto!) Es que hay mucha autoridad estadística superior en ambos lados del argumento; que los argumentos habituales presentados no se refieren a la situación habitual que daría lugar a problemas (esa situación es la común de interpretar los efectos principales con una interacción no significativa); y que hay razones justas para preocuparse por el enfoque de Tipo II en esa situación (y todo se reduce a una cuestión de sobre-liberalismo de poder versus potencial).
Para mí, eso es suficiente para desear la opción Tipo III en ezANOVA, así como el Tipo II, porque (por mi dinero) es una interfaz excelente para los sistemas ANOVA de R. R es, desde mi punto de vista, fácil de usar para los novatos, y el paquete "ez", con ezANOVA y las funciones de trazado de efectos bastante encantadoras, hace que R sea accesible para un público de investigación más general. Algunos de mis pensamientos en progreso (y un truco desagradable para ezANOVA) están en http://www.psychol.cam.ac.uk/statistics/R/anova.html .
¡Estaría interesado en escuchar los pensamientos de todos!
fuente
Advertencia: una respuesta puramente no estadística. Prefiero trabajar con una función (o al menos un paquete) cuando hago el mismo tipo de análisis (por ejemplo, ANOVA). Hasta ahora, lo uso constantemente,
Anova()
ya que prefiero su sintaxis para especificar modelos con medidas repetidas, en comparación conaov()
, y pierdo poco (SS tipo I) con medidas no repetidas.ezANOVA()
es bueno para el beneficio adicional de los tamaños de efecto. Pero lo que no me gusta especialmente es tener que lidiar con 3 funciones diferentes para hacer esencialmente el mismo tipo de análisis, solo porque una de ellas implementa la característica X (pero no Y), y la otra Y (pero no X).Para ANOVA, puedo elegir entre
oneway()
,lm()
,aov()
,Anova()
,ezANOVA()
, y probablemente otros. Al enseñar R, ya es difícil explicar las diferentes opciones, cómo se relacionan entre sí (aov()
es una envoltura paralm()
) y qué función hace qué:oneway()
solo para diseños de factor único pero con opciónvar.equal=FALSE
. No existe tal opción enaov()
y otras, pero esas funciones también para diseños multifactoriales.aov()
, mejor enAnova()
aov()
, no enAnova()
Anova()
, no enaov()
ezANOVA()
, no en otrosSería genial tener que enseñar una sola función con una sintaxis coherente que lo haga todo. Sin el conveniente SS tipo III,
ezANOVA()
no puede ser esa función para mí porque sé que se les pedirá a los estudiantes que los usen en algún momento ("simplemente verifique estos resultados que John Doe obtuvo con SPSS"). Creo que es mejor tener la opción de elegir uno mismo sin tener que aprender otra sintaxis para especificar modelos. La actitud de "Sé lo que es mejor para ti" puede tener sus méritos, pero puede ser sobreprotectora.fuente
multcomp
paquete (que, hasta donde recuerdo, requiereaov
objetos). De lo contrario, estoy de acuerdo totalmente y normalmente usoez
para mi trabajo diario, porque es muy fácil ...aov
elemento que sería genial. Hasta ahora, generalmente soy demasiado flojo para hacer mi propioaov
elemento y usarlo en suezANOVA
lugar con t.tests ...ez
paquete tiene un gran potencial: en psicología, ya se recomienda con bastante frecuencia (véase el libro alemán "R für Einsteiger" de Luhmann). Hacerlo aún más flexible sin duda sería apreciado.Al mundo R no le gusta mucho el Tipo 3 SS.
Una de las referencias generalmente citadas es "Exegeses on Linear Models" de Bill Venables (2000) .
Espero no equivocarlo, pero creo que su argumento principal es que las SS Tipo 3 violan el principio de marginalidad de los modelos lineales y, por lo tanto, no son razonables.
fuente
Este ha sido un debate revelador sobre el tema del tipo II / III para mí. Gracias por el esfuerzo de todos en proporcionar la discusión. Llegué a la idea de promover el tipo II de manera consistente sobre el tipo III, pero tenía un débil conocimiento del argumento: solo me basé en el consejo del libro de regresión de John Fox que recomendaba que las pruebas de tipo III rara vez interpretable (bueno, creo que dijo eso ...).
De todos modos, ezANOVA es realmente útil para permitir el acceso a la funcionalidad R que de otro modo sería imposible para los estudiantes universitarios que enseño en psicología. Proporciono módulos R en línea, uno con ezANOVA para demostrar diseños ANOVA mixtos (aunque parece que la versión previa 3 puede haber tenido errores para esto ... ¡doh!)
Pruébalo aquí:
http://www.wessa.net/rwasp_Mixed%20Model%20ANOVA.wasp
después de que se carga el módulo (~ 10s), encuentre el botón de cálculo (a mitad de la página) y ejecutará ezANOVA y las tablas y diagramas asociados.
Ian
fuente