¿Puedo hacer en la prueba si tengo poca o ninguna variación en un grupo?

8

Tengo 4 grupos que estoy comparando con un criterio. En uno de mis grupos, todos los participantes respondieron lo mismo en cada ítem, es decir, no hay variación.

¿Cómo trato eso en mi ANOVA?

Además, ¿qué hago con eso en la prueba que estoy ejecutando comparándolo con un criterio ya que no obtendré ningún término de error? Si incluyo a un participante que no estoy seguro de incluir en mi estudiante, la variación no es totalmente uniforme con 1 observación diferente de 37, pero cuando la ejecuto, no es significativa porque la variación es demasiado pequeña.

Entiendo que no hay nada que pueda hacer computacionalmente. Me pregunto cómo se maneja conceptualmente.

Emily
fuente

Respuestas:

2

Si supone que las varianzas son las mismas para cada grupo, puede obtener una estimación de varianza agrupada y trabajar con ella en la construcción de pruebas t para las diferencias por pares. Pero eso no sería una buena suposición a menos que todas las variaciones fueran pequeñas y la que tuviera todos los valores idénticos fuera solo una casualidad. Si no puede hacer eso, entonces no tiene forma de estimar la varianza para ese grupo y no puede hacer el análisis de varianza o cualquier prueba t que involucre a ese grupo como uno de los pares que se comparan.

Michael R. Chernick
fuente
(+1) Me recuerda una respuesta de G Jay Kerns en este sitio a otra pregunta que termina teniendo una distribución de datos como la que describe el OP.
Andy W
6

Aquí hay algunas observaciones para agregar a las respuestas existentes. Creo que es importante pensar conceptualmente por qué estás obteniendo un grupo con variación cero.

Efectos de piso y techo

En mi experiencia en psicología, este ejemplo aparece con mayor frecuencia cuando hay un piso o techo en una escala, y tienes algunos grupos que se encuentran en el medio de la escala y otros que caen en el extremo. Por ejemplo, si su variable dependiente es la proporción de ítems correctos de cinco preguntas, entonces puede encontrar que su grupo "inteligente" se vuelve 100% correcto o que su "grupo clínico" obtiene 0% correcto.

En este caso:

  • Es posible que desee recurrir a las pruebas no paramétricas ordinales si no tiene varianza en uno de sus grupos.
  • Aunque puede que no lo ayude después del hecho, es posible que también desee pensar conceptualmente sobre si una medida diferente que no tuvo efectos de piso o techo hubiera sido mejor usar. En algunos casos no importará. Por ejemplo, el punto del análisis puede haber sido mostrar que un grupo podría realizar una tarea y otro no. En otros casos, es posible que desee modelar diferencias individuales en todos los grupos, en cuyo caso es posible que necesite una escala que no sufra efectos de piso o techo.

Grupo muy pequeño

Otro caso en el que no puede obtener variación del grupo es donde tiene un grupo con un tamaño de muestra realmente pequeño (por ejemplo, n<5), generalmente en combinación con una variable dependiente que es bastante discreta.

En este caso, puede estar más inclinado a poner la falta de variación al azar y proceder con una prueba t estándar.

Jeromy Anglim
fuente
3

Hace un par de años, me habría suscrito completamente a la respuesta de @Michael Chernick.

Sin embargo, me di cuenta recientemente de que algunas implementaciones de la prueba t son extremadamente robustas para la desigualdad de las variaciones. En particular, en R la función t.testtiene un parámetro predeterminado var.equal=FALSE, lo que significa que no se basa simplemente en una estimación agrupada de la varianza. En cambio, utiliza los grados de libertad aproximados de Welch-Satterthwaite , que compensa las variaciones desiguales.

Veamos un ejemplo.

set.seed(123)
x <- rnorm(100)
y <- rnorm(100, sd=0.00001)
# x and y have 0 mean, but very different variance.
t.test(x,y)
Welch Two Sample t-test

data:  x and y 
t = 0.9904, df = 99, p-value = 0.3244
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.09071549  0.27152946 
sample estimates:
    mean of x     mean of y 
 9.040591e-02 -1.075468e-06

Puede ver que R afirma realizar la prueba t de Welch y no la prueba t de Student . Aquí se afirma que el grado de libertad es 99, a pesar de que cada muestra tiene un tamaño de 100, por lo que aquí la función esencialmente prueba la primera muestra contra el valor fijo 0.

Puede verificar usted mismo que esta implementación proporciona valores p correctos ( es decir, uniformes) para dos muestras con variaciones muy diferentes.

Ahora, esto fue para una prueba t de dos muestras. Mi propia experiencia con ANOVA es que es mucho más sensible a la desigualdad de las variaciones. En ese caso, estoy totalmente de acuerdo con @Michael Chernick.

gui11aume
fuente
Si ese enfoque es esencialmente lo mismo que comparar el primer grupo contra cero, ¿por qué no simplemente restar el valor observado del grupo invariable de los otros valores y compararlos con cero? En otras palabras, simplemente haga una prueba t de una muestra utilizando la única estimación de variabilidad disponible. Eso parecería conceptualmente más simple que usar la prueba Welch-Scatterthwaite.
Michael Lew
Absolutamente correcto @Michael Lew. Mi ejemplo no fue muy didáctico porque este es un caso extremo. La prueba t de Welch viene en casos límite, como cuando la muestra tiene una variación 4 veces menor. Simplemente quería destacar que el enfoque es consistente en el límite.
gui11aume
3

Bajo ciertas circunstancias, puede ser posible calcular un límite superior sobre cuál podría ser la varianza para la población, y luego usar esa varianza en algo como una prueba t con varianzas desiguales.

Por ejemplo, si preguntó a 10 estudiantes elegidos al azar en una escuela de 100 estudiantes cuál es su día favorito en marzo y todos respondieron el 15, sabrá que la mayor variación que podría tener para la población estudiantil es la variación de 10 valores de 15, 45 valores de 1 y 45 valores de 31, que es 204.6364.

Una variación mayor debería dificultar la detección de una diferencia, de modo que una prueba t que use este límite superior en la variación sería conservadora para detectar una diferencia. Eso significa que estaría seguro de una diferencia significativa resultante de una prueba t usando el límite superior de la varianza, pero si no encuentra una diferencia significativa, no sabría mucho, porque una diferencia significativa aún sería consistente con Algunas de las variaciones más pequeñas que son posibles.

Por supuesto, puede que no haya muchas situaciones en las que realmente puedas resolver esto, pero podría ser posible.

Jdub
fuente