¿Cómo realizo una regresión en datos no normales que permanecen no normales cuando se transforman?

15

Tengo algunos datos (158 casos) que se derivaron de una respuesta de escala Likert a 21 ítems del cuestionario. Realmente quiero / necesito realizar un análisis de regresión para ver qué elementos del cuestionario predicen la respuesta a un elemento general (satisfacción). Las respuestas no se distribuyen normalmente (de acuerdo con las pruebas de KS) y lo he transformado de todas las formas posibles (inversa, log, log10, sqrt, cuadrado) y se niega obstinadamente a distribuirse normalmente. El gráfico residual se ve por todas partes, así que creo que realmente no es legítimo hacer una regresión lineal y pretender que se está comportando normalmente (tampoco es una distribución de Poisson). Creo que esto se debe a que las respuestas están muy agrupadas (la media es 3,91; IC del 95%: 3,88 a 3,95).

Entonces, creo que necesito una nueva forma de transformar mis datos o necesito algún tipo de regresión no paramétrica, pero no sé nada de lo que puedo hacer en SPSS.

Rachel S
fuente
1
Considere una transformación de Box-Cox ( en.wikipedia.org/wiki/… ). Agregar la gráfica residual a su pregunta puede ser útil.
M. Berk
3
Sí, muéstranos tu gráfica de residuos. tal vez también una parcela qq.
David Marx
55
Si sus valores son discretos, especialmente si se aprietan en un extremo, es posible que no haya una transformación que haga que el resultado sea más o menos normal. Pero las pruebas formales de hipótesis de normalidad no responden a la pregunta correcta, y hacen que sus otros procedimientos que se llevan a cabo condicionalmente si rechaza la normalidad ya no tienen sus propiedades nominales.
Glen_b -Reinstala a Monica el
1
La regresión logística de probabilidades proporcionales probablemente sería un enfoque sensato para esta pregunta, pero no sé si está disponible en SPSS.
Ben Bolker
3
No estoy convencido de que la regresión sea el enfoque correcto, y no por las preocupaciones de normalidad. Las respuestas a su cuestionario pueden ni siquiera ser cardinales. Por ejemplo, si le preguntas a un chico "¿Eres feliz?" Y obtienes la respuesta 3, mientras que el mes pasado eran 4, ¿significa esto que es un 25% menos feliz? Lo más probable es que no. Entonces, incluso antes de comenzar a pensar en la normalidad, debes averiguar si incluso estás lidiando con números cardinales y no solo ordinales. Hay formas especiales de tratar con pensamientos como encuestas, y la regresión no es la opción predeterminada. Primero debes mostrar que es apropiado.
Aksakal

Respuestas:

32

No es necesario asumir distribuciones normales para hacer regresión. La regresión de mínimos cuadrados es el estimador AZUL (Mejor estimador lineal, imparcial) independientemente de las distribuciones. Consulte el teorema de Gauss-Markov (por ejemplo, wikipedia). Una distribución normal solo se utiliza para mostrar que el estimador es también el estimador de máxima verosimilitud. Es un malentendido común que OLS de alguna manera asume datos distribuidos normalmente. No es asi. Es mucho más general.

Dave31415
fuente
2
Esto es tan cierto. Para muchas personas a menudo ignoran este HECHO.
Repmat
de acuerdo con @Repmat. No estoy seguro de haber pasado una prueba de normalidad ... pero mis modelos funcionan.
HEITZ el
5

En lugar de confiar en una prueba de normalidad de los residuos, intente evaluar la normalidad con un juicio racional. Las pruebas de normalidad no le dicen que sus datos son normales, solo que no lo son. Pero dado que los datos son una muestra, puede estar seguro de que no son realmente normales sin una prueba. El requisito es aproximadamente normal. La prueba no puede decirte eso. Las pruebas también se vuelven muy sensibles en grandes N o más seriamente, varían en sensibilidad con N. Su N está en ese rango donde la sensibilidad comienza a aumentar. Si ejecuta la siguiente simulación en R varias veces y observa las gráficas, verá que la prueba de normalidad dice "no normal" en una buena cantidad de distribuciones normales.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Con suerte, después de pasar por las simulaciones, puede ver que una prueba de normalidad puede rechazar fácilmente datos de aspecto bastante normal y que los datos de una distribución normal pueden verse bastante lejos de lo normal. Si quieres ver un valor extremo de ese intento n <- 1000. Todas las distribuciones se verán normales, pero aún fallarán la prueba aproximadamente a la misma velocidad que los valores de N más bajos. Y a la inversa, con una baja distribución de N que pasa la prueba puede parecer muy diferente de lo normal.

El gráfico residual estándar en SPSS no es terriblemente útil para evaluar la normalidad. Puede ver valores atípicos, el rango, la bondad de ajuste y quizás incluso el apalancamiento. Pero la normalidad es difícil de derivar de ella. Pruebe la siguiente simulación comparando histogramas, gráficos normales cuantil-cuantil y gráficos residuales.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Es extraordinariamente difícil distinguir la normalidad, o mucho de cualquier cosa, del último argumento y, por lo tanto, no es un diagnóstico terrible de la normalidad.

En resumen, generalmente se recomienda no confiar en las pruebas de normalidad, sino en las gráficas de diagnóstico de los residuos. Sin esos gráficos o los valores reales en su pregunta, es muy difícil para cualquiera darle consejos sólidos sobre lo que necesitan sus datos en términos de análisis o transformación. Para obtener la mejor ayuda, proporcione los datos sin procesar.

John
fuente
Hola, gracias a todos por las sugerencias. Terminé mirando mis residuos como se sugirió y usando la sintaxis anterior con mis variables. ¡Mis datos no eran tan desastrosamente no normales como había pensado, así que usé mis regresiones lineales paramétricas con mucha más confianza y conciencia tranquila! Gracias de nuevo.
Rachel S
4

Primero, la regresión OLS no hace suposiciones sobre los datos, hace suposiciones sobre los errores, según lo estimado por los residuos.

En segundo lugar, transformar los datos para adaptar un modelo es, en mi opinión, el enfoque equivocado. Desea que su modelo se ajuste a su problema, no al revés. En los viejos tiempos, la regresión de OLS era "el único juego en la ciudad" debido a las computadoras lentas, pero eso ya no es cierto.

En tercer lugar, no uso SPSS, así que no puedo evitarlo, pero me sorprendería que no ofreciera algunas formas de regresión no lineal. Algunas posibilidades son la regresión cuantil, los árboles de regresión y la regresión robusta.

Cuarto, estoy un poco preocupado por tu declaración:

Realmente quiero / necesito realizar un análisis de regresión para ver qué elementos del cuestionario predicen la respuesta a un elemento general (satisfacción)

Si los elementos se sumaron o se combinaron de alguna manera para formar la escala general, entonces la regresión no es el enfoque correcto en absoluto. Probablemente quieras un análisis factorial.

Peter Flom - Restablece a Monica
fuente
usted sugirió que puede querer el análisis factorial, pero ¿no se ve afectado también el análisis factorial si los datos no se distribuyen normalmente?
racionalizar el
Puede hacer un análisis factorial en datos que ni siquiera son continuos. Pero esa es una discusión separada, y se ha discutido aquí.
Peter Flom - Restablece a Monica
1
Hola Peter, aprecio tu experiencia y valoro mucho tus consejos. Gracias por tomarte el tiempo de responder. Solo para aclarar, que uno puede hacer FA en artículos no distribuidos normalmente (así como la discusión sobre la normalidad de los residuos). Tenía curiosidad por saber (de alguien con su experiencia) si el OP no entraría en el mismo dilema. Pero, supongo que ya respondiste :)
agilice el
1

En términos generales, existen dos enfoques posibles para su problema: uno bien justificado desde una perspectiva teórica, pero potencialmente imposible de implementar en la práctica, mientras que el otro es más heurístico.

El enfoque teóricamente óptimo (que probablemente no podrá utilizar, desafortunadamente) es calcular una regresión volviendo a la aplicación directa del llamado método de máxima verosimilitud. La conexión entre la estimación de máxima verosimilitud (que es realmente el antecedente y el concepto matemático más fundamental) y la regresión de mínimos cuadrados ordinarios (MCO) (el enfoque habitual, válido para el caso específico pero extremadamente común donde las variables de observación son todas aleatoriamente independientes y normalmente distribuidas ) se describe en muchos libros de texto sobre estadísticas; Una discusión que me gusta especialmente es la sección 7.1 de "Análisis de datos estadísticos" de Glen Cowan. En los casos en que las variables de observación no se distribuyen normalmente,

En este caso, dado que no parece conocer realmente la distribución subyacente que gobierna sus variables de observación (es decir, lo único que se sabe con certeza es que definitivamente no es gaussiano, pero no lo que realmente es), el enfoque anterior ganó ' No funciona para ti. Por lo general, cuando OLS falla o devuelve un resultado loco, es debido a demasiados puntos atípicos. Los puntos atípicos, que son los que realmente rompen la suposición de las variables de observación normalmente distribuidas, contribuyen demasiado al ajuste, porque los puntos en MCO están ponderados por los cuadrados de su desviación de la curva de regresión, y para los valores atípicos, esa desviación es largo. El enfoque heurístico habitual en este caso es desarrollar algún ajuste o modificación a OLS que resulte en que la contribución de los puntos atípicos se desestime o se pondere en relación con el método de línea de base OLS. Colectivamente, estos generalmente se conocen comoregresión robusta . Aquí se puede encontrar una lista que contiene algunos ejemplos de técnicas de estimación sólidas específicas que quizás desee probar .

stachyra
fuente