Tengo algunos datos (158 casos) que se derivaron de una respuesta de escala Likert a 21 ítems del cuestionario. Realmente quiero / necesito realizar un análisis de regresión para ver qué elementos del cuestionario predicen la respuesta a un elemento general (satisfacción). Las respuestas no se distribuyen normalmente (de acuerdo con las pruebas de KS) y lo he transformado de todas las formas posibles (inversa, log, log10, sqrt, cuadrado) y se niega obstinadamente a distribuirse normalmente. El gráfico residual se ve por todas partes, así que creo que realmente no es legítimo hacer una regresión lineal y pretender que se está comportando normalmente (tampoco es una distribución de Poisson). Creo que esto se debe a que las respuestas están muy agrupadas (la media es 3,91; IC del 95%: 3,88 a 3,95).
Entonces, creo que necesito una nueva forma de transformar mis datos o necesito algún tipo de regresión no paramétrica, pero no sé nada de lo que puedo hacer en SPSS.
fuente
Respuestas:
No es necesario asumir distribuciones normales para hacer regresión. La regresión de mínimos cuadrados es el estimador AZUL (Mejor estimador lineal, imparcial) independientemente de las distribuciones. Consulte el teorema de Gauss-Markov (por ejemplo, wikipedia). Una distribución normal solo se utiliza para mostrar que el estimador es también el estimador de máxima verosimilitud. Es un malentendido común que OLS de alguna manera asume datos distribuidos normalmente. No es asi. Es mucho más general.
fuente
En lugar de confiar en una prueba de normalidad de los residuos, intente evaluar la normalidad con un juicio racional. Las pruebas de normalidad no le dicen que sus datos son normales, solo que no lo son. Pero dado que los datos son una muestra, puede estar seguro de que no son realmente normales sin una prueba. El requisito es aproximadamente normal. La prueba no puede decirte eso. Las pruebas también se vuelven muy sensibles en grandes N o más seriamente, varían en sensibilidad con N. Su N está en ese rango donde la sensibilidad comienza a aumentar. Si ejecuta la siguiente simulación en R varias veces y observa las gráficas, verá que la prueba de normalidad dice "no normal" en una buena cantidad de distribuciones normales.
Con suerte, después de pasar por las simulaciones, puede ver que una prueba de normalidad puede rechazar fácilmente datos de aspecto bastante normal y que los datos de una distribución normal pueden verse bastante lejos de lo normal. Si quieres ver un valor extremo de ese intento
n <- 1000
. Todas las distribuciones se verán normales, pero aún fallarán la prueba aproximadamente a la misma velocidad que los valores de N más bajos. Y a la inversa, con una baja distribución de N que pasa la prueba puede parecer muy diferente de lo normal.El gráfico residual estándar en SPSS no es terriblemente útil para evaluar la normalidad. Puede ver valores atípicos, el rango, la bondad de ajuste y quizás incluso el apalancamiento. Pero la normalidad es difícil de derivar de ella. Pruebe la siguiente simulación comparando histogramas, gráficos normales cuantil-cuantil y gráficos residuales.
Es extraordinariamente difícil distinguir la normalidad, o mucho de cualquier cosa, del último argumento y, por lo tanto, no es un diagnóstico terrible de la normalidad.
En resumen, generalmente se recomienda no confiar en las pruebas de normalidad, sino en las gráficas de diagnóstico de los residuos. Sin esos gráficos o los valores reales en su pregunta, es muy difícil para cualquiera darle consejos sólidos sobre lo que necesitan sus datos en términos de análisis o transformación. Para obtener la mejor ayuda, proporcione los datos sin procesar.
fuente
Primero, la regresión OLS no hace suposiciones sobre los datos, hace suposiciones sobre los errores, según lo estimado por los residuos.
En segundo lugar, transformar los datos para adaptar un modelo es, en mi opinión, el enfoque equivocado. Desea que su modelo se ajuste a su problema, no al revés. En los viejos tiempos, la regresión de OLS era "el único juego en la ciudad" debido a las computadoras lentas, pero eso ya no es cierto.
En tercer lugar, no uso SPSS, así que no puedo evitarlo, pero me sorprendería que no ofreciera algunas formas de regresión no lineal. Algunas posibilidades son la regresión cuantil, los árboles de regresión y la regresión robusta.
Cuarto, estoy un poco preocupado por tu declaración:
Si los elementos se sumaron o se combinaron de alguna manera para formar la escala general, entonces la regresión no es el enfoque correcto en absoluto. Probablemente quieras un análisis factorial.
fuente
En términos generales, existen dos enfoques posibles para su problema: uno bien justificado desde una perspectiva teórica, pero potencialmente imposible de implementar en la práctica, mientras que el otro es más heurístico.
El enfoque teóricamente óptimo (que probablemente no podrá utilizar, desafortunadamente) es calcular una regresión volviendo a la aplicación directa del llamado método de máxima verosimilitud. La conexión entre la estimación de máxima verosimilitud (que es realmente el antecedente y el concepto matemático más fundamental) y la regresión de mínimos cuadrados ordinarios (MCO) (el enfoque habitual, válido para el caso específico pero extremadamente común donde las variables de observación son todas aleatoriamente independientes y normalmente distribuidas ) se describe en muchos libros de texto sobre estadísticas; Una discusión que me gusta especialmente es la sección 7.1 de "Análisis de datos estadísticos" de Glen Cowan. En los casos en que las variables de observación no se distribuyen normalmente,
En este caso, dado que no parece conocer realmente la distribución subyacente que gobierna sus variables de observación (es decir, lo único que se sabe con certeza es que definitivamente no es gaussiano, pero no lo que realmente es), el enfoque anterior ganó ' No funciona para ti. Por lo general, cuando OLS falla o devuelve un resultado loco, es debido a demasiados puntos atípicos. Los puntos atípicos, que son los que realmente rompen la suposición de las variables de observación normalmente distribuidas, contribuyen demasiado al ajuste, porque los puntos en MCO están ponderados por los cuadrados de su desviación de la curva de regresión, y para los valores atípicos, esa desviación es largo. El enfoque heurístico habitual en este caso es desarrollar algún ajuste o modificación a OLS que resulte en que la contribución de los puntos atípicos se desestime o se pondere en relación con el método de línea de base OLS. Colectivamente, estos generalmente se conocen comoregresión robusta . Aquí se puede encontrar una lista que contiene algunos ejemplos de técnicas de estimación sólidas específicas que quizás desee probar .
fuente