Mi situacion es:
Tengo 1 variable dependiente continua y 1 variable predictiva continua que he transformado logarítmicamente para normalizar sus residuos para una regresión lineal simple.
Agradecería cualquier ayuda sobre cómo puedo relacionar estas variables transformadas con su contexto original.
Quiero usar una regresión lineal para predecir el número de días que los alumnos faltaron a la escuela en 2011 en función del número de días que perdieron en 2010. La mayoría de los alumnos pierden 0 días o solo unos pocos días, los datos están sesgados positivamente a la izquierda. Por lo tanto, existe una necesidad de transformación para usar la regresión lineal.
Utilicé log10 (var + 1) para ambas variables (utilicé +1 para alumnos que habían perdido 0 días de escuela). Estoy usando la regresión porque quiero agregar factores categóricos: género / etnia, etc.
Mi problema es:
La audiencia a la que quiero retroalimentar no entendería log10 (y) = log (constante) + log (var2) x (y, francamente, yo tampoco).
Mis preguntas son:
a) ¿Hay mejores formas de interpretar las variables transformadas en la regresión? Es decir, por cada 1 día perdido en 2010, se perderán 2 días en 2011, en lugar de por 1 cambio de unidad de registro en 2010, ¿habrá x cambio de unidades de registro en 2011?
b) Específicamente, dado el pasaje citado de esta fuente de la siguiente manera:
"Esta es la estimación de regresión binomial negativa para un aumento de una unidad en el puntaje de la prueba estandarizada de matemáticas, dado que las otras variables se mantienen constantes en el modelo. Si un estudiante aumentara su puntaje de prueba de matemáticas en un punto, la diferencia en los registros de se espera que los recuentos esperados disminuyan en 0.0016 unidades, mientras se mantienen constantes las otras variables en el modelo ".
Me gustaría saber:
- ¿Este pasaje dice que por cada unidad de aumento en el puntaje de la
UNTRANSFORMED
variable matemática conduce a una disminución de 0.0016 de la constante (a), entonces si elUNTRANSFORMED
puntaje de matemática aumenta en dos puntos, resto 0.0016 * 2 de la constante a? - ¿Significa eso que obtengo la media geométrica usando exponencial (a)) y exponencial (a + beta * 2) y que necesito calcular la diferencia porcentual entre estos dos para decir qué efecto tiene la (s) variable (s) predictiva (s) / tener en la variable dependiente?
- ¿O me he equivocado totalmente?
Estoy usando SPSS v20. Perdón por enmarcar esto en una larga pregunta.
R
tiene paquetes para modelos con cero inflado; busque en este sitio .)Respuestas:
Creo que el punto más importante se sugiere en el comentario de @ whuber. Todo su enfoque es infundado porque al tomar logaritmos efectivamente está eliminando del conjunto de datos a cualquier estudiante con cero días faltantes en 2010 o 2011. Parece que hay suficientes personas como para ser un problema, y estoy seguro de que sus resultados serán estar equivocado según el enfoque que esté tomando.
En su lugar, debe ajustar un modelo lineal generalizado con una respuesta de Poisson. SPSS no puede hacer esto a menos que haya pagado por el módulo apropiado, por lo que le sugiero que actualice a R.
Aún tendrá el problema de interpretar los coeficientes, pero esto es secundario a la importancia de tener un modelo que sea básicamente apropiado.
fuente
Estoy de acuerdo con otros encuestados, especialmente con respecto a la forma del modelo. Si entiendo la motivación de su pregunta, sin embargo, que se dirige al público en general y quiere transmitir el sustantivo(teórico) significado de su análisis. Para este propósito, comparo los valores pronosticados (por ejemplo, días estimados perdidos) en varios "escenarios". Según el modelo que elija, puede comparar el número o el valor esperado de la variable dependiente cuando los predictores están en algunos valores fijos específicos (sus medianas o cero, por ejemplo) y luego mostrar cómo un cambio "significativo" en los predictores afecta las predicciones Por supuesto, debe transformar los datos nuevamente en la escala original y comprensible con la que comienza. Digo "cambio significativo" porque a menudo el "cambio estándar de una unidad en X" no transmite la importancia o falta real de una variable independiente. Con los "datos de asistencia", no estoy seguro de cuál sería ese cambio. (Si un estudiante no perdió ningún día en 2010 y un día en 2011, No estoy seguro de que aprendamos algo. Pero no lo se.
fuente
Si tenemos el modelo , entonces podríamos esperar que un aumento de 1 unidad de produzca un aumento de unidad ab en Y. En cambio, si tenemos , entonces esperamos un aumento del 1 por ciento en para producir un aumento de la unidad en Y.X Y = b log ( X ) X b log ( 1.01 )Y=bX X Y=blog(X) X blog(1.01)
Editar: whoops, no se dio cuenta de que su variable dependiente también se transformó en el registro. Aquí hay un enlace con un buen ejemplo que describe las tres situaciones:
1) solo Y se transforma 2) solo los predictores se transforman 3) tanto Y como los predictores se transforman
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
fuente
A menudo uso la transformación logarítmica, pero tiendo a usar covariables binarias porque conduce a una interpretación natural en términos de multiplicadores. Suponga que desea predecir dado, digamos 3 covariables binarias , y tomando valores en . Ahora, en lugar de presentar:X 1 X 2 X 3 { 0 , 1 }Y X1 X2 X3 {0,1}
simplemente puedes mostrar:
donde: , y son multiplicadores. Es decir, cada vez que la covariable es igual a 1, la predicción se multiplica por . Por ejemplo, si , y , su predicción es:M1=eW1 M2=eW2 M3=eW3 Xi Mi X1=0 X2=1 X3=1
Estoy usando porque esta no es exactamente la predicción de la media de : el parámetro medio de una distribución log-normal no es en general la media de la variable aleatoria (como es el caso de la regresión lineal clásica sin el transformación logarítmica). No tengo una referencia precisa aquí, pero creo que este es un razonamiento directo.≊ Y
fuente