Hace unos meses hice una pasantía en esta organización; y, como regalo de despedida, decidí pasar la última semana, con el tiempo libre que tenía, para investigar los factores que afectan los salarios de los maestros. Un problema con el que me encontré con los salarios de los maestros fue que la distribución para el estado dado era sesgada. Tuve muchas observaciones que se aferraron al extremo inferior del espectro salarial. Intenté resolver esto incorporando un Índice de Salarios Comparables en mi variable dependiente (salarios de los maestros), pero los resultados que encontré estaban completamente desactualizados para el alcance de mi proyecto. En cambio, decidí registrar mi variable dependiente. Esto fue bueno porque ahora mi salario tenía una distribución normal y se veía perfecto en el histograma. Cuando comencé a probar, llegué al punto donde me quedaba una última variable independiente, las declaraciones de impuestos a la propiedad. El problema con mis salarios normativos también fue evidente en mis observaciones sobre la declaración de impuestos sobre la propiedad. Tuve un gran sesgo de los números de declaración de impuestos sobre la propiedad hacia el extremo inferior del espectro. Entonces, también registré esta variable y todavía pasó la prueba de hipótesis nula muy bien.
No estoy seguro de si esto es exactamente correcto, pero al comparar el cambio de una variable registrada con otra variable registrada me dio la elasticidad. Suponiendo que esto es correcto, mi ecuación de regresión (algo así como LogWages = B0 + B1 (LogPropertyTaxReturns)) muestra la elasticidad entre las dos variables. ¿Es esto significativo? Si mi objetivo era ver qué variable afectaba más los salarios de los docentes en cualquier condado de mi estado, ¿es útil mostrar la elasticidad entre las dos variables? Queremos aumentar los condados con los salarios docentes más bajos para aumentar sus niveles de vida, pero me temo que he extrapolado tan lejos de las observaciones reales que mi ecuación de regresión concluyente no tiene sentido.
Editar: Uno de mis mayores temores es que debería haber usado un modelo no lineal para mostrar la relación. Siento que obligar a la variable dependiente e independiente a cooperar en esta regresión lineal es engañoso de alguna manera.
fuente
Respuestas:
La respuesta a la pregunta es sí, es realmente significativa (al menos matemáticamente hablando). Si estimas la ecuación lineal
En términos generales, las transformaciones lineales solo afectan la interpretación dada a los coeficientes, pero la validez de la regresión misma (en términos económicos generales) viene dada por los supuestos del modelo y los fenómenos económicos que se analizan.
fuente
Supongo que su pregunta es si usar o no esta forma funcional tiene sentido en su modelo particular. Es difícil de decir. Como con cualquier regresión lineal ordinaria, está asumiendo acerca de la forma funcional. Al menos puede pensarlo como una aproximación lineal que tiene más sentido después de la transformación log-log.
fuente
Tenga en cuenta que, como representación de la decisión subyacente "verdadera", hacer todas las transformaciones que resultan en una regresión lineal son incorrectas. De hecho, todos los modelos van a estar equivocados. La pregunta es realmente: ¿ es útil para su problema la estadística que obtuvo de este modelo ? Si su estudio se centra en determinar un modelo subyacente, ¿es este un momento que le dice algo interesante sobre ese modelo más profundo? Si está más orientado a las políticas, ¿una aproximación con elasticidad constante lo acercará lo suficiente a la verdad de que las mejoras adicionales son irrelevantes? Cualquiera de las dos preguntas es extremadamente difícil de responder como observador externo. Pero si la única alternativa que le preocupa es la elasticidad variable, el tipo de prueba que describí anteriormente puede darle tranquilidad.
fuente
Las otras respuestas cubrieron los problemas principales, me gustaría responder a la "Edición" realizada por el OP en la pregunta:
Tendemos a olvidar que "transformar una variable" conduce a una nueva variable , cuyo comportamiento puede ser totalmente diferente al "original". El ejemplo más fácil es comparar las gráficas de una variable y su cuadrado.
Entonces, al considerar los logaritmos naturales de sus variables, ya no examina la relación entre ellas , sino una relación entre alguna función de ellas.
Es una suerte que el concepto matemático de "logaritmo" pueda vincularse con el concepto de "elasticidad", que describe una relación entre los cambios porcentuales, que es algo que entendemos desde un punto de vista económico y que podemos interpretar y usar de manera significativa.
Si se puede decir razonablemente que las variables exhiben una "relación lineal en logaritmos", significa que sus niveles (es decir, las variables reales) tienen una relación no lineal:
Entonces, ¿por qué no estimar un modelo no lineal?
En principio (matemático), no hay razón para no hacerlo. Algunos problemas prácticos son:
1) Hay demasiadas formas de relaciones no lineales, solo hay una relación lineal (estructuralmente hablando). Se trata de "costos de búsqueda" para la especificación más adecuada.
2) La relación no lineal obtenida puede no tener una explicación económica clara . ¿Por qué esto es un problema? Porque, no estamos descubriendo "leyes de la naturaleza" aquí, sin cambios a través del tiempo y el espacio. Nos estamos aproximando a un fenómeno social. Tener una aproximación que, además, solo puede presentarse como una fórmula matemática, sin un razonamiento económico que lo valide y respalde, hace que el resultado sea muy delgado.
3) La estimación no lineal es menos estable, en lo que respecta a la mecánica del algoritmo de estimación.
fuente
Yo diría que su modelo en este caso no parece significativo si su " objetivo era ver qué variable afectaba más los salarios de los maestros en cualquier condado de mi estado ". Acaba de mostrar cuál es la correlación entre (los registros de) salarios y las declaraciones de impuestos sobre la propiedad. Al menos deberías usar una regresión múltiple.
Por supuesto, podría continuar y desarrollar una estrategia de identificación adecuada y completa con las herramientas metodológicas apropiadas para estimar la intensidad de cada efecto causal y encontrar el mayor ... En realidad, lo más probable es que no pueda hacerlo dada la complejidad de tal tarea. Es solo un continuo de refinamientos y está cerca del modelo más crudo posible utilizado para explicar los salarios, muy lejos de lo que consideraría las aproximaciones aceptables de una respuesta a la pregunta implícita en su objetivo. Debes tratar de obtener la ayuda de un econométrico.
fuente