¿Por qué debería transformarse antes que los predictores?

8

Ambas respuestas en estos hilos, una y dos afirman que debería transformarse antes de aplicar cualquier otra transformación a los predictores. De hecho, el capítulo de Weisberg sobre transformaciones se enfoca más en DV que en predictores, y también lo hace la página del manual powerTransform () del paquete de automóviles R.Y

Sin embargo, sabemos que la normalidad de la distribución DV no es un requisito en OLS para estimar los coeficientes AZUL e, incluso cuando los residuos no están estrictamente distribuidos normalmente, OLS sigue siendo un estimador razonable .

Entonces, ¿por qué el énfasis en transformar ? Hay un par de razones por las que creo que es preferible no transformar : primero, hace que la relación IV sea más difícil de leer y segundo, en predicción, requiere una transformación inversa del valor estimado a la escala original . Dependiendo de lo que estés haciendo, esto puede ser un problema.YYY

Robert Kubrick
fuente
2
Hemos tenido modelos lineales generalizados en nombre desde 1972 y en casos particulares durante mucho más tiempo. Es decir, el uso de funciones de enlace adecuadas puede brindarle todas las ventajas de usar una escala no lineal con todas las ventajas de obtener predicciones en la escala de los datos originales. ¿Por qué esto no es más conocido y practicado? Se necesitan respuestas más largas y se recibirán, pero el análisis de relaciones no lineales con herramientas lineales aplicadas a datos no transformados rara vez funciona bien.
Nick Cox
1
+1 a @Nick. Además, el análisis de las relaciones con casi cualquier procedimiento estándar (es decir, basado en distribuciones casi normales) en circunstancias en las que la distribución del error está muy sesgada, también suele ser complicado e insatisfactorio. Las reexpresiones no lineales en realidad logran tres cosas (y a menudo las hacen todas simultáneamente): simulan distribuciones de residuos, crean homocedasticidad y linealizan relaciones.
whuber

Respuestas:

5

La transformación de X no afecta la forma de la distribución condicional, ni la heterocedasticidad, por lo que la transformación de X solo sirve para tratar las relaciones no lineales. (Si está ajustando modelos aditivos, puede servir para ayudar a eliminar la interacción, pero incluso eso es mejor dejar que se transforme Y)

Un ejemplo donde transformar solo X tiene sentido:
ingrese la descripción de la imagen aquí

Si eso es, la falta de ajuste en la media condicional, es su problema principal, entonces la transformación de X puede tener sentido, pero si está transformando debido a la forma de la Y condicional o debido a la heterocedasticidad, si está resolviendo eso mediante transformación ( no necesariamente es la mejor opción, pero estamos tomando la transformación como algo dado para esta pregunta), entonces debe transformar Y de alguna manera para cambiarla.

Considere, por ejemplo, un modelo donde la varianza condicional es proporcional a la media:

Un ejemplo donde transformar solo X no puede resolver los problemas:
ingrese la descripción de la imagen aquí

Mover valores en el eje x no cambiará el hecho de que la dispersión es mayor para los valores de la derecha que los valores de la izquierda. Si desea corregir esta variación cambiante por transformación, debe reducir los valores Y altos y estirar los valores Y bajos.

Ahora, si está considerando transformar Y, eso cambiará la forma de la relación entre la respuesta y los predictores ... por lo que a menudo esperará transformar X también si desea un modelo lineal (si era lineal antes de la transformación, No será después). A veces (como en el segundo gráfico anterior), una transformación Y = hará que la relación sea más lineal al mismo tiempo, pero no siempre es así.

Si está transformando tanto X como Y, primero desea hacer Y, debido a ese cambio en la forma de la relación entre Y y X, generalmente necesita ver cómo son las relaciones después de la transformación. La posterior transformación de X tendrá como objetivo obtener la linealidad de la relación.

Entonces, en general, si estás transformando algo, a menudo necesitas transformar Y, y si lo estás haciendo, casi siempre quieres hacerlo primero.

Glen_b -Reinstate a Monica
fuente
Si tenemos los residuos tendrán una varianza creciente que retrocederá contra (sin transformar). Por supuesto, la transformación de tiene un impacto en la heterocedasticidad residual. Y=β0 0+β1X5 5+ϵX1X
Robert Kubrick
1
@RobertKubrick no es relativo a su media local. Ver mi publicación editada.
Glen_b -Reinstate Monica
Aún no lo veo. Creo que los cambios de varianza son en realidad debido aϵno Ydistribución condicional Por cierto, la trama que publicaste es para los no transformadosX. Sé que lo hiciste para mostrar la no linealidad de la relación, pero es un poco confuso en el contexto de tu respuesta.
Robert Kubrick
Var(ϵ)=Var(YEl |X). Parece que distingue entre las dos variaciones, pero no son distintas.
Glen_b -Reinstate Monica
1
Solo cambia la media condicional. Ese es el punto en mi respuesta.
Glen_b -Reinstate Monica
2

Transformar Y inicialmente es un enfoque anacrónico para el análisis de datos. Nuestros tatarabuelos hicieron eso, ¿por qué no deberíamos? Muchas razones y su publicación reflejan que las suposiciones gaussianas se basan únicamente en los errores de un modelo, NO la serie Y es acertada.

IrishStat
fuente
44
Estoy de acuerdo con la primera oración más de lo que no estoy de acuerdo; Sin embargo, la respuesta está más que un poco simplificada. Ejemplos como el pH o los decibelios muestran que la medición científica a menudo ya está en una escala transformada, y con buenas razones. Muchos economistas usan rutinariamente el ingreso logarítmico, no el ingreso, como su variable de respuesta y eso encaja con la forma en que la gente común toma muchas decisiones (por ejemplo, en términos de porcentaje de pensamiento). (La historia aquí también es discutible; las transformaciones no eran especialmente comunes antes de mediados del siglo XX.)
Nick Cox
@ Nick, estaba hablando irónicamente sobre mis antepasados. Transformaciones comenzaron a aparecer en los años cincuenta a mediados .....
IrishStat
3
Lengua en la mejilla y exageración colorida que compro fácilmente, pero sin embargo, las declaraciones precisas deben ser correctas. La literatura sobre lognormal comenzó en el siglo XIX, al igual que el papel cuadriculado logarítmico. Las transformaciones fueron objeto de varias revisiones antes de la década de 1950, por ejemplo, el artículo de Bartlett en Biometrics 1947, por lo que la literatura es más antigua. Eso es consistente, creo, con mi afirmación anterior acerca de que son "no especialmente comunes".
Nick Cox
3
@Nick Scientists estaban usando transformaciones mucho antes de 1947, porque son muy naturales. Un buen ejemplo es la derivación de Rydberg de su fórmula para el espectro de hidrógeno , obtenida en la década de 1880 al elegir transformaciones no lineales adecuadas de las variables. Uno podría apelar al trabajo de Fechner en psicofísica c. 1860 también. Esta práctica es tan efectiva e importante en las ciencias que no se puede tomar en serio la primera afirmación de esta respuesta que es "anacrónica".
whuber
3
@whuber Estamos de acuerdo, en esencia. Existe un espectro (juego de palabras) de los usos de las transformaciones en las ciencias físicas y de otro tipo, que a menudo surgen como un medio o como consecuencia del descubrimiento de relaciones no lineales, al uso deliberado de transformaciones de datos sin procesar según lo recomendado por (algunos) estadísticos. No me gustaría dibujar una línea entre los dos, ya que sería inútil y no sería útil.
Nick Cox