Ahora, entiendo que esto depende de las distribuciones y la normalidad en los predictores
la transformación de registros hace que los datos sean más uniformes
Como afirmación general, esto es falso, pero incluso si fuera el caso, ¿por qué sería importante la uniformidad ?
Considere, por ejemplo,
i) un predictor binario que toma solo los valores 1 y 2. Tomar registros lo dejaría como un predictor binario que toma solo los valores 0 y log 2. Realmente no afecta nada excepto la intercepción y la escala de los términos que involucran a este predictor. Incluso el valor p del predictor no cambiaría, al igual que los valores ajustados.
ii) considere un predictor de inclinación hacia la izquierda. Ahora toma troncos. Por lo general, se vuelve más sesgada a la izquierda.
iii) los datos uniformes quedan sesgados
(Sin embargo, a menudo no siempre es un cambio tan extremo)
menos afectado por los valores atípicos
Como afirmación general, esto es falso. Considere valores atípicos bajos en un predictor.
Pensé en el registro transformando todas mis variables continuas que no son de interés principal
¿A que final? Si originalmente las relaciones fueran lineales, ya no lo serían.
Y si ya estuvieran curvados, hacer esto automáticamente podría empeorarlos (más curvarlos), no mejorarlos.
-
Tomar registros de un predictor (ya sea de interés primario o no) a veces puede ser adecuado, pero no siempre es así.
En mi opinión, no tiene sentido realizar la transformación de registro (y cualquier transformación de datos , por el caso) solo por el hecho de hacerlo. Como se mencionó en las respuestas anteriores, dependiendo de los datos, algunas transformaciones serían inválidas o inútiles . Le recomiendo que lea el siguiente excelente material introductorio de la OMI sobre transformación de datos : http://fmwww.bc.edu/repec/bocode/t/transint.html . Tenga en cuenta que los ejemplos de código en este documento están escritos en lenguaje Stata , pero de lo contrario el documento es lo suficientemente genérico y, por lo tanto, útil para usuarios que no son Stata también.
En este artículo se pueden encontrar algunas técnicas y herramientas simples para tratar problemas comunes relacionados con los datos , como la falta de normalidad , valores atípicos y distribuciones de mezclas (tenga en cuenta que la estratificación como un enfoque para tratar la distribución de mezclas es muy probablemente la más simple) Un enfoque más general y complejo para esto es el análisis de mezclas , también conocido como modelos de mezclas finitas , cuya descripción está más allá del alcance de esta respuesta). Transformación de Box-Cox, mencionado brevemente en las dos referencias anteriores, es una transformación de datos bastante importante, especialmente para datos no normales (con algunas advertencias). Para obtener más detalles sobre la transformación de Box-Cox, consulte este artículo introductorio .
fuente
La transformación de registros NO SIEMPRE mejora las cosas. Obviamente, no se pueden transformar las variables de transformación logarítmica que alcanzan valores cero o negativos, e incluso las positivas que abarcan cero podrían salir con valores atípicos negativos si se transforman logarítmicamente.
No solo debe registrar todo rutinariamente, sino que es una buena práctica PENSAR acerca de la transformación de predictores positivos seleccionados (adecuadamente, a menudo un registro, pero tal vez algo más) antes de ajustar un modelo. Lo mismo ocurre con la variable de respuesta. El conocimiento de la materia también es importante. Alguna teoría de la física o la sociología o lo que sea podría conducir naturalmente a ciertas transformaciones. En general, si ve variables que están sesgadas positivamente, es allí donde un registro (o tal vez una raíz cuadrada o recíproca) podría ayudar.
Algunos textos de regresión parecen sugerir que hay que mirar las gráficas de diagnóstico antes de considerar cualquier transformación, pero no estoy de acuerdo. Creo que es mejor hacer el mejor trabajo posible al hacer estas elecciones antes de instalar cualquier modelo, para que tenga el mejor punto de partida posible; luego mire los diagnósticos para ver si necesita ajustar desde allí.
fuente
snoq
conjunto de datos en este hilo CrossValidated (teniendo en cuenta que el objetivo es adaptar una mezcla de gaussianos)?1) contar datos (y> 0) -> log (y) o y = exp (b0 + biXi) 2) contar datos + cero (y> = 0) -> modelo de obstáculo (binomial + conteo reg.) 3) todos los efectos multiplicativos (y errores) serán aditivos 4) varianza ~ media -> log (y) o y = exp (b0 + biXi) 5) ...
fuente