Logré una fuerte relación lineal entre mi variable e después de transformar doblemente la respuesta. El modelo era pero lo transformé a mejorandode .19 a .76.
Claramente hice una cirugía decente en esta relación. ¿Alguien puede discutir las trampas de hacer esto, como los peligros de transformaciones excesivas o posibles violaciones de los principios estadísticos?
regression
data-transformation
r-squared
Info5ek
fuente
fuente
Respuestas:
Realmente no se puede comparar antes y después, porque la variabilidad subyacente en Y es diferente. Entonces, literalmente, no puede consolarse del cambio en R 2 . Eso no le dice nada de valor al comparar los dos modelos.R2 Y R2
Los dos modelos son diferentes en varias formas, por lo que significan cosas diferentes: suponen cosas muy diferentes sobre la forma de la relación y la variabilidad del término de error (cuando se consideran en términos de la relación entre y X ). Entonces, si está interesado en modelar Y (si Y es significativo), produzca un buen modelo para eso. Si estás interesado en modelar √Y X Y Y (/ √Y−−√ es significativo), produce un buen modelo para eso. Si √Y−−√ tiene significado, luego haz un buen modelo para eso. Pero compare cualquier modelo de la competencia en escalas comparables. R2en diferentes respuestas simplemente no son comparables.Y/X−−−−√ R2
Si solo intenta diferentes relaciones con la esperanza de encontrar una transformación con un alto , o cualquier otra medida de "buen ajuste", las propiedades de cualquier inferencia que le gustaría realizar se verán afectadas por la existencia de Ese proceso de búsqueda.R2
Las estimaciones tenderán a estar sesgadas de cero, los errores estándar serán demasiado pequeños, los valores p serán demasiado pequeños, los intervalos de confianza demasiado estrechos. En promedio, sus modelos parecerán "demasiado buenos" (en el sentido de que su comportamiento fuera de la muestra será decepcionante en comparación con el comportamiento dentro de la muestra).
Para evitar este tipo de sobreajuste, debe, si es posible, realizar la identificación y estimación del modelo en diferentes subconjuntos de datos (y la evaluación del modelo en un tercero). Si repite este tipo de procedimiento en muchas "divisiones" de los datos tomados al azar, tendrá una mejor idea de cuán reproducibles son sus resultados.
Aquí hay muchas publicaciones con puntos relevantes sobre estos temas: puede valer la pena intentar algunas búsquedas.
(Si tiene buenas razones a priori para elegir una transformación en particular, ese es un problema diferente. Pero buscar en el espacio de las transformaciones para encontrar algo que se adapte conlleva todo tipo de problemas de tipo 'espionaje de datos').
fuente
Hay un problema mayor que los identificados por @Glen_b.
Y obtengo un de 0.49 y un valor P que es 5.5 × 10 - 16R2 5.5×10−16 .
Tienes en ambos lados de la ecuación.X
fuente
Hay dos elementos en el ejemplo de @ Peter, que podrían ser útiles para desenredar:
(1) Model mis-specification. The models
&
, wherewi=yixi−−√ & zi=xi−−√ , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.
IfY is assumed to be a Gaussian random variable independent of X , then that's a special case of Model 1 in which β1=0 , & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knewY & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:
It is indeed a function ofz .
Following through the example ...
Neither Model 1 nor Model 2 is much use for predictingy from x , but both are all right for predicting w from z : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z , might be tempted to think that intervening to increase z will reduce w —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.
Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.
fuente
The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results inR2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.
fuente