¿Hay alguna razón de lo que puedo pensar para transformar los datos con una raíz cuadrada? Quiero decir que lo que siempre observo es que el R ^ 2 aumenta. ¡Pero esto es probablemente solo por centrar los datos! Cualquier pensamiento es apreciado!
regression
data-transformation
variance-stabilizing
MarkDollar
fuente
fuente
Respuestas:
En general, la regresión paramétrica / GLM supone que la relación entre la variable y cada variable es lineal, que los residuos una vez que ha ajustado el modelo siguen una distribución normal y que el tamaño de los residuos permanece casi igual en todo momento a lo largo de su (s) línea (s) ajustada (s). Cuando sus datos no se ajustan a estos supuestos, las transformaciones pueden ayudar.Y X
Debe ser intuitivo que si es proporcional a entonces el enraizamiento cuadrado linealiza esta relación, lo que lleva a un modelo que se ajusta mejor a los supuestos y que explica más varianza (tiene mayor ). El enraizamiento cuadrado también ayuda cuando tiene el problema de que el tamaño de sus residuos aumenta progresivamente a medida que aumentan sus valores de (es decir, la dispersión de los puntos de datos alrededor de la línea ajustada se vuelve más marcada a medida que avanza). Piense en la forma de una función de raíz cuadrada: al principio aumenta abruptamente pero luego se satura. Entonces, la aplicación de una transformación de raíz cuadrada infla números más pequeños pero estabiliza los más grandes. Así que puedes pensar que empuja pequeños residuos a bajaX 2 Y R 2 Y X X XY X2 Y R2 Y X X valores de se alejan de la línea ajustada y aplastan los residuos grandes a valores de altos hacia la línea. (¡Esto es taquigrafía mental, no las matemáticas adecuadas!)X
Como dicen Dmitrij y ocram, esta es solo una posible transformación que ayudará en ciertas circunstancias, y herramientas como la fórmula de Box-Cox pueden ayudarlo a elegir la más útil. Aconsejaría adquirir el hábito de mirar siempre una gráfica de residuos contra valores ajustados (y también una gráfica de probabilidad normal o histograma de residuos) cuando se ajusta a un modelo. Descubrirá que a menudo terminará siendo capaz de ver de qué tipo de transformación ayudará.
fuente
La transformación de raíz cuadrada es solo un caso especial de transformación de potencia de Box-Cox (una buena descripción de Pengfi Li, podría ser una lectura útil y se encuentra aquí ), con y omitiendo un centrado.λ=0.5
Sin embargo, este valor fijo a priori podría ser (y probablemente no sea) óptimo. En R, puede considerar una función de la
car
bibliotecapowerTransform
que ayude a estimar un valor óptimo para las transformaciones de Box-Cox para cada una de las variables que participaron en la regresión lineal o cualquier dato con el que trabaje (consulteexample(powerTransform)
para obtener más detalles).fuente
Cuando la variable sigue una distribución de Poisson, los resultados de la transformación de la raíz cuadrada estarán mucho más cerca de Gauss.
fuente
A veces se recomienda sacar la raíz cuadrada para hacer que una variable no normal parezca una variable normal en problemas de regresión. El logaritmo es otra posible transformación común.
fuente
La matriz de distancia calculada con Bray-Curtis generalmente no es métrica para algunos datos, lo que da lugar a valores propios negativos. Una de las soluciones para superar este problema es transformarlo (logarítmico, raíz cuadrada o raíz cuadrada doble).
fuente