¿Cuál podría ser la razón para usar la transformación de raíz cuadrada en los datos?

15

¿Hay alguna razón de lo que puedo pensar para transformar los datos con una raíz cuadrada? Quiero decir que lo que siempre observo es que el R ^ 2 aumenta. ¡Pero esto es probablemente solo por centrar los datos! Cualquier pensamiento es apreciado!

MarkDollar
fuente
He respondido esta pregunta y la pregunta más general aquí stats.stackexchange.com/questions/18844/…
IrishStat
33
Si la variable dependiente es diferente, los cuadrados R no se pueden comparar.

Respuestas:

13

En general, la regresión paramétrica / GLM supone que la relación entre la variable y cada variable es lineal, que los residuos una vez que ha ajustado el modelo siguen una distribución normal y que el tamaño de los residuos permanece casi igual en todo momento a lo largo de su (s) línea (s) ajustada (s). Cuando sus datos no se ajustan a estos supuestos, las transformaciones pueden ayudar. YX

Debe ser intuitivo que si es proporcional a entonces el enraizamiento cuadrado linealiza esta relación, lo que lleva a un modelo que se ajusta mejor a los supuestos y que explica más varianza (tiene mayor ). El enraizamiento cuadrado también ayuda cuando tiene el problema de que el tamaño de sus residuos aumenta progresivamente a medida que aumentan sus valores de (es decir, la dispersión de los puntos de datos alrededor de la línea ajustada se vuelve más marcada a medida que avanza). Piense en la forma de una función de raíz cuadrada: al principio aumenta abruptamente pero luego se satura. Entonces, la aplicación de una transformación de raíz cuadrada infla números más pequeños pero estabiliza los más grandes. Así que puedes pensar que empuja pequeños residuos a bajaX 2 Y R 2 Y X X XYX2YR2YXX valores de se alejan de la línea ajustada y aplastan los residuos grandes a valores de altos hacia la línea. (¡Esto es taquigrafía mental, no las matemáticas adecuadas!)X

Como dicen Dmitrij y ocram, esta es solo una posible transformación que ayudará en ciertas circunstancias, y herramientas como la fórmula de Box-Cox pueden ayudarlo a elegir la más útil. Aconsejaría adquirir el hábito de mirar siempre una gráfica de residuos contra valores ajustados (y también una gráfica de probabilidad normal o histograma de residuos) cuando se ajusta a un modelo. Descubrirá que a menudo terminará siendo capaz de ver de qué tipo de transformación ayudará.

Freya Harrison
fuente
¡Hey gracias! Conozco la función boxcox, pero me preguntaba por qué razones prácticas tiene sentido la transformación sqrt. ¡Gracias!
MarkDollar
1
Si la varianza de los errores está relacionada linealmente con el nivel de la serie, se toma una transformación logarítmica. Si la desviación estándar está relacionada linealmente con el nivel de la serie, se realiza una transformación de raíz cuadrada. La selección no tiene nada que ver con el tamaño de los residuos, ya que se relaciona con el nivel de y, y todo tiene que ver con el acoplamiento / desacoplamiento en el primer y segundo momento.
IrishStat
1
Freya, +1 para taquigrafía mental >> matemáticas adecuadas. ¿Es esa intuición también una razón para usar L.5-metrics-for-clustering ?
denis
Hola Denis, me temo que no sé nada sobre la agrupación.
Freya Harrison
10

La transformación de raíz cuadrada es solo un caso especial de transformación de potencia de Box-Cox (una buena descripción de Pengfi Li, podría ser una lectura útil y se encuentra aquí ), con y omitiendo un centrado.λ=0.5

El objetivo de las transformaciones de Box-Cox es garantizar los supuestos habituales para la retención del modelo lineal. Es decir, .yN(Xβ,σ2In)

Sin embargo, este valor fijo a priori podría ser (y probablemente no sea) óptimo. En R, puede considerar una función de la carbiblioteca powerTransformque ayude a estimar un valor óptimo para las transformaciones de Box-Cox para cada una de las variables que participaron en la regresión lineal o cualquier dato con el que trabaje (consulte example(powerTransform)para obtener más detalles).

Dmitrij Celov
fuente
5

Cuando la variable sigue una distribución de Poisson, los resultados de la transformación de la raíz cuadrada estarán mucho más cerca de Gauss.

Harvey Motulsky
fuente
¿Podría dar algunos argumentos para esta afirmación?
utdiscant
Realmente no ayuda mucho para la distribución individual con un valor específico del parámetro, pero hace que la familia de distribución obtenida cuando el parámetro varía, más cerca de una familia normal con variación constante
kjetil b halvorsen
3

A veces se recomienda sacar la raíz cuadrada para hacer que una variable no normal parezca una variable normal en problemas de regresión. El logaritmo es otra posible transformación común.

ocram
fuente
0

La matriz de distancia calculada con Bray-Curtis generalmente no es métrica para algunos datos, lo que da lugar a valores propios negativos. Una de las soluciones para superar este problema es transformarlo (logarítmico, raíz cuadrada o raíz cuadrada doble).

Ahmed Nur Osman
fuente