Pensé que entendía este problema, pero ahora no estoy tan seguro y me gustaría consultar con otros antes de continuar.
Tengo dos variables X
y Y
. Y
es una relación, y no está limitada por 0 y 1 y generalmente se distribuye normalmente. X
es una proporción y está delimitada por 0 y 1 (va de 0.0 a 0.6). Cuando ejecuto una regresión lineal de Y ~ X
y me entero de que X
y Y
son significativamente relacionada linealmente. Hasta aquí todo bien.
Pero entonces investigar más y me pongo a pensar que tal vez X
y Y
's relación podría ser más curvilínea que lineal. Para mí, parece que la relación de X
y Y
podría estar más cerca de Y ~ log(X)
, Y ~ sqrt(X)
o Y ~ X + X^2
, o algo por el estilo. Tengo razones empíricas para suponer que la relación podría ser curvilínea, pero no razones para suponer que una relación no lineal podría ser mejor que otra.
Tengo un par de preguntas relacionadas desde aquí. Primero, mi X
variable toma cuatro valores: 0, 0.2, 0.4 y 0.6. Cuando log-o raíz cuadrada-transformar estos datos, el espacio entre estos valores se distorsiona para que los valores 0 estén mucho más lejos de todos los demás. Por falta de una mejor manera de preguntar, ¿es esto lo que quiero? Supongo que no, porque obtengo resultados muy diferentes dependiendo del nivel de distorsión que acepto. Si esto no es lo que quiero, ¿cómo debo evitarlo?
En segundo lugar, para transformar estos datos, debo agregar una cantidad a cada X
valor porque no puede tomar el registro de 0. Cuando agrego una cantidad muy pequeña, digamos 0.001, obtengo una distorsión muy sustancial. Cuando agrego una cantidad mayor, digamos 1, obtengo muy poca distorsión. ¿Hay una cantidad "correcta" para agregar a una X
variable? ¿O es inapropiado agregar algo a una X
variable en lugar de elegir una transformación alternativa (por ejemplo, raíz de cubo) o modelo (por ejemplo, regresión logística)?
Lo poco que he podido encontrar sobre este tema me hace sentir que debo pisar con cuidado. Para otros usuarios de R, este código crearía algunos datos con una estructura similar a la mía.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)
Respuestas:
La pregunta principal sobre la transformación de proporciones (usaré como símbolo, de manera similar pero no idéntica a su notación) permite algunos comentarios generales.x
A continuación, considero que el motivo principal para transformar las proporciones que son covariables (predictores, variables independientes) es mejorar la aproximación a la linealidad de la relación, o si está en modo exploratorio, para obtener una idea más clara gráficamente de la forma o, de hecho, de la existencia de cualquier relación. Como de costumbre, si una covariable está (p. Ej.) Aproximadamente distribuida normalmente no es crucial como tal. (Las proporciones son un pariente no muy lejano de las variables indicadoras con valores que nunca pueden distribuirse normalmente, y las proporciones también están necesariamente delimitadas).0,1
Si las proporciones pueden alcanzar ceros exactos o exactos, es esencial que se defina una transformación para esos límites, lo que descarta claramente , ya que log 0 es indeterminado. Más allá de eso, una forma particular idealmente requiere alguna justificación sustantiva (científica, práctica), pero a falta de algún análisis simple que log ( x + c ) sea altamente sensible al valor de c , como usted insinúa.logx log0 log(x+c) c
Esto es un poco más fácil de ver con logaritmos a base , por lo que consideremos temporalmente c = 10 k para que log 10 ( x + 10 k ) asigne x = 0 a k .10 c = 10k Iniciar sesión10( x + 10k) x = 0 k
Los dos puntos principales que deseo destacar son que
Para sus datos de ejemplo, ninguna transformación que intenté parece ayudar.
Al mismo tiempo, otras posibilidades están lejos de agotarse. (Notablemente, no probé la raíz cuadrada o la raíz cúbica, y subrayé que en muchos otros problemas podrían ser candidatos obvios y serios).
EDITAR: Los datos originales podrían trazarse aquí porque el OP publicó brevemente datos, pero luego los eliminó.
Otros hilos aquí que usan poderes plegados incluyen
Transformación de datos de proporción: cuando la raíz cuadrada de arcsin no es suficiente
Regresión: diagrama de dispersión con bajo R al cuadrado y altos valores de p
Trazar un conjunto de datos muy sesgado
fuente
Y
es una razón en lugar de una proporción, lo que probablemente sea una diferencia bastante sustancial, por lo que fue bueno de su parte señalarlo.