Transformación inversa de coeficientes de regresión

Estoy haciendo una regresión lineal con una variable dependiente transformada. La siguiente transformación se realizó para que se mantuviera el supuesto de normalidad de los residuos. La variable dependiente no transformada estaba sesgada negativamente, y la siguiente transformación la hizo casi normal:

Y = \sqrt{50 - Y_{o r i g}}

$Y=\sqrt{50-Y_{orig}}$

donde es la variable dependiente en la escala original. $Y_{orig}$

Creo que tiene sentido usar alguna transformación en los coeficientes para volver a la escala original. Usando la siguiente ecuación de regresión, $\beta$

Y = \sqrt{50 - Y_{o r i g}} = α + β \cdot X

$Y=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X$

y arreglando , tenemos $X=0$

α = \sqrt{50 - Y_{o r i g}} = \sqrt{50 - α_{o r i g}}

$\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}}$

Y finalmente,

α_{o r i g} = 50 - α^{2}

$\alpha_{orig}=50-\alpha^2$

Usando la misma lógica, encontré

β_{o r i g} = α (α - 2 β) + β^{2} + α_{o r i g} - 50

$\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50$

Ahora las cosas funcionan muy bien para un modelo con 1 o 2 predictores; los coeficientes transformados de nuevo se parecen a los originales, solo que ahora puedo confiar en los errores estándar. El problema surge cuando se incluye un término de interacción, como

Y = α + X_{1} β_{X_{1}} + X_{2} β_{X_{2}} + X_{1} X_{2} β_{X_{1} X_{2}}

$Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2}$

Entonces, la transformación inversa para $\beta$ s no está tan cerca de las de la escala original, y no estoy seguro de por qué sucede eso. Tampoco estoy seguro de si la fórmula encontrada para la transformación inversa de un coeficiente beta es utilizable como lo es para el 3rd $\beta$ (para el término de interacción). Antes de entrar en álgebra loca, pensé en pedir consejo ...

regression data-transformation Dominic Comtois
fuente

¿Cómo define y ?

α_{o r i g}

$\alpha_{orig}$

β_{o r i g}

$\beta_{orig}$

mark999

Como el valor de alfa y beta en las escalas originales

Dominic Comtois

Pero ¿qué significa eso?

mark999

Me arriesgaría a algo como: las estimaciones que obtendríamos serían los datos originales adecuados para la regresión lineal.

Dominic Comtois

Para mí eso parece un concepto sin sentido. Estoy de acuerdo con la respuesta de Gung.

mark999

Respuestas:

Un problema es que has escrito

Y = α + β \cdot X

$Y=α+β⋅X$

Ese es un modelo determinista simple (es decir, no aleatorio). En ese caso, podría volver a transformar los coeficientes en la escala original, ya que es solo una cuestión de álgebra simple. Pero, en la regresión habitual, solo tiene ; dejó el término de error fuera de su modelo. Si la transformación de a no es lineal, puede tener un problema ya que , en general. Creo que eso tiene que ver con la discrepancia que estás viendo. $E(Y|X)=α+β⋅X$ $Y$ $Y_{orig}$ $E\big(f(X)\big)≠f\big(E(X)\big)$

Editar: Tenga en cuenta que si la transformación es lineal, puede volver a transformar para obtener estimaciones de los coeficientes en la escala original, ya que la expectativa es lineal.

Macro
fuente

+1 para explicar por qué no podemos volver a transformar las versiones beta.

gung - Restablece a Monica

Saludo tus esfuerzos aquí, pero estás ladrando el árbol equivocado. No respaldas las betas de transformación. Su modelo se mantiene en el mundo de los datos transformados. Si desea hacer una predicción, por ejemplo, retrocede transform , pero eso es todo. Por supuesto, también puede obtener un intervalo de predicción calculando los valores límite alto y bajo, y luego volver a transformarlos también, pero en ningún caso vuelve a transformar las versiones beta. $\hat{y}_i$

gung - Restablece a Monica
fuente

¿Qué hacer con el hecho de que los coeficientes transformados hacia atrás se acercan mucho a los obtenidos al modelar la variable no transformada? ¿Eso no permite alguna inferencia en la escala original?

Dominic Comtois

No lo sé exactamente. Podría depender de muchas cosas. Mi primera suposición es que tienes suerte con tu primer par de betas, pero luego se te acaba la suerte. Tengo que aceptar w / @ mark999 que "las estimaciones que obtendríamos de los datos originales adecuados para la regresión lineal" en realidad no tiene ningún sentido; Desearía que lo hiciera y parece que se sonroja a primera vista, pero desafortunadamente no lo hace. Y no licencia ninguna inferencia en la escala original.

gung - Reinstale a Monica

@gung para transformaciones no lineales (por ejemplo, box cox): puedo volver a transformar los valores ajustados, así como los intervalos de predicción, pero no puedo transformar betas ni intervalos de coeficientes para las betas. ¿Hay alguna limitación adicional que deba tener en cuenta? Por cierto, este es un tema muy interesante, ¿dónde puedo obtener una mejor comprensión?

mugen

@mugen, es difícil decir qué más debe tener en cuenta. Una cosa que tal vez tenga en cuenta es que la transformación hacia atrás de y-hat te da la mediana condicional, mientras que el y-hat no transformado (bleck) es la media condicional. Aparte de eso, este material debe ser cubierto en un buen libro de texto de regresión.

gung - Restablece a Monica

@mugen, de nada. No dude en hacer más preguntas a través de los mecanismos normales (clic ASK QUESTION); habrá más recursos para responder, obtendrá la atención de más CVers y la información estará mejor accesible para la posteridad.

gung - Restablecer Monica