¿Es la regresión de x en y claramente mejor que y en x en este caso?

10

Un instrumento utilizado para medir los niveles de glucosa en la sangre de una persona se controla en una muestra aleatoria de 10 personas. Los niveles también se miden utilizando un procedimiento de laboratorio muy preciso. La medida del instrumento se denota por x. La medida del procedimiento de laboratorio se denota por y.

Personalmente, creo que y en x es más correcto porque la intención es utilizar las lecturas del instrumento para predecir las lecturas de laboratorio. Y y en x minimiza los errores de tales predicciones.

Pero la respuesta proporcionada fue x en y.

Neo
fuente
2
Bienvenido al sitio, @Neo. Si esta pregunta fue motivada por un ejercicio de clase / libro de texto, agregue la [self-study]etiqueta.
gung - Restablecer Monica

Respuestas:

6

Muchos documentos de laboratorio, especialmente los experimentos de prueba de instrumentos, aplican dicha regresión x on y.

Argumentan que a partir de la recopilación de datos en el experimento, las condiciones y se controlan, y obtienen x de la lectura del instrumento (introduciendo algún error). Este es el modelo físico original del experimento, por lo que el error x ~ y + es más adecuado.

Para minimizar el error del experimento, a veces, y siendo controlado en la misma condición, entonces x se mide varias veces (o experimento repetido). Este procedimiento puede ayudarlo a comprender la lógica detrás de ellos y encontrar el error x ~ y + más claramente.

Vincent
fuente
+1 Pienso realmente en la respuesta hasta ahora, probablemente esta sea la mejor para la publicación original. Es casi seguro que esta pregunta fue motivada por comprender el instrumento en lugar de calibrar un proxy. Si solo tiene una medida X para cada Y, entonces estoy bastante seguro (aparte del comentario de Whuber) de que Y-on-X es un enfoque correcto. Sin embargo, varias X destruyen eso, pero X-on-Y sigue siendo correcto (pero no se puede usar para predecir Y).
Korone
Tienes un problema, @Corone: si X vs Y e Y vs X son correctos, todos sabemos que obtienes líneas ajustadas claramente diferentes siempre que sea ​​menor que 1 . ¿Cuál de esas dos líneas elegirías y sobre qué base? La resolución correcta de este dilema es que, como explica Vincent, existe una asimetría en nuestra concepción del error de medición: el instrumento se mide con un error apreciable; Se supone que el laboratorio no tiene ningún error apreciable. Los procedimientos de regresión ordinarios suponen que X no tiene error y todo el error está en Y, por lo que eso lo resuelve. R21
whuber
@ whuber ambos son correctos pero responden a diferentes problemas. Con múltiples mediciones X, Y-on-X ya no es correcto para el problema que se supone que debe responder. Sin embargo, mis comentarios se están volviendo tontos, así que editaré mi respuesta en su lugar
Korone
6

Y on XX on Y

YXY on XX

X on YYX

X on YY

X on Y

gung - Restablece a Monica
fuente
YX
@whuber Los errores en las variables no son apropiados para la predicción. Los errores en las variables son útiles si desea comprender la magnitud de una relación pero tiene errores de medición en X e Y. Para la predicción, la X se "conoce sin error" siempre que se recopile de la misma manera en su conjunto de entrenamiento y conjunto de predicciones
Korone
@Corone Tiene razón en que los errores en las variables no son buenos para la predicción, pero eso no es lo que se recomienda por lo que puedo decir. De hecho, esta es precisamente la razón por la que uno realmente necesita retroceder el instrumento contra el laboratorio (que usa OLS solamente) y no al revés. Consulte la referencia de Draper & Smith que cito en otro comentario a este hilo. Estoy confiando en la sección 1.7 de la segunda edición.
whuber
@Corone, tienes razón sobre la predicción / errores en las variables, pero no es exactamente lo que quise decir. Trataré de pensar en una mejor manera de expresarlo.
gung - Restablecer Monica
4

Predicción y pronóstico

Sí, tiene razón, cuando ve esto como un problema de predicción, una regresión Y-sobre-X le dará un modelo tal que, dada una medición por instrumentos, puede hacer una estimación imparcial de la medición de laboratorio precisa, sin realizar el procedimiento de laboratorio. .

E[Y|X]

Esto puede parecer contrario a la intuición porque la estructura de error no es la "real". Suponiendo que el método de laboratorio es un método estándar sin errores de oro, entonces "sabemos" que el verdadero modelo generador de datos es

Xi=βYi+ϵi

YiϵiE[ϵ]=0

E[Yi|Xi]

Yi=Xiϵβ

Xi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

E[ϵi|Xi]ϵX

Explícitamente, sin pérdida de generalidad podemos dejar

ϵi=γXi+ηi

E[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ηββσ

YI=αXi+ηi

β

Análisis de instrumentos

La persona que le hizo esta pregunta, claramente no quería la respuesta anterior, ya que dice que X-on-Y es el método correcto, entonces, ¿por qué podrían haber querido eso? Lo más probable es que estuvieran considerando la tarea de comprender el instrumento. Como se discutió en la respuesta de Vincent, si desea saber acerca de cómo quieren que se comporte el instrumento, X-on-Y es el camino a seguir.

Volviendo a la primera ecuación anterior:

Xi=βYi+ϵi

E[Xi|Yi]=YiXβ

Contracción

YE[Y|X]γE[Y|X]Y. Esto lleva a conceptos como la regresión a la media y bayes empíricos.

Ejemplo en R Una forma de tener una idea de lo que está sucediendo aquí es hacer algunos datos y probar los métodos. El siguiente código compara X-on-Y con Y-on-X para la predicción y la calibración, y puede ver rápidamente que X-on-Y no es bueno para el modelo de predicción, pero es el procedimiento correcto para la calibración.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Las dos líneas de regresión se trazan sobre los datos.

ingrese la descripción de la imagen aquí

Y luego el error de suma de cuadrados para Y se mide para ambos ajustes en una nueva muestra.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternativamente, se puede generar una muestra en una Y fija (en este caso 4) y luego el promedio de esas estimaciones tomadas. Ahora puede ver que el predictor Y-on-X no está bien calibrado con un valor esperado mucho más bajo que Y. El predictor X-on-Y, está bien calibrado con un valor esperado cercano a Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

La distribución de las dos predicciones se puede ver en una gráfica de densidad.

ingrese la descripción de la imagen aquí

Korone
fuente
YXX
3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
1
β
2
Y puede ser una variable aleatoria sobre una población de personas, pero para cualquier persona es un parámetro a estimar. La regresión de Y en X reduce cada estimación de Y hacia la media grupal, lo que reduce el error cuadrático medio sobre las personas pero crea sesgos sistemáticos que pueden ser inaceptables por razones éticas o legales. La regresión de X en Y proporciona información que puede usarse para construir un intervalo de confianza imparcial para la Y de cada persona, pero esos intervalos tienden a ser amplios, como el área azul en la gráfica, mientras que el intervalo de predicción de la regresión de Y en X es más estrecho pero sesgado , como el rojo.
Ray Koopman
1
@RayKoopman, ¡esa es una forma maravillosa de decirlo! Sí, Y en X se trata de obtener la mejor predicción en promedio sobre muchos Y diferentes, mientras que la calibración se trata de ser justo e imparcial para un Y individual.
Korone
2

Depende de sus suposiciones sobre la varianza de X y la varianza de Y para los mínimos cuadrados ordinarios. Si Y tiene la única fuente de varianza y X tiene varianza cero, entonces use X para estimar Y. Si los supuestos son al revés (X tiene la única varianza e Y tiene varianza cero), entonces use Y para estimar X.

Si se supone que tanto X como Y tienen varianza, entonces es posible que deba considerar los mínimos cuadrados totales .

Una buena descripción de TLS se escribió en este enlace . El documento está orientado al comercio, pero la sección 3 hace un buen trabajo al describir TLS.

Edición 1 (10/09/2013) ========================================= ======

Originalmente supuse que se trataba de algún tipo de problema de tarea, por lo que no fui muy específico acerca de "la respuesta" a la pregunta del OP. Pero, después de leer otras respuestas, parece que está bien ser un poco más detallado.

Citando parte de la pregunta del OP:

"... Los niveles también se miden utilizando un procedimiento de laboratorio muy preciso ..."

La declaración anterior dice que hay dos mediciones, una del instrumento y otra del procedimiento de laboratorio. La afirmación también implica que la varianza para el procedimiento de laboratorio es baja en comparación con la varianza del instrumento.

Otra cita de la pregunta del OP es:

".... La medida del procedimiento de laboratorio se denota por y ....."

Entonces, de las dos afirmaciones anteriores, Y tiene la varianza más baja. Entonces, la técnica menos propensa a errores es usar Y para estimar X. La "respuesta proporcionada" fue correcta.

bill_080
fuente
1
XY
No, la elección de la regresión no se debe hacer en función de dónde está la varianza; se debe hacer en función de la pregunta que está tratando de responder. Si usa TLS para construir un modelo de predicción para Y dado X , se equivocará. Los modelos TLS y errores similares en variables tienen que ver con la comprensión de la verdadera relación entre las variables / procesos subyacentes, no con el pronóstico
Korone
1
@Corone Aunque tiene razón en que los objetivos de uno guían la elección de los procedimientos estadísticos, el procedimiento también debe ser apropiado para el modelo de probabilidad ("dónde está la varianza"). Si su propósito es predecir la lectura de laboratorio a partir de la lectura del instrumento de alta varianza, entonces definitivamente elija un procedimiento apropiado para eso: pero ese procedimiento no es predicción utilizando el ajuste de mínimos cuadrados ordinarios y sus estimaciones de varianza.
whuber
1
@Corone: estoy de acuerdo en que la técnica de regresión debe basarse en la pregunta que está tratando de responder, sin embargo, la técnica seleccionada contiene suposiciones sobre la varianza de las variables. Si los supuestos de varianza de la selección no coinciden con su concepto para el modelo, entonces ha seleccionado la técnica incorrecta. Es por eso que enumeré las 3 posibilidades (cero X varianza para estimar Y; cero Y varianza para estimar X; o no-cero X e Y varianza).
bill_080