Cuándo usar la regresión de Deming

9

Actualmente estoy trabajando en una forma de transformar dos valores de prueba de fósforo diferentes entre sí.

Antecedentes

Existen muchos métodos (de extracción) para medir el fósforo disponible de la planta en el suelo. Diferentes países aplican diferentes métodos, por lo tanto, para comparar la fertilidad P entre países, es necesario calcular el valor de la prueba P x basado en el valor de la prueba P y viceversa. Por lo tanto, la respuesta y la covariable son intercambiables.

Cantidad de P en el extractante 1 = P_CAL en [mg / 100 g de suelo]

Cantidad de P en el extractante 2 = P_DL en [mg / 100 g de suelo]

Para establecer tal "ecuación de transformación" se analizó el contenido de P de 136 muestras de suelo con extracto de CAL y DL. También se midieron parámetros adicionales como el pH del suelo, el carbono orgánico total, el nitrógeno total, la arcilla y el carbonato. El objetivo es derivar un modelo de regresión simple. En un segundo paso también un modelo múltiple.

Para proporcionar una visión general de los datos, le muestro dos diagramas de dispersión con una línea de regresión lineal simple (OLS). a) Regresión OLS simple para CAL-P ~ DL-P, b) Regresión OLS simple para DL-P ~ CAL-P

Preguntas:

Según tengo entendido, la regresión de Deming es adecuada si las variables respone (y) y explicativas (x) tienen errores (de medición) y son intercambiables. La regresión de Deming supone que se conoce la relación de varianza. Como no tengo detalles sobre la precisión de las mediciones de extracción de P, ¿hay otra forma de determinar la relación de varianza? ¿Qué variación se entiende aquí? ¿Supongo que NO está calculado var(DL_P)/var(CAL_P)?

P1: ¿Cómo determino la relación de varianza para la regresión de Deming?

Un caso especial de regresión de Deming es la regresión ortogonal. Asume una relación de varianza = 1.

P2: ¿Hay alguna forma de diagnosticar si la suposición δ = 1 es "aproximadamente" correcta o si la suposición (falsa) implica errores de predicción altos?

Si supongo que δ = 1, la regresión ortogonal ofrece la siguiente salida (redondeada)

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

Intercepción: 0,75; Pendiente: 0,71; sigma P_DL: 3.17; sigma P_CAL: 3.17

Al trazar la línea de regresión de Deming en las gráficas anteriores, se muestra que la regresión de Deming está muy cerca de la regresión a) CAL-P = f (DL-P), pero muy diferente de b) DL-P = f (CAL-P) ecuación. ingrese la descripción de la imagen aquí

P3: ¿es correcto que en la regresión ortogonal CAL-P = f (DL-P) y DL-P = f (CAL-P) se expresen con la misma ecuación? Si no, ¿cómo obtengo ecuaciones correctas para ambos? ¿Qué extraño aquí?

Debido a las propiedades de ambas soluciones de extracción, los valores de DL-P tienden a ser alrededor de un 25% más altos que los valores de CAL-P, por lo tanto, CAL-P = f (DL-P) debería tener una pendiente mayor que DL-P = f (CAL -PAG). Sin embargo, esto no se expresa en la regresión deming cuando solo hay una pendiente. Lo que me deja con mi última pregunta.

P4: ¿La regresión de Deming es un enfoque válido para mi propósito?

asugila
fuente
1
La relación de las dos desviaciones estándar se supone en la regresión de Deming para decidir dónde colocar la perpendicular a la línea. Si la relación es 1, se supone que las variaciones son iguales y la distancia se mide desde un ángulo de 45 grados. No puede determinar esta relación a partir de los datos.
Michael R. Chernick

Respuestas:

2

Para abordar parte de sus inquietudes aquí: la regresión de Deming parece ofrecer un ajuste deficiente en el panel de trama B, pero esto se debe a que la trama es incorrecta. Una forma rápida de evaluar si esto se ha hecho correctamente es mirar los valores X e Y a lo largo de la línea de regresión de Deming. Para cualquier valor DL-P en el panel A, debe tener un valor CAL-P correspondiente que sea idéntico en ambos paneles (NO es cierto para OLS, y la diferencia fundamental entre ellos). Pero en estos gráficos, donde DL-P = 20, CAL-P en el panel A es ~ 15 y en el panel B ~ 27.

El error parece ser que la línea de regresión de Deming se dibujó simplemente intercambiando los términos CAL-P y DL-P en la ecuación. La ecuación para el panel A es:

CAL-P = 0,75 + 0,71 * DL-P

Reorganizar, esto implica que la ecuación para el panel B debe ser:

DL-P = (CAL-P - 0,75) / 0,71

Y no:

DL-P = 0.75 + 0.71 * CAL-P (que es lo que se ha trazado)

mkt - Restablecer a Monica
fuente