Comparación de coeficientes de regresión del mismo modelo en diferentes conjuntos de datos.

12

Estoy evaluando dos (2) refrigerantes (gases) que se usaron en el mismo sistema de refrigeración. Tengo datos de temperatura de succión saturada ( ), temperatura de condensación ( ) y amperaje ( ) para la evaluación. Hay dos (2) conjuntos de datos; Primer refrigerante ( ) y segundo refrigerante ( ). Estoy usando un modelo polinómico lineal, multivariante ( & ) de 3er orden para los análisis de regresión. Me gustaría determinar cuánto menos / más amperaje (o, alguna medida similar como comparación de rendimiento) en promedio, como porcentaje, está siendo extraído por el segundo refrigerante.SDYR1R2SD

Mi primer pensamiento fue:

  1. Determine el modelo a usar:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3
  2. Derive los coeficientes ( ) de los datos de línea de base ( ).biR1
  3. Usando esos coeficientes, para cada & en el conjunto de datos , calcule cada amperaje esperado ( ) y luego el promedio.SDR2Y^
  4. Compare el promedio con el de promedio real ( ) de los datos .Y^Y2R2
  5. percent (%) change=(Y2Y^)/Y^

Sin embargo, dado que el segundo refrigerante tiene propiedades térmicas ligeramente diferentes y se realizaron pequeños cambios en el sistema de refrigeración (TXV y ajustes de sobrecalentamiento), no creo que este 'método de comparación de referencia' sea exacto.

Mi siguiente pensamiento fue hacer dos (2) análisis de regresión separados:

Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23

y luego, para la temperatura de succión saturada ( ), compare los coeficientes ( vs ) así: Sa1b1

% change=b1a1a1

Sin embargo, nuevamente, estos coeficientes deben ponderarse de manera diferente. Por lo tanto, los resultados serían sesgados.

Creo que podría usar una prueba z para determinar qué tan ponderados están los coeficientes, pero no estoy seguro de entender completamente el significado de la salida: . Pero eso todavía no me daría una métrica de rendimiento, que es el objetivo general.z=(a1b1)/SEa12+SEb12)

gth826a
fuente
1
1. Un modelo polinomial es un modelo lineal, porque es lineal en el coeficiente. 2. Estoy tratando de entender tu pregunta. Si el sistema de refrigeración se modificó entre el momento en que se usaron R1 y R2, entonces realmente no son el 'mismo sistema de refrigeración' (línea 1), ¿verdad? 3. ¿Por qué en su segundo enfoque, comenzó a comparar los coeficientes de S? 4. ¿Ha considerado introducir una covariable 'refrigerantes' con niveles R1 y R2 en el ajuste polinómico (tal vez con interacción)? Su coeficiente podría responder la pregunta.
qoheleth
@qoheleth 1. No estoy seguro de seguir tu línea de pensamiento ... El coeficiente siempre es lineal, es un número. ¿Cuándo el coeficiente no sería lineal entonces? 2. Correcto, el sistema de refrigeración se ha CAMBIADO LIGERAMENTE, pero solo para garantizar la misma temperatura de salida para ambos refrigerantes: "manzanas a manzanas". 3. 'S' es la única variable de interés para esta comparación específica. 4. He leído sobre el método de variables covariables / interactuantes, pero no entiendo el significado de los coeficientes utilizando dicho método. ¿Puedes dar más detalles sobre la interpretación de la salida? Gracias.
gth826a
1. desde el punto de vista estadístico, la linealidad en las cosas que está estimando es lo que cuenta, por lo que un modelo polinomial es lineal. Un ejemplo de un modelo no lineal sería la función mitscherlich y = alpha (1-exp (beta-lambda * X)), donde alfa / beta / lambda son lo que estamos estimando. 3. ¿Qué estás intentando probar realmente? ¿Es el coeficiente de S? o Y? Si es S, ¿por qué su primer intento es una comparación en \ hat {Y}?
qoheleth
Y-hat sería: el S&D real del segundo conjunto de datos utilizado con los coeficientes derivados del primer conjunto de datos. Este método es común para los análisis de energía de 'Contratación de rendimiento' cuando se compara el consumo de energía del equipo anterior con el consumo de energía después de una actualización / remodelación / renovación / etc. La ecuación sería: consumo de energía = y-hat = carga base + energía / grado-día * grado-días ... donde energía / grado-día es el coeficiente derivado del análisis de regresión de la línea de base, y grado-días es posterior a la renovación . El "qué hubieras consumido" si no hubieras hecho este escenario de proyecto ...
gth826a
1
Parece que, en última instancia, desea comparar Y. Diría que se olvide de calcular el cambio porcentual en los coeficientes, en presencia de los términos de orden superior (S ^ 2, S ^ 3, etc.), los coeficientes no son lo que usted piensa. son. Concéntrese en Y. La pregunta que no me queda clara es, ¿está diciendo que el S & D en R2 significa cosas diferentes al S & D en R1? Si no es así, puede simplemente ajustar un modelo al conjunto de datos combinado, con una covariable adicional (variable X) llamada refrigerante (r1 o r2), y observar su coeficiente para hacer la inferencia, suponiendo que su modelo sea adecuado.
qoheleth

Respuestas:

2

De la ley de gas ideal aquí , , lo que sugiere un modelo proporcional. Asegúrese de que sus unidades estén en temperatura absoluta. Pedir un resultado proporcional implicaría un modelo de error proporcional. Considere, quizás , entonces para la regresión lineal múltiple se puede usar tomando los logaritmos de los valores Y, D y S, de modo que esto se parezca a , donde los subíndices significan "logaritmo de". Ahora, esto puede funcionar mejor que el modelo lineal que está utilizando, y las respuestas son entonces tipo de error relativo.PV=nRTY=aDbScln(Y)=ln(a)+bln(D)+cln(S)Yl=al+bDl+cSll

Para verificar qué tipo de modelo usar, pruebe uno y verifique si los residuos son homoscedastic. Si no lo son, entonces tiene un modelo sesgado , luego haga algo más como modelar los logaritmos, como arriba, uno o más recíprocos de datos x o y, raíces cuadradas, cuadratura, exponenciación, etc., hasta que los residuos sean homoscedastic. Si el modelo no puede arrojar residuos homoscedasticos, utilice la regresión lineal múltiple de Theil, con censura si es necesario.

La forma en que normalmente se distribuyen los datos en el eje y no es necesaria, pero los valores atípicos pueden distorsionar notablemente los resultados de los parámetros de regresión. Si no se puede encontrar la homocedasticidad, entonces no se deben usar mínimos cuadrados ordinarios y se debe realizar algún otro tipo de regresión, por ejemplo, regresión ponderada, regresión de Theil, mínimos cuadrados en x, regresión de Deming, etc. Además, los errores no deben correlacionarse en serie.

El significado de la salida: , puede o no ser pertinente. Esto supone que la varianza total es la suma de dos varianzas independientes. En otras palabras, la independencia es la ortogonalidad (perpendicularidad) en una gráfica . Es decir, la variabilidad total (varianza) sigue el teorema de Pitágoras, , que puede o no ser el caso de sus datos. Si ese es el caso, entonces la estadística es una distancia relativa, es decir, una diferencia de medias (una distancia), dividida por Pitágoras, vector AKA, suma de error estándar (SE), que son desviaciones estándar (SD) divididas porz=(a1b1)/SEa12+SEb12)x,yH=+A2+O2zN, donde los SE son ellos mismos distancias. Dividiendo una distancia por la otra, luego las normaliza, es decir, la diferencia de medias dividida por el error total (estándar), que luego se presenta de forma tal que uno puede aplicar ND (0,1) para encontrar una probabilidad.

Ahora, ¿qué sucede si las medidas no son independientes y cómo se puede probar? Puede recordar por geometría que los triángulos que no están en ángulo recto agregan sus lados como , si no refresca tu memoria aquí . Es decir, cuando hay algo más que un ángulo de 90 grados entre los ejes, tenemos que incluir cuál es ese ángulo en el cálculo de la distancia total. Primero recuerde qué es la correlación, covarianza estandarizada. Esto para la distancia total y la correlación convierte enC2=A2+B22ABcos(θ),θ=(A,B)σTρA,BσT2=σA2+σB22σAσBρA,B. En otras palabras, si sus desviaciones estándar están correlacionadas (por ejemplo, en pares), no son independientes.

Carl
fuente
"Para verificar qué tipo de modelo usar, pruebe uno y verifique si los residuos son homoscedastic", sí, claro ... excepto que no debe hacer esta suposición, e incluso si es válida, de ninguna manera se asegura de que tienes un "buen" modelo.
Repmat
Si uno usa OLS y los residuos son heteroscedasticos, entonces uno tiene un modelo sesgado. La homocedasticidad es un requisito de MCO, que se muestra aquí . Tener un buen modelo requiere otras condiciones, como evitar el sesgo variable omitido , pero tener errores seriales no correlacionados y la linealidad del modelo versus la variable dependiente.
Carl
Puede tener un modelo imparcial y / o consistente (estimaciones) en el que los residuos sean heterocástico elásticos. Eso solo implicaría que los procedimientos de inferencia habituales no funcionan
Repmat
La heterocedasticidad aplana la pendiente, incluso si un valor atípico corrigiera esto, la penalización sería grandes intervalos de confianza y un modelo pésimo. No usaría un modelo así, pero sí, uno puede hacer modelos pésimos. La literatura médica está llena de ellos.
Carl
La primera parte de tu comentario es simplemente errónea. Ni siquiera estoy seguro de lo que significa.
Repmat