Informe de resultados de regresión lineal simple: ¿qué información incluir?

11

Acabo de realizar una regresión lineal (muy) simple en Genstat y me gustaría incluir un resumen sucinto y significativo de la salida en mi informe. No estoy seguro exactamente qué o qué cantidad de información debo incluir.

Los bits principales de mi salida de Genstat se ven así:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

Tenía la intención de informar esto simplemente como:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

pero un colega me sugirió que también debería incluir al menos el root mean squared error(que creo que en este caso es igual al error estándar de las observaciones, es decir, 99.9?).

¿Incluir el RMSE proporciona información útil adicional, o la bondad de ajuste ya se explica adecuadamente por el valor ajustado de R2?

¿Existen reglas estrictas para cuánta información reportar, o es bastante subjetiva?

¡Muchas gracias!

JamesS
fuente
1
"¿Existen reglas estrictas para la cantidad de información que se debe informar? Realmente depende de lo que se quiera hacer después de la regresión. Uno podría estar contento solo con el coeficiente de correlación; uno podría necesitar el valor de Durbin-Watson además de eso, y aún otro podría querer ver la diagonal de la matriz del sombrero ... realmente depende.
JM no es un estadístico
2
Algunas organizaciones tienen reglas. Vea las pautas de APA por ejemplo.
whuber

Respuestas:

6

Para una regresión lineal simple, siempre produciría un gráfico de la variable x contra la variable y, con la línea de regresión superpuesta en el gráfico (¡siempre dibuje sus datos siempre que sea posible!). Esto le dirá muy fácilmente qué tan bien se ajusta su modelo, y es fácil de leer para una regresión variable. Agregar eso a lo que ya tiene probablemente sería suficiente, aunque es posible que desee incluir algunas parcelas de diagnóstico (apalancamiento, distancia de cocción, residuos, etc.). Depende de qué tan buena sea esa trama xy, y de su audiencia prevista, y de los protocolos que su audiencia espere.

R2 vs RMSE

R2 es una medida relativa, mientras que el RMSE es más una medida absoluta, como es de esperar que la mayoría de las observaciones estén dentro de RMSE desde la línea ajustada, y casi todas estén dentro de RMSE. Si desea transmitir "poder explicativo", es probablemente mejor, y si desea transmitir "poder predictivo", el RMSE es probablemente mejor.±±2R2

probabilidadislogica
fuente
Gracias @probabilityislogic. He incluido una trama en mi informe, y parece que además de mi oración original debería ser suficiente en este caso. Creo que incluir tramas de diagnóstico es probablemente innecesario para esta audiencia, aunque obviamente las he revisado yo mismo y parecen razonables. Gracias también por la explicación de R2 vs. RMSE: es muy útil.
JamesS
¿Qué pasa con los valores t y df (s)? ¿Cuándo deberían incluirse? ¿Tiene sentido incluir ambos o ninguno?
chiflado sobre natty
1

Solía ​​informar el coeficiente β más el IC del 95%, el valor p y Rsquared ajustado. Ex:

(β = 1.46, IC 95% [1.19, 1.8], p = 0.001 **, R2 ajustado = 0.48)

Si se informa una regresión múltiple o una regresión con variables de factores, informo el coeficiente, el IC del 95%, los valores p y luego por separado las estadísticas F (degres de libertad), el R2 ajustado y el valor p del modelo.

Bakaburg
fuente