Estoy escribiendo un programa para evaluar propiedades inmobiliarias y realmente no entiendo las diferencias entre algunos modelos de regresión robustos, por eso no sé cuál elegir.
Probé lmrob
, ltsReg
y rlm
. para el mismo conjunto de datos, los tres métodos me dieron valores diferentes para los coeficientes.
Pensé que lo mejor es utilizar ltsReg
porque, summary(ltsReg())
proporciona información acerca de R-squared
y p-values
y esto me ayudará a decidir si al aceptar o despedir el modelo.
¿Crees que ltsReg
es una buena opción?
EDITAR: Acabo de leer en las Estadísticas de bondad de ajuste que el R cuadrado ajustado es generalmente el mejor indicador de ajuste de calidad
r
regression
p-value
r-squared
Pablo
fuente
fuente
Respuestas:
En la notación que usaré,p será el número de variables de diseño (incluido el término constante), n el número de observaciones con n≥2p+1 (si no se cumpliera esta última condición, el paquete no habría devuelto un ajuste sino un error, por lo que supongo que se cumple). Denotaré porβ^FLTS el vector de coeficientes estimados por FLTS ( β^MM los coeficientes estimados por MM (
ltsReg
) ylmrob
). También escribiré:(¡estos son los residuos al cuadrado, no los estandarizados!)
La1/n lo que significa que un solo valor atípico (independientemente de n !) es suficiente para que el ajuste no tenga sentido. Para estimaciones de regresión M (por ejemplo, regresión de Huber M), el punto de ruptura es esencialmente1/(p+1) . Esto es algo más alto, pero en la práctica todavía es incómodamente cercano a 0 (porque a menudop será grande) La única conclusión que se puede extraer de p+1 de estos en su conjunto de datos.
rlm
función se ajusta a una estimación de regresión 'M' y, como la propuesta de @Frank Harrell hecha en los comentarios a su pregunta, no es robusta para los valores atípicos en el espacio de diseño. La regresión ordinal tiene un punto de ruptura (la proporción de sus datos que necesita ser reemplazada por valores atípicos para llevar los coeficientes ajustados a valores arbitrarios) de esencialmenterlm
encontrar un ajuste diferente a los otros dos métodos es que ha sido influenciado por valores atípicos de diseño y que debe haber más deEn contraste, los otros dos algoritmos son mucho más robustos: su punto de ruptura está justo debajo1/2 y lo más importante, no se encoge como p se hace grande Al ajustar un modelo lineal utilizando un método robusto, supone que al menosh=⌊(n+p+1)/2⌋+1 Las observaciones en sus datos no están contaminadas. La tarea de estos dos algoritmos es encontrar esas observaciones y ajustarlas lo mejor posible. Más precisamente, si denotamos:
(dóndeqh/n(r2i(β^MM)) es el h/n cuantil del vector r2i(β^MM) )
entoncesβ^MM (β^FLTS ) intenta ajustar las observaciones con índices en HMM (HFLTS )
El hecho de que hay grandes diferencias entreβ^FLTS y β^MM indica que los dos algoritmos no identifican el mismo conjunto de observaciones que los valores atípicos. Esto significa que al menos uno de ellos es influido por los valores atípicos. En este caso, utilizando el (ajustado)R2 o cualquiera de las estadísticas de cualquiera de los dos ajustes para decidir cuál usar, aunque intuitiva, es una idea terrible : los ajustes contaminados generalmente tienen residuos más pequeños que los limpios (pero dado que el conocimiento de esto es la razón por la que uno usa estadísticas sólidas en primer lugar , Supongo que el OP es muy consciente de este hecho y que no necesito ampliar esto).
Los dos ajustes robustos dan resultados contradictorios y la pregunta es ¿cuál es la correcta? Una forma de resolver esto es considerar el conjunto:
porqueh≥[n/2] , #{H+}≥p . Además, si alguno deHMM o HFLTS está libre de valores atípicos, también lo es H+ . La solución que propongo explota este hecho. Calcular:
Por ejemplo, siD(H+,β^FLTS,β^MM)<0 , entonces,
β^FLTS se ajusta mejor a las buenas observaciones que β^MM y entonces confiaría β^FLTS más. Y viceversa.
fuente