Elección entre diferentes regresiones robustas en R

8

Estoy escribiendo un programa para evaluar propiedades inmobiliarias y realmente no entiendo las diferencias entre algunos modelos de regresión robustos, por eso no sé cuál elegir.

Probé lmrob, ltsRegy rlm. para el mismo conjunto de datos, los tres métodos me dieron valores diferentes para los coeficientes.

Pensé que lo mejor es utilizar ltsRegporque, summary(ltsReg())proporciona información acerca de R-squaredy p-valuesy esto me ayudará a decidir si al aceptar o despedir el modelo.

¿Crees que ltsReges una buena opción?

EDITAR: Acabo de leer en las Estadísticas de bondad de ajuste que el R cuadrado ajustado es generalmente el mejor indicador de ajuste de calidad

Pablo
fuente
44
Ambos valores p y R2puede ser engañoso, por lo que elegir un paquete basado en el hecho de que los emite no es realmente un buen criterio para tal elección ...
Tim
entonces, ¿cómo puedo decidir si el modelo es válido sin trazarlo?
Paul
2
Considere también la regresión ordinal porque puede ser más robusta e interpretable, y más poderosa.
Frank Harrell
@ usuario603: lo confirmo. Para la evaluación de un inmueble, creo varios modelos, que contienen diferentes características (por ejemplo: 1. precio ~ livingArea + floorNumber + age + ...).
Paul
2
¡Alguien quiere cerrar esta pregunta! No creo que sea correcto, incluso si en la superficie se trata de elegir funciones R, realmente se trata de cómo y por qué elegir métodos de regresión robustos, es decir, onópicos.
kjetil b halvorsen

Respuestas:

10

En la notación que usaré, p será el número de variables de diseño (incluido el término constante), n el número de observaciones con n2p+1(si no se cumpliera esta última condición, el paquete no habría devuelto un ajuste sino un error, por lo que supongo que se cumple). Denotaré porβ^FLTSel vector de coeficientes estimados por FLTS ( ltsReg) yβ^MMlos coeficientes estimados por MM ( lmrob). También escribiré:

ri2(β^)=(yixiβ^)2

(¡estos son los residuos al cuadrado, no los estandarizados!)

La rlmfunción se ajusta a una estimación de regresión 'M' y, como la propuesta de @Frank Harrell hecha en los comentarios a su pregunta, no es robusta para los valores atípicos en el espacio de diseño. La regresión ordinal tiene un punto de ruptura (la proporción de sus datos que necesita ser reemplazada por valores atípicos para llevar los coeficientes ajustados a valores arbitrarios) de esencialmente1/n lo que significa que un solo valor atípico (independientemente de n!) es suficiente para que el ajuste no tenga sentido. Para estimaciones de regresión M (por ejemplo, regresión de Huber M), el punto de ruptura es esencialmente1/(p+1). Esto es algo más alto, pero en la práctica todavía es incómodamente cercano a 0 (porque a menudopserá grande) La única conclusión que se puede extraer de rlmencontrar un ajuste diferente a los otros dos métodos es que ha sido influenciado por valores atípicos de diseño y que debe haber más dep+1 de estos en su conjunto de datos.

En contraste, los otros dos algoritmos son mucho más robustos: su punto de ruptura está justo debajo 1/2 y lo más importante, no se encoge como pse hace grande Al ajustar un modelo lineal utilizando un método robusto, supone que al menosh=(n+p+1)/2+1Las observaciones en sus datos no están contaminadas. La tarea de estos dos algoritmos es encontrar esas observaciones y ajustarlas lo mejor posible. Más precisamente, si denotamos:

HFLTS={i:ri2(β^FLTS)qh/n(ri2(β^FLTS))}HMM={i:ri2(β^MM)qh/n(ri2(β^MM))}

(dónde qh/n(ri2(β^MM)) es el h/n cuantil del vector ri2(β^MM))

entonces β^MM (β^FLTS) intenta ajustar las observaciones con índices en HMM (HFLTS)

El hecho de que hay grandes diferencias entre β^FLTS y β^MMindica que los dos algoritmos no identifican el mismo conjunto de observaciones que los valores atípicos. Esto significa que al menos uno de ellos es influido por los valores atípicos. En este caso, utilizando el (ajustado)R2o cualquiera de las estadísticas de cualquiera de los dos ajustes para decidir cuál usar, aunque intuitiva, es una idea terrible : los ajustes contaminados generalmente tienen residuos más pequeños que los limpios (pero dado que el conocimiento de esto es la razón por la que uno usa estadísticas sólidas en primer lugar , Supongo que el OP es muy consciente de este hecho y que no necesito ampliar esto).

Los dos ajustes robustos dan resultados contradictorios y la pregunta es ¿cuál es la correcta? Una forma de resolver esto es considerar el conjunto:

H+=HMMHFLTS

porque h[n/2], #{H+}p. Además, si alguno deHMM o HFLTS está libre de valores atípicos, también lo es H+. La solución que propongo explota este hecho. Calcular:

D(H+,β^FLTS,β^MM)=iH+(ri2(β^FLTS)ri2(β^MM))

Por ejemplo, si D(H+,β^FLTS,β^MM)<0, entonces, β^FLTS se ajusta mejor a las buenas observaciones que β^MM y entonces confiaría β^FLTSmás. Y viceversa.

usuario603
fuente
1
+1. Supongo que estas usando[  ] significa redondear hacia abajo a entero o función de piso   . Encuentro la última notación más explícita. Es fácil suponer que los lectores nuevos en esa notación para el redondeo de enteros suponen que los corchetes son solo corchetes.
Nick Cox