En las estadísticas estamos haciendo regresiones lineales, el comienzo de ellas. En general, sabemos que cuanto mayor sea el , mejor, pero ¿hay alguna situación en la que un alto sería un modelo inútil?R 2
regression
r-squared
Richard Hardy
fuente
fuente
Respuestas:
Sí. Los criterios para la evaluación de un modelo estadístico dependen del problema específico que nos ocupa y no son una función mecánica de o significación estadística (a pesar de que la materia). La pregunta relevante es: "¿le ayuda el modelo a comprender los datos?"R2
Regresiones sin sentido con altoR2
La forma más sencilla de obtener un alto es hacer un equivalente a la regresión de los zapatos derechos sobre los zapatos izquierdos. Dime el tamaño de tu zapato derecho, y puedo predecir el tamaño de tu zapato izquierdo con gran precisión. Enorme R 2 ! ¡Qué gran modelo estadístico! Excepto que significa caca diddly. Puede obtener un excelente R 2 colocando la misma variable en el lado izquierdo y derecho de una regresión, pero esta enorme regresión de R 2 seguramente sería inútil.R2 R2 R2 R2
Hay otros casos en los que incluir una variable en el lado derecho es conceptualmente incorrecto (incluso si aumenta ). Digamos que está tratando de estimar si algún grupo minoritario es discriminado y es menos probable que consiga un trabajo. ¡No debe controlar si la compañía devolvió la llamada después de la solicitud de empleo porque ser menos propensos a responder a las solicitudes de empleo de minorías puede ser el canal a través del cual se produce la discriminación! Agregar el control incorrecto puede hacer que su regresión no tenga sentido.R2
¡ Siempre puedes aumentar agregando más regresores! Puedo seguir agregando regresores en el lado derecho hasta que obtenga el R 2 que me gusta. Para predecir los ingresos laborales, podría agregar controles de educación, controles de edad, efectos fijos trimestrales, efectos fijos de código postal, efectos fijos de ocupación, efectos fijos firmes, efectos fijos familiares, efectos fijos de mascotas, longitud del cabello, etc. en algún momento los controles deja de tener sentido pero R 2 sigue subiendo. Agregar todo como regresor se conoce como una regresión de "fregadero de cocina". Puede obtener un alto R 2 pero puede sobreajustar masivamente los datos: su modelo predice perfectamente la muestra utilizada para estimar el modelo (tiene un alto RR2 R2 R2 R2 ) pero el modelo estimado falla horriblemente en los nuevos datos.R2
La misma idea puede aparecer en el ajuste de la curva polinómica. Dame datos aleatorios, y probablemente pueda obtener un excelente ajustando un polinomio de 200 grados. Sin embargo, en datos nuevos, el polinomio estimado no funcionaría debido al sobreajuste. Nuevamente, R 2 alto para el modelo estimado pero el modelo estimado es inútil.R2 R2
El punto (3-4) es la razón por la que hemos ajustado , lo que proporciona alguna penalización por agregar más regresores, pero R 2 ajustado todavía puede ser mejorado al sobreajustar los datos. También tiene la característica maravillosamente absurda de que puede ser negativa.R2 R2
También podría dar ejemplos en los que bajo está bien (por ejemplo, estimar versiones beta en modelos de precios de activos) pero esta publicación ya se ha hecho bastante larga. Para resumir, la pregunta general debería ser algo como, "sabiendo lo que sé sobre el problema y las estadísticas, ¿este modelo me ayuda a comprender / explicar los datos?" R 2 puede ser una herramienta para ayudar a responder esta pregunta, pero no es tan simple como los modelos con mayor R 2 siempre son mejores.R2 R2 R2
fuente
"Más alto es mejor" es una mala regla general para R-cuadrado.
Don Morrison escribió algunos artículos famosos hace unos años demostrando que los cuadrados R que se aproximan a cero podrían ser procesables y rentables, dependiendo de la industria. Por ejemplo, en el marketing directo que predice la respuesta a un correo de suscripción a una revista a 10 millones de hogares, los cuadrados R en los dígitos bajos pueden producir campañas rentables (en función del ROI) si el envío se basa en los 2 o 3 deciles de respuesta principales probabilidad.
Otro sociólogo (cuyo nombre se me escapa) segmentó los cuadrados R por tipo de datos y señaló que la investigación de la encuesta de wrt, los cuadrados R en el rango del 10-20% eran la norma, mientras que para los datos comerciales, los cuadrados R en el rango del 40-60% eran de esperarse. Continuaron comentando que los cuadrados R de 80-90% o más probablemente violaron los supuestos de regresión fundamental. Sin embargo, este autor no tenía experiencia con la combinación de marketing, datos de series temporales o modelos que contenían un conjunto completo de características "causales" (por ejemplo, las 4 "P" clásicas de precio, promoción, lugar y producto) que pueden producir y producirán R- cuadrados que se acercan al 100%.
Dicho esto, incluso las reglas generales de referencia comparativas como estas no son terriblemente útiles cuando se trata de analfabetos técnicos cuya primera pregunta sobre un modelo predictivo siempre será: "¿Cuál es el R-cuadrado?"
fuente
Las otras respuestas ofrecen excelentes explicaciones teóricas de las muchas formas en que los valores R-cuadrados pueden ser fijados / falsificados / engañosos / etc. Aquí hay una demostración práctica que siempre me ha quedado grabada, codificada en
r
:Esto puede proporcionar valores R al cuadrado> 0,90. Agregar suficientes regresores e incluso valores aleatorios pueden "predecir" valores aleatorios.
fuente
set.seed(1)
yset.seed(2)
.