Tengo 5 variables y estoy tratando de predecir mi variable objetivo que debe estar dentro del rango de 0 a 70.
¿Cómo uso esta información para modelar mejor mi objetivo?
fuente
Tengo 5 variables y estoy tratando de predecir mi variable objetivo que debe estar dentro del rango de 0 a 70.
¿Cómo uso esta información para modelar mejor mi objetivo?
No necesariamente tienes que hacer nada. Es posible que el predictor funcione bien. Incluso si los extrapola de predicción a valores fuera de la gama, posiblemente de sujeción las predicciones a la gama (es decir, uso en lugar de y ) se hacen bien. Haga una validación cruzada del modelo para ver si esto funciona.
Sin embargo, el rango restringido plantea la posibilidad de una relación no lineal entre la variable dependiente ( ) y las variables independientes ( x i ). Algunos indicadores adicionales de esto incluyen:
Variación mayor en los valores residuales está en la mitad de su rango, en comparación con la variación en los residuos en cada extremo de la gama.
Razones teóricas para relaciones no lineales específicas.
Evidencia de especificación errónea del modelo (obtenida de las formas habituales).
Importancia de los términos cuadráticos o de orden superior en .
Considere una reexpresión no lineal de en caso de que se cumpla alguna de estas condiciones.
Hay muchas formas de volver a expresar para crear relaciones más lineales con x i . Por ejemplo, cualquier función creciente f definida en el intervalo [ 0 , 70 ] se puede "plegar" para crear una función creciente simétrica mediante y → f ( y ) - f ( 70 - y ) . Si f se vuelve arbitrariamente grande y negativo a medida que su argumento se acerca a 0 , la versión plegada de f asignará [ 0 , 70 ]en todos los números reales. Ejemplos de tales funciones incluyen el logaritmo y cualquier poder negativo. Usar el logaritmo es equivalente al "enlace logit" recomendado por @ user603. Otra forma es dejar que sea el CDF inverso de cualquier distribución de probabilidad y definir f ( y ) = G ( y / 70 ) . El uso de una distribución Normal da la transformación "probit".
Una forma de explotar las familias de transformaciones es experimentar: pruebe una posible transformación, realice una regresión rápida de la transformada frente a la x i , y pruebe los residuos: deben parecer independientes de los valores predichos de y (homoscedastic y no correlacionados ) Estos son signos de una relación lineal con las variables independientes. También ayuda si los residuos de los valores pronosticados con transformación inversa tienden a ser pequeños. Esto indica que la transformación ha mejorado el ajuste. Para resistir los efectos de los valores atípicos, utilice métodos de regresión robustos, como los mínimos cuadrados repesados de forma iterativa .
Es importante tener en cuenta por qué sus valores están limitados en el rango 0-70. Por ejemplo, si son el número de respuestas correctas en una prueba de 70 preguntas, entonces debe considerar modelos para variables de "número de éxitos", como la regresión binomial sobredispersada. Otras razones pueden llevarlo a otras soluciones.
fuente
Transformación de datos: cambie la escala de sus datos para que se encuentren en[0,1] y modele usando un modelo glm con un enlace logit.
Editar: cuando vuelva a escalar un vector (es decir, divida todos los elementos por la entrada más grande), por regla general, antes de hacerlo, pantalla (globos oculares) para valores atípicos.
ACTUALIZAR
fuente