Quiero incluir el término su cuadrado (variables predictoras) en una regresión porque supongo que los valores bajos de tienen un efecto positivo en la variable dependiente y los valores altos tienen un efecto negativo. La debería capturar el efecto de los valores más altos. Por lo tanto, espero que el coeficiente de sea positivo y el coeficiente de sea negativo. Además de , también incluyo otras variables predictoras.x 2 x x 2 x x 2 x
Leí en algunas publicaciones aquí que es una buena idea centrar las variables en este caso para evitar la multicolinealidad. Al realizar una regresión múltiple, ¿cuándo debería centrar sus variables predictoras y cuándo debería estandarizarlas?
¿Debería centrar ambas variables por separado (en la media) o debería centrar solo y luego tomar el cuadrado o debería centrar solo e incluir la original ?x 2 x
¿Es un problema si es una variable de conteo?
Para evitar que sea una variable de conteo, pensé en dividirla por un área teóricamente definida, por ejemplo 5 kilómetros cuadrados. Esto debería ser un poco similar a un cálculo de densidad de puntos.
Sin embargo, me temo que en esta situación mi suposición inicial sobre el signo de los coeficientes ya no se mantendría, como cuando y x² = 4
=
pero sería más pequeño porque .
Respuestas:
De hecho, su pregunta se compone de varias subpreguntas, que trataré de abordar lo mejor que pueda.
Tener en cuenta y es una forma de hacerlo, pero ¿estás seguro de que tu prueba es concluyente? ¿Serás capaz de concluir algo útil para todos los resultados posibles de la regresión? Creo que plantear la pregunta claramente de antemano puede ayudar, y hacer preguntas similares y relacionadas también puede ayudar. Por ejemplo, puede considerar un umbral de para el cual las pendientes de regresión son diferentes. Esto se puede hacer usando variables moderadoras . Si las diferentes pendientes (mientras impone la misma intersección) son compatibles, entonces no tiene diferencia, de lo contrario, se proporcionó un argumento claro para su diferencia.x 2 xX X2 X
Creo que esta pregunta no debe mezclarse con la primera pregunta y la prueba, y me temo que centrarme en o antemano podría sesgar los resultados. Aconsejaría no centrarse, al menos en una primera etapa. Recuerde que probablemente no morirá por multicolinealidad, muchos autores argumentan que es equivalente a trabajar con un tamaño de muestra más pequeño ( aquí y aquí ).x 2X X2
Sí lo hará, pero esto dependerá en gran medida de los primeros 2 puntos, por lo que te sugiero que abordes una cosa a la vez. No veo ninguna razón por la cual la regresión no funcionaría sin esta transformación, por lo que le aconsejaría que la ignore por ahora. Tenga en cuenta también que al dividir por un elemento común, está cambiando la escala en la que , pero hay formas completamente diferentes de verlo, como escribí anteriormente, en el que este umbral se considera de manera más explícita.x2=x
fuente
En general, el centrado podría ayudar a reducir la multicolinealidad, pero "probablemente no morirá de multicolinealidad" (ver la respuesta de predrofigueira).
Lo más importante es que a menudo se necesita centrar para que la intercepción sea significativa. En el modelo simple , la intersección se define como el resultado esperado para . Si un valor de cero no es significativo, tampoco lo es el concepto. A menudo es útil centrar la variable alrededor de su media; en este caso, el predictor tiene la forma y la intercepción es el resultado esperado para un sujeto cuyo valor en es igual a la media .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+ε x=0 x x (xi−x¯) α xi x¯
En tales casos, debe centrar luego cuadrar. No puede centrar y separado, porque está regresando el resultado en una variable "nueva", , por lo que debe cuadrado esta nueva variable. ¿Qué podría significar centrar ?x x 2 ( x i - ˉ x ) x 2x x x2 (xi−x¯) x2
Puede centrar una variable de conteo, si su media es significativa , pero podría escalarla . Por ejemplo, si y "2" podría ser una línea de base, puede restar 2: . La intersección se convierte en el resultado esperado para un sujeto cuyo valor en es igual a "2", un valor de referencia.( x i - 2 ) = - 1 , 0 , 1 , 2 , 3 x ix=1,2,3,4,5 (xi−2)=−1,0,1,2,3 xi
En cuanto a la división, no hay problema: ¡tus coeficientes estimados serían mayores! Gelman y Hill , §4.1, dan un ejemplo:
Una pulgada es milímetros, entonces es . Una pulgada es emiles, entonces es . Pero estas tres ecuaciones son completamente equivalentes.5125.4 51 1.6 e - 5 81000000 1300 / 1.6 e - 51300/25.4 1.6e−5 81000000 1300/1.6e−5
fuente
Si bien aprecio el tratamiento de otros de centrar e interpretar los coeficientes, lo que ha descrito aquí es simplemente un efecto lineal. En otras palabras, lo que has descrito no indica ninguna necesidad de probar el cuadrado de x .
fuente