¿Cómo incluir y en la regresión, y si centrarlos?

9

Quiero incluir el término su cuadrado (variables predictoras) en una regresión porque supongo que los valores bajos de tienen un efecto positivo en la variable dependiente y los valores altos tienen un efecto negativo. La debería capturar el efecto de los valores más altos. Por lo tanto, espero que el coeficiente de sea ​​positivo y el coeficiente de sea ​​negativo. Además de , también incluyo otras variables predictoras.x 2 x x 2 x x 2 xxx2xx2xx2x

Leí en algunas publicaciones aquí que es una buena idea centrar las variables en este caso para evitar la multicolinealidad. Al realizar una regresión múltiple, ¿cuándo debería centrar sus variables predictoras y cuándo debería estandarizarlas?

  1. ¿Debería centrar ambas variables por separado (en la media) o debería centrar solo y luego tomar el cuadrado o debería centrar solo e incluir la original ?x 2 xxx2x

  2. ¿Es un problema si es una variable de conteo?x

Para evitar que sea ​​una variable de conteo, pensé en dividirla por un área teóricamente definida, por ejemplo 5 kilómetros cuadrados. Esto debería ser un poco similar a un cálculo de densidad de puntos.x

Sin embargo, me temo que en esta situación mi suposición inicial sobre el signo de los coeficientes ya no se mantendría, como cuando y x² = 4x=2x²=4

x=2/5 km2 = 0.4 km2

pero x2 sería más pequeño porque x2=(2/5)2=0.16 .

Peter
fuente
1
Su software de regresión se ocupará de los problemas numéricos automáticamente, en particular, es muy probable que centre y estandarice sus datos internamente. Cómo responder a sus preguntas sobre el centrado se reduce a cómo desea interpretar los coeficientes.
whuber

Respuestas:

4

De hecho, su pregunta se compone de varias subpreguntas, que trataré de abordar lo mejor que pueda.

  • ¿Cómo distinguir la dependencia de valores bajos y altos de una regresión?

Tener en cuenta y es una forma de hacerlo, pero ¿estás seguro de que tu prueba es concluyente? ¿Serás capaz de concluir algo útil para todos los resultados posibles de la regresión? Creo que plantear la pregunta claramente de antemano puede ayudar, y hacer preguntas similares y relacionadas también puede ayudar. Por ejemplo, puede considerar un umbral de para el cual las pendientes de regresión son diferentes. Esto se puede hacer usando variables moderadoras . Si las diferentes pendientes (mientras impone la misma intersección) son compatibles, entonces no tiene diferencia, de lo contrario, se proporcionó un argumento claro para su diferencia.x 2 xxx2x

  • ¿Cuándo debe centrarse y estandarizarse?

Creo que esta pregunta no debe mezclarse con la primera pregunta y la prueba, y me temo que centrarme en o antemano podría sesgar los resultados. Aconsejaría no centrarse, al menos en una primera etapa. Recuerde que probablemente no morirá por multicolinealidad, muchos autores argumentan que es equivalente a trabajar con un tamaño de muestra más pequeño ( aquí y aquí ).x 2xx2

  • ¿La transformación de la variable de recuento discreto en una variable de punto flotante (continua) cambia la interpretación de los resultados?

Sí lo hará, pero esto dependerá en gran medida de los primeros 2 puntos, por lo que te sugiero que abordes una cosa a la vez. No veo ninguna razón por la cual la regresión no funcionaría sin esta transformación, por lo que le aconsejaría que la ignore por ahora. Tenga en cuenta también que al dividir por un elemento común, está cambiando la escala en la que , pero hay formas completamente diferentes de verlo, como escribí anteriormente, en el que este umbral se considera de manera más explícita.x2=x

pedrofigueira
fuente
Muchas gracias por tu respuesta, especialmente por los enlaces !!!
Peter
Fue un placer ayudar. =)
pedrofigueira
4

En general, el centrado podría ayudar a reducir la multicolinealidad, pero "probablemente no morirá de multicolinealidad" (ver la respuesta de predrofigueira).

Lo más importante es que a menudo se necesita centrar para que la intercepción sea significativa. En el modelo simple , la intersección se define como el resultado esperado para . Si un valor de cero no es significativo, tampoco lo es el concepto. A menudo es útil centrar la variable alrededor de su media; en este caso, el predictor tiene la forma y la intercepción es el resultado esperado para un sujeto cuyo valor en es igual a la media .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+εx=0xx(xix¯)αxix¯

En tales casos, debe centrar luego cuadrar. No puede centrar y separado, porque está regresando el resultado en una variable "nueva", , por lo que debe cuadrado esta nueva variable. ¿Qué podría significar centrar ?x x 2 ( x i - ˉ x ) x 2xxx2(xix¯)x2

Puede centrar una variable de conteo, si su media es significativa , pero podría escalarla . Por ejemplo, si y "2" podría ser una línea de base, puede restar 2: . La intersección se convierte en el resultado esperado para un sujeto cuyo valor en es igual a "2", un valor de referencia.( x i - 2 ) = - 1 , 0 , 1 , 2 , 3 x ix=1,2,3,4,5(xi2)=1,0,1,2,3xi

En cuanto a la división, no hay problema: ¡tus coeficientes estimados serían mayores! Gelman y Hill , §4.1, dan un ejemplo:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Una pulgada es milímetros, entonces es . Una pulgada es emiles, entonces es . Pero estas tres ecuaciones son completamente equivalentes.5125.4511.6 e - 5 81000000 1300 / 1.6 e - 51300/25.41.6e5810000001300/1.6e5

Sergio
fuente
relacionados .
Henrik
Gracias por tu respuesta Sergio. Realmente me ayudó. Lamentablemente, solo puedo marcar una respuesta como mi respuesta aceptada.
Peter
De nada. Y no te preocupes ;-)
Sergio
1

Supongo que los valores bajos de x tienen un efecto positivo en la variable dependiente y los valores altos tienen un efecto negativo.

Si bien aprecio el tratamiento de otros de centrar e interpretar los coeficientes, lo que ha descrito aquí es simplemente un efecto lineal. En otras palabras, lo que has descrito no indica ninguna necesidad de probar el cuadrado de x .

rolando2
fuente
En mi opinión, si , el efecto (parcial) de en (o, mejor, en ) es . Dichos efectos son constantes, no dependen del nivel de . Si el modelo es , entonces el efecto parcial de es y depende del nivel de . Esto también puede suceder en otros modelos, por ejemplo, en modelos lineales de spline, pero no en un modelo lineal simple (1er grado). ¿Me equivoco? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xix 2 β 2 + 2 β 3 x 2 x 2y=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio
@ rolando2: No estoy seguro de si hablamos de lo de Samte. Si incluyo solo la variable predictora regular, obtendré un coeficiente estimado para ese predictor que sea positivo o negativo. Basado en el coeficiente, puedo decir que al agregar una unidad a x, y aumentará o disminuirá en cierta cantidad. Pero no puedo descubrir de esta manera si los valores pequeños realmente conducen a un aumento de y, mientras que los valores más altos (desde cierto punto desconocido en adelante) conducen a una disminución de y.
Peter
@Peter: entiendo y le sugiero que edite la oración "Asumo" de su pregunta para que se lea: "Asumo que, en alguna región de x, los valores más altos de x tienen un efecto positivo en la variable dependiente, mientras que en otra región, los valores más altos tienen un efecto negativo ".
rolando2