En la regresión lineal, ¿cuándo es apropiado usar el registro de una variable independiente en lugar de los valores reales?

164

¿Estoy buscando una distribución de mejor comportamiento para la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo más?

regression distributions data-transformation logarithm regression-strategies d_2
fuente

1

¿Está preguntando cómo reducir el efecto de los valores atípicos o cuándo usar el registro de alguna variable?

Benjamin Bannier

23

Creo que el OP dice "He oído hablar de personas que utilizan las variables de entrada de inicio de sesión: ¿por qué hacen eso?"

Shane

¿Por qué solo el registro? ¿No debería aplicarse esta pregunta a cualquier técnica de transformación de datos que pueda usarse para minimizar los residuos asociados con mx + b?

AsymLabs

1

@AsymLabs: el registro puede ser especial en regresión, ya que es la única función que convierte un producto en una suma.

probabilidadislogica

12

Una advertencia para los lectores: la pregunta se refiere a la transformación de IV, pero algunas de las respuestas parecen estar hablando de razones para transformar DV. No se deje engañar al pensar que esas son también razones para transformar las vías intravenosas: algunas pueden ser, otras ciertamente no lo son. En particular, la distribución de la IV generalmente no es relevante (de hecho, la distribución marginal de la DV tampoco lo es).

Glen_b

168

Siempre dudo en meterme en un hilo con tantas respuestas excelentes como esta, pero me sorprende que pocas de las respuestas proporcionen alguna razón para preferir el logaritmo a alguna otra transformación que "aplasta" los datos, como una raíz o reciproco.

Antes de llegar a eso, recapitulemos la sabiduría en las respuestas existentes de una manera más general. Se indica alguna reexpresión no lineal de la variable dependiente cuando se aplica cualquiera de los siguientes:

Los residuos tienen una distribución sesgada. El propósito de una transformación es obtener residuos que están distribuidos de forma aproximadamente simétrica (aproximadamente cero, por supuesto).
La propagación de los residuos cambia sistemáticamente con los valores de la variable dependiente ("heterocedasticidad"). El propósito de la transformación es eliminar ese cambio sistemático en la propagación, logrando una "homocedasticidad" aproximada.
Para linealizar una relación.
Cuando la teoría científica lo indica. Por ejemplo, la química a menudo sugiere expresar concentraciones como logaritmos (dando actividades o incluso el pH bien conocido).
Cuando una teoría estadística más nebulosa sugiere que los residuos reflejan "errores aleatorios" que no se acumulan de forma aditiva.
Para simplificar un modelo. Por ejemplo, a veces un logaritmo puede simplificar el número y la complejidad de los términos de "interacción".

(Estas indicaciones pueden entrar en conflicto entre sí; en tales casos, se necesita juicio).

Entonces, ¿ cuándo se indica específicamente un logaritmo en lugar de alguna otra transformación?

Los residuos tienen una distribución "fuertemente" positivamente sesgada. En su libro sobre EDA, John Tukey proporciona formas cuantitativas de estimar la transformación (dentro de la familia de las transformaciones de Box-Cox, o poder) en función de las estadísticas de rango de los residuos. Realmente se reduce al hecho de que si tomar el registro simula los residuos, probablemente fue la forma correcta de reexpresión; de lo contrario, se necesita alguna otra reexpresión.
Cuando la SD de los residuos es directamente proporcional a los valores ajustados (y no a alguna potencia de los valores ajustados).
Cuando la relación es cercana a exponencial.
Cuando se cree que los residuos reflejan errores de acumulación multiplicativa.
Realmente desea un modelo en el que los cambios marginales en las variables explicativas se interpreten en términos de cambios multiplicativos (porcentaje) en la variable dependiente.

Finalmente, algunas razones que no son para usar una reexpresión :

Hacer que los valores atípicos no parezcan valores atípicos. Un valor atípico es un dato que no se ajusta a una descripción parsimoniosa y relativamente simple de los datos. Cambiar la descripción para hacer que los valores atípicos se vean mejor suele ser una inversión incorrecta de las prioridades: primero obtenga una descripción de los datos científicamente válida y estadísticamente buena y luego explore los valores atípicos. ¡No permita que los valores atípicos ocasionales determinen cómo describir el resto de los datos!
Porque el software lo hizo automáticamente. (¡Basta de charla!)
Porque todos los datos son positivos. (La positividad a menudo implica asimetría positiva, pero no es necesario. Además, otras transformaciones pueden funcionar mejor. Por ejemplo, una raíz a menudo funciona mejor con datos contados).
Hacer que los datos "malos" (tal vez de baja calidad) aparezcan bien comportados.
Para poder trazar los datos. (Si se necesita una transformación para poder trazar los datos, probablemente sea necesaria por una o más buenas razones ya mencionadas. Si la única razón de la transformación es realmente para trazar, continúe y hágalo, pero solo para trazar el datos. Deje los datos sin transformar para su análisis.)

whuber
fuente

1

¿Qué pasa con variables como la densidad de población en una región o la proporción de niños por maestro para cada distrito escolar o el número de homicidios por 1000 en la población? He visto a profesores tomar el registro de estas variables. No me queda claro por qué. Por ejemplo, ¿la tasa de homicidios no es ya un porcentaje? El registro sería el cambio porcentual de la tasa? ¿Por qué se preferiría el registro de la relación niño-maestro? ¿Debería tomarse la transformación logarítmica para cada variable continua cuando no hay una teoría subyacente sobre una forma funcional verdadera?

user1690130

1

@JG Las proporciones pequeñas tienden a tener distribuciones asimétricas; Es probable que los logaritmos y las raíces los hagan más simétricos. No entiendo sus preguntas relacionadas con los porcentajes: ¿quizás está combinando diferentes usos de porcentajes (uno para expresar algo como una proporción de un todo y otro para expresar un cambio relativo)? No creo haber escrito nada abogando por que siempre se apliquen los logaritmos, ¡ni mucho menos! Así que no entiendo la base de tu última pregunta.

whuber

2

"Cuando se cree que los residuos reflejan errores de acumulación multiplicativa". Tengo problemas para interpretar esta frase. ¿Es posible desarrollar esto un poco con otra o dos oraciones? ¿A qué acumulación te refieres?

Hatshepsut

@ user1690130 para proporciones y densidades, estas generalmente deben ajustarse como una distribución de la familia de Poisson para conteos con una compensación para la exposición. Por ejemplo, el número de personas es el recuento, y el desplazamiento es el área de la región. Vea esta pregunta para una buena explicación: stats.stackexchange.com/questions/11182/…

Michael Barton

2

@Hatshepsut un ejemplo simple de errores de acumulación multiplicativa sería el volumen como variable dependiente y los errores en las mediciones de cada dimensión lineal.

abalter

73

Siempre les digo a los estudiantes que hay tres razones para transformar una variable tomando el logaritmo natural. La razón para registrar la variable determinará si desea registrar las variables independientes, dependientes o ambas. Para ser claros, estoy hablando de tomar el logaritmo natural.

En primer lugar, para mejorar el ajuste del modelo, como han señalado otros carteles. Por ejemplo, si sus residuos no se distribuyen normalmente, tomar el logaritmo de una variable sesgada puede mejorar el ajuste al alterar la escala y hacer que la variable esté más "normalmente" distribuida. Por ejemplo, las ganancias se truncan en cero y a menudo exhiben sesgo positivo. Si la variable tiene un sesgo negativo, primero puede invertir la variable antes de tomar el logaritmo. Estoy pensando especialmente en las escalas Likert que se incorporan como variables continuas. Si bien esto generalmente se aplica a la variable dependiente, ocasionalmente tiene problemas con los residuos (por ejemplo, heterocedasticidad) causados por una variable independiente que a veces puede corregirse tomando el logaritmo de esa variable. Por ejemplo, cuando se ejecutaba un modelo que explicaba las evaluaciones del profesor en un conjunto de profesor y covariables de clase, la variable "tamaño de clase" (es decir, el número de estudiantes en la clase) tenía valores atípicos que inducían la heterocedasticidad porque la variación en las evaluaciones del profesor era menor en mayor cohortes que cohortes más pequeñas. El registro de la variable de estudiante ayudaría, aunque en este ejemplo, calcular los errores estándar robustos o usar mínimos cuadrados ponderados puede facilitar la interpretación.

La segunda razón para registrar una o más variables en el modelo es para la interpretación. Yo llamo a esto razón de conveniencia. Si registra sus variables dependientes (Y) e independientes (X), sus coeficientes de regresión ( ) serán elasticidades y la interpretación sería la siguiente: un aumento del 1% en X conduciría a un ceteris paribus % aumento en Y (en promedio). Registrar solo un lado de la "ecuación" de regresión conduciría a interpretaciones alternativas como se describe a continuación: $\beta$ $\beta$

Y y X: un aumento de una unidad en X conduciría a un aumento / disminución en Y $\beta$

Log Y y Log X: un aumento del 1% en X conduciría a un aumento / disminución % en Y $\beta$

Log Y y X: un aumento de una unidad en X conduciría a un % de aumento / disminución en Y $\beta*100$

Y y Log X: un aumento del 1% en X conduciría a un aumento / disminución en Y $\beta/100$

Y finalmente podría haber una razón teórica para hacerlo. Por ejemplo, algunos modelos que nos gustaría estimar son multiplicativos y, por lo tanto, no lineales. Tomar logaritmos permite estimar estos modelos por regresión lineal. Buenos ejemplos de esto incluyen la función de producción de Cobb-Douglas en economía y la ecuación de Mincer en educación. La función de producción Cobb-Douglas explica cómo las entradas se convierten en salidas:

Y = A L^{α} K^{β}

$Y = A L^\alpha K^\beta$

dónde

$Y$ es la producción o producción total de alguna entidad, por ejemplo, empresa, granja, etc.

$A$ es la productividad total del factor (el cambio en la producción no causado por los insumos, por ejemplo, por el cambio de tecnología o el clima)

$L$ es el insumo laboral

$K$ es la entrada de capital

$\alpha$ y son elasticidades de salida. $\beta$

Tomar logaritmos de esto hace que la función sea fácil de estimar usando la regresión lineal de OLS como tal:

\log (Y) = \log (A) + α \log (L) + β \log (K)

$\log(Y) = \log(A) + \alpha\log(L) + \beta\log(K)$

Graham Cookson
fuente

55

"Log Y y X: un aumento de una unidad en X conduciría a un aumento / disminución de β ∗ 100% en Y": creo que esto se aplica solo cuando β es pequeño, de modo que exp (β) ≈ 1 + β

Ida

1

agradable y claro gracias! Una pregunta, ¿cómo interpreta las intercepciones en el caso Log Y y X? y en general me preocupa cómo informar las regresiones transformadas de registros ...

Bakaburg

2

Soy un fanático de las respuestas que contienen ejemplos de Economía ["Usted me tuvo en ' Cobb-Douglas Production Function '"] ... Sin embargo, una cosa: debe cambiar el término de intercepción en la segunda ecuación para registrar (A ) para que sea coherente con la primera ecuación.

Steve S

@Ida de hecho. Para el lector interesado, mi publicación aquí describe por qué, para "y" registrado, el analista debe interpretar como el cambio porcentual.

100 \times (e^{β} - 1)

$100 \times (e^\beta-1)$

AdamO

21

Para obtener más información sobre el excelente punto de Whuber sobre las razones para preferir el logaritmo a algunas otras transformaciones, como una raíz o recíproca, pero centrándose en la interpretación única de los coeficientes de regresión resultantes de la transformación logarítmica en comparación con otras transformaciones, consulte:

Oliver N. Keene. La transformación del registro es especial. Estadísticas en medicina 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de dudosa legalidad disponible en http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Si registra la variable independiente x en la base b , puede interpretar el coeficiente de regresión (y el IC) como el cambio en la variable dependiente y por cada aumento de b en x . (Por lo tanto, los registros a la base 2 a menudo son útiles, ya que corresponden al cambio en y por duplicar en x , o los registros a la base 10 si x varía en muchos órdenes de magnitud, lo cual es más raro). Otras transformaciones, como la raíz cuadrada, no tienen una interpretación tan simple.

Si registra la variable dependiente y (no la pregunta original, sino una que varias de las respuestas anteriores han abordado), entonces encuentro atractiva la idea de Tim Sympercents de presentar los resultados (incluso los usé en un artículo una vez), aunque no parecen haber captado tanto:

Tim J Cole. Sympercents: las diferencias porcentuales simétricas en la escala de 100 log (e) simplifican la presentación de los datos transformados de log. Estadísticas en medicina 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Estoy muy contento de que Stat Med haya dejado de usar SICI como DOI ...]

una parada
fuente

1

Gracias por la referencia y muy buenos puntos. La cuestión de interés es si este problema se aplica a todas las transformaciones, no solo a los registros. Para nosotros, la estadística / probabilidad es útil en la medida en que permite una predicción efectiva del rendimiento, o criterios / orientación efectivos. A lo largo de los años, hemos utilizado transformaciones de potencia (registros con otro nombre), transformaciones polinómicas y otras (incluso transformaciones por partes) para tratar de reducir los residuos, ajustar los intervalos de confianza y, en general, mejorar la capacidad predictiva de un conjunto de datos dado. ¿Estamos diciendo que esto es incorrecto?

AsymLabs

1

@AsymLabs, ¿qué tan separadas están las dos culturas de Breiman (aproximadamente predictores y modeladores)? Cf. Dos culturas : polémicas.

denis

15

Normalmente, se toma el registro de una variable de entrada para escalarla y cambiar la distribución (por ejemplo, para que se distribuya normalmente). Sin embargo, no se puede hacer a ciegas; debe tener cuidado al realizar cualquier escala para asegurarse de que los resultados aún sean interpretables.

Esto se analiza en la mayoría de los textos introductorios de estadística. También puede leer el documento de Andrew Gelman sobre "Escalar entradas de regresión dividiendo por dos desviaciones estándar" para una discusión sobre esto. También tiene una muy buena discusión sobre esto al comienzo de "Análisis de datos utilizando regresión y modelos multinivel / jerárquicos" .

Tomar el registro no es un método apropiado para tratar con datos incorrectos / valores atípicos.

Shane
fuente

12

Tiende a tomar registros de los datos cuando hay un problema con los residuos. Por ejemplo, si traza los residuos contra una covariable particular y observa un patrón creciente / decreciente (una forma de embudo), entonces una transformación puede ser apropiada. Los residuos no aleatorios generalmente indican que los supuestos de su modelo son incorrectos, es decir, datos no normales.

Algunos tipos de datos se prestan automáticamente a transformaciones logarítmicas. Por ejemplo, generalmente tomo registros cuando se trata de concentraciones o edad.

Aunque las transformaciones no se usan principalmente para tratar los valores atípicos, sí ayudan, ya que tomar registros aplasta sus datos.

csgillespie
fuente

1

Pero aún así, el uso de log cambia el modelo: para la regresión lineal es y ~ a * x + b, para la regresión lineal en el log es y ~ y0 * exp (x / x0).

1

Estoy de acuerdo: tomar el registro cambia tu modelo. Pero si tiene que transformar sus datos, eso implica que su modelo no era adecuado en primer lugar.

csgillespie

2

@cgillespie: Concentraciones, sí; pero edad? Eso es extraño.

whuber

@whuber: Supongo que depende mucho de los datos, pero los conjuntos de datos que utilicé verían una gran diferencia entre 10 y 18 años, pero una pequeña diferencia entre 20 y 28 años. Incluso para los niños pequeños, la diferencia entre un 0-1 año no es la misma que la diferencia entre un 1-2.

csgillespie

1

@landroni Está redactado brevemente. No diría que es pobre, excepto que es probable que "por ejemplo" fuera intencionado en lugar de "es decir", entiendo el uso de "aleatorio" aquí en el sentido de "independiente e idénticamente distribuido", que de hecho es el supuesto más general asumido por OLS En algunos entornos, las personas suponen, además, que esta distribución subyacente común es normal, pero eso no es estrictamente necesario en la práctica o en teoría: todo lo que es necesario es que las distribuciones de muestreo de las estadísticas relevantes estén cerca de lo normal.

whuber

10

La transformación de una variable independiente es una ocasión en la que uno puede ser empírico sin distorsionar la inferencia, siempre y cuando sea honesto sobre el número de grados de libertad en juego. Una forma es usar splines de regresión para continua que aún no se sabe que actúa linealmente. Para mí no se trata de log vs. escala original; Es una cuestión de qué transformación de ajusta a los datos. La normalidad de los residuos no es un criterio aquí. $X$ $X$ $X$

Cuando está extremadamente sesgado, el cubicado de como se necesita en las funciones de spline cúbicas da como resultado valores extremos que a veces pueden causar problemas numéricos. Resuelvo esto ajustando la función spline cúbica en . El paquete R considera la variable más interna como el predictor, por lo que el trazado de valores predichos tendrá en el eje . Ejemplo: $X$ $X$ $\sqrt[3]{X}$ rms $X$ $x$

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

Esto se ajusta a una spline cúbica restringida en con 5 nudos en ubicaciones de cuantiles predeterminadas. El ajuste tiene 4 df (un término lineal, 3 términos no lineales). Las bandas de confianza y las pruebas de asociación respetan estos 4 df, reconociendo completamente la "incertidumbre de transformación". $\sqrt[3]{X}$ $X$

Frank Harrell
fuente

(+1) Si existe alguna ambigüedad acerca de la forma funcional de , siempre que haya datos suficientes, el analista debe utilizar procedimientos de suavizado como splines o regresión local en lugar de "observar el mejor ajuste" ". Por inferencia, el registro y las tendencias lineales a menudo coinciden sobre la dirección y la magnitud de las asociaciones. El principal beneficio de una transformación logarítmica es la interpretación.

E [Y | X] = f (X)

$E[Y|X] = f(X)$

AdamO

9

Me gustaría responder a la pregunta del usuario 1690130 que se dejó como un comentario a la primera respuesta el 26 de octubre de 12 y dice lo siguiente: "¿Qué pasa con las variables como la densidad de población en una región o la proporción de niños por maestro para cada distrito escolar o el ¿Cuántos homicidios por 1000 en la población? He visto a profesores tomar el registro de estas variables. No me queda claro por qué. Por ejemplo, ¿la tasa de homicidios ya no es un porcentaje? El registro sería el cambio porcentual de ¿Por qué se preferiría el registro de la relación niño-maestro? "

Estaba buscando responder a un problema similar y quería compartir lo que mi antiguo libro de estadísticas ( Jeffrey Wooldridge. 2006. Econometría introductoria: un enfoque moderno, 4ª edición. Capítulo 6 Análisis de regresión múltiple: cuestiones adicionales. 191 ) dice al respecto. Wooldridge aconseja:

Las variables que aparecen en forma de proporción o porcentaje, como la tasa de desempleo, la tasa de participación en un plan de pensiones, el porcentaje de estudiantes que aprueban un examen estandarizado y la tasa de arrestos por delitos denunciados, pueden aparecer en forma original o logarítmica , aunque hay una tendencia a usarlos en formas de nivel . Esto se debe a que cualquier coeficiente de regresión que involucre la variable original, ya sea la variable dependiente o la independiente, tendrá una interpretación de cambio de punto porcentual. Si usamos, digamos, log ( unem ) en una regresión, donde unem es el porcentaje de personas desempleadas, debemos tener mucho cuidado de distinguir entre un cambio de punto porcentual y un cambio porcentual. Recuerde, si unemva de 8 a 9, esto es un aumento de un punto porcentual, pero un aumento del 12.5% desde el nivel inicial de desempleo. Usar el registro significa que estamos viendo el cambio porcentual en la tasa de desempleo: log (9) - log (8) = 0.118 o 11.8%, que es la aproximación logarítmica al aumento real del 12.5%.

En base a esto y a piggybanking en el comentario anterior de whuber a la pregunta del usuario 1690130, evitaría usar el logaritmo de una variable de densidad o tasa de porcentaje para mantener la interpretación simple a menos que usar el formulario de registro produzca una compensación importante, como ser capaz de reducir el sesgo de la densidad o tasa variable.

Sannita
fuente

A menudo, para los porcentajes (es decir, proporciones en (0,1), se utiliza una transformación logit. Esto se debe a que los datos proporcionales a menudo violan el supuesto de normalidad de los residuos, de una manera que una transformación logarítmica no corregirá.

colin

3

El punto de Shane de que tomar el registro para tratar los datos incorrectos está bien tomado. Al igual que Colin con respecto a la importancia de los residuos normales. En la práctica, encuentro que generalmente puede obtener residuos normales si las variables de entrada y salida también son relativamente normales. En la práctica, esto significa observar la distribución de los conjuntos de datos transformados y no transformados y asegurarse de que se han vuelto más normales y / o realizar pruebas de normalidad (por ejemplo, pruebas de Shapiro-Wilk o Kolmogorov-Smirnov) y determinar si el resultado es más normal. La interpretabilidad y la tradición también son importantes. Por ejemplo, en psicología cognitiva a menudo se utilizan transformaciones de registro del tiempo de reacción, sin embargo, al menos para mí, la interpretación de un registro RT no está clara. Además,

russellpierce
fuente

2

Las respuestas se reordenarán en función de los votos, por lo que debe intentar no consultar otras respuestas.

Vebjorn Ljosa

44

Una prueba de normalidad suele ser demasiado grave. A menudo es suficiente para obtener residuos distribuidos simétricamente. (En la práctica, los residuos tienden a tener distribuciones fuertemente máximas, en parte como un artefacto de estimación, sospecho, y por lo tanto se probarán como "significativamente" no normales, sin importar cómo se vuelvan a expresar los datos.)

whuber

@whuber: De acuerdo. Es por eso que especifiqué "volverse más normal". El objetivo debe ser observar el estadístico de la prueba para detectar cambios en lugar de una decisión de aceptar / rechazar basada en el valor p de la prueba.

russellpierce

¡SIEMPRE debe consultar otras respuestas según corresponda!

abalter

@abalter? No te sigo.

russellpierce

En la regresión lineal, ¿cuándo es apropiado usar el registro de una variable independiente en lugar de los valores reales?

Respuestas: