¿Cuáles son los problemas con el uso de porcentaje de resultado en regresión lineal?

11

Tengo un estudio donde muchos resultados se representan como porcentajes y estoy usando regresiones lineales múltiples para evaluar el efecto de algunas variables categóricas en estos resultados.

Me preguntaba, dado que una regresión lineal supone que el resultado es una distribución continua, ¿existen problemas metodológicos al aplicar dicho modelo a los porcentajes, que están limitados entre 0 y 100?

Bakaburg
fuente
1
¿Son estos porcentajes continuos (como el porcentaje de crema en la leche, por ejemplo) o discretos (como proporciones binomiales, un recuento en alguna categoría del recuento total)?
Glen_b -Reinstate Monica el
1
Uhm ... no entiendo la diferencia. ¿No son ambos continuos? De todos modos, creo que el segundo describe mejor mis datos, ya que estamos hablando de personas fuera de total.
Bakaburg
La distribución de recuentos dividida por recuentos es definitivamente discreta. De hecho, el numerador generalmente se modela como un binomio, el denominador está condicionado (tratado como constante), por lo que la relación generalmente se trata como un binomio escalado. Sin embargo, incluso si el denominador fue alse una variable aleatoria, la relación seguiría siendo discreto desde su espacio de muestra es contable
Glen_b -Reinstate Monica

Respuestas:

17

Abordaré los problemas relevantes para la posibilidad discreta o continua:

  1. Un problema con la descripción de la media

    Tienes una respuesta limitada. Pero el modelo que está ajustando no está acotado, por lo que puede atravesar el límite; algunos de sus valores ajustados pueden ser imposibles, y los valores pronosticados eventualmente deben serlo.

    La verdadera relación eventualmente debe volverse más plana de lo que es en el medio a medida que se acerca a los límites, por lo que se esperaría que se doble de alguna manera.

  2. Un problema con la descripción de la varianza.

    A medida que la media se acerca al límite, la varianza tenderá a disminuir también, siendo iguales otras cosas. Hay menos espacio entre la media y el límite, por lo que la variabilidad general tiende a reducirse (de lo contrario, la media tendería a alejarse del límite por puntos que, en promedio, están más alejados del lado que no está cerca del límite.

(De hecho, si todos los valores de la población en algún vecindario estuvieran exactamente en el límite, la varianza sería cero).

Un modelo que se ocupe de dicho límite debería tener en cuenta dichos efectos.

Si la proporción es para una variable de conteo, un modelo común para la distribución de la proporción es un GLM binomial. Hay varias opciones para la forma de la relación de la proporción media y los predictores, pero la más común sería un GLM logístico (varias otras opciones son de uso común).

Si la proporción es continua (como el porcentaje de crema en la leche), hay varias opciones. La regresión beta parece ser una opción bastante común. Nuevamente, podría usar una relación logística entre la media y los predictores, o podría usar alguna otra forma funcional.

Ver también Regresión para un resultado (proporción o fracción) entre 0 y 1 .

Glen_b -Reinstate a Monica
fuente
1
+1 y me tomé la libertad de agregar un enlace a lo que quizás podría verse como nuestro hilo "maestro" sobre este tema (la respuesta de Gung también cubre las opciones beta y logísticas).
ameba dice Reinstate Monica
2
Un argumento general fácil es si la media es 0 que solo es posible si todos los valores son 0, y de manera similar con 1 = 100% y todos los valores son 1. Por lo tanto, la varianza debe ser 0 en los extremos, independientemente de si las proporciones se basan en contando o midiendo. Aunque es posible que todos los demás valores sean constantes, en la práctica eso es muy raro. Por lo tanto, la varianza será más alta para algún valor entre 0 y 1.
Nick Cox
¿podría proporcionar algunas referencias para los 2 problemas descritos?
user1607
3

Esto es exactamente lo mismo que el caso cuando el resultado está entre 0 y 1, y ese caso generalmente se maneja con un modelo lineal generalizado (GLM) como la regresión logística. Hay muchos cebadores excelentes para la regresión logística (y otros GLM) en Internet, y también hay un libro bien conocido de Agresti sobre el tema.

La regresión beta es una alternativa viable pero más complicada. Lo más probable es que la regresión logística funcione bien para su aplicación y, por lo general, sería más fácil de implementar con la mayoría del software estadístico.

¿Por qué no usar la regresión de mínimos cuadrados ordinarios? En realidad, las personas lo hacen, a veces bajo el nombre de "modelo de probabilidad lineal" (LPM). La razón más obvia por la que los LPM son "malos" es que no hay una manera fácil de restringir el resultado para que se encuentre dentro de un cierto rango, y puede obtener predicciones por encima de 1 (o 100% o cualquier otro límite superior finito) y por debajo de 0 (o algún otro límite inferior). Por la misma razón, las predicciones cerca del límite superior tienden a ser sistemáticamente demasiado altas, y las predicciones cerca del límite inferior tienden a ser demasiado bajas. La matemática subyacente en la regresión lineal asume explícitamente que tendencias como esta no existen. Por lo general, no hay una buena razón para ajustar un LPM sobre la regresión logística.

Por otro lado, resulta que todos los modelos de regresión de OLS, incluidos los LPM, se pueden definir como un tipo especial de GLM, y en este contexto los LPM están relacionados con la regresión logística.

Shadowtalker
fuente
44
Aunque en general gran parte de esta respuesta parece valer la pena, contiene información errónea que podría confundir a los lectores. La explicación de la regresión logística en el primer párrafo parece una descripción de una transformación similar a un registro de la variable dependiente seguida de una regresión lineal: no es una regresión logística. La interpretación de los coeficientes tampoco es del todo correcta. Un problema más importante con los "LPM" es que cuando los datos están cerca de los extremos, es probable que exhiban distribuciones asimétricas de los residuos, lo cual es una violación importante de la suposición de regresión iid.
whuber
No pensé que valiera la pena entrar en odds ratios y tal. Solo quitaré eso y dejaré que el OP lo lea en ese momento. También buen punto sobre los residuos.
shadowtalker
(+1) ¡Gracias por sus respuestas constructivas!
whuber
2

Podría valer la pena investigar la regresión beta (para lo cual entiendo que hay un paquete R), que parece muy adecuado para tales problemas.

http://www.jstatsoft.org/v34/i02/paper

Dikran Marsupial
fuente
77
Tu respuesta sería aún mejor si tocas algunas de las razones principales por las que la regresión lineal sufre cuando el resultado es un porcentaje.
Alexis