Regresión lineal cuando Y es acotado y discreto

14

La pregunta es sencilla: ¿es apropiado usar la regresión lineal cuando Y es acotado y discreto (por ejemplo, el puntaje de la prueba 1 ~ 100, alguna clasificación predefinida 1 ~ 17)? En este caso, ¿"no es bueno" usar regresión lineal, o es totalmente incorrecto usarlo?

Shi maestro
fuente

Respuestas:

10

Cuando una respuesta o resultado está limitado, surgen varias preguntas al ajustar un modelo, que incluyen las siguientes: Y

  1. Cualquier modelo que pueda predecir valores para la respuesta fuera de esos límites es en principio dudoso. Por lo tanto, un modelo lineal puede ser problemático ya que no hay límites en para los predictores y los coeficientes siempre que los estén limitados en una o ambas direcciones. Sin embargo, la relación podría ser lo suficientemente débil como para que esto no muerda y / o las predicciones podrían permanecer dentro de los límites sobre el rango observado o plausible de los predictores. En un extremo, si la respuesta es media ruido, no importa qué modelo se ajuste.Y^=XbXbX+

  2. Como la respuesta no puede exceder sus límites, una relación no lineal a menudo es más plausible con respuestas pronosticadas que se reducen para acercarse a los límites de forma asintótica. Las curvas o superficies sigmoideas como las predichas por los modelos logit o probit son atractivas a este respecto y ahora no son difíciles de ajustar. Una respuesta como la alfabetización (o la fracción que adopta cualquier idea nueva) a menudo muestra una curva sigmoidea en el tiempo y plausiblemente con casi cualquier otro predictor.

  3. Una respuesta limitada no puede tener las propiedades de varianza esperadas en la regresión simple o vainilla. Necesariamente a medida que la respuesta media se acerca a los límites inferior y superior, la varianza siempre se acerca a cero.

Se debe elegir un modelo de acuerdo con lo que funciona y el conocimiento del proceso generador subyacente. Si el cliente o la audiencia sabe acerca de familias modelo particulares también puede guiar la práctica.

Tenga en cuenta que deliberadamente estoy evitando juicios generales como bueno / no bueno, apropiado / no apropiado, correcto / incorrecto. Todos los modelos son aproximaciones en el mejor de los casos y qué aproximación atrae, o es lo suficientemente buena para un proyecto, no es tan fácil de predecir. Por lo general, prefiero los modelos logit como la primera opción para las respuestas limitadas, pero incluso esa preferencia se basa en parte en el hábito (por ejemplo, evitar los modelos probit sin una muy buena razón) y en parte en dónde reportaré los resultados, generalmente a los lectores que están, o debe estar, estadísticamente bien informado.

Sus ejemplos de escalas discretas son para puntajes 1-100 (en las tareas que marco, ¡ciertamente es posible!) O en los rankings 1-17. Para escalas como esa, normalmente pensaría en ajustar modelos continuos a respuestas escaladas a [0, 1]. Sin embargo, hay practicantes de modelos de regresión ordinal que felizmente ajustarían dichos modelos a escalas con un número bastante grande de valores discretos. Estoy contento si responden si son tan mentales.

Nick Cox
fuente
8

Trabajo en investigación de servicios de salud. Recopilamos los resultados informados por los pacientes, por ejemplo, la función física o los síntomas depresivos, y con frecuencia se puntúan en el formato que usted mencionó: una escala de 0 a N generada al resumir todas las preguntas individuales en la escala.

La gran mayoría de la literatura que he revisado acaba de usar un modelo lineal (o un modelo lineal jerárquico si los datos provienen de observaciones repetidas). Todavía no he visto a nadie usar la sugerencia de @ NickCox para un modelo logit (fraccional), aunque es un modelo perfectamente plausible.

La teoría de respuesta al ítem me parece otro modelo estadístico plausible para aplicar. Aquí es donde asume que un rasgo latente provoca respuestas a las preguntas utilizando un modelo logístico u logístico ordenado. Eso maneja inherentemente los problemas de límite y posible no linealidad que Nick planteó.θ

El siguiente gráfico proviene de mi próximo trabajo de disertación. Aquí es donde ajusto un modelo lineal (rojo) a un puntaje de preguntas de síntomas depresivos que se ha convertido en puntajes Z, y un modelo IRT (explicativo) en azul para las mismas preguntas. Básicamente, los coeficientes para ambos modelos están en la misma escala (es decir, en desviaciones estándar). En realidad, hay un poco de acuerdo en el tamaño de los coeficientes. Como Nick aludió, todos los modelos están equivocados. Pero el modelo lineal puede no ser demasiado incorrecto para usar.

ingrese la descripción de la imagen aquí

Dicho esto, una suposición fundamental de casi todos los modelos IRT actuales es que el rasgo en cuestión es bipolar, es decir, su soporte es a . Eso probablemente no sea cierto para los síntomas depresivos. Los modelos para rasgos latentes unipolares todavía están en desarrollo, y el software estándar no puede adaptarse a ellos. Es probable que muchos de los rasgos en la investigación de servicios de salud que nos interesan sean unipolares, por ejemplo, síntomas depresivos, otros aspectos de la psicopatología, satisfacción del paciente. Por lo tanto, el modelo IRT también puede estar equivocado.

(Nota: el modelo anterior se ajustó al paquete de Phil Chalmers mirten R. El gráfico producido con ggplot2y ggthemes. El esquema de color se basa en el esquema de color predeterminado de Stata).

Weiwen Ng
fuente
66
El hecho de que los modelos lineales se utilicen ampliamente no significa que sean apropiados. Muchas personas usan modelos lineales porque eso es solo lo que saben o con lo que se sienten cómodos.
qwr
1
La literatura médica está especialmente plagada de malas prácticas propagadas por la ideología tipo "esto es lo que hace este campo / revista". Como regla general, no usaría o dejaría de usar algo solo por su apariencia, por común que sea, en la investigación médica.
LSC
1

Eche un vistazo a los valores pronosticados y verifique si tienen aproximadamente la misma distribución que las Y originales. Si este es el caso, la regresión lineal probablemente esté bien. y ganarás poco al mejorar tu modelo.

mzuba
fuente
1

Una regresión lineal puede describir "adecuadamente" dichos datos, pero es poco probable. Muchos supuestos de regresión lineal tienden a violarse en este tipo de datos hasta tal punto que la regresión lineal se desaconseja. Solo elegiré algunos supuestos como ejemplos,

  1. Normalidad: incluso ignorando la discreción de dichos datos, estos tienden a exhibir violaciones extremas de la normalidad porque las distribuciones están "cortadas" por los límites.
  2. Homocedasticidad: este tipo de datos tiende a violar la homocedasticidad. Las variaciones tienden a ser mayores cuando la media real está hacia el centro del rango, en comparación con los bordes.
  3. Linealidad: dado que el rango de Y está limitado, la suposición se viola automáticamente.

Las violaciones de estos supuestos se mitigan si los datos tienden a caer alrededor del centro del rango, lejos de los bordes. Pero realmente, la regresión lineal no es la herramienta óptima para este tipo de datos. Las alternativas mucho mejores podrían ser la regresión binomial o la regresión de Poisson.

Stat_Programmer
fuente
2
Es difícil ver que la regresión de Poisson sea un candidato para respuestas doblemente limitadas.
Nick Cox
0

Si la respuesta solo toma unas pocas categorías, puede usar métodos de clasificación o regresión ordinal si su variable de respuesta es ordinal.

La regresión lineal simple no le dará categorías discretas ni variables de respuesta acotadas. Este último se puede solucionar mediante el uso de un modelo logit como en la regresión logística. Para algo así como un puntaje de prueba con 100 categorías 1-100, también podría simplificar su predicción y usar una variable de respuesta acotada.

qwr
fuente
0

use un cdf (función de distribución acumulativa de estadísticas). si su modelo es y = xb + e, cámbielo a y = cdf (xb + e). Tendrá que reescalar sus datos de variables dependientes para que caigan entre 0 y 1. Si se trata de números positivos, divídalos por el máximo y tome las predicciones de su modelo y multiplique por el mismo número. Luego, verifique el ajuste y vea si las predicciones limitadas mejoran las cosas.

Probablemente desee utilizar un algoritmo fijo para encargarse de las estadísticas.

dougie
fuente
1
Esto parece confundir dos hechos: (1) las respuestas limitadas deben escalarse entre 0 y 1 para logit, probit y modelos similares para aplicar (2) los cdfs también varían entre 0 y 1. Al tratar una respuesta fraccional como tal, no t modelando su cdf.
Nick Cox