Trabajo en investigación de servicios de salud. Recopilamos los resultados informados por los pacientes, por ejemplo, la función física o los síntomas depresivos, y con frecuencia se puntúan en el formato que usted mencionó: una escala de 0 a N generada al resumir todas las preguntas individuales en la escala.
La gran mayoría de la literatura que he revisado acaba de usar un modelo lineal (o un modelo lineal jerárquico si los datos provienen de observaciones repetidas). Todavía no he visto a nadie usar la sugerencia de @ NickCox para un modelo logit (fraccional), aunque es un modelo perfectamente plausible.
La teoría de respuesta al ítem me parece otro modelo estadístico plausible para aplicar. Aquí es donde asume que un rasgo latente provoca respuestas a las preguntas utilizando un modelo logístico u logístico ordenado. Eso maneja inherentemente los problemas de límite y posible no linealidad que Nick planteó.θ
El siguiente gráfico proviene de mi próximo trabajo de disertación. Aquí es donde ajusto un modelo lineal (rojo) a un puntaje de preguntas de síntomas depresivos que se ha convertido en puntajes Z, y un modelo IRT (explicativo) en azul para las mismas preguntas. Básicamente, los coeficientes para ambos modelos están en la misma escala (es decir, en desviaciones estándar). En realidad, hay un poco de acuerdo en el tamaño de los coeficientes. Como Nick aludió, todos los modelos están equivocados. Pero el modelo lineal puede no ser demasiado incorrecto para usar.
Dicho esto, una suposición fundamental de casi todos los modelos IRT actuales es que el rasgo en cuestión es bipolar, es decir, su soporte es a . Eso probablemente no sea cierto para los síntomas depresivos. Los modelos para rasgos latentes unipolares todavía están en desarrollo, y el software estándar no puede adaptarse a ellos. Es probable que muchos de los rasgos en la investigación de servicios de salud que nos interesan sean unipolares, por ejemplo, síntomas depresivos, otros aspectos de la psicopatología, satisfacción del paciente. Por lo tanto, el modelo IRT también puede estar equivocado.−∞∞
(Nota: el modelo anterior se ajustó al paquete de Phil Chalmers mirt
en R. El gráfico producido con ggplot2
y ggthemes
. El esquema de color se basa en el esquema de color predeterminado de Stata).
Eche un vistazo a los valores pronosticados y verifique si tienen aproximadamente la misma distribución que las Y originales. Si este es el caso, la regresión lineal probablemente esté bien. y ganarás poco al mejorar tu modelo.
fuente
Una regresión lineal puede describir "adecuadamente" dichos datos, pero es poco probable. Muchos supuestos de regresión lineal tienden a violarse en este tipo de datos hasta tal punto que la regresión lineal se desaconseja. Solo elegiré algunos supuestos como ejemplos,
Las violaciones de estos supuestos se mitigan si los datos tienden a caer alrededor del centro del rango, lejos de los bordes. Pero realmente, la regresión lineal no es la herramienta óptima para este tipo de datos. Las alternativas mucho mejores podrían ser la regresión binomial o la regresión de Poisson.
fuente
Si la respuesta solo toma unas pocas categorías, puede usar métodos de clasificación o regresión ordinal si su variable de respuesta es ordinal.
La regresión lineal simple no le dará categorías discretas ni variables de respuesta acotadas. Este último se puede solucionar mediante el uso de un modelo logit como en la regresión logística. Para algo así como un puntaje de prueba con 100 categorías 1-100, también podría simplificar su predicción y usar una variable de respuesta acotada.
fuente
use un cdf (función de distribución acumulativa de estadísticas). si su modelo es y = xb + e, cámbielo a y = cdf (xb + e). Tendrá que reescalar sus datos de variables dependientes para que caigan entre 0 y 1. Si se trata de números positivos, divídalos por el máximo y tome las predicciones de su modelo y multiplique por el mismo número. Luego, verifique el ajuste y vea si las predicciones limitadas mejoran las cosas.
Probablemente desee utilizar un algoritmo fijo para encargarse de las estadísticas.
fuente