Dada una variable dependiente continua yy variables independientes que incluyen una variable ordinal X 1 , ¿cómo encajo un modelo lineal R
? ¿Hay documentos sobre este tipo de modelo?
fuente
Dada una variable dependiente continua yy variables independientes que incluyen una variable ordinal X 1 , ¿cómo encajo un modelo lineal R
? ¿Hay documentos sobre este tipo de modelo?
@ Scortchi lo tiene cubierto con esta respuesta en Codificación para una covariable ordenada . He repetido la recomendación sobre mi respuesta al Efecto de dos IV demográficos en las respuestas de la encuesta (escala Likert) . Específicamente, la recomendación es usar Gertheiss' (2013) paquete ordPens , y para referirse a Gertheiss y Tutz (2009a) para el fondo teórico y un estudio de simulación.
La función específica que probablemente desee es ordSmooth
* . Esto esencialmente suaviza los coeficientes ficticios en los niveles de variables ordinales para que sean menos diferentes de los de los rangos adyacentes, lo que reduce el sobreajuste y mejora las predicciones. En general, funciona tan bien o (a veces mucho) mejor que la estimación de máxima probabilidad (es decir, mínimos cuadrados ordinarios en este caso) de un modelo de regresión para datos continuos (o en sus términos, métricos) cuando los datos son realmente ordinales. Parece compatible con todo tipo de modelos lineales generalizados y le permite ingresar predictores nominales y continuos como matrices separadas.
Varias referencias adicionales de Gertheiss, Tutz y colegas están disponibles y se enumeran a continuación. Algunos de estos pueden contener alternativas, incluso Gertheiss y Tutz (2009a) discuten el rebasamiento de crestas como otra alternativa. ¡Todavía no lo he revisado todo, pero basta con decir que esto resuelve el problema de @ Erik de muy poca literatura sobre predictores ordinales!
Referencias
- Gertheiss, J. (14 de junio de 2013). ordPens: Selección y / o suavizado de predictores ordinales , versión 0.2-1. Recuperado de http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss, J., Hogger, S., Oberhauser, C. y Tutz, G. (2011). Selección de variables independientes escaladas ordinalmente con aplicaciones a la clasificación internacional de conjuntos básicos funcionales. Revista de la Royal Statistical Society: Serie C (Estadística Aplicada), 60 (3), 377–395.
- Gertheiss, J. y Tutz, G. (2009a). Regresión penalizada con predictores ordinales. Revista estadística internacional, 77 (3), 345–365. Recuperado de http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J. y Tutz, G. (2009b). Selección supervisada de características en perfiles proteómicos basados en espectrometría de masas mediante refuerzo en bloque. Bioinformática, 25 (8), 1076-1077.
- Gertheiss, J. y Tutz, G. (2009c). Escala variable y métodos de vecino más cercano. Journal of Chemometrics, 23 (3), 149-151. - Gertheiss, J. y Tutz, G. (2010). Modelado escaso de variables explicativas categoriales.
Los Anales de Estadísticas Aplicadas, 4 , 2150–2180.
- Hofner, B., Hothorn, T., Kneib, T. y Schmid, M. (2011). Un marco para la selección imparcial de modelos basada en el impulso. Revista de estadística computacional y gráfica, 20 (4), 956–971. Recuperado de http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J. y Tutz, G. (2012). Regularización y selección de modelos con predictores categoriales y modificadores de efectos en modelos lineales generalizados. Departamento de Estadística: Informes técnicos, No. 122 . Recuperado de http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R., y Tutz, G. (2013). Una familia general de sanciones para combinar diferentes tipos de sanciones en modelos estructurados generalizados. Departamento de Estadística: Informes técnicos, No. 139 . Recuperado de http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C. y Tutz, G. (2011). Lazo fusionado por pares. Departamento de Estadística: Informes técnicos, No. 102. Recuperado de http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Un algoritmo de conjunto activo para estimar parámetros en modelos lineales generalizados con predictores ordenados. Estadística computacional y análisis de datos, 54 (6), 1442–1456. Recuperado de http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, octubre). Métodos de regularización para datos categóricos. Munich: Ludwig-Maximilians-Universität. Recuperado de http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G. y Gertheiss, J. (2013). Las escalas de calificación como predictores: la vieja pregunta del nivel de escala y algunas respuestas.Psychometrika , 1-20.
Cuando hay múltiples predictores, y el predictor de interés es ordinal, a menudo es difícil decidir cómo codificar la variable. Codificarlo como categórico pierde la información del pedido, mientras que codificarlo como numérico impone linealidad sobre los efectos de las categorías ordenadas que pueden estar lejos de sus verdaderos efectos. Para el primero, la regresión isotónica se ha propuesto como una forma de abordar la no monotonicidad, pero es un procedimiento de selección de modelo basado en datos, que como muchos otros procedimientos basados en datos, requiere una evaluación cuidadosa del modelo ajustado final y la importancia de sus parámetros. Para este último, las splines pueden mitigar parcialmente el supuesto de linealidad rígida, pero los números aún deben asignarse a categorías ordenadas, y los resultados son sensibles a estas elecciones. En nuestro documento (Li y Shepherd, 2010, Introducción, párrafos 3-5),
las otras covariables. Hemos propuesto ajustar dos modelos de regresión, uno para en y el otro en , calcule los residuos para los dos modelos y evalúe la correlación entre los residuos. En Li y Shepherd (2010), estudiamos este enfoque cuando es ordinal y demostró que puede ser un enfoque robusto muy bueno siempre que el efecto del Las categorías son monótonas. Actualmente estamos evaluando el desempeño de este enfoque en otros tipos de resultados.
Este enfoque requiere un residuo apropiado para la regresión del ordinal en . Propusimos un nuevo residuo para los resultados ordinales en Li y Shepherd (2010) y lo usamos para construir una estadística de prueba. Además estudiamos las propiedades y otros usos de este residuo en un documento separado (Li y Shepherd, 2012).
Hemos desarrollado un paquete R, PResiduals , que está disponible en CRAN. El paquete contiene funciones para realizar nuestro enfoque para los tipos de resultados lineales y ordinales. Estamos trabajando para agregar otros tipos de resultados (por ejemplo, contar) y características (por ejemplo, permitir interacciones). El paquete también contiene funciones para calcular nuestro residual, que es un residual de escala de probabilidad, para varios modelos de regresión.
Referencias
Li, C. y Shepherd, BE (2010). Prueba de asociación entre dos variables ordinales mientras se ajustan las covariables. JASA, 105, 612–620.
Li, C. y Shepherd, BE (2012). Un nuevo residuo para resultados ordinales. Biometrika 99, 473–480.
En general, existe mucha literatura sobre variables ordinales como dependientes y poco sobre su uso como predictores. En la práctica estadística, generalmente se supone que son continuos o categóricos. Puede verificar si un modelo lineal con el predictor como variable continua parece un buen ajuste, verificando los residuos.
A veces también se codifican acumulativamente. Un ejemplo sería que una variable ordinal x1 con los niveles 1,2 y 3 tenga una variable binaria ficticia d1 para x1> 1 y una variable binaria ficticia d2 para x1> 2. Entonces el coeficiente de d1 es el efecto que obtienes cuando aumentas tu ordinal de 2 a 3 y el coeficiente de d2 es el efecto que obtienes cuando ordinal de 2 a 3.
Esto hace que la interpretación a menudo sea más fácil, pero es equivalente a usarla como una variable categórica para fines prácticos.
Gelman incluso sugiere que uno podría usar el predictor ordinal como un factor categórico (para los efectos principales) y como una variable continua (para las interacciones) para aumentar la flexibilidad de los modelos.
Mi estrategia personal suele ser ver si tratarlos como continuos tiene sentido y resulta en un modelo razonable y solo usarlos como categóricos si es necesario.