Aprendizaje regresión ordinal en R?

10

Estoy trabajando en un proyecto y necesito recursos para ponerme al día.

El conjunto de datos es de alrededor de 35000 observaciones en aproximadamente 30 variables. Aproximadamente la mitad de las variables son categóricas y algunas tienen muchos valores posibles diferentes, es decir, si divide las variables categóricas en variables ficticias, tendría muchas más de 30 variables. Pero todavía probablemente del orden de un par de cientos como máximo. (n> p).

La respuesta que queremos predecir es ordinal con 5 niveles (1,2,3,4,5). Los predictores son una mezcla de continuo y categórico, aproximadamente la mitad de cada uno. Estos son mis pensamientos / planes hasta ahora: 1. Trate la respuesta como continua y ejecute una regresión lineal de vainilla. 2. Ejecute la regresión logística y probit nominal y ordinal 3. Utilice MARS y / u otro sabor de regresión no lineal

Estoy familiarizado con la regresión lineal. MARS está suficientemente descrito por Hastie y Tibshirani. Pero estoy perdido cuando se trata de logit / probit ordinal, especialmente con tantas variables y un gran conjunto de datos.

El paquete r glmnetcr parece ser mi mejor apuesta hasta ahora, pero la documentación apenas es suficiente para llevarme a donde necesito estar.

¿Dónde puedo ir para aprender más?

Matt Hall
fuente
Le sugiero que agregue la etiqueta R también.
Christopher Louden
1
Dado que esta es una pregunta sobre el modelo estadístico, es posible que desee ir al sitio web CrossValidated , pero tenga en cuenta que es una práctica terrible publicar las preguntas de forma cruzada: es posible que desee formularlo para resaltar los problemas metodológicos que están enfrentando o migran toda la pregunta.
StasK
Sin explicar realmente por qué, ISL señala (en la página 137) que el análisis discriminante (como LDA, QDA) se usa con más frecuencia que las extensiones de clase múltiple de regresión logística. Por lo tanto, vale la pena examinar los paquetes como penalizedLDA .
MattBagg

Respuestas:

6

Un paquete R bastante poderoso para la regresión con una respuesta categórica ordinal es VGAM, en el CRAN. La viñeta contiene algunos ejemplos de regresión ordinal, pero es cierto que nunca lo he probado en un conjunto de datos tan grande, por lo que no puedo estimar cuánto tiempo puede tomar. Puede encontrar material adicional sobre VGAM en la página del autor . Alternativamente, podría echar un vistazo al compañero de Laura Thompson en el libro "Análisis de datos categóricos" de Agresti. El capítulo 7 del libro de Thompson describe modelos logit acumulativos, que se utilizan con frecuencia con respuestas ordinales.

¡Espero que esto ayude!

GdA
fuente
3

Si no está totalmente familiarizado con la regresión ordinal, primero trataría de leer el capítulo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) sobre el tema - aunque no está escrito para R, el libro es muy bueno para transmitir la lógica general y los "hacer" y "no hacer".

Como pregunta: ¿Cuáles son exactamente sus categorías de respuesta? Si son algún tipo de escala, como "bueno - malo", estaría bien usar una regresión lineal (la investigación de mercado lo hace todo el tiempo ...), pero si los elementos son más disjuntos, una regresión ordinal podría ser mejor . Recuerdo vagamente que algunos libros sobre modelos de ecuación ecológica estructural mencionaron que la regresión lineal era superior para buenas escalas que probit - bit. No puedo recordar el libro en este momento, ¡lo siento!

El problema más grave podría ser el número de variables ficticias (un par de cientos de variables ficticias harán que el análisis sea lento, difícil de interpretar y probablemente inestable). ¿Hay suficientes casos para cada combinación ficticia / ficticia?

Christian Sauer
fuente
3

Una referencia estándar escrita desde la perspectiva de las ciencias sociales es el libro de Variables dependientes limitadas de J Scott Long . Va mucho más allá de lo que Tabachnik sugirió en otra respuesta : Tabachnik es un libro de cocina en el mejor de los casos, con pocas o ninguna explicación del "por qué", y parece que se beneficiaría al descubrir esto con más detalle que se puede encontrar en Long's libro. La regresión ordinaria debería cubrirse en la mayoría de los cursos introductorios de econometría (la sección transversal y los datos de panel de Wooldridge es un gran libro para graduados), así como los cursos cuantitativos de ciencias sociales (sociología, psicología), aunque me imagino que este último retrocederá al libro de Long.

Dado que su número de variables es mucho menor que el tamaño de la muestra, el paquete R que debería estar buscando es probablemente ordinalmás que glmnetcr. Otra respuesta mencionó que puede encontrar esta funcionalidad en un MASSpaquete más convencional .

StasK
fuente