Estoy trabajando en un proyecto y necesito recursos para ponerme al día.
El conjunto de datos es de alrededor de 35000 observaciones en aproximadamente 30 variables. Aproximadamente la mitad de las variables son categóricas y algunas tienen muchos valores posibles diferentes, es decir, si divide las variables categóricas en variables ficticias, tendría muchas más de 30 variables. Pero todavía probablemente del orden de un par de cientos como máximo. (n> p).
La respuesta que queremos predecir es ordinal con 5 niveles (1,2,3,4,5). Los predictores son una mezcla de continuo y categórico, aproximadamente la mitad de cada uno. Estos son mis pensamientos / planes hasta ahora: 1. Trate la respuesta como continua y ejecute una regresión lineal de vainilla. 2. Ejecute la regresión logística y probit nominal y ordinal 3. Utilice MARS y / u otro sabor de regresión no lineal
Estoy familiarizado con la regresión lineal. MARS está suficientemente descrito por Hastie y Tibshirani. Pero estoy perdido cuando se trata de logit / probit ordinal, especialmente con tantas variables y un gran conjunto de datos.
El paquete r glmnetcr parece ser mi mejor apuesta hasta ahora, pero la documentación apenas es suficiente para llevarme a donde necesito estar.
¿Dónde puedo ir para aprender más?
fuente
Respuestas:
Sugiero este tutorial sobre logit ordenado: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Muestra el uso de
polr
en elMASS
paquete, y también explica los supuestos y cómo interpretar los resultados.fuente
Un paquete R bastante poderoso para la regresión con una respuesta categórica ordinal es VGAM, en el CRAN. La viñeta contiene algunos ejemplos de regresión ordinal, pero es cierto que nunca lo he probado en un conjunto de datos tan grande, por lo que no puedo estimar cuánto tiempo puede tomar. Puede encontrar material adicional sobre VGAM en la página del autor . Alternativamente, podría echar un vistazo al compañero de Laura Thompson en el libro "Análisis de datos categóricos" de Agresti. El capítulo 7 del libro de Thompson describe modelos logit acumulativos, que se utilizan con frecuencia con respuestas ordinales.
¡Espero que esto ayude!
fuente
Si no está totalmente familiarizado con la regresión ordinal, primero trataría de leer el capítulo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) sobre el tema - aunque no está escrito para R, el libro es muy bueno para transmitir la lógica general y los "hacer" y "no hacer".
Como pregunta: ¿Cuáles son exactamente sus categorías de respuesta? Si son algún tipo de escala, como "bueno - malo", estaría bien usar una regresión lineal (la investigación de mercado lo hace todo el tiempo ...), pero si los elementos son más disjuntos, una regresión ordinal podría ser mejor . Recuerdo vagamente que algunos libros sobre modelos de ecuación ecológica estructural mencionaron que la regresión lineal era superior para buenas escalas que probit - bit. No puedo recordar el libro en este momento, ¡lo siento!
El problema más grave podría ser el número de variables ficticias (un par de cientos de variables ficticias harán que el análisis sea lento, difícil de interpretar y probablemente inestable). ¿Hay suficientes casos para cada combinación ficticia / ficticia?
fuente
Una referencia estándar escrita desde la perspectiva de las ciencias sociales es el libro de Variables dependientes limitadas de J Scott Long . Va mucho más allá de lo que Tabachnik sugirió en otra respuesta : Tabachnik es un libro de cocina en el mejor de los casos, con pocas o ninguna explicación del "por qué", y parece que se beneficiaría al descubrir esto con más detalle que se puede encontrar en Long's libro. La regresión ordinaria debería cubrirse en la mayoría de los cursos introductorios de econometría (la sección transversal y los datos de panel de Wooldridge es un gran libro para graduados), así como los cursos cuantitativos de ciencias sociales (sociología, psicología), aunque me imagino que este último retrocederá al libro de Long.
Dado que su número de variables es mucho menor que el tamaño de la muestra, el paquete R que debería estar buscando es probablemente
ordinal
más queglmnetcr
. Otra respuesta mencionó que puede encontrar esta funcionalidad en unMASS
paquete más convencional .fuente