Datos básicos : Tengo ~ 1,000 personas marcadas con evaluaciones: '1,' [bueno] '2,' [medio] o '3' [malo]: estos son los valores que estoy tratando de predecir para las personas en el futuro . Además de eso, tengo información demográfica: género (categórico: M / F), edad (numérico: 17-80) y raza (categórico: negro / caucásico / latino).
Principalmente tengo cuatro preguntas:
Inicialmente estaba tratando de ejecutar el conjunto de datos descrito anteriormente como un análisis de regresión múltiple. Pero recientemente aprendí que dado que mi dependiente es un factor ordenado y no una variable continua, debería usar la regresión logística ordinal para algo como esto. Inicialmente estaba usando algo como
mod <- lm(assessment ~ age + gender + race, data = dataset)
, ¿alguien puede señalarme en la dirección correcta?A partir de ahí, suponiendo que obtengo coeficientes con los que me siento cómodo, entiendo cómo conectar únicamente valores numéricos para x1, x2, etc., pero ¿cómo trataría con la raza, por ejemplo, cuando hay múltiples respuestas: negro / caucásico / latino? Entonces, si me dice que el coeficiente caucásico es 0.289 y alguien que intento predecir es caucásico, ¿cómo lo conecto nuevamente ya que el valor no es numérico?
También tengo valores aleatorios que faltan: algunos para la raza, otros para el género, etc. ¿Tengo que hacer algo adicional para asegurarme de que esto no sesgue nada? (Me di cuenta cuando mi conjunto de datos se carga en R-Studio, cuando los datos faltantes se cargan como
NA
, R dice algo así(162 observations deleted due to missingness)
, pero si se cargan como espacios en blanco, no hace nada).Asumiendo que todo esto funciona y tengo nuevos datos con el género, la edad y la raza que quiero predecir, ¿hay una manera más fácil en R de ejecutar todo eso a través de lo que sea mi fórmula con nuevos coeficientes, en lugar de hacerlo manualmente? (Si esta pregunta no es apropiada aquí, puedo llevarla de vuelta al foro R.)
latino
, y dummies para las otras dos. Un valor 1 para elcaucasian
ficticio indica un encuestado caucásico, similar para lablack
variable ficticia. Un valor 0 para ambos indica un encuestado latino. ¿Tener sentido?