Regresión para variables categóricas independientes y dependientes continuas

20

Me acabo de dar cuenta de que siempre he trabajado el problema de regresión donde las variables independientes siempre fueron numéricas. ¿Puedo usar la regresión lineal en el caso donde todas las variables independientes son categóricas?

famargar
fuente

Respuestas:

24

Solo algunas semánticas y para ser claros:

  • variable dependiente == resultado == " " en fórmulas de regresión como y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_ky = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x kyy=β0+β1x1+β2x2+...+βkxk
  • variable independiente == predictor == uno de " xk " en fórmulas de regresión como y=β0+β1x1+β2x2+...+βkxk

Entonces, en la mayoría de las situaciones, el tipo de regresión depende del tipo de variable dependiente, resultado o " y " . Por ejemplo, la regresión lineal se usa cuando la variable dependiente es continua, la regresión logística cuando el dependiente es categórico con 2 categorías, y la regresión multinomi (n) al cuando el dependiente es categórico con más de 2 categorías. Los predictores pueden ser cualquier cosa (nominal u ordinal categórico, o continuo, o una mezcla) .

(El comentario a continuación puede ser redundante para usted, pero lo agrego de todos modos)

Sin embargo, tenga en cuenta que la mayoría del software requiere que recodifique predictores categóricos en un sistema numérico binario . Esto solo significa codificar el sexo a 0 para las mujeres y 1 para los hombres o viceversa. Para las variables categóricas con más de 2 niveles, deberá volver a codificarlas en variables ficticias donde es el número de niveles y estas variables ficticias contienen un 0 o 1 cuando están en la categoría correspondiente. De esta manera, cada individuo (muestra) debe representarse teniendo un 1 para la variable ficticia de la que forma parte y un 0 para los demás, o un 0 para todas las variables ficticias cuando forma parte del grupo de referencia.LL1L

IWS
fuente
Gracias. Como escribo en el título de la pregunta, la variable dependiente es continua. Así que tomo tu respuesta como "puedes usar regresión lineal, siempre que hagas una codificación ficticia". Por favor, corríjame si estoy equivocado.
famargar
Sí, eso es lo que estaba diciendo.
IWS
2
Veo que ha editado la pregunta para agregar una segunda pregunta y ha publicado una pregunta similar aquí: stats.stackexchange.com/questions/267137/… . Además, le pregunto qué quiere decir al suavizar sus predicciones, o qué quiere decir al predecir valores discretos. AFAIK una regresión lineal le dará el valor medio de la dependencia continua en función de sus variables predictoras (a través de la fórmula de regresión). Por favor explique
IWS
1
Eliminé la segunda pregunta porque respondiste completamente a la original. Para responder a su pregunta, si introduzco nuevos "eventos" ( ) en el modelo, obtendría valores diferentes que tomarían uno de los cuatro valores regresados. Supongo que estoy diciendo que si las variables categóricas fueran en realidad ordinales, me gustaría introducir algunos (¿logit?) Suavizado entre valores. x i n ynxiny
famargar
1
En el caso de una variable ordinal, siempre se puede suponer que es "lo suficientemente continua" como para usarla como si fuera un predictor continuo (simplemente no utilizando variables ficticias, sino ingresando la variable como una versión numérica). Sin embargo, si hace esto y tiene solo unos pocos niveles, está ajustando una línea recta (asumiendo linealidad) a través de solo unos pocos puntos (así que tenga en cuenta que la cantidad de niveles es importante aquí). Una escala Likert es un buen ejemplo de una variable utilizada de esta manera, que lamentablemente crea problemas en varias ocasiones.
IWS