Regresión lineal o regresión logística ordinal para predecir la calificación del vino (de 0 a 10)

18

Tengo los datos del vino de aquí que consisten en 11 variables numéricas independientes con una calificación dependiente asociada con cada entrada con valores entre 0 y 10. Esto hace que sea un gran conjunto de datos utilizar un modelo de regresión para investigar la relación entre las variables y las asociadas. clasificación. Sin embargo, ¿sería apropiada la regresión lineal, o es mejor usar la regresión logística multinomial / ordenada?

La regresión logística parece mejor dadas categorías específicas, es decir, no una variable dependiente continua, pero (1) hay 11 categorías (¿un poco demasiado?) Y (2) después de la inspección, solo hay datos para 6-7 de esas categorías, es decir, el resto 5-4 categorías no tienen ejemplo en el conjunto de datos.

Por otro lado, la regresión lineal debería estimar linealmente una calificación entre 0-10 que parece más cercana a lo que estoy tratando de averiguar; Sin embargo, la variable dependiente no es continua en el conjunto de datos.

¿Cuál es el mejor enfoque? Nota: estoy usando R para el análisis

Editar, abordando algunos de los puntos mencionados en las respuestas:

  • No hay un objetivo comercial ya que esto es realmente para un curso universitario. La tarea es analizar un conjunto de datos de elección de la manera que yo considere conveniente.
  • La distribución de las calificaciones parece normal (histograma / qq-plot). Los valores reales en el conjunto de datos están entre 3-8 (aunque técnicamente 0-10).
Bolsa de centavo
fuente

Respuestas:

9

Un modelo logit ordenado es más apropiado ya que tiene una variable dependiente que es una clasificación, 7 es mejor que 4, por ejemplo. Entonces hay un orden claro.

Esto le permite obtener una probabilidad para cada bin. Hay algunas suposiciones que debe tener en cuenta. Puedes echar un vistazo aquí .

Una de las suposiciones subyacentes a la regresión logística ordinal (y probit ordinal) es que la relación entre cada par de grupos de resultados es la misma. En otras palabras, la regresión logística ordinal supone que los coeficientes que describen la relación entre, por ejemplo, las categorías más bajas versus todas las más altas de la variable de respuesta son las mismas que describen la relación entre la siguiente categoría más baja y todas las categorías más altas, etc. Esto se llama suposición de probabilidades proporcionales o suposición de regresión paralela.

Algún código:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Puede tener más explicaciones aquí , aquí , aquí o aquí .

Tenga en cuenta que necesitará transformar sus coeficientes en odds ratio y luego en probabilidades para tener una interpretación clara en términos de probabilidades.

De manera directa (y simplista) puede calcularlos de la siguiente manera:

miXpag(βyo)=OreresRuntyoo

miXpag(β1)miXpag(βyo)=PAGrosiunsiyolyoty

(No quiero ser demasiado técnico)

adrian1121
fuente
4

Me gustaría ofrecer otra visión del problema: en el mundo real, es menos probable que se encuentre con esta pregunta, porque qué hacer depende de las necesidades del negocio .

La pregunta esencial en el mundo real es qué hacer después de obtener la predicción.

  • Supongamos que las empresas quieren destruir el vino de "baja calidad". Entonces, necesitamos alguna definición de "qué tan malo es malo" (por ejemplo, calidad inferior a ). Con la definición, se debe utilizar la regresión logística binaria, porque la decisión es binaria. (basura o guardar, no hay nada en el medio).2

  • Supongamos que las empresas desean seleccionar un buen vino para enviar a tres tipos de restaurantes. Entonces, se necesitará una clasificación de varias clases.

En resumen, quiero argumentar que lo que hay que hacer realmente depende de las necesidades después de obtener la predicción, en lugar de solo mirar el atributo de la variable de respuesta.

Haitao Du
fuente
1

Aunque un modelo logit ordenado (como se detalla en @ adrian1121) sería el más apropiado en términos de supuestos del modelo, creo que la regresión lineal múltiple también tiene algunas ventajas.

  1. Facilidad de interpretación . Los modelos lineales son más fáciles de interpretar que los modelos logit ordenados.
  2. Comodidad de los interesados . Los usuarios del modelo pueden sentirse más cómodos con la regresión lineal porque es más probable que sepan de qué se trata.
  3. Más parsimonioso (más simple). El modelo más simple puede funcionar igual de bien, vea el tema relacionado .

El hecho de que la mayoría de las respuestas estén entre 3 y 8 me sugiere que un modelo lineal puede funcionar adecuadamente para sus necesidades. No digo que sea "mejor", pero puede ser un enfoque más práctico.

Socavador
fuente
0

En principio, el modelo logit ordenado parece apropiado, pero 10 (o incluso 7) categorías es bastante.

1 / ¿ Tendría sentido hacer una nueva codificación (p. Ej., Las calificaciones 1-4 se fusionarían en una sola modalidad, digamos "calificación baja")?

2 / ¿Cuál es la distribución de las calificaciones? Si se distribuye bastante bien, entonces una regresión lineal haría un buen trabajo (ver modelo de probabilidad lineal ).

3 / De lo contrario, optaría por algo completamente diferente llamado " regresión beta ": una escala de calificación de 11 puntos es bastante detallada en comparación con la escala clásica de 5 puntos. Creo que sería aceptable considerar la escala de calificación como una "intensidad" escala donde 0 = Nulo y 1 = Completo / Perfecto: al hacer esto, básicamente asumirías que tu escala es de tipo intervalo (en lugar de ordinal), pero para mí suena aceptable.

Umka
fuente
3
¿Por qué hay 10 (o 7) categorías mucho? ¿Existe alguna razón técnica fundamental por la cual 10 categorías no se comportarán adecuadamente en un modelo logit ordenado, o está hablando desde una perspectiva puramente práctica? (por ejemplo, consideraciones similares a la respuesta que dio hxd1011.)
RM
No, no hay ninguna razón técnica, siempre y cuando los datos permitan estimar un logit (OL) ordenado con "tantas" categorías. Sin embargo, la especificación de un modelo OL con 11 categorías implica estimar 10 términos "constantes" (es decir, parámetros de umbral). A mí me parece mucho, especialmente si algunas categorías no están bien representadas en la base de datos. Mi intuición es que un modelo OL para 11 categorías están un poco exageradas, trataría las calificaciones como variables continuas o colapsaría algunas modalidades para especificar un modelo OL más parsimonioso (y quizás más significativo).
Umka
-1

No soy especialista en regresión logística, pero diría que desea utilizar multinomial debido a su variable dependiente discreta.

Una regresión lineal podría generar coeficientes que pueden extrapolarse de los límites posibles de su variable dependiente (es decir, un aumento de la variable independiente conduciría a una variable dependiente fuera de su límite para el coeficiente de regresión dado).

La regresión multinomial dará las diferentes probabilidades para los diferentes resultados de su variable dependiente (es decir, el coeficiente de su regresión le dará cómo aumentan su probabilidad de dar una mejor puntuación, sin que la puntuación esté fuera de los límites).

denis
fuente
3
Multinomial es bueno para múltiples categorías desordenadas. La logística ordinaria (lo que OP propone en la pregunta) es buena para múltiples categorías ordenadas.
Gregor
-1

Otra posibilidad es usar un bosque aleatorio. Hay dos formas de medir la "importancia" de una variable en un bosque aleatorio:

  1. XjXjXjYX
  2. XjXj

Los bosques aleatorios también son susceptibles de un tipo de visualización de datos llamado "diagrama de dependencia parcial". Vea este tutorial en profundidad para más detalles.

La dependencia parcial y la importancia de la permutación no son específicas de los modelos de bosque aleatorio, pero su popularidad creció junto con la popularidad de los bosques aleatorios debido a lo eficiente que es calcularlos para los modelos de bosque aleatorio.

Shadowtalker
fuente
1
Sé que es una respuesta algo tangencial, pero me gustaría saber por qué esto fue rechazado. ¿Es incorrecto?
shadowtalker