Tengo los datos del vino de aquí que consisten en 11 variables numéricas independientes con una calificación dependiente asociada con cada entrada con valores entre 0 y 10. Esto hace que sea un gran conjunto de datos utilizar un modelo de regresión para investigar la relación entre las variables y las asociadas. clasificación. Sin embargo, ¿sería apropiada la regresión lineal, o es mejor usar la regresión logística multinomial / ordenada?
La regresión logística parece mejor dadas categorías específicas, es decir, no una variable dependiente continua, pero (1) hay 11 categorías (¿un poco demasiado?) Y (2) después de la inspección, solo hay datos para 6-7 de esas categorías, es decir, el resto 5-4 categorías no tienen ejemplo en el conjunto de datos.
Por otro lado, la regresión lineal debería estimar linealmente una calificación entre 0-10 que parece más cercana a lo que estoy tratando de averiguar; Sin embargo, la variable dependiente no es continua en el conjunto de datos.
¿Cuál es el mejor enfoque? Nota: estoy usando R para el análisis
Editar, abordando algunos de los puntos mencionados en las respuestas:
- No hay un objetivo comercial ya que esto es realmente para un curso universitario. La tarea es analizar un conjunto de datos de elección de la manera que yo considere conveniente.
- La distribución de las calificaciones parece normal (histograma / qq-plot). Los valores reales en el conjunto de datos están entre 3-8 (aunque técnicamente 0-10).
fuente
No soy especialista en regresión logística, pero diría que desea utilizar multinomial debido a su variable dependiente discreta.
Una regresión lineal podría generar coeficientes que pueden extrapolarse de los límites posibles de su variable dependiente (es decir, un aumento de la variable independiente conduciría a una variable dependiente fuera de su límite para el coeficiente de regresión dado).
La regresión multinomial dará las diferentes probabilidades para los diferentes resultados de su variable dependiente (es decir, el coeficiente de su regresión le dará cómo aumentan su probabilidad de dar una mejor puntuación, sin que la puntuación esté fuera de los límites).
fuente
Otra posibilidad es usar un bosque aleatorio. Hay dos formas de medir la "importancia" de una variable en un bosque aleatorio:
Los bosques aleatorios también son susceptibles de un tipo de visualización de datos llamado "diagrama de dependencia parcial". Vea este tutorial en profundidad para más detalles.
La dependencia parcial y la importancia de la permutación no son específicas de los modelos de bosque aleatorio, pero su popularidad creció junto con la popularidad de los bosques aleatorios debido a lo eficiente que es calcularlos para los modelos de bosque aleatorio.
fuente