Tengo cuatro variables numéricas. Todos ellos son medidas de calidad del suelo. A mayor variable, mayor calidad. El rango para todos ellos es diferente:
Var1 de 1 a 10
Var2 de 1000 a 2000
Var3 de 150 a 300
Var4 de 0 a 5
Necesito combinar cuatro variables en un solo puntaje de calidad del suelo que clasifique con éxito el orden.
Mi idea es muy simple. Estandarice las cuatro variables, resúmalas y lo que obtenga es el puntaje que debe clasificar por orden. ¿Ve algún problema al aplicar este enfoque? ¿Hay algún otro enfoque (mejor) que recomendaría?
Gracias
Editar:
Gracias chicos. Se discutió mucho sobre "experiencia en el dominio" ... Cosas de agricultura ... Mientras que esperaba más estadísticas. En términos de la técnica que usaré ... Probablemente sea una suma de puntaje z + regresión logística como experimento. Debido a que la gran mayoría de las muestras tienen una calidad deficiente del 90%, voy a combinar 3 categorías de calidad en una y básicamente tengo un problema binario (algo de calidad versus no calidad). Yo mato dos pájaros de un tiro. Aumento mi muestra en términos de tasa de eventos y hago uso de expertos haciendo que clasifiquen mis muestras. Las muestras clasificadas por expertos se utilizarán para ajustar el modelo log-reg para maximizar el nivel de concordancia / discordancia con los expertos ... ¿Cómo te suena eso?