Tengo cuatro variables numéricas. Todos ellos son medidas de calidad del suelo. A mayor variable, mayor calidad. El rango para todos ellos es diferente:
Var1 de 1 a 10
Var2 de 1000 a 2000
Var3 de 150 a 300
Var4 de 0 a 5
Necesito combinar cuatro variables en un solo puntaje de calidad del suelo que clasifique con éxito el orden.
Mi idea es muy simple. Estandarice las cuatro variables, resúmalas y lo que obtenga es el puntaje que debe clasificar por orden. ¿Ve algún problema al aplicar este enfoque? ¿Hay algún otro enfoque (mejor) que recomendaría?
Gracias
Editar:
Gracias chicos. Se discutió mucho sobre "experiencia en el dominio" ... Cosas de agricultura ... Mientras que esperaba más estadísticas. En términos de la técnica que usaré ... Probablemente sea una suma de puntaje z + regresión logística como experimento. Debido a que la gran mayoría de las muestras tienen una calidad deficiente del 90%, voy a combinar 3 categorías de calidad en una y básicamente tengo un problema binario (algo de calidad versus no calidad). Yo mato dos pájaros de un tiro. Aumento mi muestra en términos de tasa de eventos y hago uso de expertos haciendo que clasifiquen mis muestras. Las muestras clasificadas por expertos se utilizarán para ajustar el modelo log-reg para maximizar el nivel de concordancia / discordancia con los expertos ... ¿Cómo te suena eso?
¿Alguien miró la revisión de Russell G. Congalton sobre la evaluación de la precisión de las clasificaciones de datos detectados remotamente en 1990? Describe una técnica conocida como matriz de error para las matrices de variación, también un término que usa llamado 'Normalizar datos', por el cual uno obtiene todos los diferentes vectores y 'normaliza' o los establece en igual de 0 a 1. Básicamente, cambia todos los vectores a rangos iguales de 0 a 1.
fuente
Otra cosa que no discutió es la escala de las mediciones. V1 y V5 parece que están en orden de rango y el otro parece que no. Entonces la estandarización puede estar sesgando el puntaje. Por lo tanto, puede ser mejor transformar todas las variables en rangos y determinar una ponderación para cada variable, ya que es muy poco probable que tengan el mismo peso. La ponderación igual es más bien un valor predeterminado de "no nada". Es posible que desee hacer un análisis de correlación o regresión para obtener algunos pesos a priori.
fuente
Después de la respuesta de Ralph Winters, puede usar PCA (análisis de componentes principales) en la matriz de puntajes adecuadamente estandarizados. Esto le dará un vector de peso "natural" que puede usar para combinar puntajes futuros.
Haga esto también después de que todas las puntuaciones se hayan transformado en rangos. Si los resultados son muy similares, tiene buenas razones para continuar con cualquiera de los métodos. Si hay discrepancias, esto generará preguntas interesantes y una mejor comprensión.
fuente