Crear un índice de calidad a partir de múltiples variables para permitir el orden de clasificación

22

Tengo cuatro variables numéricas. Todos ellos son medidas de calidad del suelo. A mayor variable, mayor calidad. El rango para todos ellos es diferente:

Var1 de 1 a 10

Var2 de 1000 a 2000

Var3 de 150 a 300

Var4 de 0 a 5

Necesito combinar cuatro variables en un solo puntaje de calidad del suelo que clasifique con éxito el orden.

Mi idea es muy simple. Estandarice las cuatro variables, resúmalas y lo que obtenga es el puntaje que debe clasificar por orden. ¿Ve algún problema al aplicar este enfoque? ¿Hay algún otro enfoque (mejor) que recomendaría?

Gracias

Editar:

Gracias chicos. Se discutió mucho sobre "experiencia en el dominio" ... Cosas de agricultura ... Mientras que esperaba más estadísticas. En términos de la técnica que usaré ... Probablemente sea una suma de puntaje z + regresión logística como experimento. Debido a que la gran mayoría de las muestras tienen una calidad deficiente del 90%, voy a combinar 3 categorías de calidad en una y básicamente tengo un problema binario (algo de calidad versus no calidad). Yo mato dos pájaros de un tiro. Aumento mi muestra en términos de tasa de eventos y hago uso de expertos haciendo que clasifiquen mis muestras. Las muestras clasificadas por expertos se utilizarán para ajustar el modelo log-reg para maximizar el nivel de concordancia / discordancia con los expertos ... ¿Cómo te suena eso?

ranking valuation usuario333
fuente

19

El enfoque propuesto puede dar un resultado razonable, pero solo por accidente. A esta distancia, es decir, tomando la pregunta al pie de la letra, con los significados de las variables disfrazadas, algunos problemas son aparentes:

Ni siquiera es evidente que cada variable esté positivamente relacionada con la "calidad". Por ejemplo, ¿qué pasa si un 10 para 'Var1' significa que la "calidad" es peor que la calidad cuando Var1 es 1? Luego agregarlo a la suma es algo tan incorrecto como uno puede hacer; necesita ser restado.
La estandarización implica que la "calidad" depende del conjunto de datos en sí. Por lo tanto, la definición cambiará con diferentes conjuntos de datos o con adiciones y eliminaciones de estos datos. Esto puede convertir la "calidad" en una construcción arbitraria, transitoria, no objetiva y evitar comparaciones entre conjuntos de datos.
No existe una definición de "calidad". ¿Qué se supone que significa? ¿Capacidad para bloquear la migración de agua contaminada? Capacidad para apoyar procesos orgánicos? Capacidad para promover ciertas reacciones químicas? Los suelos buenos para uno de estos propósitos pueden ser especialmente pobres para otros.
El problema mencionado no tiene ningún propósito: ¿por qué la "calidad" necesita ser clasificada? ¿Para qué se utilizará la clasificación: entrada para más análisis, selección del "mejor" suelo, decisión de una hipótesis científica, desarrollo de una teoría, promoción de un producto?
Las consecuencias del ranking no son aparentes. Si la clasificación es incorrecta o inferior, ¿qué sucederá? ¿El mundo tendrá más hambre, el medio ambiente estará más contaminado, los científicos estarán más engañados y los jardineros estarán más decepcionados?
¿Por qué debería ser apropiada una combinación lineal de variables? ¿Por qué no deberían multiplicarse o exponerse o combinarse como un posinomio o algo aún más esotérico?
Las medidas de calidad del suelo crudo se reexpresan comúnmente. Por ejemplo, la permeabilidad logarítmica suele ser más útil que la permeabilidad en sí misma y la actividad del ion hidrógeno (pH) logarítmica es mucho más útil que la actividad. ¿Cuáles son las expresiones adecuadas de las variables para determinar la "calidad"?

Uno esperaría que la ciencia de los suelos respondiera a la mayoría de estas preguntas e indicara cuál podría ser la combinación apropiada de las variables para cualquier sentido objetivo de "calidad". De lo contrario, se enfrenta a un problema de valoración de múltiples atributos . El artículo de Wikipedia enumera docenas de métodos para abordar esto. En mi humilde opinión, la mayoría de ellos son inapropiados para abordar una cuestión científica. Una de las pocas con una teoría sólida y una aplicabilidad potencial a los asuntos empíricos es la teoría de valoración de atributos múltiples de Keeney & Raiffa(MAVT) Requiere que pueda determinar, para cualquiera de las dos combinaciones específicas de las variables, cuál de las dos debería tener un rango más alto. Una secuencia estructurada de tales comparaciones revela (a) formas apropiadas de volver a expresar los valores; (b) si una combinación lineal de los valores reexpresados producirá o no la clasificación correcta; y (c) si es posible una combinación lineal, le permitirá calcular los coeficientes. En resumen, MAVT proporciona algoritmos para resolver su problema siempre que ya sepa cómo comparar casos específicos.

whuber
fuente

RE: 1. Sé con certeza que "a mayor número, mayor calidad" para las cuatro variables RE: 2. Buen punto. ¿Qué puedo hacer para que dos conjuntos de datos sean comparables

User333

2

@user Mis recomendaciones están en el último párrafo: preferiblemente, encuentre una expresión cuantitativa de "calidad" en la literatura científica. Salvo eso, aplique MAVT. Ambos producen una fórmula fija independiente del conjunto de datos. Eso asegura la comparabilidad.

whuber

1

@whuber, ¿No podría uno ver esto como un problema de hacer una medida formativa basada en la información disponible, en cuyo caso sumar los puntajes Z no es tan malo como parece?

Andy W

3

@Andy ¿Podría explicar qué quiere decir con "medida formativa" e "información disponible"? // Debo señalar que muchas medidas de idoneidad del suelo para la agricultura ni siquiera son monótonas, mucho menos lineales: por ejemplo, una planta puede florecer dentro de un rango de pH pero sufrir con un pH más allá de este rango en cualquier dirección . De hecho, sería una circunstancia especial, tal vez una que involucrara un rango estrecho de valores, si una simple combinación lineal de características del suelo tuviera alguna relación objetiva con las cualidades agrícolas.

whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

whuber

3

¿Alguien miró la revisión de Russell G. Congalton sobre la evaluación de la precisión de las clasificaciones de datos detectados remotamente en 1990? Describe una técnica conocida como matriz de error para las matrices de variación, también un término que usa llamado 'Normalizar datos', por el cual uno obtiene todos los diferentes vectores y 'normaliza' o los establece en igual de 0 a 1. Básicamente, cambia todos los vectores a rangos iguales de 0 a 1.

Ragus Paganini
fuente

0

Otra cosa que no discutió es la escala de las mediciones. V1 y V5 parece que están en orden de rango y el otro parece que no. Entonces la estandarización puede estar sesgando el puntaje. Por lo tanto, puede ser mejor transformar todas las variables en rangos y determinar una ponderación para cada variable, ya que es muy poco probable que tengan el mismo peso. La ponderación igual es más bien un valor predeterminado de "no nada". Es posible que desee hacer un análisis de correlación o regresión para obtener algunos pesos a priori.

Ralph Winters
fuente

¿Cómo puedo usar el análisis de correlación para determinar el peso?

user333

Si ya tiene una medida general de calidad preexistente, por ejemplo, opiniones de expertos (o está dispuesto a aceptar otras variables como un proxy para esto), puede elegir las variables correlacionadas más altas y darle la mayor ponderación.

Ralph Winters

-3

Después de la respuesta de Ralph Winters, puede usar PCA (análisis de componentes principales) en la matriz de puntajes adecuadamente estandarizados. Esto le dará un vector de peso "natural" que puede usar para combinar puntajes futuros.

Haga esto también después de que todas las puntuaciones se hayan transformado en rangos. Si los resultados son muy similares, tiene buenas razones para continuar con cualquiera de los métodos. Si hay discrepancias, esto generará preguntas interesantes y una mejor comprensión.

Hans Engler
fuente

44

Estoy en desacuerdo. Si bien uno probablemente estaría interesado en las correlaciones entre ítems por curiosidad, todas las variables podrían ser ortogonales y aún contribuir a la calidad. Para un ejemplo tonto, el suelo en la Antártida puede tener un contenido óptimo de nitrógeno, pero dudo que sea suficiente como un clima adecuado.

Andy W

@Andy W: En ese caso, todas las variables deben ser ponderadas por igual, y PCA te lo dirá. También le indicaría que el componente principal solo representa una fracción relativamente pequeña de la variabilidad general en la matriz de puntajes.

Hans Engler

3

Todavía no estoy de acuerdo. No le dice si los puntajes deben ser ponderados por igual. Dos elementos podrían tener una correlación positiva, pero cada uno tiene relaciones opuestas con la "calidad". Las correlaciones entre ítems no necesariamente dicen nada sobre la medida no observada en el contexto dado. Si la calidad fuera una variable latente y las variables fueran "reflexivas" de ese constructo latente que puede ser cierto, pero ese no es el caso en este ejemplo dado.

Andy W

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

Hans Engler

3

Todavía no estoy de acuerdo. Incluso si se espera que la asociación esté en la misma dirección, esto no significa que los indicadores deberían tener un peso inherente en función de su correlación entre elementos. La variación compartida solo puede decir algo sobre la relación entre los indicadores. Piense en un modelo de regresión en el que predecimos una medida conocida de calidad a partir de estos indicadores. Las correlaciones entre ítems entre los indicadores no le indican cuáles serán las pendientes esperadas.

Andy W

Crear un índice de calidad a partir de múltiples variables para permitir el orden de clasificación

Respuestas: