Cálculo de la pendiente media: ¿media armónica o aritmética?

11

Tengo que calcular el porcentaje de pendiente ascendente promedio para un gran conjunto de datos, el método básico se detalla aquí. Sin embargo, comencé a preguntarme si la media armónica podría ser más apropiada que la media aritmética estándar, ya que técnicamente es una tasa de cambio. No he visto que esto aparezca en ninguna de las otras discusiones sobre promediar la pendiente sobre puntos, áreas, líneas, etc. Debería ser bastante sencillo de lograr.

editar: El propósito de calcular la pendiente promedio en este caso es generar un parámetro (de muchos) para usar en el modelado de umbrales de inicio de canal. Tengo un conjunto de ubicaciones de cabecera de canal recopiladas en el campo en las que recolectaré la acumulación de flujo, varios parámetros promedio de pendiente ascendente, etc., y usaré la regresión lineal múltiple para tratar de describir los umbrales de acumulación en términos de los otros parámetros.

Jay Guarneri
fuente
44
Depende de por qué estás calculando la pendiente promedio. ¿Cuál es el propósito? ¿Qué cantidad física estás tratando de medir? Aunque muchas formas de promedio son legítimas, tenga cuidado con el significado armónico: causa problemas cuando cualquier pendiente es cero, lo que ocurre con frecuencia.
whuber

Respuestas:

10

La pendiente promedio suena como una cantidad natural, pero es algo bastante extraño. Por ejemplo, la pendiente promedio de una llanura horizontal plana es cero, pero cuando agrega un poco de ruido aleatorio promedio cero a un DEM de esa llanura, la pendiente promedio solo puede subir. Otros comportamientos extraños son la dependencia de la pendiente promedio de la resolución DEM, que he documentado aquí , y su dependencia de cómo se creó el DEM. Por ejemplo, algunos DEM creados a partir de mapas de contorno están en realidad ligeramente en terrazas, con pequeños saltos abruptos donde se encuentran las líneas de contorno, pero por lo demás son representaciones precisas de la superficie en general. Esos saltos abruptos, si se les da demasiado o muy poco peso en el proceso de promedio, pueden cambiar la pendiente promedio.

Destacar la ponderación es relevante porque, en efecto, una media armónica (y otros medios) están ponderando diferencialmente las pendientes. Para entender esto, considere la media armónica de solo dos números positivos x e y . Por definición,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

donde los pesos son a = y / (x + y) y b = x / (x + y). (Merecen llamarse "pesos" porque son positivos y suman unidad. Para la media aritmética, los pesos son a = 1/2 yb = 1/2). Evidentemente, el peso unido a x , igual a y / (x + y), es grande cuando x es pequeño en comparación con y . Así armónico significa sobrepeso los valores más pequeños .

Puede ayudar a ampliar la pregunta. La media armónica es una de una familia de promedios parametrizados por un valor real p . Así como la media armónica se obtiene promediando los recíprocos de x e y (y luego tomando el recíproco de su promedio), en general podemos promediar las potencias pth de x e y (y luego tomar la potencia 1 / pth del resultado ) Los casos p = 1 y p = -1 son las medias aritméticas y armónicas, respectivamente. (Podemos definir una media para p = 0 tomando límites y así obtener la media geométrica como miembro de esta familia también). Como pdisminuye de 1, los valores más pequeños están cada vez más ponderados; y a medida que p aumenta de 1, los valores más grandes están cada vez más ponderados. Se deduce que la media solo puede aumentar a medida que aumenta p y debe disminuir a medida que disminuye p . (Esto es evidente en la segunda figura a continuación, en la que las tres líneas son planas o aumentan de izquierda a derecha).

Con una visión práctica del asunto, podríamos estudiar el comportamiento de varios medios de pendientes y agregar este conocimiento a nuestra caja de herramientas analíticas: cuando esperamos que las pendientes entren en una relación de tal manera que las pendientes más pequeñas deberían recibir más una influencia, podríamos elegir una media con p menor que 1; y, por el contrario, podríamos aumentar p por encima de 1 para enfatizar las pendientes más grandes. Para este fin, consideremos varias formas de perfiles de drenaje en la vecindad de un punto.

Para mostrar lo que podría pasar, he considerado tres terrenos locales cualitativamente diferentes : uno es donde todas las pendientes son iguales (lo que hace una buena referencia); otro es donde localmente estamos ubicados en el fondo de un tazón: a nuestro alrededor las pendientes son cero, pero luego aumentan gradualmente y eventualmente, alrededor del borde, se vuelven arbitrariamente grandes. Lo contrario de esta situación ocurre cuando las pendientes cercanas son moderadas pero luego se nivelan lejos de nosotros. Eso parecería cubrir una amplia gama de comportamientos realistas.

Aquí hay gráficos pseudo-3D de estos tres tipos de formas de drenaje:

Parcelas en 3D

Aquí he calculado la pendiente media de cada uno, con la misma codificación de color, en función de p , dejando que p oscile entre -1 (media armónica) y 2.

Pendiente significa vs p

Por supuesto, la línea azul es horizontal: no importa qué valor tome p , la media de una pendiente constante no puede ser otra que esa constante (que se ha establecido en 1 como referencia). Las altas pendientes alrededor del borde más alejado del cuenco rojo influyen fuertemente en las pendientes medias a medida que p varía: observe cuán grandes se vuelven una vez que p excede 1. El borde horizontal en la tercera superficie (verde dorado) causa la media armónica (p = - 1) ser cero.

Cabe destacar que las posiciones relativas de las tres curvas cambian en p = 0 (la media geométrica): para p mayor que 0, el tazón rojo tiene pendientes promedio más grandes que el azul, mientras que para p negativo , el tazón rojo tiene un promedio más pequeño pendientes que el azul. Por lo tanto, su elección de p puede alterar incluso la clasificación relativa de las pendientes promedio.

El profundo efecto de la media armónica (p = -1) en la forma amarillo-verde debería darnos una pausa: muestra que cuando hay suficientes pendientes pequeñas en el drenaje, la media armónica puede ser tan pequeña que abruma cualquier influencia de Todas las demás pistas.

En el espíritu de un análisis exploratorio de datos, puede considerar variar p, tal vez dejar que oscile entre 0 y ligeramente mayor que 1 para evitar pesos extremos, y encontrar qué valor crea la mejor relación entre la pendiente media y la variable están modelando (como los umbrales de inicialización del canal). "Mejor" generalmente se entiende en el sentido de "más lineal" o "crear residuos [homoscedásticos] constantes" en un modelo de regresión.

whuber
fuente
Gracias por el análisis exhaustivo! Tendré que reflexionar sobre esto por un momento.
Jay Guarneri
1

Llevé a cabo un enfoque empírico para encontrar una respuesta complementaria a la excelente respuesta teórica de whuber. Decidí calcular la pendiente en grados y promediar eso usando un promedio angular . A continuación, calculé las medias aritméticas y armónicas del porcentaje de pendiente. Creé un conjunto de puntos de muestra ubicados aleatoriamente en el área de estudio. Solicité 2000 puntos con una distancia mínima de 100 m, lo que arrojó 1326 puntos. Tomé muestras de los valores de cada ráster de pendiente media en cada punto, y convertí las medias porcentuales a grados usando la fórmula Degrees = atan(percent/100). Mi suposición aquí es que la media angular producirá la pendiente media "correcta" en grados, y cualquiera que sea la media porcentual más cercana sería el procedimiento correcto.

Luego, comparé todos los valores distintos de cero usando una prueba de Kruskal-Wallace (los supuestos son que para la mayoría de los valores de pendiente cero, sería cero en los tres, y que los valores cero enmascararían las diferencias entre los métodos). Encontré una diferencia significativa entre los tres (chi-cuadrado = 17.9570, DF = 2, p = 0.0001), así que examiné los datos usando el procedimiento de Dunn usando alfa = 0.05 (Elliot y Hynan 2011) . El resultado final es que la media aritmética y armónica son significativamente diferentes entre sí, pero más cerca es significativamente diferente de la media angular:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Si mis suposiciones eran correctas (es muy posible que no lo sean), esto significa que si bien los medios armónicos y aritméticos crean valores diferentes entre sí, ambos están "muy cerca" de la media angular para ser aceptables. Hay otras dos advertencias aquí en las que puedo pensar (por favor agregue cualquier otra si piensa en ellas):

  1. Un tamaño de muestra más grande podría encontrar una diferencia significativa entre las medias porcentuales y la media angular. Sin embargo, mi tamaño de muestra fue de ~ 1000 puntos solo para los valores distintos de cero.
  2. Dado que mis puntos de muestra se colocaron sin tener en cuenta las cuencas de drenaje, puede haber alguna pseudo-replicación involucrada, ya que cualquier pendiente media estará relacionada con las pendientes medias por encima de ella.
Jay Guarneri
fuente
1
Esto es interesante (+1), pero ten cuidado con las limitaciones. (1) Sí, si elige un tamaño de muestra más grande, encontrará que todas las diferencias son significativas. Por lo tanto, no tiene sentido realizar una prueba de hipótesis estadística: desea centrarse en la cantidad de diferencia entre los procedimientos. (2) Sus resultados dependen completamente de las propiedades reales de sus datos. Variarán con otros conjuntos de datos. (3) La media angular es útil como referencia, pero de ninguna manera es un valor preferido. Cuál usar como referencia depende completamente de cómo se usará la media en análisis o mapeos posteriores.
whuber
0

Dado el supuesto de que no se conocen parámetros que definan la pendiente, cualquier estadístico diría utilizar la pendiente que minimiza las desviaciones RMS de los datos de la misma. (Por supuesto, los ejemplos de Whuber no califican ya que ha elegido formas terrestres generadas matemáticamente, pero para formas terrestres reales la suposición de parámetros no conocidos debería ser válida).

johnsankey
fuente
Esta respuesta es apreciada, pero creo que no comprende la situación. Lo más significativo es que estas pendientes no se utilizan para ajustar curvas: el concepto de "desviaciones RMS de los datos" simplemente no es aplicable. En segundo lugar, he elegido tipos de forma de relieve cualitativos para abarcar un amplio espectro de lo que realmente se encontrará, por lo que mantengo que proporcionan información útil sobre qué esperar. Los conjuntos de datos reales no contribuyen mucho a comprender lo que está sucediendo aquí, porque no existe una pendiente promedio "verdadera". La pregunta principal es qué promedios serán útiles o informativos.
whuber
1
Por cierto, creo que tengo algunas calificaciones como estadístico. Eso no hace que mi opinión sobre este asunto sea mejor o peor: como con cualquier otra persona, necesito respaldarlo de la manera más clara y objetiva posible, y soy bastante susceptible a equivocarme y tener que cambiar de opinión: ) Solo ofrezco este punto como un contador a su comentario de "cualquier estadístico".
whuber
La cuestión de qué ajuste es útil, presento, depende de para qué se utilizará la pendiente. Para el potencial de caída de la tierra, por ejemplo, las pendientes más pronunciadas se pesarían más en comparación con las pendientes suaves de acuerdo con un modelo de potencial de caída versus pendiente, entonces el enfoque de ajuste RMS debería ser válido. Se usarían otros modelos de ponderación que coincidan con otros usos. En resumen, modelar todo lo que sabemos por ponderación u otros medios, luego confiar en RMS como modelo para todo lo que no sabemos, es lo que sugiero.
johnsankey
Estoy de acuerdo con la premisa de ese comentario, John, pero no veo cómo sigue su conclusión. Si las pendientes más pronunciadas van a recibir pesos más pesados, entonces parece que RMS es justo lo que no desea hacer, ya que pesa todas las desviaciones por igual, independientemente de la pendiente. Además, el RMS, como una función de pérdida cuadrática, no puede ser un reemplazo universal de lo que pueden lograr otras técnicas, incluidas las reexpresiones no lineales de la pendiente y el uso de funciones de pérdida alternativas (como las explotadas por métodos de ajuste robustos, por ejemplo).
whuber
RMS incluye pesas
johnsankey