¿Cuándo usaríamos tantiles y medial, en lugar de cuantiles y la mediana?

14

No puedo encontrar definiciones para tantile o medial en Wikipedia o Wolfram Mathworld, pero la siguiente explicación se da en Bílková, D. y Mala, I. (2012), " Aplicación del método del momento L al modelar la distribución del ingreso en la República Checa ", Austrian Journal of Statistics , 41 (2), 125–132.

El medial es el valor de un tantile del (muestra) tal como la mediana de la muestra es igual al valor de un cuantil del 50 % de la muestra. Los tantiles de muestra y los cuantiles de muestra se basan en una muestra ordenada. En primer lugar, se evalúan las sumas acumuladas de observaciones en la muestra ordenada. Entonces, para un porcentaje dado p , 0 < p < 100 , a p50%50%p0<p<100 tantile se define como el valor de la variable analizada que divide todas las observaciones en la muestra ordenada en dos partes: la suma de observaciones más pequeñas o iguales es p %p%p%de la suma total de observaciones y la suma de observaciones que son mayores representa el residual de esta suma.(100p)%

¿Cuándo tiene sentido usar estos como medidas de ubicación, en lugar de la mediana más convencional u otros cuantiles? Una situación posible, los ingresos del hogar, se da en ese documento:

Se puede deducir de esta definición que el medial se puede usar como una característica razonable del nivel de ingresos, ya que los hogares con un ingreso menor o igual al medial reciben la mitad del ingreso total en la muestra, aquellos con el ingreso más alto que el medial que recibe la otra mitad.

En este caso, se encontró que el ingreso familiar promedio era de CZK 117,497 (es decir, la mitad de los hogares ganaban más que esto y la mitad ganaba más arriba), en comparación con un ingreso familiar medio de CZK 133,930 (los hogares con un ingreso superior a esta cifra reciben la mitad de Ingresos totales). Tenga en cuenta que esta comparación no refleja necesariamente la asimetría de los ingresos del hogar, o incluso su falta de uniformidad: incluso si los ingresos del hogar se distribuyeran uniformemente, la media aún estaría por encima de la mediana. Hasta donde entiendo la definición, la media solo sería igual a la mediana si todos los hogares recibieran el mismo ingreso.

Entonces, ¿hay alguna razón particular para preferir el medial en este caso, o al menos para usarlo como una medida complementaria? ¿Qué nos dice exactamente la comparación entre mediana y mediana? No parece que el medial sea directamente comparable a otras medidas de tendencia central por las razones que acabo de señalar. ¿Hay otras situaciones en las que los medios / tantiles se usan ampliamente o se consideran particularmente informativos? Los ejemplos prácticos de dónde se usan, con ejemplos de trabajos de investigación, serían muy bienvenidos, y una idea intuitiva del contexto más amplio en el que podrían resultar útiles sería aún mejor.

Debe requerir que los totales y los subtotales sean significativos, algo que parece relevante con el dinero y cómo se distribuye "el pastel", pero incluso el acto de sumar solo es significativo para ciertas cantidades. Para propiedades intensivas en lugar de extensivas , como la densidad o la temperatura, cualquier tipo de suma no sería físicamente significativo. Me parece que una propiedad extensa es necesaria pero no suficiente para que los tantiles sean útiles, ya que puedo imaginar a un analista de envíos interesado en saber qué peso de la carga transportada es el límite para que el 50% de toda la carga (por peso) sea llevado en cargas de ese peso o más, pero no puedo imaginar a un ecólogo interesado en qué longitud de tritón es tal que el 50% de la longitud total de todos los tritones sea aportado por tritones de esa longitud o más.

Lepisma
fuente
3
@ NickCox Por lo que yo entiendo, la mediana da un valor de corte donde, en términos generales (estoy ignorando por completo el tema de los lazos), la mitad de los hogares recibe más que el límite y la mitad de los hogares recibe menos. El medial proporciona un límite diferente, de modo que el ingreso total de los hogares que reciben más que el límite constituye el 50% de todos los ingresos, mientras que el ingreso total de los hogares que reciben menos del límite constituye el 50% de todos los ingresos.
Silverfish
2
Un consejo: me puse curioso por esto después de un comentario de @ttnphns sobre una pregunta anterior mía ; los medios (aritméticos, geométricos, armónicos, potenciados, exponenciales, combinatorios, etc.) son "promedios analíticos". La mediana, cuantiles, tantiles son "promedios posicionales".
Silverfish
44
Gracias; Leí mal esto y aprecio la corrección. Reformularía de "suma de observaciones" a "suma de valores", ya que "suma de observaciones" está demasiado cerca de "número de observaciones" para mí. O tal vez estoy buscando una excusa ... Debería haber una conexión con las curvas de Lorenz. La medida parece útil solo si la variable en cuestión es teóricamente aditiva o extensa. Sir David Cox a menudo enfatiza la importancia de si las variables son extensas. Por lo tanto, tiene sentido considerar sustancialmente el ingreso total, la precipitación total, pero no el ingreso total de registros o la temperatura total.
Nick Cox
2
@ NickCox Creo que la extensividad es un punto excelente (y su nueva redacción sugerida también habría sido una mejora en mi opinión), aunque me parece que una propiedad extensa es necesaria pero no suficiente para que los tantiles sean útiles. Parece plausible que podamos estar interesados, por ejemplo, en qué peso de la carga transportada es el límite para que el 50% de toda la carga (en peso) se transporte en cargas de ese peso o más; pero no puedo imaginarme interesado en qué longitud de tritón es tal que el 50% de la longitud total de todos los tritones sea aportado por tritones de esa longitud o más.
Silverfish
1
Estoy de acuerdo en la práctica, pero no creo que el principio se vea afectado. La respuesta a "Pero eso no sería interesante o útil" no siempre tiene que ser una muestra de principios matemáticos o estadísticos; también hay margen para "¡No lo hagas entonces!".
Nick Cox

Respuestas:

3

p=0.5Xf(x)μ=EXμ=xf(x)dx

G(t)=txf(x)dx
Then the "tantile" is the solution t of the equation G(t)=μ/2.

Is this interpretation correct? Is this what was intended?

To return to the original question, in the context of an income distribution, the tantile is the value of income such that half of total income is for people with above that income, and half of total income is for people with below that income.

EDIT

These quantities ( function G(t) above) are related to various risk measures used in some financial literature, such as "expected shortfall".

Eche un vistazo al documento AJ Ostaszewski y MB Gietzmann: "Creación de valor con la opción de divulgación de Dye: protección óptima contra el riesgo con una estrategia de divulgación de cola superior" (mayo de 2006), especialmente alrededor de la página 15, donde definen algo que llaman "Hemi- significa "que está relacionado con G(t) arriba, también "déficit esperado en relación con t y también conocido como $ primer momento parcial inferior ". Sería interesante analizar estas conexiones ...

Otro término utilizado para esta idea es "expectativa parcial". Ver por ejemplo /math/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r and use google!

Also, the book Kotz & Kleiber:"Statistical Size Distributions in Economics and Actuarial Science" give relevant information, on page 22 they define (Here X>0)

Fk(x)=1EXk0xtkf(t)dt
which is "the kth-moment distribution", note that G(t)=μF1(t) so is basically the first-moment distribution. They refer to Champernowne (1974) who calls F1 the "income curve", and denotes the underlying cdf F by F0. In terms of the first moment distribution the Lorenz curve can be given as
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}

kjetil b halvorsen
fuente
1
Thanks for the addition - I'm going to have to do some reading up by the looks of it!
Silverfish