Paradoja del valor promedio: ¿cómo se llama esto?

22

Tengo un conjunto de datos Diga observaciones y variables: $10$ $3$

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Digamos que son clientes que han comprado ( ) o no ( ) en cada categoría . Hay unidades allí, por lo que estos clientes compran en categorías de productos en promedio. $10$ 10A, B, C $16$ $10$ $1.6$

Tenga en cuenta que los clientes pueden comprar en más de uno de A, B y C.

Si miro solo a quienes compran A, hay clientes que han comprado en categorías de productos, por lo que eso es en promedio. $5$ $9$ $1.8$

Bes nuevamente, o . $9/5$ $1.8$

Ces $10/6 = 1.67.$

Todos ellos por encima de $1.6.$

lo que parece extraño Lo entiendo, pero necesito explicar esto al marketing la próxima semana, ¡así que necesito ayuda!

¿Cómo se llama esta cosa?

Sé que no es la paradoja de Simpson. Para mí, se siente similar en lógica al problema de Monty Hall y a la probabilidad condicional.

proportion descriptive-statistics paradox James Adams
fuente

2

Personalmente, no tengo idea de lo que estás hablando. ¿Por qué no crear una tabla de contingencia de As, Bs y Cs para examinar los patrones de compra cruzada?

Mike Hunter

3

Tenemos informes que dicen "Los clientes que compran C valen más que el promedio - 1.67 vs 1.6" Lo cual es cierto, pero A y B también valen más que el promedio. Ante lo cual surgirá la inevitable pregunta "¿Cómo pueden todos los clientes valer más que el promedio"?

James Adams

3

Creo que su enigma es que superficialmente se parece al lago Wobegon, donde todos están por encima del promedio: P Sea

el número de categorías / artículos que compró un cliente. Sean

,

y

indicadores de compras en las categorías A, B y C, respectivamente.

,

y

mientras que

X

$X$

A

$A$

B

$B$

C

$C$

E [X ∣ A] = 1.8

$\operatorname{E}[X\mid A] = 1.8$

E [X ∣ B] = 1.8

$\operatorname{E}[X\mid B] = 1.8$

E [X ∣ C] = 1.67

$\operatorname{E}[X\mid C] = 1.67$

E [X] = 1.6

$\operatorname{E}[X] = 1.6$

Matthew Gunn el

12

Es posible que desee pensar en términos de conjuntos complementarios y diagramas de Venn. Los conjuntos "clientes que compran A" y "clientes que no compran A" no se superponen. Pero los conjuntos que enumeras en tu pregunta se superponen. Puede calcular el promedio general como un promedio (ponderado) de los promedios de subconjuntos solo si los subconjuntos forman una partición .

GeoMatt22

44

¿Es esto vagamente similar a la paradoja de la ilusión mayoritaria ? De la misma manera que es probable que un individuo esté conectado a un súper networker, ¿es probable que cualquier categoría de compra contenga un súper comprador? (Llamo a un súper networker a alguien que se conecta con muchas personas y a un súper comprador a alguien que compra muchos artículos diferentes)

Matthew Gunn

28

El promedio de cada subcategoría puede estar por encima del promedio general si las subcategorías se superponen en los clientes más grandes.

Ejemplo simple para ganar intuición:

Sea un indicador de si un individuo compró un artículo en la categoría A. $A$
Sea un indicador de si un individuo compró un artículo en la categoría B. $B$
Sea la cantidad de artículos comprados. $X = A + B$

\begin{array}{ccc} Person & A & B \\ i & 1 & 0 \\ i i & 0 & 1 \\ i i i & 1 & 1 \end{array}

$\begin{array}{ccc} \text{Person} & A & B \\ i & 1 & 0 \\ ii & 0 & 1 \\ iii & 1 & 1 \end{array}$

El conjunto de individuos donde es verdadero se superpone al conjunto de individuos donde es verdadero. NO son conjuntos disjuntos. $A$ $B$

$\operatorname{E}[X] \approx 1.33$ $\operatorname{E}[X \mid A] = 1.5$ $\operatorname{E}[X \mid B] = 1.5$

La afirmación que sería cierta es:

P (A) E [X ∣ A] + P (B) E [X ∣ B] - P (A B) E [X ∣ A B] = E [X]

$P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] - P(AB)\operatorname{E}[X\mid AB] = \operatorname{E}[X]$

\frac{2}{3} 1.5 + \frac{2}{3} 1.5 - \frac{1}{3} 2 = 1.3333

$\frac{2}{3}1.5 + \frac{2}{3}1.5 - \frac{1}{3}2 = 1.3333$

$P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B]$ $A$ $B$ $A$ $B$

Nombre para ilusión / paradoja?

Yo diría que está relacionado con la paradoja de la ilusión mayoritaria en las redes sociales.

$k$

Del mismo modo, tiene 1 de cada 3 aquí comprando las categorías A y B. Pero dentro de las categorías A o B, 1 de los 2 compradores es el súper comprador.

Caso extremo:

$n$ $S_i$ $i$

$S_i$ $\frac{J}{2}$ $J$ $\frac{J}{n+1}$

$S_i$

Mi punto final sería que la intuición basada en conjuntos disjuntos , una partición completa del espacio muestral no se traslada a una serie de conjuntos superpuestos . Si condiciona categorías superpuestas, cada categoría puede estar por encima del promedio.

Si divide el espacio muestral y la condición en conjuntos disjuntos, las categorías deben promediar a la media general, pero eso no es cierto para los conjuntos superpuestos.

Matthew Gunn
fuente

3

¡Gracias! Creo que el doble conteo es la clave para explicar. Sin embargo, no creo que esto sea necesariamente el resultado de algunos valores extremos. Mi conjunto de datos de ejemplo anterior es bastante mundano y el efecto "todos los grupos por encima del promedio" todavía ocurre. Supongo que sucederá en la mayoría de los casos. Solo me preguntaba si tenía un nombre o un ejemplo anterior.

James Adams el

Esta explicación no se mantendría si los datos que @JamesAdams está analizando tienen fallas. Estoy afirmando que es así. No puede tener un conjunto de categorías A, B y C mutuamente excluyentes y completas donde los promedios de grupo son todos más altos que el promedio de los 3 tomados juntos sin que haya una violación de alguna suposición fundamental del análisis de datos. En su caso, lo más probable es que el denominador para el promedio general difiera (por ejemplo, contenga más encuestados) de los utilizados para la estimación de las medias para A, B y C.

Mike Hunter

2

@DJohnson Por supuesto que tienes razón si los conjuntos A, B y C dividen el espacio muestral. Mi lectura de la pregunta y los "datos" suministrados (sea lo que sea) es que A, B y C son conjuntos superpuestos . Si A, B y C se superponen, entonces los promedios del grupo pueden ser más altos que el promedio general (que es el punto de mi respuesta; ¡los conjuntos se superponen en los clientes más grandes!). Nada de lo que ha dicho el OP es internamente inconsistente. Sin embargo, su detector "estamos pasando datos BS" podría ser mejor que el mío, y estoy de acuerdo en que siempre es importante hacer preguntas críticas sobre la validez de los datos / números.

Matthew Gunn el

Sí, son conjuntos superpuestos. Mi conjunto de datos es de millones de clientes y 12 categorías. Cuando vi que mis promedios eran más altos que el promedio general, pensé que parecía extraño pero explicable. Puse el conjunto de ejemplos de 10 obs y 3 categorías para verlo. Acabo de dispersar 1s y 0s aquí y salió igual. Sospecho que esto sucede con la mayoría de los conjuntos de datos donde se calcula este tipo de promedio. @Djohnson, mi ejemplo anterior de que soy usa 10 como denominador para el promedio general, 5 para el As, 5 para el Bs, 6 para el Cs. ¿Me puede decir lo que estoy violando en este ejemplo?

James Adams

¿Qué representa '10'? ¿La red de encuestados en las 3 categorías? ¿Qué pasa con los promedios si usa el mismo denominador para todos? Debería devolver promedios que fluctúen alrededor de la gran media.

Mike Hunter

10

Yo llamaría a esto la paradoja del tamaño de la familia o algo similar

$2$

$2$
$\frac{2}{1-e^{-2}} \approx 2.313$
$3$

Los números demográficos y de encuestas reales producen números diferentes pero patrones similares

La aparente paradoja es que el tamaño promedio de los grupos de hermanos de las personas es mayor que el número promedio de niños por familia; Con una dinámica de población estable, las personas tienden a tener menos hijos en promedio que sus padres

La explicación es si el promedio se está tomando sobre los padres y las familias o sobre los hermanos: se están aplicando diferentes ponderaciones a las familias numerosas. En su ejemplo, hay una diferencia entre la ponderación por individuos o por compras; sus promedios condicionales se elevan por el hecho de que usted condiciona una compra en particular que se realiza.

Enrique
fuente

8

Las otras respuestas son pensar demasiado lo que está sucediendo. Supongamos que hay un producto y dos clientes. Uno compró el producto (una vez) y el otro no. El número promedio de productos comprados es 0.5, pero si observa solo al cliente que compró el producto, el promedio aumenta a 1.

Esto no parece una paradoja o contradictorio para mí; condicionar la compra de un producto generalmente aumentará el número promedio de productos comprados.

Vadim Ponomarenko
fuente

Exactamente. Suponiendo que las compras en cada una de las 3 categorías no están muy correlacionadas, lo que hace es calcular los promedios después de aumentar la tasa de compra al 100% en una de las categorías. Probablemente sería más informativo comparar, por ejemplo. la tasa de compra promedio en las categorías B y C: a) entre todos los clientes (20/11) b) entre aquellos que compraron A (4/10). Depende de lo que estés tratando de mostrar / encontrar, supongo.

konrad

2

¿No es esta simplemente la confusión del "promedio de promedios" (por ejemplo, la pregunta anterior de intercambio de pila ) disfrazada? Parece que su tentación es que los promedios de la submuestra terminen promediando el promedio de la población, pero esto rara vez sucederá.

En el "promedio de promedios" clásico, alguien encuentra el promedio de N subconjuntos mutuamente excluyentes, y luego se asombra de que estos valores no promedien el promedio de la población. La única forma en que funciona este promedio de promedios es si sus subconjuntos no superpuestos tienen el mismo tamaño. De lo contrario, debe tomar un promedio ponderado.

Su problema se vuelve más complejo que este promedio tradicional de confusión de promedios al tener subconjuntos superpuestos, pero me parece que es este error clásico con un giro. Con la superposición de subconjuntos, es aún más difícil terminar con promedios de submuestra que promedian el promedio de la población.

En su ejemplo, dado que los usuarios que aparecen en varias submuestras (y por lo tanto han comprado muchas cosas) aumentarán estos promedios. Básicamente, estás contando a cada persona que gasta mucho varias veces, mientras que las personas frugales que solo compran un artículo solo se encuentran una vez, por lo que estás predispuesto a valores más grandes. Es por eso que sus subconjuntos particulares tienen valores superiores al promedio, pero creo que esto sigue siendo solo el problema del "promedio de promedios".

También puede construir todo tipo de otros subconjuntos a partir de sus datos, donde los promedios de la submuestra toman diferentes valores. Por ejemplo, tomemos subconjuntos algo similares a sus subconjuntos. Si toma el subconjunto de personas que no compraron A, obtiene 7/5 = 1.4 artículos en promedio. Con el subconjunto que no compró B, también obtienes 1.4 artículos en promedio. Los que no compraron C, compraron 1.5 artículos en promedio. Todos estos están por debajo del promedio de la población de 1.6 artículos / cliente. Dado el conjunto de datos correcto y la colección correcta de subconjuntos, podría terminar con subconjuntos superpuestos cuyos promedios promedian al promedio de la población; sin embargo, esto sería poco común en aplicaciones normales.

¿Soy solo yo, o la palabra promedio ahora parece extraña después de tantas repeticiones ... Espero que mi respuesta haya sido útil, y lo siento si arruiné la palabra promedio para ti!

tbell
fuente

¡Gracias! El comentario sobre particiones del mismo tamaño que no se superponen lo aclararon en mi mente. Esperaba que cuando presentara estas cifras pudiera decir algo como "Todos los promedios de categoría son más altos que el promedio general, pero esa es la paradoja de Blahblah". Como cuando dices "¡La paradoja de Simpson! ¡Ivy League Sexism!" y luego salgo corriendo de la habitación. (¿Todos ustedes hacen eso a veces, no?) Me encantaría decirles "Es porque se trata de subconjuntos superpuestos de diferentes tamaños", ¡pero no piensen que eso aterrizará!

James Adams

1

Jaja, bastante justo. No entendí totalmente el contexto antes: soy un estudiante graduado en astrofísica, así que no estoy muy familiarizado con el contexto. Se podría decir algo breve, en el sentido de "Todos los promedios de subconjuntos son más altos que el promedio general porque de la forma en que hicimos los subconjuntos nos sesga hacia valores más grandes". No mencionaría el nombre promedio de los promedios, ya que no es tan conocido, y su caso es como una generalización. También trataría de encontrar un sinónimo para reemplazar las categorías de palabras; en general, veo que la palabra implica subconjuntos mutuamente excluyentes.

tbell

La saciedad semántica es un fenómeno psicológico en el que la repetición hace que una palabra o frase pierda temporalmente el significado para el oyente, quien luego percibe el discurso como sonidos repetidos sin sentido.

Patrick

1

Dado que el problema es " lo entiendo pero necesito explicar esto al marketing ", OP parece preocupado por cómo un laico interpretará estos hechos (no si los hechos son verdaderos o cómo demostrar que lo son). La pregunta hace referencia a 10 categorías de productos, (AJ), entonces, ¿qué tal este ejemplo:

[en reunión con el grupo de marketing]
OP : Entonces, como puede ver aquí , los clientes que compran A, B y C son más valiosos que el promedio.
Layman : ¡¿Espera ?! ¿Cómo pueden todos ser más altos que el promedio?
OP : Buena pregunta. Esta diapositiva se centra en los clientes de A, B y C, pero hay otros grupos de bajo rendimiento que no se muestran. Por ejemplo, los clientes de las categorías D y G valen aproximadamente la mitad del promedio.

Esto debería calmar la alarma bs interna de todos sobre 'todo está por encima del promedio'.

Patricio
fuente

Esta no es la forma de responder una pregunta.

Michael R. Chernick

Su pregunta había sido respondida, pero nadie abordó su problema.

Patrick

Mi comentario solo tenía que ver con la respuesta de Patrick.

Michael R. Chernick

No veo ninguna regla contra los diferentes estilos de respuesta. Informar sobre conversaciones y conversaciones (reales o imaginarias) es una forma tradicional de pensar a través de los problemas de Sócrates en adelante (y ante él, por lo que sé).

Nick Cox

Pero esa explicación es objetivamente incorrecta. Incluso en ausencia de otras categorías (DJ), la observación sigue siendo cierta: los promedios de los subconjuntos superpuestos pueden ser más altos que el promedio de todo el conjunto, incluso si los subconjuntos cubren todo el conjunto.

isarandi

0

Ignora las otras respuestas aquí. Esto en realidad no es una paradoja en absoluto. El problema actual que todos parecen ignorar es que estás confundiendo qué probabilidad estás viendo realmente. De hecho, hay dos promedios y estadísticas completamente diferentes en juego aquí que tienen sus propios usos e interpretaciones en su ejemplo propuesto (marketing).

En primer lugar, está el número promedio de productos comprados por cliente. Entonces, en promedio, un cliente compra 1.6 artículos. Por supuesto, un cliente no puede hacer más que 0.6 del producto (suponiendo que no sea algo como arroz o grano que tenga una medición continua asociada).

En segundo lugar, existe el número promedio de clientes que compran un producto en particular. Suena raro verdad? Entonces, en promedio, un producto tiene 5.33333333 ... clientes que lo compran. Sin embargo, esto es diferente. Lo que estamos describiendo aquí no es la cantidad de productos comprados (¡solo hay tres de ellos!) Sino la cantidad de personas que realmente compran dicho producto.

Piense en los dos valores de esta manera: ¿Qué representarían estos dos valores si hubiera un solo cliente o un solo producto? Después de todo, el promedio de un único punto de datos es solo ese punto de datos dado.

O mejor aún, piense en la tabla como si le estuviera dando cantidades en dólares gastadas para comprar el producto. Obviamente, la cantidad promedio gastada por un cliente individual será mucho menor que la cantidad de dinero ganada en promedio por un producto suministrado por una corporación importante (o incluso solo una pequeña empresa). Estoy seguro de que puede pensar en buenas maneras de usar ambos valores al hablar sobre el bienestar de la empresa.

Cuando vaya a explicar esto al personal de marketing, explíqueles tal como lo dije. No es una paradoja. Es solo una estadística completamente diferente. El único problema aquí fue notar que, de hecho, había dos formas diferentes de leer el cuadro (es decir, número de personas que compran por producto versus número de productos comprados por persona).

tl; dr lo primero que describió es la cantidad promedio que un cliente individual está dispuesto a gastar comprando sus productos. El segundo es la demanda promedio de un producto dado por parte del público. Estoy seguro de que ahora puede ver por qué ambos ciertamente no son lo mismo. Compararlos como tales solo le dará información basura.

EDITAR

Parece que la pregunta es realmente preguntar sobre el dinero promedio gastado por los clientes que compran algún producto a, b o c. Bien. En realidad, esto es solo un error en los cálculos. No llamaría a esto una paradoja. Realmente es solo un sutil flub.

Mira tus columnas. Hay personas que se comparten entre columnas. Supongamos que hiciste un promedio ponderado adecuado . Todavía estás sumando personas dos veces. Esto significa que el promedio contendrá personas adicionales con un valor mayor o igual a 2. ¿Cuál fue su promedio? ¡Era 1.6! En esencia, su promedio se ve así:

$\frac {\sum_{i = 0}^{n} valueOfPerson_i*valueOfPerson_i} {n}$

Definitivamente esa no es la fórmula correcta. Es un promedio ponderado, aunque suponiendo exclusividad mutua, así es como se ajustaría para obtener un promedio verdadero en su situación.

$\frac {\sum_{i = 0}^{n} numberOfPeopleBuying_i*averageSpentByPersonBuying_i} {n}$

De cualquier manera, obtendrá un promedio desordenado. Un error fue ignorar la necesidad de un promedio ponderado ya que una categoría tiene un "peso" mayor en términos del promedio. Es como la densidad. Un valor más denso en las personas representa. El otro problema es la adición de duplicados que distorsionará el promedio. Sin embargo, no llamo a ninguna de estas "paradojas". Una vez que vi lo que estabas haciendo, me pareció obvio por qué eso no funcionaría. El promedio ponderado se explica de alguna manera por su necesidad y creo que ahora que ves que agregaste valores varias veces ... eso no puede funcionar. Básicamente tomaste el promedio de los cuadrados de sus valores.

El gran pato
fuente

No creo que este sea el caso. Aquí no me interesa cuántas personas compran un producto en particular. Estoy interesado en cuántos productos totales ha comprado un cliente dado que ha comprado A.

James Adams

@JamesAdams Muy bien. En ese caso, el problema es aún más trivial. Solo está tomando un promedio de un subconjunto de su muestra. En teoría, si hicieras lo mismo con B y C, el promedio final no sería el promedio real. Sin embargo, esto se debe solo a que las muestras son desiguales. Eso es todo. De hecho, no veo ninguna razón por la que eso sea obvio para una persona. En realidad, existe una solución para fijar los promedios para obtener el promedio adecuado. Se llama un promedio ponderado y básicamente "ponderarías" cada subapago con el número de personas en ese grupo. ¿Tener sentido?

The Great Duck

@JamesAdams y sé que no te interesa. Usted es matemático, que según usted formó una paradoja, usó ese promedio para tratar de calcular el número promedio de productos por persona. Es por eso que en esta respuesta enfatizo que hay un segundo promedio para una estadística diferente y su "error" fue tratar de calzarlo para que sea un promedio completamente diferente.

The Great Duck el

Paradoja del valor promedio: ¿cómo se llama esto?

Respuestas:

Ejemplo simple para ganar intuición:

Nombre para ilusión / paradoja?

Caso extremo: