Tengo un conjunto de datos Diga observaciones y variables:3
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Digamos que son clientes que han comprado ( ) o no ( ) en cada categoría . Hay unidades allí, por lo que estos clientes compran en categorías de productos en promedio.16 10 1.61
0
A, B, C
Tenga en cuenta que los clientes pueden comprar en más de uno de A, B y C.
Si miro solo a quienes compran A
, hay clientes que han comprado en categorías de productos, por lo que eso es en promedio.9 1.8
B
es nuevamente, o .1,8
C
es
Todos ellos por encima de
lo que parece extraño Lo entiendo, pero necesito explicar esto al marketing la próxima semana, ¡así que necesito ayuda!
¿Cómo se llama esta cosa?
Sé que no es la paradoja de Simpson. Para mí, se siente similar en lógica al problema de Monty Hall y a la probabilidad condicional.
fuente
Respuestas:
El promedio de cada subcategoría puede estar por encima del promedio general si las subcategorías se superponen en los clientes más grandes.
Ejemplo simple para ganar intuición:
El conjunto de individuos donde es verdadero se superpone al conjunto de individuos donde B es verdadero. NO son conjuntos disjuntos.A B
La afirmación que sería cierta es:
Nombre para ilusión / paradoja?
Yo diría que está relacionado con la paradoja de la ilusión mayoritaria en las redes sociales.
Del mismo modo, tiene 1 de cada 3 aquí comprando las categorías A y B. Pero dentro de las categorías A o B, 1 de los 2 compradores es el súper comprador.
Caso extremo:
Mi punto final sería que la intuición basada en conjuntos disjuntos , una partición completa del espacio muestral no se traslada a una serie de conjuntos superpuestos . Si condiciona categorías superpuestas, cada categoría puede estar por encima del promedio.
Si divide el espacio muestral y la condición en conjuntos disjuntos, las categorías deben promediar a la media general, pero eso no es cierto para los conjuntos superpuestos.
fuente
Yo llamaría a esto la paradoja del tamaño de la familia o algo similar
Los números demográficos y de encuestas reales producen números diferentes pero patrones similares
La aparente paradoja es que el tamaño promedio de los grupos de hermanos de las personas es mayor que el número promedio de niños por familia; Con una dinámica de población estable, las personas tienden a tener menos hijos en promedio que sus padres
La explicación es si el promedio se está tomando sobre los padres y las familias o sobre los hermanos: se están aplicando diferentes ponderaciones a las familias numerosas. En su ejemplo, hay una diferencia entre la ponderación por individuos o por compras; sus promedios condicionales se elevan por el hecho de que usted condiciona una compra en particular que se realiza.
fuente
Las otras respuestas son pensar demasiado lo que está sucediendo. Supongamos que hay un producto y dos clientes. Uno compró el producto (una vez) y el otro no. El número promedio de productos comprados es 0.5, pero si observa solo al cliente que compró el producto, el promedio aumenta a 1.
Esto no parece una paradoja o contradictorio para mí; condicionar la compra de un producto generalmente aumentará el número promedio de productos comprados.
fuente
¿No es esta simplemente la confusión del "promedio de promedios" (por ejemplo, la pregunta anterior de intercambio de pila ) disfrazada? Parece que su tentación es que los promedios de la submuestra terminen promediando el promedio de la población, pero esto rara vez sucederá.
En el "promedio de promedios" clásico, alguien encuentra el promedio de N subconjuntos mutuamente excluyentes, y luego se asombra de que estos valores no promedien el promedio de la población. La única forma en que funciona este promedio de promedios es si sus subconjuntos no superpuestos tienen el mismo tamaño. De lo contrario, debe tomar un promedio ponderado.
Su problema se vuelve más complejo que este promedio tradicional de confusión de promedios al tener subconjuntos superpuestos, pero me parece que es este error clásico con un giro. Con la superposición de subconjuntos, es aún más difícil terminar con promedios de submuestra que promedian el promedio de la población.
En su ejemplo, dado que los usuarios que aparecen en varias submuestras (y por lo tanto han comprado muchas cosas) aumentarán estos promedios. Básicamente, estás contando a cada persona que gasta mucho varias veces, mientras que las personas frugales que solo compran un artículo solo se encuentran una vez, por lo que estás predispuesto a valores más grandes. Es por eso que sus subconjuntos particulares tienen valores superiores al promedio, pero creo que esto sigue siendo solo el problema del "promedio de promedios".
También puede construir todo tipo de otros subconjuntos a partir de sus datos, donde los promedios de la submuestra toman diferentes valores. Por ejemplo, tomemos subconjuntos algo similares a sus subconjuntos. Si toma el subconjunto de personas que no compraron A, obtiene 7/5 = 1.4 artículos en promedio. Con el subconjunto que no compró B, también obtienes 1.4 artículos en promedio. Los que no compraron C, compraron 1.5 artículos en promedio. Todos estos están por debajo del promedio de la población de 1.6 artículos / cliente. Dado el conjunto de datos correcto y la colección correcta de subconjuntos, podría terminar con subconjuntos superpuestos cuyos promedios promedian al promedio de la población; sin embargo, esto sería poco común en aplicaciones normales.
¿Soy solo yo, o la palabra promedio ahora parece extraña después de tantas repeticiones ... Espero que mi respuesta haya sido útil, y lo siento si arruiné la palabra promedio para ti!
fuente
Dado que el problema es " lo entiendo pero necesito explicar esto al marketing ", OP parece preocupado por cómo un laico interpretará estos hechos (no si los hechos son verdaderos o cómo demostrar que lo son). La pregunta hace referencia a 10 categorías de productos, (AJ), entonces, ¿qué tal este ejemplo:
[en reunión con el grupo de marketing]
OP : Entonces, como puede ver aquí , los clientes que compran A, B y C son más valiosos que el promedio.
Layman : ¡¿Espera ?! ¿Cómo pueden todos ser más altos que el promedio?
OP : Buena pregunta. Esta diapositiva se centra en los clientes de A, B y C, pero hay otros grupos de bajo rendimiento que no se muestran. Por ejemplo, los clientes de las categorías D y G valen aproximadamente la mitad del promedio.
Esto debería calmar la alarma bs interna de todos sobre 'todo está por encima del promedio'.
fuente
Ignora las otras respuestas aquí. Esto en realidad no es una paradoja en absoluto. El problema actual que todos parecen ignorar es que estás confundiendo qué probabilidad estás viendo realmente. De hecho, hay dos promedios y estadísticas completamente diferentes en juego aquí que tienen sus propios usos e interpretaciones en su ejemplo propuesto (marketing).
En primer lugar, está el número promedio de productos comprados por cliente. Entonces, en promedio, un cliente compra 1.6 artículos. Por supuesto, un cliente no puede hacer más que 0.6 del producto (suponiendo que no sea algo como arroz o grano que tenga una medición continua asociada).
En segundo lugar, existe el número promedio de clientes que compran un producto en particular. Suena raro verdad? Entonces, en promedio, un producto tiene 5.33333333 ... clientes que lo compran. Sin embargo, esto es diferente. Lo que estamos describiendo aquí no es la cantidad de productos comprados (¡solo hay tres de ellos!) Sino la cantidad de personas que realmente compran dicho producto.
Piense en los dos valores de esta manera: ¿Qué representarían estos dos valores si hubiera un solo cliente o un solo producto? Después de todo, el promedio de un único punto de datos es solo ese punto de datos dado.
O mejor aún, piense en la tabla como si le estuviera dando cantidades en dólares gastadas para comprar el producto. Obviamente, la cantidad promedio gastada por un cliente individual será mucho menor que la cantidad de dinero ganada en promedio por un producto suministrado por una corporación importante (o incluso solo una pequeña empresa). Estoy seguro de que puede pensar en buenas maneras de usar ambos valores al hablar sobre el bienestar de la empresa.
Cuando vaya a explicar esto al personal de marketing, explíqueles tal como lo dije. No es una paradoja. Es solo una estadística completamente diferente. El único problema aquí fue notar que, de hecho, había dos formas diferentes de leer el cuadro (es decir, número de personas que compran por producto versus número de productos comprados por persona).
tl; dr lo primero que describió es la cantidad promedio que un cliente individual está dispuesto a gastar comprando sus productos. El segundo es la demanda promedio de un producto dado por parte del público. Estoy seguro de que ahora puede ver por qué ambos ciertamente no son lo mismo. Compararlos como tales solo le dará información basura.
EDITAR
Parece que la pregunta es realmente preguntar sobre el dinero promedio gastado por los clientes que compran algún producto a, b o c. Bien. En realidad, esto es solo un error en los cálculos. No llamaría a esto una paradoja. Realmente es solo un sutil flub.
Mira tus columnas. Hay personas que se comparten entre columnas. Supongamos que hiciste un promedio ponderado adecuado . Todavía estás sumando personas dos veces. Esto significa que el promedio contendrá personas adicionales con un valor mayor o igual a 2. ¿Cuál fue su promedio? ¡Era 1.6! En esencia, su promedio se ve así:
Definitivamente esa no es la fórmula correcta. Es un promedio ponderado, aunque suponiendo exclusividad mutua, así es como se ajustaría para obtener un promedio verdadero en su situación.
De cualquier manera, obtendrá un promedio desordenado. Un error fue ignorar la necesidad de un promedio ponderado ya que una categoría tiene un "peso" mayor en términos del promedio. Es como la densidad. Un valor más denso en las personas representa. El otro problema es la adición de duplicados que distorsionará el promedio. Sin embargo, no llamo a ninguna de estas "paradojas". Una vez que vi lo que estabas haciendo, me pareció obvio por qué eso no funcionaría. El promedio ponderado se explica de alguna manera por su necesidad y creo que ahora que ves que agregaste valores varias veces ... eso no puede funcionar. Básicamente tomaste el promedio de los cuadrados de sus valores.
fuente