Esta no es una pregunta de trabajo a domicilio sino un problema real que enfrenta nuestra empresa.
Hace muy poco (hace 2 días) pedimos la fabricación de 10000 etiquetas de productos a un distribuidor. El distribuidor es una persona independiente. Obtiene las etiquetas fabricadas desde el exterior y la empresa realiza el pago al distribuidor. Cada etiqueta cuesta exactamente $ 1 para la empresa.
Ayer, el distribuidor vino con etiquetas, pero las etiquetas se agruparon en un paquete de 100 etiquetas cada una. De esta manera, había un total de 100 paquetes y cada paquete contenía 100 etiquetas, por lo que un total de 10000 etiquetas. Antes de realizar el pago al distribuidor de $ 10000, decidimos contar algunos paquetes para asegurarnos de que cada paquete contenga exactamente 100 etiquetas. Cuando contamos las etiquetas, encontramos paquetes con menos de 100 etiquetas (encontramos 97 etiquetas). Para garantizar que esto no sea casual, sino que lo ha hecho intencionalmente, contamos 5 paquetes más y encontramos el siguiente número de etiquetas en cada paquete (incluido el primer paquete):
Packet Number Number of labels
1 97
2 98
3 96
4 100
5 95
6 97
No fue posible contar todos y cada uno de los paquetes, por lo que decidimos realizar el pago en promedio. Entonces, el número promedio de etiquetas en seis paquetes es 97.166, por lo que el pago total decidido fue de $ 9716.
Solo quiero saber cómo el estadístico debe lidiar con ese tipo de problema .
Además, quiero saber cuánto debemos pagar para obtener una garantía del 95% de que no hemos pagado más que el número real de etiquetas completas.
Información Adicional:
P (cualquier paquete contenía más de 100 etiquetas) = 0
P (cualquier paquete contenía una etiqueta menor que 90) = 0 {las etiquetas menores que 90 se detectarían fácilmente al contar los paquetes porque el paquete sería de menor peso}
EDITAR: Distribuidor simplemente negó de tal mala práctica. Descubrimos que estos distribuidores trabajan con una comisión específica que obtienen del fabricante por lo que paga la compañía. Cuando nos comunicamos directamente con el fabricante, descubrimos que no es culpa del fabricante ni del distribuidor. El fabricante dijo: "Las etiquetas se acortan porque las hojas no están estandarizadas en tamaño , y cualquier número que se corte de la hoja individual las junta en un paquete".
Además, validamos nuestra primera afirmación dada en información adicional, porque el fabricante admitió que por un aumento marginal en el tamaño de la hoja, no es posible cortar etiquetas adicionales, tampoco por una reducción marginal en el tamaño de la hoja no es posible cortar 100 etiquetas de exactamente el mismo tamaño.
Respuestas:
Me interesaría recibir comentarios sobre el párrafo que comienza "Tras reflexionar ...", ya que una parte particular del modelo me ha mantenido despierto por la noche.
El modelo bayesiano
La pregunta revisada me hace pensar que podemos desarrollar el modelo explícitamente, sin utilizar la simulación. La simulación introdujo una variabilidad adicional debido a la aleatoriedad inherente del muestreo. Sin embargo, la respuesta de los sofólogos es excelente.
Suposiciones : el número más pequeño de etiquetas por sobre es 90 y el más grande es 100.
Por lo tanto, el número más pequeño posible de etiquetas es 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (según los datos de OP), 9000 debido a nuestro límite inferior y las etiquetas adicionales que provienen de los datos observados.
Denotemos el número de etiquetas en un sobre . Denote el número de etiquetas sobre 90, es decir, , entonces . La distribución binomial modela el número total de éxitos (aquí un éxito es la presencia de una etiqueta en un sobre) en ensayos cuando los ensayos son independientes con una probabilidad de éxito constante por lo que toma los valoresTomamos , lo que da 11 posibles resultados diferentes. Supongo que debido a que los tamaños de las hojas son irregulares, algunas hojas solo tienen espacio paraYyo yo Xyo X=Y−90 X∈{0,1,2,...,10} n p X 0,1,2,3,...,n. n=10 X etiquetas adicionales en exceso de 90, y que este "espacio adicional" para cada etiqueta en exceso de 90 ocurre independientemente con probabilidad . Entoncesp Xi∼Binomial(10,p).
(Tras la reflexión, el supuesto de independencia / modelo binomial es probablemente una suposición extraña, ya que fija de manera efectiva la composición de las hojas de la impresora para que sea unimodal, y los datos solo pueden cambiar la ubicación del modo, pero el modelo nunca admitirá una distribución multimodal. Por ejemplo, bajo un modelo alternativo, es posible que la impresora solotiene hojas de tamaños 97, 98, 96, 100 y 95: esto satisface todas las restricciones establecidas y los datos no excluyen esta posibilidad. Puede ser más apropiado considerar cada tamaño de hoja como su propia categoría y luego ajustar un modelo de Dirichlet-multinomial a los datos. No hago esto aquí porque los datos son muy escasos, por lo que las probabilidades posteriores en cada una de las 11 categorías estarán muy influenciadas por las anteriores. Por otro lado, al ajustar el modelo más simple, también estamos restringiendo los tipos de inferencias que podemos hacer).
Cada sobre es una realización iid de . La suma de los ensayos binomiales con la misma probabilidad de éxito también es binomial, por lo que(Este es un teorema: para verificar, use el teorema de singularidad de MGF).i X p ∑iXi∼Binomial(60,p).
Prefiero pensar en estos problemas en modo bayesiano, porque puedes hacer declaraciones de probabilidad directa sobre cantidades posteriores de interés. Un previo típico para ensayos binomiales con desconocido es la distribución beta , que es muy flexible (varía entre 0 y 1, puede ser simétrica o asimétrica en cualquier dirección, uniforme o una de las dos masas de Dirac, tener un antimodo o un modo. ¡Es una herramienta increíble! En ausencia de datos, parece razonable asumir una probabilidad uniforme sobre . Es decir, uno podría esperar ver una hoja que acomode 90 etiquetas con una frecuencia de 91, una frecuencia de 92, ..., una frecuencia de 100. Por lo tanto, nuestro anterior esp p p∼Beta(1,1). Si no crees que este beta anterior sea razonable, el prior uniforme puede ser reemplazado por otro beta anterior, ¡y las matemáticas ni siquiera aumentarán en dificultad!
La distribución posterior en es por las propiedades de conjugación de este modelo. Sin embargo, este es solo un paso intermedio, porque no nos importa tanto como nos importa el número total de etiquetas. Afortunadamente, las propiedades de conjugación también significan que la distribución predictiva posterior de las láminas es beta-binomial , con parámetros de la beta posterior. Hay "ensayos" restantes, es decir, etiquetas para las cuales su presencia en la entrega es incierta, por lo que nuestro modelo posterior en las etiquetas restantes esp p∼Beta(1+43,1+17) p 940 Z Z∼BB(44,18,940).
Como tenemos una distribución en y un modelo de valor por etiqueta (el vendedor acordó un dólar por etiqueta), también podemos inferir una distribución de probabilidad sobre el valor del lote. Denote el valor total en dólares del lote. Sabemos que , porque solo modela las etiquetas de las que no estamos seguros. Por lo que la distribución sobre el valor viene dado por .Z D D=9043+Z Z D
¿Cuál es la forma apropiada de considerar el precio del lote?
Podemos encontrar que los cuantiles en 0.025 y 0.975 (un intervalo de 95%) son 553 y 769, respectivamente. Entonces, el intervalo del 95% en D es . Su pago cae en ese intervalo. (La distribución en no es exactamente simétrica, por lo que este no es el intervalo central del 95%; sin embargo, la asimetría es insignificante. De todos modos, como detallo a continuación, no estoy seguro de que un intervalo central del 95% sea incluso el correcto ¡uno a tener en cuenta!)D[9596,9812] D
No conozco una función cuantil para la distribución beta binomial en R, así que escribí la mía usando la búsqueda de raíz de R.
Otra forma de pensarlo es pensar en las expectativas. Si repitió este proceso muchas veces, ¿cuál es el costo promedio que pagaría? Podemos calcular la expectativa de directamente. El modelo binomial beta tiene expectativa , entonces casi exactamente lo que pagó. ¡Su pérdida esperada en el trato fue de solo 6 dólares! En total, ¡bien hecho!E ( D ) = E ( 9043 + Z ) = E ( Z ) + 9043. E ( Z ) = n αD E(D)=E(9043+Z)=E(Z)+9043. E(D)=9710.097,E(Z)=nαα+β=667.0968 E(D)=9710.097,
Pero no estoy seguro de que ninguna de estas cifras sea la más relevante. ¡Después de todo, este vendedor está tratando de engañarte! Si estuviera haciendo este trato, dejaría de preocuparme por alcanzar el punto de equilibrio o el precio justo del lote y comenzaría a calcular la probabilidad de que esté pagando de más. El vendedor claramente está tratando de defraudarme, así que estoy perfectamente en mi derecho de minimizar mis pérdidas y no preocuparme por el punto de equilibrio. En este contexto, el precio más alto que ofrecería es de 9615 dólares, ya que este es el cuantil del 5% de la parte posterior en , es decir, hay un 95% de probabilidad de que esté pagando de menosD . El vendedor no puede demostrarme que todas las etiquetas están ahí, así que voy a cubrir mis apuestas.
(Por supuesto, el hecho de que el vendedor haya aceptado el trato nos dice que tiene una pérdida real no negativa ... No he descubierto una forma de usar esa información para ayudarnos a determinar con mayor precisión cuánto fue engañado, excepto para notar que porque él aceptó la oferta, en el mejor de los casos estabas a punto de alcanzar el equilibrio
Comparación con el bootstrap
Solo tenemos 6 observaciones para trabajar. La justificación para el bootstrap es asintótica, así que consideremos cómo se ven los resultados en nuestra pequeña muestra. Este gráfico muestra la densidad de la simulación boostrap.
El patrón "irregular" es un artefacto del pequeño tamaño de muestra. Incluir o excluir cualquier punto tendrá un efecto dramático en la media, creando esta apariencia "agrupada". El enfoque bayesiano suaviza estos grupos y, en mi opinión, es un retrato más creíble de lo que está sucediendo. Las líneas verticales son los cuantiles del 5%.
fuente
EDITAR: ¡Tragedia! ¡Mis suposiciones iniciales eran incorrectas! (O al menos en duda, ¿confía en lo que el vendedor le está diciendo? Aún así, un saludo a Morten también.) Lo que supongo que es otra buena introducción a las estadísticas, pero el Enfoque de hoja parcial ahora se agrega a continuación ( ya que a la gente parecía gustarle la Hoja entera, y tal vez alguien todavía la encuentre útil).
En primer lugar, un gran problema. Pero me gustaría hacerlo un poco más complicado.
Por eso, antes de hacerlo, permítame simplificarlo un poco y decir: el método que está utilizando en este momento es perfectamente razonable . Es barato, es fácil, tiene sentido. Entonces, si tiene que seguir con esto, no debería sentirse mal. Solo asegúrese de elegir sus paquetes al azar. Y, si puede sopesar todo de manera confiable (punta de sombrero para whuber y user777), entonces debe hacerlo.
Sin embargo, la razón por la que quiero hacerlo un poco más complicado es que ya lo ha hecho, simplemente no nos ha contado sobre toda la complicación, que es eso: contar lleva tiempo, y el tiempo también es dinero . Pero, ¿cómo mucho ? ¡Quizás sea más barato contarlo todo!
Entonces, lo que realmente está haciendo es equilibrar el tiempo que lleva contar, con la cantidad de dinero que está ahorrando. (SI, por supuesto, solo juegas este juego una vez. LA PRÓXIMA vez que esto suceda con el vendedor, es posible que se hayan dado cuenta y hayan intentado un nuevo truco. En teoría del juego, esta es la diferencia entre Single Shot Games e Iterated Juegos. Pero por ahora, imaginemos que el vendedor siempre hará lo mismo).
Sin embargo, una cosa más antes de llegar a la estimación. (Y, perdón por haber escrito tanto y aún no haber llegado a la respuesta, pero esa es una respuesta bastante buena a ¿Qué haría un estadístico? Pasarían una gran cantidad de tiempo asegurándose de que entendieran cada pequeña parte del problema antes de que se sintieran cómodos diciendo algo al respecto.) Y esa cosa es una idea basada en lo siguiente:
(EDITAR: SI ESTÁN REALMENTE ENGAÑANDO ...) Su vendedor no ahorra dinero quitando etiquetas, sino que ahorrando dinero al no imprimir hojas. No pueden vender sus etiquetas a otra persona (supongo). Y tal vez, no sé y no sé si lo haces, no pueden imprimir media hoja de tus cosas, y media hoja de otra persona. En otras palabras, incluso antes de comenzar a contar, puede suponer que el número total de etiquetas es cualquiera
9000, 9100, ... 9900, or 10,000
. Así es como lo abordaré, por ahora.El método de la hoja entera
Cuando un problema es un poco complicado como este (discreto y limitado), muchos estadísticos simularán lo que podría suceder. Esto es lo que simulé:
Esto le da, suponiendo que están usando hojas enteras, y sus suposiciones son correctas, una posible distribución de sus etiquetas (en el lenguaje de programación R).
Entonces hice esto:
Esto encuentra, usando un método "bootstrap", intervalos de confianza usando 4, 5, ... 20 muestras. En otras palabras, en promedio, si usaras N muestras, ¿qué tan grande sería tu intervalo de confianza? Utilizo esto para encontrar un intervalo lo suficientemente pequeño como para decidir el número de hojas, y esa es mi respuesta.
Por "lo suficientemente pequeño", quiero decir que mi intervalo de confianza del 95% tiene solo un número entero; por ejemplo, si mi intervalo de confianza fuera de [93.1, 94.7], elegiría 94 como el número correcto de hojas, ya que sabemos Es un número entero.
Sin embargo, OTRA dificultad: su confianza depende de la verdad . Si tiene 90 hojas y cada pila tiene 90 etiquetas, entonces converge muy rápido. Lo mismo con 100 hojas. Así que miré 95 hojas, donde existe la mayor incertidumbre, y descubrí que para tener una certeza del 95%, se necesitan alrededor de 15 muestras, en promedio. Digamos, en general, que desea tomar 15 muestras, porque nunca sabe qué hay realmente allí.
DESPUÉS de saber cuántas muestras necesita, sabe que sus ahorros esperados son:
¡Pero también deberías acusar al tipo por obligarte a hacer todo este trabajo!
(EDITAR: ¡AGREGADO!) El enfoque de hoja parcial
Bien, supongamos que lo que dice el fabricante es cierto y no es intencional: solo se pierden algunas etiquetas en cada hoja. ¿Todavía quieres saber, sobre cuántas etiquetas, en general?
Este problema es diferente porque ya no tiene una buena decisión limpia que pueda tomar, eso fue una ventaja para la suposición de la hoja completa. Antes, solo había 11 respuestas posibles; ahora, hay 1100, y obtener un intervalo de confianza del 95% sobre exactamente cuántas etiquetas hay probablemente tomará muchas más muestras de las que desea. Entonces, veamos si podemos pensar en esto de manera diferente.
Debido a que realmente se trata de que usted tome una decisión, todavía nos faltan algunos parámetros: cuánto dinero está dispuesto a perder, en un solo acuerdo y cuánto dinero cuesta contar una pila. Pero déjame configurar lo que podrías hacer, con esos números.
Simulando de nuevo (¡aunque apoya al usuario777 si puede hacerlo sin él!), Es informativo observar el tamaño de los intervalos cuando se usan diferentes números de muestras. Eso se puede hacer así:
Lo que supone (esta vez) que cada pila tiene un número uniforme de etiquetas al azar entre 90 y 100, y le da:
Por supuesto, si las cosas fueran realmente como si hubieran sido simuladas, la verdadera media sería de alrededor de 95 muestras por pila, lo que es más bajo de lo que parece ser la verdad: este es un argumento de hecho para el enfoque bayesiano. Pero, le da una idea útil de cuánto más seguro se está volviendo sobre su respuesta, a medida que continúa probando, y ahora puede intercambiar explícitamente el costo de la muestra con cualquier trato que obtenga sobre los precios.
Lo cual sé por ahora, todos tenemos mucha curiosidad por saber.
fuente
9000,9100...10000
etiquetas totales al final, puede reemplazar su lógica ifbucket <- sample(which(stacks!=100),1)
y luego siempre incrementar la pila.Esta es una muestra bastante limitada. (Los fragmentos de código están en R)
Para una estimación inicial del número esperado en la población total y un valor de confianza del 95% para el precio, podemos comenzar con la media y el cuantil del 5%
Para ir más lejos, tendremos que crear un modelo teórico y hacer suposiciones adicionales. Hay varias fuentes de incertidumbre en juego: (1) incertidumbre para la forma funcional de un modelo de llenado de paquetes, (2) incertidumbre en la estimación de parámetros para el modelo y (3) error de muestreo.
lambda
100*lambda
Ahora, suponiendo que cada paquete se llene de forma independiente, podemos ver la caja completa de paquetes como 10000 eventos independientes en lugar de 100 eventos de 100 subeventos. Por lo tanto, la media es 9717.138 con desviación estándar 69.57153. Usando la función de distribución, puede calcular el número de confianza del 95% para estar alrededor de 9593. He utilizado el paquete R
VGAM
para sus*betabinom.ab
funciones al hacerlo.Entonces, la incertidumbre en el parámetro estimado reduce el precio de confianza del 95% en casi 100, y terminamos bastante cerca de nuestra aproximación simple inicial.
Cualquiera que sea el enfoque o modelo, se pueden usar datos adicionales para validar el modelo, es decir, para ver que los datos adicionales son razonables según el modelo teórico o si se justifican ajustes o un nuevo modelo. El proceso de modelado es similar al método científico.
fuente
En un apuro, mi primera inclinación sería calcular un intervalo de confianza del 95% para su media muestral sobre una distribución normal truncada que cae entre los límites inferior y superior de 90 y 100 etiquetas.
El paquete R le
truncnorm
permite encontrar intervalos de confianza para una distribución normal truncada dada una media de muestra especificada, desviación estándar de muestra, límite inferior y límite superior.Como está tomando una muestra de n = 5 de una población relativamente pequeña (N = 100), es posible que desee multiplicar la desviación estándar de su muestra por un factor de población finito = [(Nn) / (N-1)] ^. 5 = 0,98.
fuente
Un enfoque rápido y simple es considerar todas las muestras posibles de tamaño 6. Solo hay 15,625 permutaciones. Mirando estos y tomando el promedio para cada caso, y luego clasificando los promedios y extrayendo el 5% cuantil, obtenemos un valor de 96.
Por lo tanto, la cantidad estimada que debería estar dispuesto a pagar es de aproximadamente 9600. Esto está en buen acuerdo con algunos de los enfoques más sofisticados.
Una mejora aquí sería simular una gran cantidad de muestras de tamaño 6 y usar el mismo procedimiento para encontrar el quinto percentil de las medias muestrales. Utilizando un poco más de un millón de resamples, encontré que el quinto percentil era 96.1667, por lo que al pago más cercano al dólar sería de 9617 dólares, que es solo una diferencia de 2 dólares del resultado del usuario 777 de 9615.
fuente
Parece que ya ha llegado a la conclusión de que el error se hizo intencionalmente, pero un estadístico no llegaría a tales conclusiones (aunque la evidencia parece respaldar esto).
Uno podría configurar esto como una prueba de hipótesis:
H0: El distribuidor es honesto pero bastante descuidado.
H1: El distribuidor es fraudulento y el déficit es intencional.
Supongamos H0, entonces cada desviación es un evento aleatorio con media = 0 e igual posibilidad de ser positivo o negativo. Supongamos además que las desviaciones se distribuyen normalmente. La desviación estándar para la distribución normal basada en las desviaciones en los 6 puntos de datos es sd = 1.722
Si el estadístico no recordaba muy bien su teoría, pero tenía R cerca (no es un escenario improbable), entonces podría escribir el siguiente código para verificar la probabilidad de no recibir desviaciones positivas (no paquetes de más de 100) si H0 es cierto.
El resultado de la simulación es:
La probabilidad de que el crupier sea honesto es solo del 5,35% y, por lo tanto, es muy probable que haya sido víctima de fraude.
Como usted dice que no se trata de una tarea, sino de una situación real para su empresa, deja de ser un ejercicio para calcular las etiquetas correctas de números esperados, sino que es un caso complicado de cómo manejar un proveedor deshonesto.
Lo que hagas desde aquí, realmente no puede ser respondido solo con estadísticas. Depende mucho de su influencia y relación con el distribuidor.
La mejor de las suertes !
Morten Bunes Gustavsen
fuente
¿Qué tal algo como un modelo multinomial?
El problema de cada resultado se estima como 1/6, 1/6, .... (basado en las 6 observaciones) y, por lo tanto, E (x) = 97.16 y Var (x) = suma (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2.47 por lo que el IC del 95% sería [94, 100]
fuente