Digamos que tengo 1000 componentes y he estado recopilando datos sobre cuántas veces registran una falla y cada vez que registran una falla, también estoy realizando un seguimiento de cuánto tiempo le tomó a mi equipo solucionar el problema. En resumen, he estado registrando el tiempo de reparación (en segundos) para cada uno de estos 1000 componentes. Los datos se dan al final de esta pregunta.
Tomé todos estos valores y dibujé un gráfico de Cullen y Frey en R usando descdist
del fitdistrplus
paquete. Mi esperanza era entender si el tiempo de reparación sigue una distribución particular. Aquí está la trama boot=500
para obtener valores de arranque:
Veo que esta trama me dice que la observación cae en la distribución beta (o tal vez no, en cuyo caso, ¿qué es revelador?) Ahora, considerando que soy un arquitecto de sistemas y no un estadístico, ¿qué revela esta trama? ? (Estoy buscando una intuición práctica del mundo real detrás de estos resultados).
EDITAR:
QQplot usando la qqPlot
función en el paquete car
. Primero estimé los parámetros de forma y escala usando la fitdistr
función.
> fitdistr(Data$Duration, "weibull")
shape scale
3.783365e-01 5.273310e+03
(6.657644e-03) (3.396456e+02)
Entonces, hice esto:
qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)
EDITAR 2:
Actualización con un QQplot lognormal.
Aquí están mis datos:
c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L,
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L,
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L,
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L,
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L,
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L,
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L,
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L,
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L,
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L,
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L,
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L,
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L,
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L,
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L,
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L,
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L,
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L,
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L,
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L,
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L,
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L,
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L,
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L,
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L,
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L,
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L,
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L,
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L,
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L,
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L,
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L,
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L,
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L,
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L,
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L,
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L,
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L,
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L,
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L,
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L,
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L,
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L,
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L,
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L,
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L,
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L,
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L,
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L,
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L,
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L,
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L,
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L,
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L,
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L,
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L,
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L,
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L,
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L,
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L,
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L,
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L,
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L,
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L,
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L,
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L,
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L,
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L,
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L,
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L,
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L,
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L,
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L,
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L,
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L,
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L,
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L,
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L,
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L,
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L,
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L,
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L,
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L,
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L,
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L,
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L,
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L,
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L,
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L,
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L,
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L,
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L,
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L,
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L,
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L,
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L,
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L,
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L,
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L,
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L,
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L,
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L,
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L,
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L,
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L,
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L,
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L,
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L,
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L,
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L,
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L,
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L,
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L,
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L,
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L,
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L,
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L,
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L,
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L,
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L,
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L,
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L,
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L,
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L,
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L,
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L,
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L,
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L,
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L,
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L,
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L,
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L,
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L,
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L,
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L,
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L,
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L,
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L,
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L,
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L,
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L,
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L,
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L,
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L,
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L,
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L,
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L,
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L,
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L,
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L,
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L,
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L,
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L,
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L,
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L,
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L,
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L,
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L,
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L,
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L,
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L,
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L,
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L,
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L,
301L, 318L, 3806L, 3778L, 3699L, 3691L)
Respuestas:
La cuestión es que los datos reales no necesariamente siguen ninguna distribución particular que pueda nombrar ... y, de hecho, sería sorprendente si lo hiciera.
Entonces, aunque podría nombrar una docena de posibilidades, el proceso real que genera estas observaciones probablemente tampoco sea algo que yo pueda sugerir. A medida que aumenta el tamaño de la muestra, es probable que pueda rechazar cualquier distribución conocida.
Las distribuciones paramétricas son a menudo una ficción útil, no una descripción perfecta.
Al menos veamos los datos de registro, primero en un qqplot normal y luego como una estimación de densidad del núcleo para ver cómo aparece:
Tenga en cuenta que en un gráfico QQ realizado de esta manera, las secciones más planas de la pendiente son donde tiende a ver los picos. Esto tiene una sugerencia clara de un pico cerca de 6 y otro alrededor de 12.3. La estimación de la densidad del núcleo del registro muestra lo mismo:
En ambos casos, la indicación es que la distribución del tiempo de registro es sesgada, pero no es claramente unimodal. Claramente, el pico principal está en algún lugar alrededor de los 5 minutos. Puede ser que haya un segundo pico pequeño en la densidad de tiempo de registro, que parece estar en algún lugar de la región de quizás 60 horas. Quizás hay dos "tipos" de reparación muy cualitativamente diferentes, y su distribución refleja una combinación de dos tipos. O tal vez, una vez que una reparación llega a un día completo de trabajo, tiende a tomar más tiempo (es decir, en lugar de reflejar un pico en poco más de una semana, puede reflejar un anti-pico en poco más de un día, una vez Si se repara más de un día, los trabajos tienden a 'ralentizarse').
Incluso el registro del registro del tiempo es algo sesgado. Veamos una transformación más fuerte, donde el segundo pico es bastante claro, menos el inverso de la cuarta raíz del tiempo:
Las líneas marcadas son a los 5 minutos (azul) y 60 horas (verde punteado); Como puede ver, hay un pico justo por debajo de los 5 minutos y otro en algún lugar por encima de las 60 horas. Tenga en cuenta que el "pico" superior está aproximadamente en el percentil 95 y no necesariamente estará cerca de un pico en la distribución no transformada.
También hay una sugerencia de otro chapuzón alrededor de 7,5 minutos con un pico amplio entre 10 y 20 minutos, lo que podría sugerir una tendencia muy leve a 'redondearse' en esa región (no es que haya necesariamente nada malo; incluso si no hay bajón) / pico en el tiempo de trabajo inherente allí, incluso podría ser algo tan simple como una función de la capacidad humana para concentrarse en un período ininterrumpido durante más de unos pocos minutos)
Me parece que una mezcla de dos componentes (dos picos) o tal vez una mezcla de tres componentes de distribuciones de inclinación correcta describiría el proceso razonablemente bien, pero no sería una descripción perfecta.
El paquete
logspline
parece elegir cuatro picos en el registro (tiempo):con picos cerca de 30, 270, 900 y 270K segundos (30s, 4.5m, 15m y 75h).
Usando logspline con otras transformaciones generalmente encuentra 4 picos pero con centros ligeramente diferentes (cuando se traducen a las unidades originales); Esto es de esperarse con las transformaciones.
fuente
La función descdist tiene una opción para iniciar su distribución para tener una idea de la precisión asociada con la estimación trazada. Podrías intentar eso.
Supongo que sus datos son consistentes con algo más que la distribución beta.
En general, la distribución beta es la distribución de proporciones o probabilidades continuas. Por ejemplo, la distribución de los valores p de una prueba t sería un caso específico de una distribución beta dependiendo de si la hipótesis nula es verdadera y la cantidad de potencia que tiene su análisis.
Me parece extremadamente improbable que la distribución de sus tiempos de reparación sea realmente beta. Tenga en cuenta que ese gráfico solo compara el sesgo y la curtosis de sus datos con la distribución especificada. La beta está unida por 0 y 1; Apuesto a que sus datos no lo son, pero ese gráfico no está comprobando ese hecho.
Por otro lado, la distribución de Weibull es común para los tiempos de retraso. Al observar la cifra (sin las muestras de arranque trazadas para medir la incertidumbre), sospecho que sus datos son consistentes con un Weibull.
También podría verificar si sus datos son Weibull, creo, usando qqPlot del paquete del automóvil para hacer un qq-plot .
fuente
bootstrap
parámetro establecido en 500 en ladescdist
función. Y sí, tiene razón en que mis valores no están en [0,1]. ¿Hay alguna manera de mostrar ese hecho (perteneciente a weibull) usando este gráfico? Intentaré actualizar mi pregunta con un QQPlot en breve.qqPlot
delcar
paquete.Por lo que vale, usando la rutina FindDistribution de Mathematica, los logaritmos son aproximadamente una mezcla de dos distribuciones normales,
Usar 3 distribuciones para hacer una distribución de mezcla puede ser
fuente