Tengo un gran problema con un problema conceptual que se me ocurrió.
Digamos que una empresa tiene una distribución que está muy sesgada. Algo similar a un exponencial o lognormal solo más extremo. Ahora imagine que la distribución está tan sesgada que la media de la distribución es mayor que el percentil del 99% de la distribución. (Aka 1-2 valores extremadamente altos causaron que la media fuera extremadamente alta en comparación con el resto de la distribución).
Por definición, si esta distribución se usara para pronosticar un valor futuro (también conocido como una muestra aleatoria de la distribución), ¿sería cierto que la media no estaría en el intervalo de predicción del 95%?
En mi cerebro, un intervalo de predición del 95% es un rango en el que se ubicará el 95% de todos los valores futuros. Para cualquier distribución, esto debería ser exactamente igual al percentil .025 en el límite inferior y al percentil .975 en el límite superior ... Si la media es mayor que el percentil .975, entonces la media no estaría dentro del '95% intervalo de predicción ".
¿Estoy pensando en esto incorrectamente? Parece extraño informar un pronóstico como
- Valor medio previsto: 6,000,0000
- Intervalo de predicción del 95%: [400,5000].
fuente
Respuestas:
No, un intervalo de predicción no necesita contener la media. Creo que parte de su confusión podría estar mezclando intervalos de predicción e intervalos de confianza. Mientras que el objetivo de un intervalo de predicción es contener con cierta certeza los valores futuros de la variable aleatoria, el objetivo de un intervalo de confianza es contener la verdadera media de distribución.
Como mencionó en distribuciones muy sesgadas, estas ideas parecen estar en desacuerdo entre sí. Lo importante es reconocer el valor en cada una de las estadísticas proporcionadas.
El valor predictivo de la media es:
1) Acumulativo: a medida que ingresen más muestras, su promedio tenderá hacia la media real. Entonces, si el valor acumulativo es de interés (por ejemplo, si está jugando y lidiando con ganancias o pérdidas que le interesan los efectos acumulativos), la media es muy útil.
2) Minimiza los residuos al cuadrado: Si bien los residuos al cuadrado son una cantidad de interés algo arbitraria, vale la pena saber cuál es la predicción que está minimizando.
Sin embargo, si su objetivo es minimizar el error absoluto en sus predicciones, el valor pronosticado promedio de 6,000,000 no es lo que yo elegiría.
fuente
Considere la distribución de posibles retornos en la paradoja de San Petersburgo:
Prob (1) = 1/2
Prob (2) = 1/4
Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)
La media diverge y está fuera de cualquier intervalo de predicción razonable. (La mediana es 1 en este caso, pero no sé qué usaría para mi pronóstico de puntos. Quizás Stephan Kolassa, vea más arriba, tenga una sugerencia).
Hay otra complicación: supongamos que desea un intervalo de predicción del 95% para alguna distribución (distinta de la que acabo de mencionar). ¿Pasas del mosaico del 2.5% al mosaico del 97.5% o del 0 al 95 o del 5 al 100 o ...? La respuesta probablemente depende de por qué haces la pregunta.
fuente