Digamos que tengo una gran muestra de valores en . Me gustaría estimar la distribución subyacente . La mayoría de las muestras provienen de esta supuesta distribución , mientras que el resto son valores atípicos que me gustaría ignorar en la estimación de y .
¿Cuál es una buena manera de proceder al respecto?
¿Sería una estándar: utilizada en diagramas de caja mala aproximación?
¿Cuál sería una forma más basada en principios de resolver esto? ¿Hay algún previo en particular en y que funcione bien en este tipo de problema?
outliers
pymc
beta-distribution
Amelio Vazquez-Reina
fuente
fuente
Respuestas:
Una forma más sistemática de abordar este problema sería utilizar un modelo de mezcla explícito, con una especificación de la distribución de los "valores atípicos". Una forma simple sería usar una mezcla de una distribución beta (para los puntos que le interesan) y una distribución uniforme (para los "valores atípicos"). Al modelar los datos como una distribución mixta, puede obtener estimaciones deα y β que tienen en cuenta automáticamente el hecho de que algunos de los puntos pueden ser atípicos.
Para resolver este problema utilizando un modelo de mezcla, dejeϕ ser la probabilidad de un "valor atípico" y asumir que tiene valores IID X1,...,Xn∼ϕ⋅U(0,1)+(1−ϕ)⋅Beta(α,β) . La función de probabilidad de los datos observados es:
Puede proceder desde aquí utilizando MLE clásico o estimación bayesiana. Cualquiera de las dos requerirá técnicas numéricas. Después de haber estimado los tres parámetros en el modelo, tendría una estimación de y que incorpora automáticamente la posibilidad de valores atípicos. También tendría una estimación de la proporción de valores atípicos del modelo de mezcla.α β
fuente