Ventaja de la estimación de densidad del núcleo sobre la estimación paramétrica

10

¿Hay alguna razón particular por la que elegirás la estimación de densidad del kernel sobre la estimación paramétrica? Estaba aprendiendo a ajustar la distribución a mis datos. Esta pregunta me vino.

Mi tamaño de datos es relativamente grande con 7500 puntos de datos. Auto reclamaciones. Mi objetivo es ajustarlo a una distribución (no paramétrica o paramétrica). Y luego úselo para simular datos de reclamo automático y calcule VaR o TVaR.

Utilicé log para transformar los datos para que sean relativamente normales. Ajusté muchas distribuciones, incluyendo normal, lognormal, gamma, t, etc. Utilicé AIC y loglikehood para identificar el mejor ajuste. Pero ninguno de estos ajustes pasó la prueba KS (valor p extremadamente pequeño, con e-10).

Es por eso que pregunté en qué situación debería cambiar a KDE.

MegaChunk
fuente
Me parece que adaptar un gran conjunto de datos a la distribución paramétrica es bastante difícil. Incluso puedo ver que el ajuste es muy bueno en histograma y qqplot, todavía obtengo un valor p muy bajo de la prueba KS. ¿Pero KDE realmente resuelve este problema? (Nunca lo intento)
MegaChunk
@MegaChunk AFAIK, el valor p de la prueba KS no es muy informativo, ya que la distribución nunca es perfectamente normal y, por lo tanto, si tiene una cantidad suficiente de puntos de datos, la hipótesis nula casi siempre se rechaza.
d_ijk_stra

Respuestas:

8

La pregunta de respuesta es "¿por qué modela sus datos como una muestra de una distribución?" Si desea aprender algo sobre el fenómeno detrás de sus datos, como cuando mejora una teoría científica o prueba una hipótesis científica, el uso de un estimador de kernel no paramétrico no le dice mucho más que los datos mismos. Mientras que un modelo parametrizado puede decir mucho más claramente (a) si los datos y el modelo están de acuerdo o no y (b) cuáles son los valores probables de los parámetros. Dependiendo de sus objetivos, se determina qué enfoque debe preferir.

Xi'an
fuente
6

Podría haber. La estimación de la densidad del núcleo es un enfoque no paramétrico. La estimación paramétrica requiere una familia paramétrica de distribuciones basadas en unos pocos parámetros. Si tiene una base para creer que el modelo es aproximadamente correcto, es ventajoso hacer inferencia paramétrica. Por otro lado, es posible que los datos no se ajusten bien a ningún miembro de la familia. En ese caso, es mejor usar la estimación de densidad del núcleo porque construirá una densidad que se ajuste razonablemente a los datos. No requiere ninguna suposición con respecto a las familias paramétricas.

Esta descripción puede estar ligeramente simplificada para mayor claridad. Permítanme dar un ejemplo específico para hacer esto concreto. Supongamos que la familia paramétrica es la distribución normal que está definida por los dos parámetros desconocidos, la media y la varianza. Cada distribución en la familia es simétrica y tiene forma de campana con la media igual a la mediana y la moda. Ahora su muestra no parece ser simétrica y la media muestral es muy diferente de la mediana muestral. Entonces tienes evidencia para pensar que tu suposición es incorrecta. Por lo tanto, debe buscar una transformación que convierta los datos para que se ajusten a una familia paramétrica agradable (posiblemente la normal) o encontrar una familia paramétrica alternativa. Si estos enfoques paramétricos alternativos no parecen funcionar, el enfoque de densidad del núcleo es una alternativa que funcionará. Hay algunos problemas (1) la forma del núcleo, (2) el ancho de banda del núcleo que determina el nivel de suavidad y (3) posiblemente un tamaño de muestra mayor que el que podría necesitar para una familia paramétrica. El número 1 ha demostrado en la literatura que prácticamente no tiene importancia. El problema 2 es importante. El problema 3 depende de qué tan grande de una muestra pueda permitirse recolectar. Aunque estos problemas existen junto con el supuesto implícito de que la distribución tiene una densidad, estos supuestos pueden ser más fáciles de aceptar que los supuestos paramétricos restrictivos. El problema 3 depende de qué tan grande de una muestra pueda permitirse recolectar. Aunque estos problemas existen junto con el supuesto implícito de que la distribución tiene una densidad, estos supuestos pueden ser más fáciles de aceptar que los supuestos paramétricos restrictivos. El problema 3 depende de qué tan grande de una muestra pueda permitirse recolectar. Aunque estos problemas existen junto con el supuesto implícito de que la distribución tiene una densidad, estos supuestos pueden ser más fáciles de aceptar que los supuestos paramétricos restrictivos.

Michael R. Chernick
fuente