Suponga que tiene un conjunto de datos de una distribución continua con densidad compatible con que no se conoce, pero es bastante grande, por lo que la densidad del núcleo (por ejemplo) la estimación, , es bastante precisa. Para una aplicación particular, necesito transformar los datos observados en un número finito de categorías para obtener un nuevo conjunto de datos con una función de masa implícita .
Un ejemplo simple sería cuando y cuando . En este caso, la función de masa inducida sería
Los dos "parámetros de ajuste" aquí son el número de grupos, , y el vector de longitud de umbrales . Denote la función de masa inducida por .
Me gustaría un procedimiento que responda, por ejemplo, "¿Cuál es la mejor opción de para que aumentar el número de grupos a (y elegir el óptimo allí) produzca una mejora insignificante?" . Siento que tal vez se pueda crear una estadística de prueba (tal vez con la diferencia en la divergencia de KL o algo similar) cuya distribución se pueda derivar. ¿Alguna idea o literatura relevante?
Editar: He espaciado uniformemente las mediciones temporales de una variable continua y estoy usando una cadena de Markov no homogénea para modelar la dependencia temporal. Francamente, las cadenas de markov de estado discreto son mucho más fáciles de manejar y esa es mi motivación. Los datos observados son porcentajes. Actualmente estoy usando una discretización ad hoc que me parece muy buena, pero creo que este es un problema interesante donde es posible una solución formal (y general).
Edición 2: minimizar realmente la divergencia de KL sería equivalente a no discretizar los datos, por lo que esa idea está totalmente descartada. He editado el cuerpo en consecuencia.
Respuestas:
Voy a compartir la solución que se me ocurrió hace un tiempo: esta no es una prueba estadística formal, pero puede proporcionar una heurística útil.
Considere el caso general donde tiene observaciones continuas ; sin pérdida de generalidad, suponga que el espacio muestral de cada observación es el intervalo . Un esquema de categorización dependerá de varias categorías, , y los umbrales de ubicación que dividen las categorías, .Y1,Y2,...,Yn [0,1] m 0<λ1<λ2<⋯<λm−1<1
Denote la versión categorizada de por , donde . Pensando en la discretización de los datos como una partición de los datos originales en clases, la varianza de puede considerarse como una combinación de variación dentro y entre grupos, para un valor fijo de :Yi Zi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Una categorización dada es exitosa en la producción de grupos homogéneos si hay relativamente poca variación dentro del grupo, cuantificada por . , buscamos una agrupación parsimoniosa que confiera la mayor parte de la variación en al término . en particular, queremos elegir para que al agregar niveles adicionales, no agreguemos significativamente a la homogeneidad del grupo interno. Con esto en mente, definimos el óptimo para que un valor fijo de seaE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
Un diagnóstico aproximado para determinar qué opción de es adecuada es observar la caída en en función de : esta trayectoria no aumenta monotónicamente y después de que disminuye drásticamente, puede ver que está ganando relativamente menos precisión al incluir más categorías. Esta heurística es similar en espíritu a la forma en que a veces se usa un " Gráfico de pantalla " para ver cuántos componentes principales explican "suficiente" de la variación.m E(var(Yi|Zi(m,λ⋆m))) m
fuente