Así que he leído algunas publicaciones sobre por qué siempre se debe evitar el binning . Una referencia popular para esa afirmación es este enlace .
La escapada principal es que los puntos de agrupamiento (o puntos de corte) son bastante arbitrarios, así como la pérdida de información resultante, y que se deben preferir las splines.
Sin embargo, actualmente estoy trabajando con la API de Spotify, que tiene un montón de medidas continuas de confianza para varias de sus características.
Mirando una característica, "instrumentalidad", las referencias establecen:
Predice si una pista no contiene voces. Los sonidos "Ooh" y "aah" se tratan como instrumentales en este contexto. Las pistas de rap o palabras habladas son claramente "vocales". Cuanto más cercano sea el valor de instrumentalidad a 1.0, mayor será la probabilidad de que la pista no contenga contenido vocal. Los valores superiores a 0.5 están destinados a representar pistas instrumentales , pero la confianza es mayor a medida que el valor se acerca a 1.0.
Dada la distribución muy sesgada hacia la izquierda de mis datos (aproximadamente el 90% de las muestras están apenas por encima de 0, me pareció razonable transformar esta característica en dos características categóricas: "instrumental" (todas las muestras con un valor superior a 0.5) y "no instrumental" "(para todas las muestras con un valor inferior a 0,5).
¿Esto esta mal? ¿Y cuál habría sido la alternativa, cuando casi todos mis datos (continuos) giran en torno a un solo valor? Por lo que entiendo sobre splines, tampoco funcionarían con problemas de clasificación (lo que estoy haciendo).
Respuestas:
Es una ligera exageración decir que el binning debe evitarse a toda costa , pero ciertamente es el caso que binning introduce opciones de bin que introducen cierta arbitrariedad en el análisis. Con los métodos estadísticos modernos, generalmente no es necesario participar en la agrupación, ya que cualquier cosa que se pueda hacer en datos "agrupados" discretos generalmente se puede hacer en los valores continuos subyacentes.
El uso más común de "binning" en estadística es en la construcción de histogramas. Los histogramas son similares a la clase general de estimadores de densidad del núcleo (KDE), en la medida en que implican la agregación de funciones escalonadas en los contenedores elegidos, mientras que el KDE implica la agregación de núcleos más suaves. La función de paso utilizada en un histograma no es una función uniforme, y generalmente es el caso de que se puedan elegir mejores funciones del núcleo que sean menos arbitrarias bajo el método KDE, que también producen mejores estimaciones de la densidad subyacente de los datos. A menudo les digo a los estudiantes que un histograma es solo el "KDE de un hombre pobre". Personalmente, nunca usaría uno, porque es muy fácil obtener un KDE sin agrupar los datos, y esto da resultados superiores sin una elección arbitraria de agrupamiento.
Otro uso común de "binning" se produce cuando un analista desea discretizar datos continuos en contenedores para utilizar técnicas analíticas que utilizan valores discretos. Esto parece ser lo que se sugiere en la sección que cita con respecto a la predicción de los sonidos vocales. En tales casos, existe cierta arbitrariedad introducida por el binning y también hay una pérdida de información. Una vez más, es mejor evitar esto, si es posible, tratando de formar un modelo directamente sobre los valores continuos subyacentes, en lugar de formar un modelo sobre los valores "agrupados" discretizados.
Como regla general, es deseable que los estadísticos eviten las técnicas analíticas que introducen suposiciones arbitrarias, particularmente en los casos en que hay técnicas alternativas disponibles para evitar fácilmente estas suposiciones. Así que estoy de acuerdo con el sentimiento de que el binning es generalmente innecesario. Ciertamente, no debe evitarse a toda costa, ya que los costos son importantes, pero generalmente debe evitarse cuando existen técnicas alternativas simples que permiten evitarlo sin ningún inconveniente grave.
fuente
Normalmente argumentaría en contra de la categorización de variables continuas por las razones bien expresadas por otros notables Frank Harrell. En este caso, puede ser útil preguntarse sobre el proceso que generó los puntajes. Parece que la mayoría de los puntajes son efectivamente cero, tal vez con algo de ruido agregado. Algunos de ellos están bastante cerca de la unidad nuevamente con el ruido. Muy pocos se encuentran en el medio. En este caso, parece haber más justificación para la categorización, ya que se podría argumentar que el módulo del ruido es una variable binaria. Si se ajusta como una variable continua, los coeficientes tendrían un significado en términos de cambio en la variable predictora, pero en este caso en la mayor parte de su rango, la variable está muy escasamente poblada, lo que parece poco atractivo.
fuente
Imagine que tiene un reloj que muestra solo las horas. Solo quiero decir que tiene solo la flecha de la hora que una vez cada hora da un salto de 1/12 a otra hora, no se mueve suavemente. Tal reloj no sería muy útil, ya que no sabría si son las dos y cinco, las dos y media o las tres menos diez. Ese es el problema con los datos agrupados , pierde detalles e introduce los cambios "saltos".
fuente
Para algunas aplicaciones, aparentemente incluida la que está contemplando, el binning puede ser estrictamente necesario. Obviamente, para realizar un problema de categorización, en algún momento debe retirar los datos categóricos de su modelo y, a menos que sus entradas también sean categóricas, deberá realizar un binning. Considere un ejemplo:
Sin embargo, lo que ha escuchado bien puede ser cierto, ya que la agrupación prematura de valores intermedios entrega información que podría haberse conservado. Si el objetivo final de su proyecto es determinar si le "gustará" la canción en cuestión, que puede estar determinada por dos factores: "instrumentalidad" y "rockitude", es probable que sea mejor retenerlas como variables continuas hasta que necesita sacar "simpatía" como una variable categórica.
o los coeficientes que considere más apropiados, o cualquier otro modelo que se ajuste adecuadamente a su conjunto de entrenamiento.
Si, en cambio, decides si algo es "instrumental" (verdadero o falso) y "rocas" (verdadero o falso), entonces tienes tus 4 categorías establecidas antes de que llames:
Pero entonces todo lo que puede decidir es cuál de esas 4 categorías le "gusta". Has entregado flexibilidad en tu decisión final.
La decisión de anular o no anular depende completamente de su objetivo. Buena suerte.
fuente
Para simplificar, digamos que el conjunto de contenedores está definido por la posiciónl = l0 0 w l0 0 tu0 0= l0 0+ w w ( wm i n, wm a x)
Por supuesto, ahora que ha introducidowm a x, wm i n, y l0 0 PAG( R ) → P( R | wm a x, wm i n, l0 0) PAG( R ) PAG( R | wm a x, wm i n, l0 0) = P( R )
En el contexto de la pregunta del OP, estaría satisfecho si el umbral arbitrario 0.5 se estableciera en una variedad de valores entre valores mínimos y máximos creíbles, y ver que los resultados básicos de su análisis son en gran medida independientes de la selección.
fuente