¿Por qué se debe evitar el binning a toda costa?

10

Así que he leído algunas publicaciones sobre por qué siempre se debe evitar el binning . Una referencia popular para esa afirmación es este enlace .

La escapada principal es que los puntos de agrupamiento (o puntos de corte) son bastante arbitrarios, así como la pérdida de información resultante, y que se deben preferir las splines.

Sin embargo, actualmente estoy trabajando con la API de Spotify, que tiene un montón de medidas continuas de confianza para varias de sus características.

Mirando una característica, "instrumentalidad", las referencias establecen:

Predice si una pista no contiene voces. Los sonidos "Ooh" y "aah" se tratan como instrumentales en este contexto. Las pistas de rap o palabras habladas son claramente "vocales". Cuanto más cercano sea el valor de instrumentalidad a 1.0, mayor será la probabilidad de que la pista no contenga contenido vocal. Los valores superiores a 0.5 están destinados a representar pistas instrumentales , pero la confianza es mayor a medida que el valor se acerca a 1.0.

Dada la distribución muy sesgada hacia la izquierda de mis datos (aproximadamente el 90% de las muestras están apenas por encima de 0, me pareció razonable transformar esta característica en dos características categóricas: "instrumental" (todas las muestras con un valor superior a 0.5) y "no instrumental" "(para todas las muestras con un valor inferior a 0,5).

¿Esto esta mal? ¿Y cuál habría sido la alternativa, cuando casi todos mis datos (continuos) giran en torno a un solo valor? Por lo que entiendo sobre splines, tampoco funcionarían con problemas de clasificación (lo que estoy haciendo).

classification categorical-data continuous-data splines binning Readler
fuente

10

La configuración que describe no parece implicar que binning es una buena idea. Usted mismo lo dijo que hay información sobre cuán cercano a 1.0 es un valor. En mi humilde opinión, haría bien en tener una característica continua que esté relacionada con la probabilidad de ser instrumental. Quizás pueda ampliar su pregunta.

Frank Harrell

Mi pregunta básicamente es cuándo está bien usar binning, si es que lo hay. En mi caso, lo usé sobre la base del dominio (instrumental / no instrumental), ya que creo que es más predicativo que decir cuán cerca está una pista de ser instrumental (ya que una pista es o no instrumental). Sin embargo, usted argumentó en contra de esta lógica en el punto 8 de su publicación. Yo, como novato, me cuesta mucho entender realmente por qué debería ser eso.

Readler

1

Escribí una larga publicación sobre esto en el contexto del modelado predictivo: madrury.github.io/jekyll/update/statistics/2017/08/04/…

Matthew Drury

Muy informativo y completo, gracias. Sin embargo, no veo la relación con mi pregunta (aunque todavía obtuve algunas nuevas ideas, ¡todo está bien!). Su artículo está hablando de binning la variable predictora en problemas de regresión y por eso que es una mala idea (que su artículo convincente argumentar en contra) y por qué el uso de estrías ayuda para el modelado de regresión. Estaba preguntando por qué es malo discretizar los valores de una característica continua (una entrada) en un problema de clasificación (cuyas variables predictoras son inherentemente "bins", es decir, clases).

Readler

2

Si casi todas sus funciones están en un punto, es probable que su modelo no sea útil, independientemente de lo que haga.

Acumulación

15

Es una ligera exageración decir que el binning debe evitarse a toda costa , pero ciertamente es el caso que binning introduce opciones de bin que introducen cierta arbitrariedad en el análisis. Con los métodos estadísticos modernos, generalmente no es necesario participar en la agrupación, ya que cualquier cosa que se pueda hacer en datos "agrupados" discretos generalmente se puede hacer en los valores continuos subyacentes.

El uso más común de "binning" en estadística es en la construcción de histogramas. Los histogramas son similares a la clase general de estimadores de densidad del núcleo (KDE), en la medida en que implican la agregación de funciones escalonadas en los contenedores elegidos, mientras que el KDE implica la agregación de núcleos más suaves. La función de paso utilizada en un histograma no es una función uniforme, y generalmente es el caso de que se puedan elegir mejores funciones del núcleo que sean menos arbitrarias bajo el método KDE, que también producen mejores estimaciones de la densidad subyacente de los datos. A menudo les digo a los estudiantes que un histograma es solo el "KDE de un hombre pobre". Personalmente, nunca usaría uno, porque es muy fácil obtener un KDE sin agrupar los datos, y esto da resultados superiores sin una elección arbitraria de agrupamiento.

Otro uso común de "binning" se produce cuando un analista desea discretizar datos continuos en contenedores para utilizar técnicas analíticas que utilizan valores discretos. Esto parece ser lo que se sugiere en la sección que cita con respecto a la predicción de los sonidos vocales. En tales casos, existe cierta arbitrariedad introducida por el binning y también hay una pérdida de información. Una vez más, es mejor evitar esto, si es posible, tratando de formar un modelo directamente sobre los valores continuos subyacentes, en lugar de formar un modelo sobre los valores "agrupados" discretizados.

Como regla general, es deseable que los estadísticos eviten las técnicas analíticas que introducen suposiciones arbitrarias, particularmente en los casos en que hay técnicas alternativas disponibles para evitar fácilmente estas suposiciones. Así que estoy de acuerdo con el sentimiento de que el binning es generalmente innecesario. Ciertamente, no debe evitarse a toda costa, ya que los costos son importantes, pero generalmente debe evitarse cuando existen técnicas alternativas simples que permiten evitarlo sin ningún inconveniente grave.

Ben - Restablece a Monica
fuente

Veo. Sin embargo, pregunta de seguimiento: al observar la distribución del ejemplo mencionado anteriormente, ver aquí (irónicamente un histograma), simplemente no veo los útiles en una variable continua donde casi todas las muestras giran en torno a un valor (aquí siendo 0), que es fue lo que inicialmente me llevó a binning esta característica. Mencionó alternativas: ¿podría explicarme amablemente o indicarme la dirección correcta para obtener más información?

Readler

Intente leer sobre KDE y también considere algunas formas alternativas de trazar datos univariados .

Ben - Restablece a Mónica

En ese histograma veo valores en todo el lugar (pero, sí, en su mayoría cerca de cero). No debería haber inconvenientes en el uso de un ajuste de spline, y eso ciertamente brindará más información. ¡Trace la ranura ajustada! y, si por alguna razón debe discretizar , esa trama podría ayudarlo en cómo. Puede ser que, para su uso particular, otro punto de corte diferente a 0.5 sea mejor.

kjetil b halvorsen

2

Un histograma no puede interpretarse correctamente como un KDE. ¿Cuál sería el núcleo?

whuber

1

Con respecto a su tercer párrafo, surgió una pregunta similar cuando estaba tratando de calcular la ganancia de información con algunos datos numéricos. ¿Puedes mirar esta pregunta y explicar qué hacer en esta situación? stats.stackexchange.com/questions/384684/…

astel

4

Normalmente argumentaría en contra de la categorización de variables continuas por las razones bien expresadas por otros notables Frank Harrell. En este caso, puede ser útil preguntarse sobre el proceso que generó los puntajes. Parece que la mayoría de los puntajes son efectivamente cero, tal vez con algo de ruido agregado. Algunos de ellos están bastante cerca de la unidad nuevamente con el ruido. Muy pocos se encuentran en el medio. En este caso, parece haber más justificación para la categorización, ya que se podría argumentar que el módulo del ruido es una variable binaria. Si se ajusta como una variable continua, los coeficientes tendrían un significado en términos de cambio en la variable predictora, pero en este caso en la mayor parte de su rango, la variable está muy escasamente poblada, lo que parece poco atractivo.

mdewey
fuente

44

Mi respuesta breve a cuándo está bien usar binning es la siguiente: cuando los puntos de discontinuidad ya se conocen antes de mirar los datos (estos son los puntos finales de bin) y si se sabe que la relación entre x e y dentro de cada bin que tiene longitud distinta de cero es plana.

Frank Harrell

2

Imagine que tiene un reloj que muestra solo las horas. Solo quiero decir que tiene solo la flecha de la hora que una vez cada hora da un salto de 1/12 a otra hora, no se mueve suavemente. Tal reloj no sería muy útil, ya que no sabría si son las dos y cinco, las dos y media o las tres menos diez. Ese es el problema con los datos agrupados , pierde detalles e introduce los cambios "saltos".

Tim
fuente

1

(+1) Sí, y agregue a eso el problema adicional de que el relojero podría no elegir incrementos por hora, pero podría decidir arbitrariamente que su reloj estará en incrementos de 19 minutos, y tiene un problema adicional más allá de la pérdida de información .

Ben - Restablece a Monica

2

Para algunas aplicaciones, aparentemente incluida la que está contemplando, el binning puede ser estrictamente necesario. Obviamente, para realizar un problema de categorización, en algún momento debe retirar los datos categóricos de su modelo y, a menos que sus entradas también sean categóricas, deberá realizar un binning. Considere un ejemplo:

Una IA sofisticada está jugando al póker. Ha evaluado la probabilidad de que su mano sea superior a las manos de otros jugadores en un 70%. Es su turno de apostar, sin embargo, se le ha dicho que debe evitar el binning a toda costa y, en consecuencia, nunca realiza una apuesta; se pliega por defecto.

Sin embargo, lo que ha escuchado bien puede ser cierto, ya que la agrupación prematura de valores intermedios entrega información que podría haberse conservado. Si el objetivo final de su proyecto es determinar si le "gustará" la canción en cuestión, que puede estar determinada por dos factores: "instrumentalidad" y "rockitude", es probable que sea mejor retenerlas como variables continuas hasta que necesita sacar "simpatía" como una variable categórica.

l yo k mi = {\begin{cases} 0 0 & r o C k yo t tu re mi * 3 + yo norte s t r tu metro mi norte t una l norte mi s s * 2 < 3 \\ 1 & r o C k yo t tu re mi * 3 + yo norte s t r tu metro mi norte t una l norte mi s s * 2 \geq 3 \end{cases}

$\mathrm{like} = \begin{cases} 0 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 < 3 \\ 1 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 \ge 3 \end{cases}$

o los coeficientes que considere más apropiados, o cualquier otro modelo que se ajuste adecuadamente a su conjunto de entrenamiento.

Si, en cambio, decides si algo es "instrumental" (verdadero o falso) y "rocas" (verdadero o falso), entonces tienes tus 4 categorías establecidas antes de que llames:

instrumental, rocas
no instrumental, rocas
instrumental, sin rocas
no instrumental, sin rocas

Pero entonces todo lo que puede decidir es cuál de esas 4 categorías le "gusta". Has entregado flexibilidad en tu decisión final.

La decisión de anular o no anular depende completamente de su objetivo. Buena suerte.

guenthmonstr
fuente

2

$R$

$R$ $\{b_1 \cdots b_N\}$ $b_i=[l_i,u_i]$ $l_i$ $u_i$ $i$

Para simplificar, digamos que el conjunto de contenedores está definido por la posición $l=l_0$ $w$ $l_0$ $u_0=l_0+w$ $w$ $(w_{min},w_{max})$

PAG (R) = \sum_{w = w_{metro yo norte}}^{w_{metro una X}} \sum_{l = l_{0 0}}^{l_{0 0} + w} PAG (R El | l, w) PAG (l, w) PAG (l, w) \sim \frac{2 ({tu}_{0 0} - l_{0 0})}{w_{metro una X} + w_{metro yo norte}} \times (w_{metro una X} - w_{metro yo norte})

$P(R) = \sum_{w=w_{min}}^{w_{max}}\sum_{l=l_0}^{l_0+w} P(R|l,w) P(l,w) \\ P(l,w) \sim \frac{2(u_0-l_0)}{w_{max}+w_{min}} \times (w_{max}-w_{min})$

Por supuesto, ahora que ha introducido $w_{max}, w_{min},$ y $l_0$ $P(R) \rightarrow P(R|w_{max}, w_{min},l_0)$ $P(R)$ $P(R|w_{max}, w_{min},l_0)=P(R)$

En el contexto de la pregunta del OP, estaría satisfecho si el umbral arbitrario 0.5 se estableciera en una variedad de valores entre valores mínimos y máximos creíbles, y ver que los resultados básicos de su análisis son en gran medida independientes de la selección.

Peter Leopold
fuente

¿Por qué se debe evitar el binning a toda costa?

Respuestas: