Sé que para cada par de clase de entidad, el valor de la estadística de chi-cuadrado se calcula y se compara con un umbral.
Cualquier aclaración será muy apreciada. Gracias por adelantado
chi-squared
feature-selection
usuario721975
fuente
fuente
Respuestas:
La prueba de chi-cuadrado es una prueba estadística de independencia para determinar la dependencia de dos variables. Comparte similitudes con el coeficiente de determinación, R². Sin embargo, la prueba de chi-cuadrado solo es aplicable a datos categóricos o nominales, mientras que R² solo es aplicable a datos numéricos.
A partir de la definición de chi-cuadrado, podemos deducir fácilmente la aplicación de la técnica de chi-cuadrado en la selección de características. Suponga que tiene una variable objetivo (es decir, la etiqueta de clase) y algunas otras características (variables de características) que describen cada muestra de los datos. Ahora, calculamos estadísticas de chi-cuadrado entre cada variable de entidad y la variable objetivo y observamos la existencia de una relación entre las variables y el objetivo. Si la variable objetivo es independiente de la variable característica, podemos descartar esa variable característica. Si son dependientes, la variable característica es muy importante.
Los detalles matemáticos se describen aquí: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Para variables continuas, chi-cuadrado se puede aplicar después de "Binning" las variables.
Un ejemplo en R, descaradamente copiado de FSelector
No se relaciona tanto con la selección de funciones, pero el siguiente video analiza el chisquare en detalle https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8
fuente