¿Para qué tipo de selección de características se puede usar la prueba de Chi cuadrado?

Aquí les pregunto qué hacen comúnmente los demás para usar la prueba de ji cuadrado para la selección de características wrt resultado en el aprendizaje supervisado. Si entiendo correctamente, ¿prueban la independencia entre cada característica y el resultado, y comparan los valores p entre las pruebas para cada característica?
En http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

La prueba de chi cuadrado de Pearson es una prueba estadística aplicada a conjuntos de datos categóricos para evaluar la probabilidad de que cualquier diferencia observada entre los conjuntos surgiera por casualidad.

...

Una prueba de independencia evalúa si las observaciones emparejadas sobre dos variables, expresadas en una tabla de contingencia , son independientes entre sí (por ejemplo, respuestas de encuestas de personas de diferentes nacionalidades para ver si la nacionalidad de uno está relacionada con la respuesta).

Entonces, ¿las dos variables cuya independencia es probada por la prueba deben ser categóricas o discretas (permitiendo ordenadas además de categóricas), pero no contiguas?
Desde http://scikit-learn.org/stable/modules/feature_selection.html , ellos

realice una en el conjunto de datos del iris para recuperar solo las dos mejores características. $\chi^2$

En el conjunto de datos de iris , todas las características son numéricas y de valor continuo, y el resultado son etiquetas de clase (categóricas). ¿Cómo se aplica la prueba de independencia chi cuadrado a las características continuas?

Para aplicar la prueba de independencia de chi cuadrado al conjunto de datos, primero convertimos las características continuas en características discretas, agrupando (es decir, primero discretizando los dominios continuos de las características en contenedores, y luego reemplazando las características por las ocurrencias de los valores de las características en los contenedores )?

Las ocurrencias en varios contenedores forman una característica multinomial (ya sea que ocurra o no en cada contenedor), por lo que la prueba de independencia de chi cuadrado puede aplicarse a ellos, ¿verdad?

Por cierto, supongo, ¿podemos aplicar la prueba de independencia de chi cuadrado a características y resultados de cualquier tipo , correcto?

Para la parte del resultado, podemos seleccionar características no solo para la clasificación, sino también para la regresión, mediante la prueba de independencia de chi cuadrado, agrupando el resultado continuo, ¿verdad?
El sitio de aprendizaje scikit también dice

Calcule las estadísticas de chi-cuadrado entre cada característica no negativa y clase.

Esta puntuación se puede utilizar para seleccionar las características n_features con los valores más altos para la estadística chi-cuadrado de prueba de X, que debe contener solo características no negativas como booleanos o frecuencias (por ejemplo, conteo de términos en la clasificación de documentos), en relación con el clases

¿Por qué la prueba requiere características no negativas?

Si las características no tienen signos pero son categóricas o discretas, ¿la prueba aún puede aplicarse a ellas? (Ver mi parte 1)

Si las características son negativas, siempre podemos vincular sus dominios y reemplazarlos con sus ocurrencias (al igual que lo que supongo para aplicar la prueba al conjunto de datos del iris, consulte la parte 2), ¿verdad?

Nota: Supongo que Scikit Learn sigue los principios generales, y eso es lo que estoy pidiendo aquí. Si no, entonces todavía está bien.

hypothesis-testing chi-squared feature-selection independence scikit-learn Tim
fuente

Respuestas:

Creo que parte de su confusión es sobre qué tipos de variables puede comparar un chi-cuadrado. Wikipedia dice lo siguiente sobre esto:

Prueba una hipótesis nula que establece que la distribución de frecuencia de ciertos eventos observados en una muestra es consistente con una distribución teórica particular.

Por lo tanto, compara las distribuciones de frecuencia , también conocidas como cuentas, también conocidas como números no negativos. Las diferentes distribuciones de frecuencia están definidas por la variable categórica; es decir, para cada uno de los valores de una variable categórica, debe haber una distribución de frecuencia que pueda compararse con las otras.

Hay varias formas de obtener la distribución de frecuencia. Puede ser de una segunda variable categórica en la que las coincidencias con la primera variable categórica se cuentan para obtener una distribución de frecuencia discreta. Otra opción es usar una variable numérica (múltiple) para diferentes valores de una variable categórica, puede (por ejemplo) sumar los valores de la variable numérica. De hecho, si las variables categóricas se binarizan, la primera es una versión específica de la última.

Ejemplo

Como ejemplo, observe estos conjuntos de variables:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Las variables categóricas xy yse pueden comparar contando las coincidencias, y esto es lo que sucede con una prueba de chi-cuadrado:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Sin embargo, también puede binarizar los valores de 'x' y obtener las siguientes variables:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Contar los valores ahora es igual a sumar los valores que corresponden al valor de z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Como puede ver, una sola variable categórica ( x) o múltiples variables numéricas ( x1y x2) están igualmente representadas en la tabla de contingencia. Por lo tanto, las pruebas de chi cuadrado se pueden aplicar a una variable categórica (la etiqueta en sklearn) combinada con otra variable categórica o múltiples variables numéricas (las características en sklearn).

Pieter
fuente

Entonces, si la selección de características chi_square solo se puede usar para características no negativas (freq, count, ect), ¿qué significa eso para una situación en la que hay una característica con valores negativos? ¿Transforma la función o utiliza otro método de selección de funciones? Supongamos que realizamos una nueva investigación sobre el conjunto de datos de Iris, y tenemos una característica que mide el cambio en la longitud del sépalo todos los días. Finalmente y habría valores negativos. La planta se marchitaría y encogería dando un cambio negativo en la longitud. Tal vez estamos tratando de clasificar qué planta es según qué tan rápido se marchita o algo así.

Arash Howaida

El chi-cuadrado se basa en la proporción de valores (es decir, la distribución de frecuencia). Esto se implementa sumando los valores de característica (binarios). Entonces, la parte de la suma total debe tener un significado. Con valores negativos este no es el caso.

Pieter