Tengo un conjunto de datos con 330 muestras y 27 características para cada muestra, con un problema de clase binaria para Regresión logística.
De acuerdo con la "regla si son diez", necesito al menos 10 eventos para que se incluya cada característica. Sin embargo, tengo un conjunto de datos desequilibrado, con 20% de clase positiva y 80% de clase negativa.
Eso me da solo 70 eventos, lo que permite incluir solo aproximadamente 7/8 características en el modelo logístico.
Me gustaría evaluar todas las características como predictores, no quiero seleccionar ninguna característica a mano.
Entonces, que sugieres? ¿Debo hacer todas las combinaciones posibles de 7 características? ¿Debo evaluar cada característica sola con un modelo de asociación y luego elegir solo las mejores para un modelo final?
También tengo curiosidad sobre el manejo de características categóricas y continuas, ¿puedo mezclarlas? Si tengo un [0-1] categórico y un [0-100] continuo, ¿debo normalizar?
Actualmente estoy trabajando con Python.
¡Muchas gracias por tu ayuda!
Respuestas:
Para reducir su modelo a 7 variables, hay algunos enfoques que puede tomar:
Como comentó @ E_net4, su pregunta continua se aborda en otra publicación.
fuente
Te estás tomando la "Regla de los 10" demasiado en serio. Es una regla general muy tosca. No está destinado a usarse como lo está usando.
Parece que estás pensando: "Tengo solo 70 instancias positivas, así que según la Regla de 10, solo se me permite usar 7 funciones; ¿cómo elijo qué 7 funciones usar?"
Eso no es lo que significa la Regla del 10. No es una regla que especifique cuántas funciones tiene permitido usar. La regla de 10 es descriptiva, no prescriptiva, y es una pauta aproximada: si el número de instancias es mucho menor que 10 veces el número de características, tiene un riesgo especialmente alto de sobreajuste, y podría obtener malos resultados.
Entonces, ¿qué debería hacer? De todos modos, debe hacer lo que haría: usar la regularización y usar la validación cruzada para seleccionar los hiperparámetros de regularización. Además, es importante tener un conjunto de pruebas de resistencia que no toque hasta que haya finalizado todo sobre el clasificador, para evitar estimaciones de precisión sesgadas y sobreajustadas.
Y si puede obtener más datos, eso realmente ayudaría.
Finalmente, dado que tiene clases desequilibradas, puede considerar leer sobre el desequilibrio de clase y los métodos para tratarlo.
fuente