Clasificación de características en regresión logística

10

Usé la regresión logística. Tengo seis características, quiero conocer las características importantes en este clasificador que influyen en el resultado más que otras características. Usé Information Gain pero parece que no depende del clasificador utilizado. ¿Existe algún método para clasificar las características según su importancia en función de un clasificador específico (como la regresión logística)? Cualquier ayuda sería muy apreciada.

Chica azul
fuente
3
La regresión logística no es un clasificador. Vuelva a escribir su pregunta para reflejar que la regresión logística es un modelo de estimación de probabilidad directa.
Frank Harrell
1
Aparte del punto planteado por Frank Harrell, ¿examinó los valores de sus coeficientes estimados? Definitivamente no es la mejor manera de clasificar las características, pero puede darle un punto de partida. p
usεr11852
99
Claro, la regresión logística es estimar las probabilidades y no clasificar explícitamente las cosas, pero ¿a quién le importa? El propósito a menudo es decidir qué clase es más probable, y no hay nada de malo en llamarlo clasificador si para eso lo estás usando.
dsaxton

Respuestas:

5

Creo que la respuesta que estás buscando podría ser el algoritmo de Boruta . Este es un método de envoltura que mide directamente la importancia de las características en un sentido de "toda relevancia" y se implementa en un paquete R , que produce gráficos agradables, como esta tramadónde la importancia de cualquier característica está en el eje y y se compara con un nulo trazado en azul aquí. Esta publicación de blog describe el enfoque y le recomendaría que lo lea como una introducción muy clara.

lector de babelproof
fuente
Buena sugerencia (+1). Creo que es un poco exagerado para esta aplicación pero, sin embargo, es una buena adición. Definitivamente aprecio que le vaya bien en situaciones . ¿Conoce algún estudio de revisión comparativa donde se comparó con otros algoritmos de clasificación? p>>n
usεr11852
@ usεr11852 No, no lo hago. Acabo de encontrarme con esto en la última semana más o menos.
babelproofreader
Hmmm ... OK, Boruta parece muy prometedor, pero siempre soy escéptico sobre los nuevos algoritmos nuevos hasta que los veo como parte de un estudio más amplio y veo los casos en los que no se destacan ( no hay un teorema del almuerzo gratis ).
usεr11852
Idea interesante pero no está relacionada con la regresión logística.
Frank Harrell
"Boruta es un método de selección de características, no un rango característica método" Ver el FAQ en la página principal del paquete
steadyfish
3

Para comenzar a comprender cómo clasificar las variables por importancia para los modelos de regresión, puede comenzar con la regresión lineal. Un enfoque popular para clasificar la importancia de una variable en un modelo de regresión lineal es descomponer en contribuciones atribuidas a cada variable. Pero la importancia variable no es sencilla en la regresión lineal debido a las correlaciones entre las variables. Consulte el documento que describe el método PMD (Feldman, 2005) [ 3 ]. Otro enfoque popular es el promedio sobre los pedidos (LMG, 1980) [ 2 ].R2

No hay mucho consenso sobre cómo clasificar las variables para la regresión logística. Una buena visión general de este tema se da en [ 1 ], describe las adaptaciones de las técnicas de regresión lineal de importancia relativa utilizando Pseudo- para la regresión logística.R2

Una lista de los enfoques populares para clasificar la importancia de las características en los modelos de regresión logística son:

  1. Correlación pseudo parcial logística (usando Pseudo- )R2
  2. Adecuación: la proporción de la probabilidad de registro del modelo completo que cada predictor puede explicar individualmente
  3. Concordancia: indica la capacidad de un modelo para diferenciar entre las variables de respuesta positiva y negativa. Se construye un modelo separado para cada predictor y la puntuación de importancia es la probabilidad pronosticada de verdaderos positivos basada solo en ese predictor.
  4. Valor de información: los valores de información cuantifican la cantidad de información sobre el resultado obtenido de un predictor. Se basa en un análisis de cada predictor a su vez, sin tener en cuenta los otros predictores.

Referencias

  1. Sobre la medición de la importancia relativa de variables explicativas en una regresión logística
  2. Importancia relativa de los regresores lineales en R
  3. Importancia relativa y valor, Barry Feldman (método PMD)
Sandeep S. Sandhu
fuente
0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

Suponiendo que todas sus están normalizadas, por ejemplo, al dedicar por la magnitud de , es bastante fácil ver qué variables son más importantes: aquellas que son más grandes que las demás o (en el lado negativo ) menor cf los otros. Influyen en la pérdida más.xx

Si está interesado en encontrar las variables que realmente son importantes y en el proceso no le importa echar algunas, puede regularizar su función de pérdida: 1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

Los derivados o el regularizador son bastante sencillos, por lo que no los mencionaré aquí. El uso de esta forma de regularización y una apropiada que los elementos menos importantes en conviertan en cero y los demás no.λw

Espero que esto ayude. Pregunte si tiene más preguntas.

pAt84
fuente
44
LR no es un esquema de clasificación. Cualquier uso de la clasificación viene como un paso posterior a la estimación después de definir la función de utilidad / costo. Además, el OP no preguntó sobre la estimación de máxima probabilidad penalizada. Para proporcionar evidencia de la importancia relativa de las variables en la regresión, es muy fácil usar el bootstrap para obtener límites de confianza para los rangos de información predictiva adicional proporcionada por cada predictor. Un ejemplo aparece en el Capítulo 4 de Estrategias de modelado de regresión cuyas notas en línea y código R están disponibles en biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell
44
Prof. Harrell, por favor. Es obvio que nos estamos acercando a esto desde dos lados diferentes. Usted del estadístico y yo soy del aprendizaje automático. Te respeto a ti, a tu investigación y a tu carrera, pero eres muy libre de formular tu propia respuesta y dejar que el OP decida cuál considera que es la mejor respuesta para su pregunta. Tengo muchas ganas de aprender, así que por favor enséñame tu enfoque pero no me hagas comprar tu libro.
pAt84
1
Solo señalaré que la regresión logística fue desarrollada por el estadístico DR Cox en 1958, décadas antes de que existiera el aprendizaje automático. También es importante tener en cuenta que la "función de pérdida" (¿quizás mejor llamada función objetiva?) Que formuló no tiene relación alguna con la clasificación. ¿Y qué implicaba que mis extensas notas y archivos de audio disponibles en línea con toda la información a la que me refería costaran algo?
Frank Harrell
2
Voté los dos comentarios iniciales, ya que ambos plantean puntos válidos. Más tarde comenta un poco como una pequeña pelea para mí ...
usεr11852
44
PD Intentando una forma más clara de decir esto, la optimización de la predicción / estimación lleva a decisiones óptimas porque la función de utilidad se aplica en un segundo paso y se permite que no esté relacionada con los predictores. La optimización de la predicción / estimación no optimiza la clasificación y viceversa. Optimizar la clasificación equivale a utilizar una extraña función de utilidad que se adapta al conjunto de datos en cuestión y puede no aplicarse a los nuevos conjuntos de datos. Las personas que realmente desean optimizar la clasificación (no recomendado) pueden usar un método que omite la estimación / predicción por completo.
Frank Harrell