Estoy pensando en un problema que consiste en predecir el registro (gasto) de un cliente mediante regresión lineal.
Estoy considerando qué características usar como entrada y me pregunto si estaría bien usar el percentil de una variable como entradas.
Por ejemplo, podría usar los ingresos de la empresa como insumo. Lo que me pregunto es si podría utilizar el percentil de ingresos de la compañía.
Otro ejemplo sería un clasificador categórico de la industria (NAICS): si tuviera que ver el gasto medio por código NAICS y luego asignar cada código NAICS a un 'Percentil NAICS', ¿sería una variable explicativa válida que podría usar?
¿Solo me pregunto si hay problemas a tener en cuenta al usar percentiles? ¿Es de alguna manera equivalente a un tipo de escala de características?
fuente
Respuestas:
Si su modelo implica algún tipo de competencia en los ingresos de la empresa, puede usar el percentil. El percentil log parece más significativo, los cuantiles no serán lineales en valor, o eso imagino.
En esta historia, usted incluye ln (%) de empresas con ingresos bajo la empresa de observación. La historia es que con ingresos altos tienen una reputación mejor que las empresas con ingresos bajos, y esta relación de "tener más que la competencia" es relevante, no el nivel de ingresos en sí. Podría ver esto como una parte importante del reconocimiento firme y la marca.
fuente