Usar percentiles como predictores: ¿buena idea?

9

Estoy pensando en un problema que consiste en predecir el registro (gasto) de un cliente mediante regresión lineal.

Estoy considerando qué características usar como entrada y me pregunto si estaría bien usar el percentil de una variable como entradas.

Por ejemplo, podría usar los ingresos de la empresa como insumo. Lo que me pregunto es si podría utilizar el percentil de ingresos de la compañía.

Otro ejemplo sería un clasificador categórico de la industria (NAICS): si tuviera que ver el gasto medio por código NAICS y luego asignar cada código NAICS a un 'Percentil NAICS', ¿sería una variable explicativa válida que podría usar?

¿Solo me pregunto si hay problemas a tener en cuenta al usar percentiles? ¿Es de alguna manera equivalente a un tipo de escala de características?

andrewm4894
fuente
2
Si tiene los datos originales, ¿por qué le gustaría usar percentiles? Tal vez no sea una buena idea, porque los percentiles son solo medidas ordinales, no métricas. Pero no estoy seguro sobre el sesgo / eficiencia.
hplieninger
99
El porcentaje de s es inconsistente con la forma en que las s tienen su efecto. Un error común es el percentil de peso o IMC al predecir un resultado de salud. La física del peso dicta que son las dimensiones físicas de una persona las que se relacionan con sus funciones corporales, no cuántas personas en la muestra están por debajo del peso o IMC de un sujeto. XX
Frank Harrell
1
si puede agrupar razonablemente su variable de la industria en grupos, por ejemplo, 4, use una codificación ficticia (o cualquier otro esquema de codificación apropiado) y ya está. Así lo haría yo.
hplieninger
3
No puedo pensar en una razón por la cual el percentil estaría relacionado linealmente con la variable dependiente. Si puede pensar en uno, entonces podría estar bien (y actualice su pregunta con su razón)
Peter Flom - Restablezca a Monica
1
Si desea utilizar el código NAICS como proxy del gasto de una empresa, puede hacerlo utilizando el gasto promedio en su código NAICS, sin necesidad de usar percentiles.
Scortchi - Restablece a Monica

Respuestas:

1

Si su modelo implica algún tipo de competencia en los ingresos de la empresa, puede usar el percentil. El percentil log parece más significativo, los cuantiles no serán lineales en valor, o eso imagino.

En esta historia, usted incluye ln (%) de empresas con ingresos bajo la empresa de observación. La historia es que con ingresos altos tienen una reputación mejor que las empresas con ingresos bajos, y esta relación de "tener más que la competencia" es relevante, no el nivel de ingresos en sí. Podría ver esto como una parte importante del reconocimiento firme y la marca.

Regresar adelante
fuente