¿Es la "hora del día" donde el valor puede ser 0, 1, 2, ..., 23 una variable categórica? Me sentiría tentado a decir que no, ya que 5, por ejemplo, está "más cerca" de 4 o 6 que de 3 o 7.
Por otro lado, existe la discontinuidad entre 23 y 0.
Entonces, ¿se considera generalmente categórico o no? Tenga en cuenta que 'hora' es una de las variables independientes, no la variable que estoy tratando de predecir.
categorical-data
circular-statistics
Paul Reiners
fuente
fuente
Respuestas:
Dependiendo de lo que desee modelar, las horas (y muchos otros atributos como las estaciones) son en realidad variables cíclicas ordinales. En el caso de las estaciones, puede considerarlas más o menos categóricas, y en el caso de las horas, también puede modelarlas como continuas.
Sin embargo, usar horas en su modelo de una forma que no se ocupe de la ciclicidad para usted no será fructífero. En su lugar, trate de llegar a algún tipo de transformación. Usando horas, podría usar un enfoque trigonométrico al
Por lo tanto, usaría
xhr
yyhr
para modelar. Vea esta publicación, por ejemplo: Uso de predictores circulares en regresión lineal .fuente
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
, y así sucesivamente se pueden añadir, hasta el punto de que con suficientes observaciones que pueden horas así tratar de día como categóricas.)La hora del día no se representa mejor como una variable categórica, porque existe un orden natural de los valores. El color del cabello, por ejemplo, es categórico, porque el orden de las categorías no tiene significado: {rojo, marrón, rubio} es tan válido como {rubio, marrón, rojo}. La hora del día, por otro lado, tiene un orden natural: las 9 a.m. están más cerca de las 10 a.m. o las 8 a.m. que a las 6 p.m. Se considera mejor como una variable ordinal discreta. Tiene una característica adicional de ser cíclico, ya que las 12 a.
fuente
Teóricamente, depende de cómo formatee la variable, es decir, puede ser "continua" (modelada con un solo coeficiente) o categórica (un coeficiente por "hora" del día). También puede hacer una combinación de ambas, por ejemplo, funciones por partes.
Prácticamente, debido a que 0 y 23 son esencialmente la misma "hora" del día, consideraría agrupar los períodos del día en grupos más grandes, más homogéneos y creíbles. Por ejemplo, en incrementos de 8 horas: 8 am-4pm, 4 pm-12am y 12-8am.
fuente