¿Es la hora del día una variable categórica?

24

¿Es la "hora del día" donde el valor puede ser 0, 1, 2, ..., 23 una variable categórica? Me sentiría tentado a decir que no, ya que 5, por ejemplo, está "más cerca" de 4 o 6 que de 3 o 7.

Por otro lado, existe la discontinuidad entre 23 y 0.

Entonces, ¿se considera generalmente categórico o no? Tenga en cuenta que 'hora' es una de las variables independientes, no la variable que estoy tratando de predecir.

Paul Reiners
fuente
77
¿Qué está tratando de lograr? Si está ajustando un modelo, ¿la hora es una covariable o la respuesta, por ejemplo?
gung - Restablece a Monica
2
Podría usar una variable ficticia para cada hora si tiene suficientes grados de libertad de sobra (es decir, tratarla como categórica), o usar los primeros términos de Fourier si no los tiene. En general, piense cómo representar mejor una relación potencial con la respuesta: una sola variable ficticia que se marca cuando las tiendas están abiertas podría servir.
Scortchi - Restablece a Monica
Algo parecido a la hora puede tratarse como "categórico" o "numérico", según lo que funcione mejor. No hay una respuesta correcta o incorrecta en general, depende de lo que funcione mejor. Recomiendo probar cosas diferentes y ver qué funciona mejor en su situación.
roundsquare

Respuestas:

29

Dependiendo de lo que desee modelar, las horas (y muchos otros atributos como las estaciones) son en realidad variables cíclicas ordinales. En el caso de las estaciones, puede considerarlas más o menos categóricas, y en el caso de las horas, también puede modelarlas como continuas.

Sin embargo, usar horas en su modelo de una forma que no se ocupe de la ciclicidad para usted no será fructífero. En su lugar, trate de llegar a algún tipo de transformación. Usando horas, podría usar un enfoque trigonométrico al

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Por lo tanto, usaría xhry yhrpara modelar. Vea esta publicación, por ejemplo: Uso de predictores circulares en regresión lineal .

Drey
fuente
2
(+1) ¿Podría explicar la diferencia entre estaciones y horas?
Scortchi - Restablece a Monica
Hmm, creo que las estaciones tienen un significado similar como mañana, mediodía y tarde cuando se habla de horas durante el día. En mi opinión, cuando solo hay información vaga disponible y la resolución es pobre (como 4 valores en estaciones), considerarlos categóricos y usar variables ficticias para la codificación parece razonable. :-)
Drey
1
Creo que el punto clave es que, debido a que solo hay 4 estaciones, se usa el trigonometría. enfoque comparado con una representación categórica que le permite solo 1 grado de libertad, con horas del día que le sobra 21 grados de libertad. (Y si usted no tiene que prescindir de ellos, entonces xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24), y así sucesivamente se pueden añadir, hasta el punto de que con suficientes observaciones que pueden horas así tratar de día como categóricas.)
Scortchi - Restablecer Mónica
O mirar en estrías cíclicos .
kjetil b halvorsen
1

La hora del día no se representa mejor como una variable categórica, porque existe un orden natural de los valores. El color del cabello, por ejemplo, es categórico, porque el orden de las categorías no tiene significado: {rojo, marrón, rubio} es tan válido como {rubio, marrón, rojo}. La hora del día, por otro lado, tiene un orden natural: las 9 a.m. están más cerca de las 10 a.m. o las 8 a.m. que a las 6 p.m. Se considera mejor como una variable ordinal discreta. Tiene una característica adicional de ser cíclico, ya que las 12 a.

Wang nuclear
fuente
¿No existe un orden natural para los valores de ciertas variables categóricas?
dsaxton
Sí, pero están mejor descritos como ordinales en ese caso. Las variables ordinales son variables categóricas que tienen una secuencia natural.
Nuclear Wang
1
Entonces, ¿cómo representaría una variable discreta, ordinal y cíclica como predictor en un modelo de regresión?
Scortchi - Restablece a Monica
0

Teóricamente, depende de cómo formatee la variable, es decir, puede ser "continua" (modelada con un solo coeficiente) o categórica (un coeficiente por "hora" del día). También puede hacer una combinación de ambas, por ejemplo, funciones por partes.

Prácticamente, debido a que 0 y 23 son esencialmente la misma "hora" del día, consideraría agrupar los períodos del día en grupos más grandes, más homogéneos y creíbles. Por ejemplo, en incrementos de 8 horas: 8 am-4pm, 4 pm-12am y 12-8am.

Frank H.
fuente
44
0 y 23 son horas distintas. 0 y 24 serían la misma hora.
Paul Reiners
Por cierto, estoy asumiendo por el comentario de Gung que la hora del día es una variable independiente, no la variable dependiente modelada. Mi punto es que 0 y 23 no son tan diferentes en realidad: ¿diría que hay una diferencia estadística entre su evento modelado que ocurre a las 23:59 versus 0:01?
Frank H.
1
No estoy seguro de qué problema se supone que resolver la información de desecho. Consulte ¿Cuál es el beneficio de dividir una variable predictora continua? .
Scortchi - Restablece a Monica
@Scortchi: como dice la publicación, está asumiendo una relación continua de modo que el binning "arroje" información. Pero si ese no es el caso, entonces binning es la transformación más apropiada. Y esto supone que tiene suficientes datos para empezar, que el OP no ha mencionado.
Frank H.
La imposición de restricciones en la relación entre un predictor y la respuesta no es en sí misma algo malo, ya que usted es el primero en esta publicación en mencionar, cuántas observaciones están disponibles es una consideración importante, pero la impuesta por esto La representación de la hora del día, plana desde las ocho hasta la decimoquinta horas, con un salto o caída al decimosexto, y así sucesivamente, parece una sugerencia extraña para un enfoque generalmente adecuado.
Scortchi - Restablece a Monica