Regresión basada, por ejemplo, en días de la semana.

11

Necesito un poco de ayuda para avanzar en la dirección correcta. Ha pasado mucho tiempo desde que estudié las estadísticas y la jerga parece haber cambiado.

Imagine que tengo un conjunto de datos relacionados con el automóvil, como

  • Tiempo de viaje del pueblo A al pueblo B
  • Distancia del pueblo A al pueblo B
  • Tamaño de la maquina
  • Talla del zapato del conductor
  • Marca y modelo de auto
  • Día de la semana

Quiero predecir el tiempo de viaje.

Me imagino que hay una fuerte correlación entre el tiempo y la distancia y probablemente una más débil con el tamaño del motor (y ninguna con el tamaño del zapato). Presumiblemente, el análisis de regresión múltiple / ANOVA es la herramienta a utilizar. Pero, ¿cómo incluyo el día de la semana, ya que simplemente codificarlo como domingo = 1, lunes = 2, etc. se siente muy mal?

Habiendo usado la herramienta de regresión de Excel, por ejemplo, ¿cómo interpreto los resultados? Presumiblemente, si R está cerca de 1, esto es bueno (aunque si hay muchos elementos de datos, parece que puede ser pequeño y aún así ser significativo). Pero algunas fuentes se refieren a r-cuadrado que parece ser el SD, por lo que un valor cercano a cero es bueno. También muestra t Stat, P-value, F y Significance F, cualesquiera que sean. ¿Alguien puede recomendar una buena fuente de referencia?

Una tierra
fuente
2
Para el registro, estas preguntas (sobre la interpretación de la salida de regresión) se han hecho en otro hilo aquí , pero la pregunta fue tan mal formulada que no obtuvo buenas respuestas. Esta es una pregunta fundamental que merece una respuesta "canónica" que sea elemental pero completa, clara y bien explicada.
whuber

Respuestas:

26

Lo que necesita es una revisión sólida de la metodología de regresión. Sin embargo, estas preguntas son lo suficientemente básicas (no lo tome de la manera incorrecta) que incluso una buena descripción general de las estadísticas básicas probablemente lo beneficiaría. Howell ha escrito un libro de texto muy popular que proporciona una base conceptual amplia sin requerir matemáticas densas. Bien puede valer la pena leerlo. No es posible cubrir todo ese material aquí. Sin embargo, puedo tratar de ayudarlo a comenzar con algunas de sus preguntas específicas.

Primero, los días de la semana se incluyen a través de un esquema de codificación. La más popular es la codificación de 'categoría de referencia' (típicamente llamada codificación ficticia). Imaginemos que sus datos están representados en una matriz, con sus casos en filas y sus variables en columnas. En este esquema, si tuviera 7 variables categóricas (por ejemplo, para los días de la semana) agregaría 6 nuevas columnas. Elegiría un día como categoría de referencia, generalmente el que se considera el predeterminado. A menudo esto se basa en la teoría, el contexto o la pregunta de investigación. No tengo idea de cuál sería el mejor para los días de la semana, pero tampoco importa mucho, puedes elegir uno viejo. Una vez que tenga la categoría de referencia, puede asignar las otras a sus nuevas 6 variables, luego simplemente indique si esa variable se obtiene para cada caso. Por ejemplo, supongamos que elige el domingo como categoría de referencia, sus nuevas columnas / variables serían de lunes a sábado. Cada observación que tuvo lugar un lunes se indicaría con un1010

Ha pasado mucho tiempo desde que vi cómo Excel hace estadísticas, y no lo recuerdo muy claramente, por lo que alguien más puede ayudarlo más allí. Esta página parece tener información sobre los detalles de la regresión en Excel. Puedo contarles un poco más sobre las estadísticas que generalmente se informan en la salida de regresión:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) está muy sesgado en la regresión múltiple. Es decir, cuantos más predictores agregue a su modelo, más altas serán estas estadísticas, ya sea que haya alguna relación o no. Por lo tanto, debe tener cuidado al interpretarlos.
  • tF
  • p
  • tFpF1F
  • FF

Un último punto que vale la pena destacar es que este proceso no puede separarse de su contexto. Para hacer un buen trabajo de análisis de datos, debe tener en cuenta sus conocimientos previos y la pregunta de investigación. Aludí a esto anteriormente con respecto a la elección de la categoría de referencia. Por ejemplo, observa que el tamaño del zapato no debería ser relevante, ¡pero para los Picapiedra probablemente lo fue! Solo quiero incluir este hecho, porque a menudo parece ser olvidado.

gung - Restablece a Monica
fuente
55
(+1) Excel en realidad puede hacer regresión múltiple y tiene un comando capaz de producir una tabla de resumen estándar. Dada su tendencia histórica a ser (muy) descuidada con el cálculo de los valores de distribución, la capacidad tiene que ser vista como el perro de Samuel Johnson : "... un perro camina sobre sus patas traseras. No está bien; pero le sorprende descubrir que hecho en absoluto ".
whuber
3

Termina con muchas preguntas que requieren regresión de "enseñanza". Permítanme decir que mayor R ^ 2 es mejor pero hay advertencias. R ^ 2 siempre sube a medida que agrega variables para que pueda inflarlo artificialmente. Mire las pruebas de significancia, los diagnósticos residuales, etc. Con respecto al día de la semana, lunes = 1, martes = 2, etc. no sería el camino a seguir. Lo que desea son variables indicadoras estacionales: 0/1 si es lunes, 0/1 si es martes, etc.

Tejón
fuente