¿Existe una prueba de hipótesis de si una variable dependiente distribuida normalmente está asociada con una variable distribuida direccionalmente ?
Por ejemplo, si la variable explicativa es la hora del día (y asumiendo que cosas como el día de la semana, el mes del año, etc. son irrelevantes), esa es la forma de tener en cuenta el hecho de que las 11 p.m. es 22 horas antes de la 1 a.m., y también 2 horas detrás de la 1 de la madrugada en una prueba de asociación? ¿Puedo probar si la hora continua del día explica la variable dependiente sin suponer que las 12:00 de la medianoche no siguen un minuto después de las 11:59 pm?
¿Esta prueba también se aplica a variables explicativas direccionales discretas ( ¿ modulares ?)? ¿O eso requiere una prueba por separado? Por ejemplo, cómo probar si la variable dependiente se explica por mes del año (suponiendo que el día y la estación del año, y el año o década específicos son irrelevantes). El mes de tratamiento del año ignora categóricamente el orden. Pero tratar el mes del año como una variable ordinal estándar (digamos Jan = 1 ... Dec = 12) ignora que enero llega dos meses después de noviembre.
Respuestas:
En general, creo que es más fructífero científica y estadísticamente comenzar haciendo una pregunta más amplia y diferente, que es hasta qué punto se puede predecir una respuesta de un predictor circular. Digo circular aquí en lugar de direccional , en parte porque este último incluye espacios esféricos y aún más fabulosos, que no se pueden cubrir en una sola respuesta; y en parte porque sus ejemplos, la hora del día y la época del año , son circulares. Otro ejemplo importante es la dirección de la brújula (relevante para vientos, movimientos de animales o humanos, alineaciones, etc.), que se presenta en muchos problemas circulares: de hecho, para algunos científicos es un punto de partida más obvio.
Siempre que pueda salirse con la suya, usar las funciones de seno y coseno del tiempo en algún tipo de modelo de regresión es un método de modelado simple y fácil de implementar. Es el primer puerto de escala para muchos ejemplos biológicos y / o ambientales. (Los dos tipos a menudo se mezclan, porque los fenómenos bióticos que muestran estacionalidad generalmente responden directa o indirectamente al clima o al clima).
Para concreción, imagine mediciones de tiempo de más de 24 horas o 12 meses, de modo que, por ejemplo,
cada uno describe un ciclo durante todo el día o año. Una prueba formal de no relación entre una respuesta medida o contada y algún tiempo circular sería una prueba estándar de si los coeficientes de seno y coseno son conjuntamente cero en un modelo lineal generalizado con seno y coseno como predictores, un vínculo apropiado y familia ser elegido de acuerdo con la naturaleza de la respuesta.
La cuestión de la distribución marginal de la respuesta (normal u otra) es secundaria en este enfoque y / o debe ser manejada por elección familiar.
El mérito de los senos y cosenos es, naturalmente, que son periódicos y se envuelven automáticamente, por lo que los valores al principio y al final de cada día o año son necesariamente uno y el mismo. No hay problema con las condiciones de contorno, porque no hay límite.
Este enfoque se ha denominado regresión circular, periódica, trigonométrica y de Fourier. Para una revisión introductoria del tutorial, vea aquí
En la práctica,
Tales pruebas generalmente muestran resultados abrumadoramente significativos a niveles convencionales siempre que esperamos estacionalidad. La pregunta más interesante es entonces la curva estacional precisa estimada, y si necesitamos un modelo más complicado con otros términos sinusoidales también.
Nada descarta también otros predictores, en cuyo caso simplemente necesitamos modelos más completos con otros predictores incluidos, digamos senos y cosenos para la estacionalidad y otros predictores para todo lo demás.
En algún momento, dependiendo de los datos, el problema y los gustos y la experiencia del investigador, puede ser más natural enfatizar el aspecto de la serie temporal del problema y construir un modelo con dependencia explícita del tiempo. De hecho, algunas personas con mentalidad estadística negarían que haya otra forma de abordarlo.
Lo que se denomina fácilmente tendencia (pero no siempre es tan fácil de identificar) se encuentra en el # 2 o # 3, o incluso en ambos.
Muchos economistas y otros científicos sociales preocupados por la estacionalidad en los mercados, las economías nacionales e internacionales u otros fenómenos humanos generalmente están más impresionados con las posibilidades de una variabilidad más complicada dentro de cada día o (más comúnmente) año. A menudo, aunque no siempre, la estacionalidad es una molestia que debe eliminarse o ajustarse, en contraste con los científicos biológicos y ambientales que con frecuencia consideran que la estacionalidad es interesante e importante, incluso el foco principal de un proyecto. Dicho esto, los economistas y otros también a menudo adoptan un enfoque de tipo de regresión, pero con municiones un conjunto de variables indicadoras (ficticias), más simplemente variables para cada mes o cada trimestre del año.0 , 1 . Esta puede ser una forma práctica de tratar de captar los efectos de las vacaciones nombradas, los períodos de vacaciones, los efectos secundarios de los años escolares, etc., así como las influencias o los choques de origen climático o climático. Con esas diferencias notadas, la mayoría de los comentarios anteriores también se aplican en economía y ciencias sociales.
Las actitudes y los enfoques de los epidemiólogos y estadísticos médicos preocupados por las variaciones en la morbilidad, la mortalidad, los ingresos hospitalarios, las visitas clínicas y similares, tienden a caer entre estos dos extremos.
En mi opinión, dividir días o años en mitades para comparar suele ser arbitrario, artificial y, en el mejor de los casos, incómodo. También está ignorando el tipo de estructura suave típicamente presente en los datos.
EDITAR La cuenta hasta ahora no aborda la diferencia entre tiempo discreto y continuo, pero desde mi experiencia no lo considero un gran problema en la práctica.
Pero las elecciones precisas dependen de cómo llegan los datos y del patrón de cambio.
Si los datos fueran trimestrales y humanos, tendería a utilizar variables indicadoras (por ejemplo, los trimestres 3 y 4 son a menudo diferentes). Si es mensual y humano, la elección no está clara, pero tendrías que trabajar duro para vender senos y cosenos a la mayoría de los economistas. Si es mensual o más fino y biológico o ambiental, definitivamente peca y cosenos.
EDITAR 2 Más detalles sobre regresión trigonométrica
Un detalle distintivo de la regresión trigonométrica (nombrada de cualquier otra manera si lo prefiere) es que casi siempre los términos seno y coseno se presentan mejor a un modelo en pares. Primero escalamos la hora del día, la hora del año o la dirección de la brújula para que se represente como un ángulo en el círculo en radianes, por lo tanto, en el intervalo . Luego usamos tantos pares como se necesitan en un modelo. (En las estadísticas circulares, las convenciones trigonométricas tienden a prevalecer sobre las convenciones estadísticas, de modo que los símbolos griegos como se usan para variables y parámetros).[ 0 , 2 π ] sen k θ , cos k θ , k = 1 , 2 , 3 , … θ , ϕ , ψθ [ 0 , 2 π] pecadok θ , cosk θ , k = 1 , 2 , 3 , ... θ , ϕ , ψ
Si ofrecemos un par de predictores como para un modelo similar a la regresión, entonces tenemos estimaciones de coeficientes, digamos , para términos en el modelo, a saber, . Esta es una forma de ajustar la fase y la amplitud de una señal periódica. En otras palabras, una función como puede reescribirse comob 1 , b 2 b 1 sin θ , b 2 cos θ sin ( θ + ϕ )pecadotheta , cosθ si1, b2 si1pecadoθ , b2cosθ pecado( θ + ϕ )
pero y representan la fase se estiman en el ajuste del modelo. De esa forma evitamos un problema de estimación no lineal.sin ϕcosϕ pecadoϕ
Si usamos para modelar la variación circular, entonces automáticamente el máximo y el mínimo de esa curva están separados por medio círculo. Esa es a menudo una muy buena aproximación de las variaciones biológicas o ambientales, pero a la inversa, bien podríamos necesitar varios términos más para captar la estacionalidad económica en particular. Esa podría ser una muy buena razón para usar variables indicadoras, que conducen inmediatamente a interpretaciones simples de los coeficientes.si1pecadoθ + b2cosθ
fuente
Aquí hay una opción sin distribución, ya que parece que eso es lo que estás buscando de todos modos. No es particular en el campo de las estadísticas circulares, de las cuales soy bastante ignorante, pero es aplicable aquí y en muchos otros entornos.
Ahora, realice una prueba utilizando el Criterio de Independencia de Hilbert Schmidt (HSIC), como en el siguiente documento:
Es decir:
Definir un núcleol Y Y Rn
El código de Matlab para llevar esto a cabo con los núcleos RBF está disponible desde el primer autor aquí .
Este enfoque es bueno porque es general y tiende a funcionar bien. Los principales inconvenientes son:
fuente
Puede ejecutar una prueba t entre la media de las "mitades" opuestas del período, por ejemplo, comparando el valor medio de 12 a.m. a 12 p.m. con el valor medio de 12 p.m. a 12 a.m. Y luego compare el valor medio de 6pm a 6am con el valor medio de 6am a 6pm.
O si tiene suficientes datos, puede dividir el período en segmentos más pequeños (por ejemplo, por hora) y realizar una prueba t entre cada par de segmentos, mientras corrige las comparaciones múltiples.
Alternativamente, para un análisis más "continuo" (es decir, sin segmentación arbitraria), puede ejecutar regresiones lineales contra las funciones seno y coseno de su variable direccional (con el período correcto), que "circularizará" automáticamente sus datos:
En cualquier caso, creo que debe hacer algunas suposiciones con respecto al período y luego probar en consecuencia.
fuente