Tengo un conjunto de datos, y x . Me gustaría probar la siguiente hipótesis: hay un pico en y ; es decir, a medida que x aumenta, y primero aumenta y luego disminuye.
Mi primera idea fue ajustar y x 2 en una SLR. Es decir, si encuentro que el coeficiente antes de x es significativamente positivo y el coeficiente antes de x 2 es significativamente negativo, entonces tengo apoyo para la hipótesis. Sin embargo, esto solo busca un tipo de relación (cuadrática) y no necesariamente captura la existencia del pico.
Entonces pensé en encontrar , una región de (valores ordenados de) x , que b está entre a y c , otras dos regiones de x que contienen al menos tantos puntos como b , y que ¯ y b > ¯ y a y ¯ y b > ¯ y c significativamente. Si la hipótesis es cierta, deberíamos esperar muchas de esas regiones b . Por lo tanto, si el número de b es lo suficientemente grande, debe existir apoyo para la hipótesis.
¿Crees que estoy en el camino correcto para encontrar una prueba adecuada para mi hipótesis? ¿O estoy inventando la rueda y hay un método establecido para este problema? Le agradeceré mucho su aporte.
ACTUALIZAR. Mi variable dependiente es count (entero no negativo).
fuente
Respuestas:
Estaba pensando en la idea de suavizar también. Pero hay un área entera llamada metodología de superficie de respuesta que busca picos en datos ruidosos (implica principalmente el uso de ajustes cuadráticos locales a los datos) y había un famoso artículo que recuerdo con "Bump hunting" en el título. Aquí hay algunos enlaces a libros sobre metodología de superficie de respuesta. Los libros de Ray Myer están particularmente bien escritos. Trataré de encontrar el papel de caza de golpes.
Metodología de superficie de respuesta: optimización de procesos y productos mediante experimentos diseñados
Metodología de superficie de respuesta y temas relacionados
Metodología de superficie de respuesta
Construcción de modelos empíricos y superficies de respuesta
Aunque no es el artículo que estaba buscando, aquí hay un artículo muy relevante de Jerry Friedman y Nick Fisher que trata estas ideas aplicadas a datos de alta dimensión.
Aquí hay un artículo con algunos comentarios en línea.
Así que espero que al menos aprecies mi respuesta. Creo que sus ideas son buenas y están en el camino correcto, pero sí, creo que podría estar reinventando la rueda y espero que usted y otros vean estas excelentes referencias.
fuente
Aunque no haya respondido a mi pregunta, si creo que es correcto, está buscando una prueba de ruido blanco que se encuentre en el dominio de la frecuencia para mostrar que el espectro es plano. Por lo tanto, podría usarse la prueba del periodograma de Fisher que en esta referencia se llama kappa de Fisher. Ver el enlace.
http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf
La prueba de Bartlett también se menciona en la referencia. Ahora, rechazar la hipótesis nula equivale a encontrar un pico significativo en el periodograma. Esto significaría que existe un componente periódico en la serie de tiempo.
Debido a que la prueba está en el dominio de la frecuencia e involucra ordenadas de periodograma, las ordenadas tienen una distribución de chi cuadrado 2 bajo la hipótesis nula y son independientes. Esta distribución especial se produce solo por la transformación al dominio de frecuencia. Si x fuera el tiempo, esto no funcionaría en el dominio del tiempo o, en general, la distribución de las ys no sería chi cuadrado independiente.
fuente