Tengo algunos datos que se ajustan a lo largo de una línea aproximadamente lineal:
Cuando hago una regresión lineal de estos valores, obtengo una ecuación lineal:
En un mundo ideal, la ecuación debería ser .
Claramente, mis valores lineales están cerca de ese ideal, pero no exactamente. Mi pregunta es, ¿cómo puedo determinar si este resultado es estadísticamente significativo?
¿Es el valor de 0.997 significativamente diferente de 1? ¿Es -0.01 significativamente diferente de 0? ¿O son estadísticamente iguales y puedo concluir que con un nivel de confianza razonable?
¿Qué es una buena prueba estadística que puedo usar?
Gracias
Respuestas:
Este tipo de situación puede manejarse mediante una prueba F estándar para modelos anidados . Como desea probar ambos parámetros contra un modelo nulo con parámetros fijos, sus hipótesis son:
La prueba F implica ajustar ambos modelos y comparar su suma de cuadrados residuales, que son:
La estadística de prueba es:
El valor p correspondiente es:
Implementación en R: suponga que sus datos están en un marco de datos llamado
DATA
con variables llamadasy
yx
. La prueba F se puede realizar manualmente con el siguiente código. En los datos simulados simulados que he usado, puede ver que los coeficientes estimados son cercanos a los de la hipótesis nula, y el valor p de la prueba no muestra evidencia significativa para falsificar la hipótesis nula de que la verdadera función de regresión es Función de identidad.La
summary
salida yplot
para estos datos se ven así:fuente
sd = 2/sqrt(1+abs(x))
(encontré extraña la forma del bulbo central en el gráfico de OP y su imagen me hizo pensar, 'oh, no es tan extraño después de todo, debe ser la densidad', por lo que es un buen trabajo ) A lo que me refería es que agrega el error a la variable pero no a la variable . Supongo que esto es importante. En la práctica, cuando uno mide una relación teórica también puede haber algún error en la variable y uno debería ser capaz de falsificar dados los datos suficientes, pero lo que uno falsifica en realidad esAquí hay un método gráfico genial que creé del excelente libro de Julian Faraway "Modelos lineales con R (segunda edición)". Son intervalos de confianza simultáneos del 95% para la intersección y la pendiente, trazados como una elipse.
Por ejemplo, creé 500 observaciones con una variable "x" que tiene una distribución N (media = 10, sd = 5) y luego una variable "y" cuya distribución es N (media = x, sd = 2). Eso produce una correlación de poco más de 0.9 que puede no ser tan estricta como sus datos.
Puede verificar la elipse para ver si el punto (intersección = 0, pendiente = 1) cae dentro o fuera de ese intervalo de confianza simultáneo.
Creado el 21-01-2019 por el paquete reprex (v0.2.1)
fuente
Podría calcular los coeficientes con n muestras de arranque. Esto probablemente dará como resultado valores de coeficientes distribuidos normales (Teorema del límite central). Con eso, podría construir un intervalo de confianza (por ejemplo, 95%) con valores t (n-1 grados de libertad) alrededor de la media. Si su IC no incluye 1 (0), es estadísticamente significativo diferente o más preciso: puede rechazar la hipótesis nula de una pendiente igual.
fuente
fuente
Debe ajustar una regresión lineal y verificar los intervalos de confianza del 95% para los dos parámetros. Si el IC de la pendiente incluye 1 y el IC del desplazamiento incluye 0, la prueba de dos lados es insignificante aprox. en el nivel (95%) ^ 2, ya que usamos dos pruebas separadas, el riesgo de tipo I aumenta.
Usando R:
o usas
y calcule los 2 intervalos sigma usted mismo.
fuente