No estoy seguro de qué método usar para modelar la relación entre dos variables ( e ) en el experimento que se describe a continuación:y
- Hay 3 variables: , e . x y
- El valor de se establece al operar el experimento. Sin embargo, y no siempre son iguales. x x a i m
- Coeficiente de correlación de Pearson entre y es de aproximadamente 0,9. x
- El coeficiente de correlación de Pearson entre e y es mucho menor: aproximadamente 0,5.
- tiene un valor máximo posible ( y m a x ) que no se puede exceder.
- Cada punto de datos se obtiene después de establecer leer x e y .
Aunque el coeficiente de correlación de Pearson entre e y no es bueno, parece que y tiende a aumentar con x .
Después de hacer lineal simple regresiones de y x = g ( y ) (y la conversión de la última de nuevo como g - 1 , a fin de visualizar en el mismo gráfico como f por ejemplo), ambas pendientes son positivas, pero la pendiente de g - 1 es mayor que la de f .
¿Tiene sentido decir o x m a x = g ( y m a x ) ? ( x m a x se alcanzaría antes en el segundo caso).
Considerando que está limitado por y m a x , ¿qué se puede decir sobre el posible valor máximo de x que se podría alcanzar?
Según tengo entendido, tiene sentido hacer una regresión lineal de la forma cuando x es la variable independiente e y es la variable dependiente. Sin embargo, en este contexto, no estoy seguro de si tiene sentido considerar que x es independiente e y es dependiente.
¿Sería más apropiada una regresión total por mínimos cuadrados? ¿Existen otros métodos para determinar qué valores de se pueden alcanzar (y con qué probabilidad)?
(Si esto es importante, e y no parecen seguir una distribución normal, ya que se han hecho más intentos para tratar de alcanzar valores más altos de x ).
fuente
Respuestas:
Quiero secundar los puntos de @ King. Es muy intuitivo sospechar que la regresión de sobre x ('regresión directa') y la regresión de x sobre y ('regresión inversa') debería ser la misma. Sin embargo , esto no es cierto matemáticamente ni con respecto a cómo se relaciona la regresión con la situación que está analizando. Si traza y en el eje vertical de un gráfico yx en el eje horizontal, puede ver lo que está sucediendo. La regresión directa encuentra la línea que minimiza las distancias verticales entre los puntos de datos y la línea, mientras que la regresión inversa minimiza las distancias horizontales. La línea que minimiza el uno solo minimizará el otro siy x x y y x . Debe decidir qué quiere explicar y qué quiere usar para explicarlo. La respuesta a esa pregunta le da qué variable es y y x y especifica su modelo. Además, (nuevamente siguiendo a @King), no estoy de acuerdo con tratar de decir x m a x = f - 1 ( y m a x ) , por las mismas razones. rxy=1.0 y x xmax=f−1(ymax)
Con respecto al tema de una variable acotada, típicamente es concebible que la cantidad 'real' pueda aumentar, pero que simplemente no se puede medir. Por ejemplo, un termómetro externo fuera de mi ventana sube a 120, pero podría ser 140 afuera en algunos lugares, y solo tendría 120 como medida. Por lo tanto, la variable tendría un límite superior, pero lo que realmente quería pensar no lo hace. Si este es el caso, existen modelos tobit para tales situaciones.
Otro enfoque sería utilizar algo más robusto como loess, que puede ser perfectamente adecuado para sus necesidades.
fuente
Si es posible, mire los residuos y vea si puede sacar algo de él. Podría haber otra variable que olvidó; o puede ayudar a transformar sus variables.
fuente