¿Qué tipo de regresión usar, considerando una variable con límite superior?

9

No estoy seguro de qué método usar para modelar la relación entre dos variables ( e ) en el experimento que se describe a continuación:yxy

  • Hay 3 variables: , e . x yxaimxy
  • El valor de se establece al operar el experimento. Sin embargo, y no siempre son iguales. x x a i mxaimxxaim
  • Coeficiente de correlación de Pearson entre y es de aproximadamente 0,9. xxaimx
  • El coeficiente de correlación de Pearson entre e y es mucho menor: aproximadamente 0,5.xy
  • tiene un valor máximo posible ( y m a x ) que no se puede exceder.yymax
  • Cada punto de datos se obtiene después de establecer leer x e y .xaimxy

Aunque el coeficiente de correlación de Pearson entre e y no es bueno, parece que y tiende a aumentar con x .xyyx

Después de hacer lineal simple regresiones de y x = g ( y ) (y la conversión de la última de nuevo como g - 1 , a fin de visualizar en el mismo gráfico como f por ejemplo), ambas pendientes son positivas, pero la pendiente de g - 1 es mayor que la de f .y=f(x)x=g(y)g1fg1f

¿Tiene sentido decir o x m a x = g ( y m a x ) ? ( x m a x se alcanzaría antes en el segundo caso).xmax=f1(ymax)xmax=g(ymax)xmax

Considerando que está limitado por y m a x , ¿qué se puede decir sobre el posible valor máximo de x que se podría alcanzar?yymaxx

Según tengo entendido, tiene sentido hacer una regresión lineal de la forma cuando x es la variable independiente e y es la variable dependiente. Sin embargo, en este contexto, no estoy seguro de si tiene sentido considerar que x es independiente e y es dependiente.y=f(x)xyxy

¿Sería más apropiada una regresión total por mínimos cuadrados? ¿Existen otros métodos para determinar qué valores de se pueden alcanzar (y con qué probabilidad)?xmax

(Si esto es importante, e y no parecen seguir una distribución normal, ya que se han hecho más intentos para tratar de alcanzar valores más altos de x ).xyx

Bruno
fuente
¿Qué harás con esta relación, si la encuentras? ¿Probarás las hipótesis o simplemente te interesará cómo se ve? Si hay muchos puntos de datos, debe considerar modelos no lineales.
mpiktas
@mpiktas, en última instancia, me gustaría saber qué x_max es un objetivo razonable que podría intentar alcanzar de forma regular (no solo una vez), teniendo en cuenta que alcanzar o ir por encima de y_max hace que el experimento sea nulo (lo que implica efectivamente x = x_min por ese intento).
Bruno
La regresión total de mínimos cuadrados (o errores en variables) se indica cuando la varianza de vuelve considerable en comparación con la de y . La correlación del 90% con el objetivo x sugiere que la varianza de x puede ser lo suficientemente pequeña como para que pueda tratarse con seguridad como una variable independiente. Esto es algo que se puede comprobar después de la regresión comparando el RMSE de los residuos de x objetivo vs x para los RMSEs de residuos de y contra x aspirar . Si y max es un problema depende; si ve un límite superior en el diagrama de dispersión con x punteríaxyxaimxxaimxyxaimymaxxaimEs una consideración importante.
whuber

Respuestas:

4

Quiero secundar los puntos de @ King. Es muy intuitivo sospechar que la regresión de sobre x ('regresión directa') y la regresión de x sobre y ('regresión inversa') debería ser la misma. Sin embargo , esto no es cierto matemáticamente ni con respecto a cómo se relaciona la regresión con la situación que está analizando. Si traza y en el eje vertical de un gráfico yx en el eje horizontal, puede ver lo que está sucediendo. La regresión directa encuentra la línea que minimiza las distancias verticales entre los puntos de datos y la línea, mientras que la regresión inversa minimiza las distancias horizontales. La línea que minimiza el uno solo minimizará el otro siyxxyyx . Debe decidir qué quiere explicar y qué quiere usar para explicarlo. La respuesta a esa pregunta le da qué variable es y y x y especifica su modelo. Además, (nuevamente siguiendo a @King), no estoy de acuerdo con tratar de decir x m a x = f - 1 ( y m a x ) , por las mismas razones. rxy=1.0yxxmax=f1(ymax)

Con respecto al tema de una variable acotada, típicamente es concebible que la cantidad 'real' pueda aumentar, pero que simplemente no se puede medir. Por ejemplo, un termómetro externo fuera de mi ventana sube a 120, pero podría ser 140 afuera en algunos lugares, y solo tendría 120 como medida. Por lo tanto, la variable tendría un límite superior, pero lo que realmente quería pensar no lo hace. Si este es el caso, existen modelos tobit para tales situaciones.

Otro enfoque sería utilizar algo más robusto como loess, que puede ser perfectamente adecuado para sus necesidades.

gung - Restablece a Monica
fuente
Disculpas por la demora, no había notado tu respuesta. Tendré que leer sobre el modelo Tobit.
Bruno
No hay problema. Para obtener más información sobre la naturaleza de la regresión (frente a la regresión inversa), consulte aquí . Para obtener ayuda con la aplicación de la regresión tobit usando varios programas, intente aquí .
gung - Restablece a Monica
3

xmax=f1(ymax)xmax

xy

Si es posible, mire los residuos y vea si puede sacar algo de él. Podría haber otra variable que olvidó; o puede ayudar a transformar sus variables.

Rey
fuente