¿Los estadísticos suponen que no se puede regar en exceso una planta, o solo estoy usando los términos de búsqueda incorrectos para la regresión curvilínea?

18

Casi todo lo que leo sobre regresión lineal y GLM se reduce a esto: donde es una función no creciente o no decreciente de y es el parámetro que usted estimar y probar hipótesis sobre. Hay docenas de funciones de enlace y transformaciones de y para hacer una función lineal de .f ( x , β ) y x y f ( x , β )y=f(x,β)f(x,β)xβyxyf(x,β)

Ahora, si elimina el requisito que no aumenta / no disminuye para , conozco solo dos opciones para ajustar un modelo linealizado paramétrico: funciones trigonométricas y polinomios. Ambos crean una dependencia artificial entre cada predicho el conjunto completo de , lo que los convierte en un ajuste muy poco robusto a menos que existan razones previas para creer que sus datos realmente se generan por un proceso cíclico o polinómico.y Xf(x,β)yX

Este no es un tipo de caso de borde esotérico. Es la relación real de sentido común entre el agua y el rendimiento de los cultivos (una vez que las parcelas son lo suficientemente profundas bajo el agua, los rendimientos de los cultivos comenzarán a disminuir), o entre las calorías consumidas en el desayuno y el rendimiento en un examen de matemáticas, o el número de trabajadores en una fábrica y la cantidad de widgets que producen ... en resumen, casi cualquier caso de la vida real para el que se usan modelos lineales, pero con los datos que cubren un rango lo suficientemente amplio como para pasar de rendimientos decrecientes a retornos negativos.

Intenté buscar los términos 'cóncavo', 'convexo', 'curvilíneo', 'no monótono', 'bañera', y olvidé cuántos otros. Pocas preguntas relevantes y aún menos respuestas utilizables. Entonces, en términos prácticos, si tuviera los siguientes datos (código R, y es una función de la variable continua xy del grupo de variables discretas):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Gráfico de dispersión

Primero puede probar una transformación de Box-Cox y ver si tiene sentido mecanicista, y en su defecto, puede ajustar un modelo de mínimos cuadrados no lineales con una función de enlace logístico o asintótico.

Entonces, ¿por qué debería renunciar a los modelos paramétricos por completo y recurrir a un método de caja negra como splines cuando descubre que el conjunto de datos completo se ve así?

plot(y~x,updown,col=group);

Mis preguntas son:

  • ¿Qué términos debo buscar para encontrar funciones de enlace que representen esta clase de relaciones funcionales?

o

  • ¿Qué debo leer y / o buscar para enseñarme a mí mismo cómo diseñar funciones de enlace para esta clase de relaciones funcionales o extender las existentes que actualmente son solo para respuestas monótonas?

o

  • ¡Diablos, incluso qué etiqueta de StackExchange es más apropiada para este tipo de preguntas!
f1r3br4nd
fuente
44
No tengo idea de lo que estás preguntando. Desea ajustar una función no monotónica de ... ¿cuál es exactamente su problema con la regresión polinómica o la regresión sinusoidal de nuevo? Además ... "función de enlace" ... sigues usando esa palabra ... No creo que signifique lo que crees que significa. x
Jake Westfall
55
(1) Su Rcódigo tiene errores de sintaxis: groupno debe citarse. (2) La trama es hermosa: los puntos rojos exhiben una relación lineal, mientras que los negros podrían ajustarse de varias maneras, incluida una regresión lineal por partes (obtenida con un modelo de punto de cambio) y posiblemente incluso como exponencial. Estoy no recomendar estos, sin embargo, porque las opciones de modelado debe ser informado por un entendimiento de lo producido los datos y motivado por las teorías en las disciplinas pertinentes. Podrían ser un mejor comienzo para su investigación.
whuber
1
@whuber gracias! Se arregló el código. En cuanto a la motivación teórica: ¿de dónde provienen estos en primer lugar? Mis colaboradores científicos de banco dicotomizarán felizmente las variables predictoras y harán pruebas t en ellas. Por lo tanto, me corresponde encontrar una manera de detener el desperdicio de datos al encontrar una relación matemática que capture la transición de "y se correlaciona positivamente con x" a "y tiene poca respuesta a x" a "y se correlaciona negativamente con x". De lo contrario, tendré que recapitular lo que, por ejemplo, hicieron Michaelis y Menten cuando encontraron una relación entre enzima, sustrato y producto.
f1r3br4nd
1
¿Se conocen de antemano los puntos en que esas cosas se 'tuercen'?
Glen_b -Reinstate Monica
3
+1 por el título provocativo y un seguimiento que realmente tiene sentido
Stumpy Joe Pete

Respuestas:

45

Los comentarios en la pregunta sobre las funciones de enlace y la monotonicidad son una pista falsa. Subyacente parece ser una suposición implícita de que un modelo lineal generalizado (GLM), al expresar la expectativa de una respuesta como una función monotónica f de una combinación lineal X β de variables explicativas X , no es lo suficientemente flexible como para dar cuenta de Respuestas monótonas. Eso no es así.YfXβX


Quizás un ejemplo trabajado iluminará este punto. En un estudio de 1948 (publicado póstumamente en 1977 y nunca revisado por pares), J. Tolkien informó los resultados de un experimento de riego de plantas en el que 13 grupos de 24 girasoles ( Helianthus Gondorensis ) recibieron cantidades controladas de agua a partir de la germinación durante tres meses. de crecimiento Las cantidades totales aplicadas variaron de una pulgada a 25 pulgadas en incrementos de dos pulgadas.

Figura 1

Hay una clara respuesta positiva al riego y una fuerte respuesta negativa al exceso de riego. El trabajo anterior, basado en modelos cinéticos hipotéticos de transporte de iones, había planteado la hipótesis de que dos mecanismos competitivos podrían explicar este comportamiento: uno resultó en una respuesta lineal a pequeñas cantidades de agua (como se mide en las probabilidades de supervivencia logarítmicas), mientras que el otro- -un factor inhibidor - actuó exponencialmente (que es un efecto fuertemente no lineal). Con grandes cantidades de agua, el factor inhibidor abrumaría los efectos positivos del agua y aumentaría considerablemente la mortalidad.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

No hay dificultades técnicas; el cálculo lleva solo 1/30 de segundo.

Figura 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Las respuestas a las preguntas son:

¿Qué términos debo buscar para encontrar funciones de enlace que representen esta clase de relaciones funcionales?

Ninguno : ese no es el propósito de la función de enlace.

¿Qué debería ... buscar para ... ampliar las [funciones de enlace] existentes que actualmente son solo para respuestas monótonas?

Nada : esto se basa en un malentendido de cómo se modelan las respuestas.

Evidentemente, uno debe centrarse primero en qué variables explicativas usar o construir al construir un modelo de regresión. Como se sugiere en este ejemplo, busque orientación de la experiencia y la teoría pasadas.

whuber
fuente
increíble respuesta! ¿Son estos datos reales tolkien de la novela?
Cam.Davidson.Pilon
1
@Cam Los datos no llegaron al corte final :-). (El contexto es bastante irónico, me temo).
Whuber
1
@whuber Gran respuesta whuber! Cualquier sugerencia sobre cómo se obtendría el error estándar o la distribución deκ
55
κκχ2(1)
1
@zipzapboing El ejemplo que doy aquí es especial porque fue informado por una teoría subyacente. Cuando dicha información está disponible, puede ser una guía poderosa para seleccionar un modelo. Sin embargo, en muchos casos no existe dicha información, o solo se espera que la respuesta esperada varíe monotónicamente con los regresores. Quizás la razón más fundamental a la que uno podría apuntar es la esperanza de que la respuesta varíe de manera diferente con los regresores y que, para el rango de regresores en los datos, el cambio en la derivada sea pequeño: una respuesta lineal se aproximaría muy bien.
whuber
9

Mira culpable la planta moribunda en su escritorio ... aparentemente no

En los comentarios, @whuber dice que "las opciones de modelado deben estar informadas por un entendimiento de lo que produjo los datos y motivado por las teorías en disciplinas relevantes", a lo que se preguntó cómo se hace esto.

La cinética de Michaelis y Menten es en realidad un ejemplo bastante útil. Esas ecuaciones pueden derivarse comenzando con algunos supuestos (por ejemplo, el sustrato está en equilibrio con su complejo, la enzima no se consume) y algunos principios conocidos (la ley de la acción de masas). Murray's Mathematical Biology: An Introduction explica la derivación del capítulo 6 (¡apuesto a que muchos otros libros también lo hacen!).

En términos más generales, ayuda a construir un "repertorio" de modelos y supuestos. Estoy seguro de que su campo tiene algunos modelos comúnmente aceptados y probados. Por ejemplo, si algo se está cargando o descargando, buscaría un exponencial para modelar su voltaje en función del tiempo. Por el contrario, si veo una forma exponencial en una gráfica de voltaje-tiempo, mi primera suposición sería que algo en el circuito se está descargando capacitivamente y, si no supiera qué es, trataría de encontrarlo. Idealmente, la teoría puede ayudarlo a construir el modelo y sugerir nuevos experimentos.

y=k(x+h)2CO2 captura de menos transpiración?) e inundación (¿bacterias que comen las raíces?) podría sugerir una forma específica para cada pieza.

Matt Krause
fuente
8

Tengo una respuesta bastante informal desde el punto de vista de alguien que pasó la mitad de su vida científica en el banco y la otra mitad en la computadora, jugando con las estadísticas. Traté de hacer un comentario, pero fue demasiado largo.

Verá, si fuera un científico observando el tipo de resultados que está obteniendo, estaría encantado. Las diversas relaciones monótonas son aburridas y apenas distinguibles. Sin embargo, el tipo de relación que nos muestra sugiere un efecto muy particular. Nos da un maravilloso campo de juego para el teórico para presentar hipótesis sobre cuál es la relación, cómo cambia en los extremos. Ofrece un gran campo de juego para que el científico de banco descubra lo que está sucediendo y experimente ampliamente sobre las condiciones.

En cierto sentido, prefiero tener el caso que está mostrando y no saber cómo ajustar un modelo simple (pero ser capaz de elaborar una nueva hipótesis) que tener una relación simple, fácil de modelar pero más difícil de investigar mecánicamente. Sin embargo, todavía no he encontrado un caso así en mi práctica.

Finalmente, hay una consideración más. Si está buscando una prueba que muestre que el negro es diferente del rojo (en sus datos), como ex científico de banco, le digo ¿por qué molestarse? Está bastante claro de la figura.

enero
fuente
5

Para datos como ese, probablemente al menos estaría considerando splines lineales.

Puedes hacerlos en lm o glm fácilmente.

Si adopta este enfoque, su problema será elegir el número de nudos y las ubicaciones de los nudos; Una solución podría ser considerar un buen número de ubicaciones posibles y utilizar algo como el lazo u otros métodos de regularización y selección para identificar un conjunto pequeño; sin embargo, deberá tener en cuenta el efecto de dicha selección en la inferencia.

Glen_b -Reinstate a Monica
fuente
Pero, ¿no es la regresión spline básicamente decir "hay una función desconocida que describe la forma de la respuesta y solo probaremos hipótesis sobre cómo las otras variables desplazan esta curva hacia arriba / abajo o la inclinan"? ¿Qué sucede si un tratamiento altera la forma en sí misma? ¿Cómo interpreta uno de esos términos de interacción si es significativo?
f1r3br4nd
2
¿Qué tan general es la alternativa? Incluso para el caso general, hay una variedad de enfoques en los que puede hacer una comparación del ajuste asumiendo funciones no paramétricas idénticas frente a funciones separadas. Los modelos aditivos y los modelos aditivos generalizados pueden manejar tales comparaciones.
Glen_b -Reinstate Monica
Como ejemplo de un caso más general del que usted discute (con referencias que discuten una variedad de otros enfoques), si puede obtenerlo, eche un vistazo a este documento J.Roca-Pardiñas et al (2006) "Basado en Bootstrap métodos para probar las interacciones factor por curva en modelos aditivos generalizados: evaluar la actividad neuronal de la corteza prefrontal relacionada con la toma de decisiones ", Estadísticas en Medicina , 30 de julio; 25 (14): 2483-501. En ese documento usan bootstrapping (y binning para reducir la carga computacional), pero hay otros enfoques mencionados allí.
Glen_b -Reinstalar Monica
Una referencia más básica y antigua sería algo así como Hastie y Tibshirani (1990), Modelos aditivos generalizados (por ejemplo, ver p265). También, echar un vistazo aquí , en concreto, la última ecuación en la diapositiva 34. Por allí también explica cómo encajar un modelo de este tipo usando gamen el paquete R mgcv.
Glen_b -Reinstate Monica
2

No tuve tiempo de leer toda su publicación, pero parece que su principal preocupación es que las formas funcionales de las respuestas pueden cambiar con los tratamientos. Existen técnicas para lidiar con esto, pero requieren muchos datos.
Para su ejemplo específico:

G es crecimiento W es agua T es tratamiento

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

La última década ha sido testigo de una gran cantidad de investigaciones sobre la regresión semiparamétrica, y estas discusiones sobre formas funcionales se están volviendo cada vez más manejables. Pero al final del día, las estadísticas juegan con los números, y solo son útiles en la medida en que desarrollan la intuición sobre los fenómenos bajo observación. Esto a su vez requiere comprender las formas en que se juegan los números. El tono de tu publicación indica que estás dispuesto a tirar al bebé con el agua del baño.

genérico_usuario
fuente