Casi todo lo que leo sobre regresión lineal y GLM se reduce a esto: donde es una función no creciente o no decreciente de y es el parámetro que usted estimar y probar hipótesis sobre. Hay docenas de funciones de enlace y transformaciones de y para hacer una función lineal de .f ( x , β ) y x y f ( x , β )
Ahora, si elimina el requisito que no aumenta / no disminuye para , conozco solo dos opciones para ajustar un modelo linealizado paramétrico: funciones trigonométricas y polinomios. Ambos crean una dependencia artificial entre cada predicho el conjunto completo de , lo que los convierte en un ajuste muy poco robusto a menos que existan razones previas para creer que sus datos realmente se generan por un proceso cíclico o polinómico.y X
Este no es un tipo de caso de borde esotérico. Es la relación real de sentido común entre el agua y el rendimiento de los cultivos (una vez que las parcelas son lo suficientemente profundas bajo el agua, los rendimientos de los cultivos comenzarán a disminuir), o entre las calorías consumidas en el desayuno y el rendimiento en un examen de matemáticas, o el número de trabajadores en una fábrica y la cantidad de widgets que producen ... en resumen, casi cualquier caso de la vida real para el que se usan modelos lineales, pero con los datos que cubren un rango lo suficientemente amplio como para pasar de rendimientos decrecientes a retornos negativos.
Intenté buscar los términos 'cóncavo', 'convexo', 'curvilíneo', 'no monótono', 'bañera', y olvidé cuántos otros. Pocas preguntas relevantes y aún menos respuestas utilizables. Entonces, en términos prácticos, si tuviera los siguientes datos (código R, y es una función de la variable continua xy del grupo de variables discretas):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Primero puede probar una transformación de Box-Cox y ver si tiene sentido mecanicista, y en su defecto, puede ajustar un modelo de mínimos cuadrados no lineales con una función de enlace logístico o asintótico.
Entonces, ¿por qué debería renunciar a los modelos paramétricos por completo y recurrir a un método de caja negra como splines cuando descubre que el conjunto de datos completo se ve así?
plot(y~x,updown,col=group);
Mis preguntas son:
- ¿Qué términos debo buscar para encontrar funciones de enlace que representen esta clase de relaciones funcionales?
o
- ¿Qué debo leer y / o buscar para enseñarme a mí mismo cómo diseñar funciones de enlace para esta clase de relaciones funcionales o extender las existentes que actualmente son solo para respuestas monótonas?
o
- ¡Diablos, incluso qué etiqueta de StackExchange es más apropiada para este tipo de preguntas!
R
código tiene errores de sintaxis:group
no debe citarse. (2) La trama es hermosa: los puntos rojos exhiben una relación lineal, mientras que los negros podrían ajustarse de varias maneras, incluida una regresión lineal por partes (obtenida con un modelo de punto de cambio) y posiblemente incluso como exponencial. Estoy no recomendar estos, sin embargo, porque las opciones de modelado debe ser informado por un entendimiento de lo producido los datos y motivado por las teorías en las disciplinas pertinentes. Podrían ser un mejor comienzo para su investigación.Respuestas:
Los comentarios en la pregunta sobre las funciones de enlace y la monotonicidad son una pista falsa. Subyacente parece ser una suposición implícita de que un modelo lineal generalizado (GLM), al expresar la expectativa de una respuesta como una función monotónica f de una combinación lineal X β de variables explicativas X , no es lo suficientemente flexible como para dar cuenta de Respuestas monótonas. Eso no es así.Y f Xβ X
Quizás un ejemplo trabajado iluminará este punto. En un estudio de 1948 (publicado póstumamente en 1977 y nunca revisado por pares), J. Tolkien informó los resultados de un experimento de riego de plantas en el que 13 grupos de 24 girasoles ( Helianthus Gondorensis ) recibieron cantidades controladas de agua a partir de la germinación durante tres meses. de crecimiento Las cantidades totales aplicadas variaron de una pulgada a 25 pulgadas en incrementos de dos pulgadas.
Hay una clara respuesta positiva al riego y una fuerte respuesta negativa al exceso de riego. El trabajo anterior, basado en modelos cinéticos hipotéticos de transporte de iones, había planteado la hipótesis de que dos mecanismos competitivos podrían explicar este comportamiento: uno resultó en una respuesta lineal a pequeñas cantidades de agua (como se mide en las probabilidades de supervivencia logarítmicas), mientras que el otro- -un factor inhibidor - actuó exponencialmente (que es un efecto fuertemente no lineal). Con grandes cantidades de agua, el factor inhibidor abrumaría los efectos positivos del agua y aumentaría considerablemente la mortalidad.
R
No hay dificultades técnicas; el cálculo lleva solo 1/30 de segundo.
R
Las respuestas a las preguntas son:
Ninguno : ese no es el propósito de la función de enlace.
Nada : esto se basa en un malentendido de cómo se modelan las respuestas.
Evidentemente, uno debe centrarse primero en qué variables explicativas usar o construir al construir un modelo de regresión. Como se sugiere en este ejemplo, busque orientación de la experiencia y la teoría pasadas.
fuente
Mira culpable la planta moribunda en su escritorio ... aparentemente no
En los comentarios, @whuber dice que "las opciones de modelado deben estar informadas por un entendimiento de lo que produjo los datos y motivado por las teorías en disciplinas relevantes", a lo que se preguntó cómo se hace esto.
La cinética de Michaelis y Menten es en realidad un ejemplo bastante útil. Esas ecuaciones pueden derivarse comenzando con algunos supuestos (por ejemplo, el sustrato está en equilibrio con su complejo, la enzima no se consume) y algunos principios conocidos (la ley de la acción de masas). Murray's Mathematical Biology: An Introduction explica la derivación del capítulo 6 (¡apuesto a que muchos otros libros también lo hacen!).
En términos más generales, ayuda a construir un "repertorio" de modelos y supuestos. Estoy seguro de que su campo tiene algunos modelos comúnmente aceptados y probados. Por ejemplo, si algo se está cargando o descargando, buscaría un exponencial para modelar su voltaje en función del tiempo. Por el contrario, si veo una forma exponencial en una gráfica de voltaje-tiempo, mi primera suposición sería que algo en el circuito se está descargando capacitivamente y, si no supiera qué es, trataría de encontrarlo. Idealmente, la teoría puede ayudarlo a construir el modelo y sugerir nuevos experimentos.
fuente
Tengo una respuesta bastante informal desde el punto de vista de alguien que pasó la mitad de su vida científica en el banco y la otra mitad en la computadora, jugando con las estadísticas. Traté de hacer un comentario, pero fue demasiado largo.
Verá, si fuera un científico observando el tipo de resultados que está obteniendo, estaría encantado. Las diversas relaciones monótonas son aburridas y apenas distinguibles. Sin embargo, el tipo de relación que nos muestra sugiere un efecto muy particular. Nos da un maravilloso campo de juego para el teórico para presentar hipótesis sobre cuál es la relación, cómo cambia en los extremos. Ofrece un gran campo de juego para que el científico de banco descubra lo que está sucediendo y experimente ampliamente sobre las condiciones.
En cierto sentido, prefiero tener el caso que está mostrando y no saber cómo ajustar un modelo simple (pero ser capaz de elaborar una nueva hipótesis) que tener una relación simple, fácil de modelar pero más difícil de investigar mecánicamente. Sin embargo, todavía no he encontrado un caso así en mi práctica.
Finalmente, hay una consideración más. Si está buscando una prueba que muestre que el negro es diferente del rojo (en sus datos), como ex científico de banco, le digo ¿por qué molestarse? Está bastante claro de la figura.
fuente
Para datos como ese, probablemente al menos estaría considerando splines lineales.
Puedes hacerlos en lm o glm fácilmente.
Si adopta este enfoque, su problema será elegir el número de nudos y las ubicaciones de los nudos; Una solución podría ser considerar un buen número de ubicaciones posibles y utilizar algo como el lazo u otros métodos de regularización y selección para identificar un conjunto pequeño; sin embargo, deberá tener en cuenta el efecto de dicha selección en la inferencia.
fuente
gam
en el paquete Rmgcv
.No tuve tiempo de leer toda su publicación, pero parece que su principal preocupación es que las formas funcionales de las respuestas pueden cambiar con los tratamientos. Existen técnicas para lidiar con esto, pero requieren muchos datos.
Para su ejemplo específico:
G es crecimiento W es agua T es tratamiento
La última década ha sido testigo de una gran cantidad de investigaciones sobre la regresión semiparamétrica, y estas discusiones sobre formas funcionales se están volviendo cada vez más manejables. Pero al final del día, las estadísticas juegan con los números, y solo son útiles en la medida en que desarrollan la intuición sobre los fenómenos bajo observación. Esto a su vez requiere comprender las formas en que se juegan los números. El tono de tu publicación indica que estás dispuesto a tirar al bebé con el agua del baño.
fuente