¿Hay algún paquete para hacer una regresión lineal por partes que pueda detectar los múltiples nudos automáticamente? Gracias. Cuando uso el paquete strucchange. No pude detectar los puntos de cambio. No tengo idea de cómo detecta los puntos de cambio. De las parcelas, pude ver que hay varios puntos que quiero que me ayuden a elegirlos. ¿Alguien podría dar un ejemplo aquí?
regression
change-point
Honglang Wang
fuente
fuente
segmented
paquete es lo que estás buscando.segmented
paquete de R : stackoverflow.com/a/18715116/857416Respuestas:
¿ Sería aplicable MARS ? R tiene el paquete
earth
que lo implementa.fuente
En general, es un poco extraño querer ajustar algo como lineal por partes. Sin embargo, si realmente desea hacerlo, entonces el algoritmo MARS es el más directo. Desarrollará una función un nudo a la vez; y luego generalmente elimina el número de nudos para combatir los árboles de decisión de ala demasiado ajustados. Puede acceder al algoritmo MARS en R mediante
earth
omda
. En general, se ajusta al GCV que no está tan alejado del otro criterio de información (AIC, BIC, etc.)MARS realmente no le dará un ajuste "óptimo" ya que los nudos crecen uno a la vez. Realmente sería bastante difícil ajustar un número de nudos verdaderamente "óptimo" ya que las posibles permutaciones de la colocación de nudos explotarían rápidamente.
En general, esta es la razón por la cual las personas recurren a suavizar las estrías. La mayoría de las estrías de suavizado son cúbicas solo para que puedas engañar a un ojo humano para que no vea las discontinuidades. Sin embargo, sería bastante posible hacer una spline de suavizado lineal. La gran ventaja de suavizar splines es su único parámetro para optimizar. Eso le permite llegar rápidamente a una solución verdaderamente "óptima" sin tener que buscar entre permutaciones. Sin embargo, si realmente desea buscar puntos de inflexión y tiene suficientes datos para hacerlo, entonces algo como MARS probablemente sea su mejor opción.
Aquí hay un código de ejemplo para splines de suavizado lineal penalizado en R:
Sin embargo, los nudos reales elegidos no se correlacionarán necesariamente con ningún punto de inflexión verdadero.
fuente
Lo programé desde cero una vez hace unos años, y tengo un archivo Matlab para hacer una regresión lineal por partes en mi computadora. Alrededor de 1 a 4 puntos de interrupción son computacionalmente posibles para aproximadamente 20 puntos de medición más o menos. 5 o 7 puntos de quiebre comienzan a ser realmente demasiado.
El enfoque matemático puro, como lo veo, es probar todas las combinaciones posibles sugeridas por el usuario mbq en la pregunta vinculada en el comentario debajo de su pregunta.
Como las líneas ajustadas son todas consecutivas y adyacentes (sin superposiciones), la combinatoria seguirá el triángulo de Pascal. Si hubiera superposiciones entre los puntos de datos usados por los segmentos de línea, creo que la combinatoria seguiría los números de Stirling del segundo tipo.
La mejor solución en mi mente es elegir la combinación de líneas ajustadas que tenga la desviación estándar más baja de los valores de correlación R ^ 2 de las líneas ajustadas. Trataré de explicar con un ejemplo. Sin embargo, tenga en cuenta que preguntar cuántos puntos de ruptura se deben encontrar en los datos es similar a hacer la pregunta "¿Cuánto dura la costa de Gran Bretaña?" como en uno de los documentos de Benoit Mandelbrots (matemático) sobre fractales. Y existe una compensación entre el número de puntos de ruptura y la profundidad de regresión.
Ahora al ejemplo.
These y values have the graph:
Which clearly has two break points. For the sake of argument we will calculate the R^2 correlation values (with the Excel cell formulas (European dot-comma style)):
for all possible non-overlapping combinations of two fitted lines. All the possible pairs of R^2 values have the graph:
The question is which pair of R^2 values should we choose, and how do we generalize to multiple break points as asked in the title? One choice is to pick the combination for which the sum of the R-square correlation is the highest. Plotting this we get the upper blue curve below:
The blue curve, the sum of the R-squared values, is the highest in the middle. This is more clearly visible from the table with the value1,0455 as the highest value.
However it is my opinion that the minimum of the red curve is more accurate. That is, the minimum of the standard deviation of the R^2 values of the fitted regression lines should be the best choice.
Piece wise linear regression - Matlab - multiple break points
fuente
There is a pretty nice algorithm described in Tomé and Miranda (1984).
The code and a GUI are available in both Fortran and IDL from their website: http://www.dfisica.ubi.pt/~artome/linearstep.html
fuente
... first of all you must to do it by iterations, and under some informative criterion, like AIC AICc BIC Cp; because you can get an "ideal" fit, if number of knots K = number od data points N, ok. ... first put K = 0; estimate L = K + 1 regressions, calculate AICc, for instance; then assume minimal number of data points at a separate segment, say L = 3 or L = 4, ok ... put K = 1; start from L-th data as the first knot, calculate SS or MLE, ... and step by step the next data point as a knot, SS or MLE, up to the last knot at the N - L data; choose the arrangement with the best fit (SS or MLE) calculate AICc ... ... put K = 2; ... use all previous regressions (that is their SS or MLE), but step by step divide a single segment into all possible parts ... choose the arrangement with the best fit (SS or MLE) calculate AICc ... if the last AICc occurs greater then the previous one: stop the iterations ! This is an optimal solution under AICc criterion, ok
fuente
I once came across a program called Joinpoint. On their website they say it fits a joinpoint model where "several different lines are connected together at the 'joinpoints'". And further: "The user supplies the minimum and maximum number of joinpoints. The program starts with the minimum number of joinpoint (e.g. 0 joinpoints, which is a straight line) and tests whether more joinpoints are statistically significant and must be added to the model (up to that maximum number)."
The NCI uses it for trend modelling of cancer rates, maybe it fits your needs as well.
fuente
In order to fit to data a piecewise function :
wherea1,a2,p1,q1,p2,q2,p3,q3 are unknown parameters to be approximately computed, there is a very simple method (not iterative, no initial guess, easy to code in any math computer language). The theory given page 29 in paper : https://fr.scribd.com/document/380941024/Regression-par-morceaux-Piecewise-Regression-pdf and from page 30 :
For example, with the exact data provided by Mats Granvik the result is :
Without scattered data, this example is not very signifiant. Other examples with scattered data are shown in the referenced paper.
fuente
You can use the
mcp
package if you know the number of change points to infer. It gives you great modeling flexibility and a lot of information about the change points and regression parameters, but at the cost of speed.The mcp website contains many applied examples, e.g.,
Then you can visualize:
Or summarise:
Disclaimer: I am the developer of mcp.
fuente