Digamos que estoy estudiando cómo los narcisos responden a diversas condiciones del suelo. He recopilado datos sobre el pH del suelo frente a la altura madura del narciso. Espero una relación lineal, así que hago una regresión lineal.
Sin embargo, cuando comencé mi estudio, no me di cuenta de que la población en realidad contiene dos variedades de narciso, cada una de las cuales responde de manera muy diferente al pH del suelo. Entonces el gráfico contiene dos relaciones lineales distintas:
Puedo mirarlo y separarlo manualmente, por supuesto. Pero me pregunto si hay un enfoque más riguroso.
Preguntas:
¿Existe una prueba estadística para determinar si un conjunto de datos se ajustaría mejor por una sola línea o por N líneas?
¿Cómo ejecutaría una regresión lineal para ajustar las N líneas? En otras palabras, ¿cómo desenredo los datos mezclados?
Puedo pensar en algunos enfoques combinatorios, pero parecen computacionalmente caros.
Aclaraciones:
La existencia de dos variedades era desconocida en el momento de la recopilación de datos. La variedad de cada narciso no se observó, no se observó y no se registró.
Es imposible recuperar esta información. Los narcisos han muerto desde el momento de la recopilación de datos.
Tengo la impresión de que este problema es algo similar a la aplicación de algoritmos de agrupación, ya que casi necesita saber la cantidad de agrupaciones antes de comenzar. Creo que con CUALQUIER conjunto de datos, aumentar el número de líneas disminuirá el error total de rms. En el extremo, puede dividir su conjunto de datos en pares arbitrarios y simplemente dibujar una línea a través de cada par. (Por ejemplo, si tuviera 1000 puntos de datos, podría dividirlos en 500 pares arbitrarios y dibujar una línea a través de cada par). El ajuste sería exacto y el error eficaz sería exactamente cero. Pero eso no es lo que queremos. Queremos el número "correcto" de líneas.
fuente
Respuestas:
Creo que la respuesta de Demetri es excelente si suponemos que tiene las etiquetas para las diferentes variedades. Cuando leí tu pregunta, ese no me pareció el caso. Podemos utilizar un enfoque basado en el algoritmo EM para ajustar básicamente el modelo que sugiere Demetri pero sin conocer las etiquetas de la variedad. Afortunadamente, el paquete mixtools en R nos proporciona esta funcionalidad. Dado que sus datos están bastante separados y parece que tiene bastante, debería ser bastante exitoso.
Podemos examinar los resultados
Entonces se ajustó a dos regresiones y estimó que el 49.7% de las observaciones cayeron en la regresión para el componente 1 y el 50.2% cayeron en la regresión para el componente 2. La forma en que simulé los datos fue una división 50-50, así que esto es bueno.
Los valores 'verdaderos' que utilicé para la simulación deberían dar las líneas:
y = 41.55 + 5.185 * ph e y = 65.14 + 1.48148 * ph
(que calculé 'a mano' de su gráfico para que los datos que creo se vean similares a los suyos) y las líneas que dio el algoritmo EM en este caso fueron:
y = 41.514 + 5.19 * ph e y = 64.655 + 1.55 * ph
Bastante cerca de los valores reales.
Podemos trazar las líneas ajustadas junto con los datos
fuente
EDITAR: Originalmente pensé que OP sabía qué observaciones provenían de qué especie. La edición de OP deja en claro que mi enfoque original no es factible. Lo dejaré para la posteridad, pero la otra respuesta es mucho mejor. Como consuelo, he codificado un modelo mixto en Stan. No digo que un enfoque bayesiano sea particularmente bueno en este caso, pero es algo interesante que puedo aportar.
Código Stan
Ejecute el modelo Stan desde R
Resultados
Las líneas discontinuas son la verdad fundamental, se estiman las líneas continuas.
Respuesta original
Si sabe qué muestra proviene de qué variedad de narciso, puede estimar una interacción entre la variedad y el pH del suelo.
Tu modelo se verá así
Aquí hay un ejemplo en R. He generado algunos datos que se ven así:
Claramente dos líneas diferentes, y las líneas corresponden a dos especies. Aquí se explica cómo estimar las líneas mediante regresión lineal.
Y el resultado es
Para las especies etiquetadas con 0, la línea es aproximadamente
Para las especies etiquetadas con 1, la línea es aproximadamente
fuente
El enfoque estadístico es muy similar a dos de las respuestas anteriores, pero trata un poco más sobre cómo elegir el número de clases latentes si carece de conocimiento previo. Puede usar criterios de información o parsimonia como guía para elegir el número de clases latentes.
Aquí hay un ejemplo de Stata que usa una secuencia de modelos de mezclas finitas (FMM) con 2-4 clases / componentes latentes. La primera tabla son los coeficientes para la membresía de clase latente. Estos son un poco difíciles de interpretar, pero se pueden convertir a probabilidades más adelante con
estat lcprob
. Para cada clase, también obtiene una intersección y un parámetro de pendiente de ph, seguido de probabilidades marginales de clase latente y dos circuitos integrados en la muestra. Estas estimaciones de coeficientes se interpretan como los coeficientes de un modelo de regresión lineal. Aquí, el BIC más pequeño de la muestra le indica que elija el modelo de dos componentes como el mejor. AIC extrañamente selecciona el modelo de 3 componentes. También puede usar circuitos integrados fuera de la muestra para seleccionar o usar validación cruzada.El enfoque FMM no siempre funcionará tan bien en la práctica si las clases son menos severas. Puede encontrar dificultades computacionales con demasiadas clases latentes, especialmente si no tiene suficientes datos o si la función de probabilidad tiene múltiples máximos locales.
fuente
Me centraré en la cuestión de la significación estadística, ya que Dason ya cubrió la parte de modelado.
No estoy familiarizado con ninguna prueba formal para esto (que estoy seguro de que existe), así que simplemente arrojaré algunas ideas (y probablemente agregaré el código R y los detalles técnicos más adelante).
Primero, es conveniente inferir las clases. Suponiendo que tiene dos líneas ajustadas a los datos, puede reconstruir aproximadamente las dos clases asignando cada punto a la clase de la línea más cercana. Para los puntos cerca de la intersección, se encontrará con problemas, pero por ahora simplemente ignórelos (puede haber una forma de evitar esto, pero por ahora solo espero que esto no cambie mucho).
Luego hay dos maneras naturales que veo a ir haciendo esto.
La manera más divertida de menos es que basta con ejecutar el conjunto de datos original combinado con las etiquetas de clase inferidos a través de una regresión lineal como en la respuesta de Demetri.
Una forma más interesante de hacerlo sería a través de una versión modificada del ANOVA. El punto es crear un conjunto de datos artificial que representa las dos líneas (con extensión similar entre ellos) y luego aplicar ANOVA. Técnicamente, es necesario hacer esto una vez por el lado izquierdo, y una vez por la derecha (es decir, tendrá dos conjuntos de datos artificiales).
fuente
¿Es posible que incluir ambos en el mismo gráfico sea un error? Dado que las variedades se comportan completamente diferentes, ¿hay algún valor en superponer los datos? Me parece que está buscando impactos en una especie de narciso, no los impactos de ambientes similares en diferentes narcisos. Si ha perdido los datos que ayudan a determinar la especie "A" de la especie "B", simplemente puede agrupar el comportamiento "A" y el comportamiento "B" e incluir el descubrimiento de dos especies en su narrativa. O, si realmente quiere un gráfico, simplemente use dos conjuntos de datos en el mismo eje. No tengo ni cerca la experiencia que veo en las otras respuestas dadas, así que tengo que encontrar métodos menos "calificados". Realizaría un análisis de datos en un entorno de hoja de trabajo donde las ecuaciones son más fáciles de desarrollar. Luego, una vez que las agrupaciones se vuelven obvias, cree las dos tablas de datos separadas y luego conviértalas en tablas / gráficos. Trabajo con una gran cantidad de datos y a menudo encuentro que mis suposiciones de diferentes correlaciones resultan incorrectas; eso es lo que se supone que los datos nos ayudan a descubrir. Una vez que me doy cuenta de que mis suposiciones son incorrectas, visualizo los datos en función de los comportamientos descubiertos y analizo esos comportamientos y los análisis estadísticos resultantes como parte de la narración.
fuente