¿Qué son los "valores iniciales" en la función glm ()?

12

¿Cuáles son los parámetros start, etastart, mustarten la función de GLM () ? He estado buscando en los documentos e Internet, pero no he encontrado una explicación clara de lo que esto significa.

Se parece a los "valores iniciales" bayesianos para las cadenas, pero dudo que esto esté relacionado, ya que la función glm () en R es estadística frecuente ...

Curioso
fuente

Respuestas:

10

Solo tiene que ver con la técnica de estimación: cómo se llega a un conjunto de estimaciones para los parámetros del modelo. Un modelo lineal generalizado se ajusta mediante mínimos cuadrados iterativamente ponderados. Se elige un conjunto arbitrario de pesos para comenzar (a menudo todos iguales para comenzar), luego se eligen estimaciones de los parámetros en el predictor lineal que minimizan la suma ponderada de los cuadrados de los residuos. Esos parámetros estimados en el predictor lineal se usan para estimar un nuevo vector de medias. De esto se deriva un nuevo conjunto de ponderaciones, por ejemplo, dependiendo de qué familia y función de enlace se esté utilizando, la varianza de la respuesta podría ser proporcional a la media de la respuesta, por lo que las ponderaciones serán inversamente proporcionales a la media. Este nuevo conjunto de pesos se utiliza en una nueva iteración de todo el procedimiento.

Entonces, los tres argumentos para glm () sobre los que ha preguntado son solo formas para que el usuario comience el procedimiento en algún punto arbitrario en lugar de permitirle elegir su propio punto de inicio predeterminado. Desde el archivo de ayuda que vinculó a:

  • inicio: valores iniciales para los parámetros en el predictor lineal.
  • etastart: valores iniciales para el predictor lineal.
  • mustart: valores iniciales para el vector de medias.
Peter Ellis
fuente
Gracias Peter! ¡Se parece completamente al procedimiento bayesiano de MCMC! Pensé que los paquetes frecuentes son más inteligentes y no funcionan de esa manera :-) Esto es lo que me confundía ... por qué demonios hay algo así como valores iniciales en el paquete frecuente :-)
Curioso
1
A veces, sin valores iniciales, puede fallar en la convergencia, o converger en un máximo local que no es una solución globalmente óptima. Por lo tanto, es bueno tener la opción de probar diferentes valores iniciales.
Peter Ellis
Empiezo a tener la sensación de que incluso glm()es bayesiano :-)
Curioso el
44
@Curious No es particularmente bayesiano. Todo lo que pide es que el paquete de software encuentre un punto particular a través de una técnica de búsqueda. Los valores iniciales solo le dicen por dónde comenzar: no da un peso particular a esa respuesta, pero puede ayudar si está deambulando por un espacio complicado. No hay nada particularmente bayesiano en "Empezaría, digamos, 0.05 y trabajaría desde allí ..."
Fomite