Comprensión de las regresiones: el papel del modelo

46

¿Cómo puede ser útil un modelo de regresión si no conoce la función para la que está tratando de obtener los parámetros?

Vi una investigación que decía que las madres que amamantaban a sus hijos tenían menos probabilidades de sufrir diabetes en el futuro. La investigación se realizó a partir de una encuesta de unas 1000 madres y se controló por factores diversos y se utilizó un modelo loglineal.

Ahora, ¿significa esto que reconocen que todos los factores que determinan la probabilidad de diabetes encajan en una buena función (exponencial supuestamente) que se traduce claramente en un modelo lineal con registros y que si la mujer amamantada resultó ser estadísticamente significativa?

Me estoy perdiendo algo de lo que estoy seguro, pero ¿cómo diablos conocen al modelo?

Jonathan Andrews
fuente
Muchas gracias a todos. Quiero pasar un poco de tiempo pensando en sus respuestas y tal vez, si no le importa, intente escribirlas en mis términos para sus puntos de vista. Me gusta esta descripción del proceso que proviene de la serie Taylor. He tenido que recoger mis conocimientos de regresión al azar y a través de Economics and Mathematics for Economists y el vínculo con Taylor es notable por su ausencia.
Jonathan Andrews
He fusionado tus cuentas; pero por favor, regístralo aquí stats.stackexchange.com/users/login para que no lo vuelvas a perder.

Respuestas:

43

Ayuda a ver la regresión como una aproximación lineal de la forma verdadera. Supongamos que la verdadera relación es

y=f(x1,...,xk)

con factores que explican la . Entonces, la aproximación de Taylor de primer orden de alrededor de cero es:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

donde es el error de aproximación. Ahora denote y y tienes una regresión:εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Entonces, aunque no conozca la verdadera relación, si es pequeño, obtiene una aproximación, de la que aún puede deducir conclusiones útiles.ε

mpiktas
fuente
1
Hola, muy buena explicación, pero no logro entender la parte "sigma" en la expansión de la serie Taylor. ¿Cómo reduce esta ecuación que se encuentra aquí: mathworld.wolfram.com/TaylorSeries.html en "Una serie Taylor de una función real en dos variables" a la suya?
Arun
1
@Arun, tome en la fórmula (32). n=1
mpiktas
18

El otro lado de la respuesta, complementario a la respuesta de mpiktas pero no mencionado hasta ahora, es:

"No lo hacen, pero tan pronto como asuman alguna estructura modelo, pueden verificarlo con los datos".

Las dos cosas básicas que podrían salir mal son: La forma de la función, por ejemplo, ni siquiera es lineal en los registros. Entonces comenzaría trazando un residual apropiado contra los valores esperados. O la elección de la distribución condicional , por ejemplo, los recuentos observados sobredispersos en relación con Poisson. Por lo tanto, probaría con una versión binomial negativa del mismo modelo, o vería si las covariables adicionales explican la variación adicional.

También querrá verificar valores atípicos, observaciones influyentes y muchas otras cosas. Un lugar razonable para leer sobre la verificación de este tipo de problemas modelo es el capítulo 5 de Cameron y Trivedi 1998. (Seguramente hay un lugar mejor para que comiencen los investigadores con orientación epidemiológica; quizás otras personas puedan sugerirlo).

Si estos diagnósticos indicaran que el modelo no se ajustaba a los datos, cambiaría el aspecto relevante del modelo y comenzaría todo el proceso nuevamente.

conjugadoprior
fuente
1
+1 Esta es la clave que evita que todo se agite a mano: no lo sabes, pero intentas algo y luego miras qué tan bien coincide y de qué manera no coincide tus datos.
Wayne
15

¡Una excelente primera pregunta! Estoy de acuerdo con la respuesta de mpiktas, es decir, la respuesta corta es "no lo hacen, pero esperan tener una aproximación al modelo correcto que dé aproximadamente la respuesta correcta".

En la jerga de la epidemiología, este modelo de incertidumbre es una fuente de lo que se conoce como " confusión residual ". Vea la página de Steve Simon '¿Qué es la confusión residual?' para una buena descripción breve, o el artículo de 1992 de Heiko Becher en Estadísticas en Medicina (se requiere suscripción) para un tratamiento más largo y matemático, o el artículo más reciente de Fewell, Davey Smith y Sterne en el American Journal of Epidemiology (se requiere suscripción )

Esta es una razón por la cual la epidemiología de los efectos pequeños es difícil y los resultados a menudo son controvertidos: si el tamaño del efecto medido es pequeño, es difícil descartar la confusión residual u otras fuentes de sesgo como explicación.

una parada
fuente
1
Yo diría que la especificación errónea del modelo, que parece ser de lo que habla el OP, es algo diferente de la confusión residual. La confusión requiere una covariable. Puede arruinar una regresión con solo la especificación errónea de una exposición y un resultado.
Fomite
13

Existe la famosa cita "Esencialmente, todos los modelos están equivocados, pero algunos son útiles" de George Box . Al ajustar modelos como este, intentamos (o deberíamos) pensar en el proceso de generación de datos y las relaciones físicas, del mundo real, entre la respuesta y las covariables. Intentamos expresar estas relaciones en un modelo que se ajuste a los datos. O para decirlo de otra manera, es consistente con los datos. Como tal se produce un modelo empírico.

Si es útil o no se determina más adelante: ¿ofrece predicciones buenas y confiables, por ejemplo, para las mujeres que no están acostumbradas al modelo? ¿Los coeficientes del modelo son interpretables y de uso científico? ¿Son significativos los tamaños del efecto?

Restablece a Mónica - G. Simpson
fuente
3

Las respuestas que ya ha recibido son excelentes, pero voy a dar una respuesta (con suerte) complementaria desde la perspectiva de un epidemiólogo. Realmente tengo tres pensamientos sobre esto:

Primero, no lo hacen. Ver también: Todos los modelos están equivocados, algunos modelos son útiles. El objetivo no es producir un número único y definitivo que se tome como la "verdad" de una función subyacente. El objetivo es producir una estimación de esa función, con una cuantificación de la incertidumbre a su alrededor, que es una aproximación razonable y útil de la función subyacente.

Esto es especialmente cierto para medidas de grandes efectos. El mensaje "quitar" de un estudio que encuentra un riesgo relativo de 3.0 no es realmente diferente si la relación "verdadera" es 2.5 o 3.2. Como @onestop mencionó, esto se vuelve más difícil con estimaciones de medidas de efecto pequeñas, porque la diferencia entre 0.9, 1.0 y 1.1 puede ser enorme desde el punto de vista de salud y política.

En segundo lugar, hay un proceso oculto en la mayoría de los artículos de Epidemiología. Ese es el proceso de selección de modelo real . Tendemos a informar el modelo con el que terminamos, no todos los modelos que consideramos (porque eso sería agotador, por lo menos). Hay una gran cantidad de pasos de construcción de modelos, diagramas conceptuales, diagnósticos, estadísticas de ajuste, análisis de sensibilidad, insultos en las computadoras y garabatear en pizarras blancas involucradas en el análisis de incluso pequeños estudios de observación.

Porque mientras está haciendo suposiciones, muchos de ellos también son supuestos se puede comprobar.

Tercero, a veces no lo hacemos. Y luego vamos a conferencias y discutimos entre nosotros al respecto;)

Si está interesado en los aspectos básicos de la Epidemiología como un campo, y cómo llevamos a cabo la investigación, el mejor lugar para comenzar es probablemente la 3ra Edición de Epidemiología Moderna de Rothman, Groenlandia y Lash. Es una descripción moderadamente técnica y muy buena de cómo se realiza la investigación Epi.

Fomite
fuente
1
+1, este es un buen complemento para lo que hay aquí. Es agradable ver que todavía se puede hacer una contribución útil, incluso después de que ya existan tantas otras buenas.
gung - Restablecer Monica