Siempre me cuesta explicar las técnicas estadísticas al público sin antecedentes estadísticos. Si quisiera explicar qué es GLM a esa audiencia (sin descartar la jerga estadística), ¿cuál sería la mejor manera o la más efectiva?
Usualmente explico GLM con tres partes: (1) el componente aleatorio que es variable de respuesta, (2) el componente sistemático que es un predictor lineal y (3) la función de enlace que es la "clave" para conectar (1) y (2) Luego, daría un ejemplo de regresión lineal o logística y explicaría cómo se selecciona la función de enlace en función de la variable de respuesta. Por lo tanto, actúa como la clave que conecta dos componentes.
Respuestas:
Si la audiencia realmente no tiene antecedentes estadísticos, creo que trataría de simplificar la explicación un poco más. Primero, dibujaría un plano de coordenadas en el tablero con una línea, así:
Todos en su charla estarán familiarizados con la ecuación para una línea simple, y = m x + b , porque eso es algo que se aprende en la escuela primaria. Así que lo mostraría junto al dibujo. Sin embargo, lo escribiría al revés, así: y=mx+b
Diría que esta ecuación es un ejemplo de una regresión lineal simple. Luego explicaría cómo usted (o una computadora) podría ajustar dicha ecuación a un diagrama de dispersión de puntos de datos, como el que se muestra en esta imagen:
Diría que aquí, estamos usando la edad del organismo que estamos estudiando para predecir qué tan grande es, y que la ecuación de regresión lineal resultante que obtenemos (que se muestra en la imagen) puede usarse para predecir qué tan grande es un organismo es si sabemos su edad.
Volviendo a nuestra ecuación general m x + b = y , diría que las x son variables que pueden predecir las y, por lo que las llamamos predictores . Las y son comúnmente llamadas respuestas . mx+b=y
Luego explicaría nuevamente que este fue un ejemplo de una ecuación de regresión lineal simple, y que en realidad hay variedades más complicadas. Por ejemplo, en una variedad llamada regresión logística , las y solo pueden ser 1 o 0. Es posible que desee utilizar este tipo de modelo si está tratando de predecir una respuesta "sí" o "no", como si alguien tiene o no una enfermedad. Otra variedad especial es algo llamado regresión de Poisson , que se utiliza para analizar datos de "conteo" o "evento" (no profundizaría en esto a menos que sea realmente necesario).
Luego explicaría que la regresión lineal, la regresión logística y la regresión de Poisson son realmente ejemplos especiales de un método más general, algo llamado un "modelo lineal generalizado". Lo mejor de los "modelos lineales generalizados" es que nos permiten usar datos de "respuesta" que pueden tomar cualquier valor (como qué tan grande es un organismo en regresión lineal), tomar solo 1 o 0 (como si alguien tiene o no un enfermedad en regresión logística), o tome recuentos discretos (como el número de eventos en la regresión de Poisson).
Entonces diría que en este tipo de ecuaciones, las x (predictores) están conectadas a las y (respuestas) a través de algo que los estadísticos llaman una "función de enlace". Utilizamos estas "funciones de enlace" en los casos en que las x no están relacionadas con las y de manera lineal.
De todos modos, ¡esos son mis dos centavos sobre el tema! Tal vez mi explicación propuesta suene un poco tonta y tonta, pero si el propósito de este ejercicio es simplemente llevar la "esencia" a la audiencia, tal vez una explicación como esta no sea tan mala. Creo que es importante que el concepto se explique de forma intuitiva y que evite tirar palabras como "componente aleatorio", "componente sistemático", "función de enlace", "determinista", "función logit", etc. Al hablar con personas que realmente no tienen antecedentes estadísticos, como un biólogo o un médico típico, sus ojos se van a deslumbrar al escuchar esas palabras. No saben qué es una distribución de probabilidad, nunca han oído hablar de una función de enlace, y no saben qué es un "logit"
En su explicación a una audiencia no estadística, también me enfocaría en cuándo usar qué variedad de modelo. Podría hablar sobre cuántos predictores puede incluir en el lado izquierdo de la ecuación (he escuchado reglas generales como no más que el tamaño de su muestra dividido por diez). También sería bueno incluir una hoja de cálculo de ejemplo con datos y explicar a la audiencia cómo usar un paquete de software estadístico para generar un modelo. Luego revisaría el resultado de ese modelo paso a paso e intentaré explicar qué significan todas las letras y números diferentes. ¡Los biólogos no tienen idea de estas cosas y están más interesados en aprender qué examen usar en lugar de comprender realmente las matemáticas detrás de la GUI de SPSS!
Agradecería cualquier comentario o sugerencia con respecto a mi explicación propuesta, especialmente si alguien nota errores o piensa en una mejor manera de explicarlo.
fuente
No llamaría a la respuesta un componente aleatorio. Es una combinación de un componente determinista y uno aleatorio.
fuente
Lo explicaría diciendo que a veces necesito cosas predichas. Por ejemplo, el precio de una casa da cierta información al respecto. Digamos, su tamaño, ubicación, la antigüedad de la construcción, etc. Quiero incluir eso en un modelo que tenga en cuenta la influencia de estos factores para predecir el precio.
Ahora tomando un sub-ejemplo, digamos, considero solo el tamaño de la casa. Eso implicaría que nada más afecta el precio. Podría ser un caso en el que estoy comparando casas que están en la misma localidad, fueron construidas alrededor del mismo tiempo, etc. O podría ser que no quiero complicarme las cosas y, por lo tanto, quiero que la vida real se ajuste a cómo Hasta donde puedo pensar. Continuando, hago un modelo donde tengo una lista de tamaños y precios correspondientes de propiedades similares (por ejemplo, de ventas que han estado ocurriendo recientemente ... pero eso tendría un sesgo grave de las casas que no están a la venta y, por lo tanto, afectan el precio de casas que son, pero ignoremos eso).
Ahora veo que una casa de 100 pies cuadrados cuesta $ 1 millón (superarse, este es un ejemplo simplificado). Entonces, naturalmente, esperaría que una casa de 200 pies cuadrados cueste el doble. Y eso es lo que llamaríamos un "patrón lineal". Por supuesto, cuando recopilamos los datos y el tamaño del gráfico frente al precio, vemos que no es exactamente el doble. Pero definitivamente hay una tendencia creciente.
Entonces trato de cuantificar la tendencia. ¿Cuánto aumento por cada pie cuadrado aumentado? Esa es la regresión lineal.
INSERTE el mapa terminológico y continúe con los conceptos estadísticos. Una forma de explicar el componente aleatorio y sistemático podría ser que cualquier cosa que olvidó modelar, o que no pudo medir, es aleatoria. Todo lo que puedas es sistemático. (Por ejemplo, digamos que es 2008 y quiere vender una casa).
Las suposiciones que subyacen a este modelo son que el diagrama de dispersión debe verse como una barra. Que es que tanto X como Y son "normales". y todos tienen una varianza similar.
Si ese no es el caso, ingrese GLM. y ahora explique la función de enlace n todo eso.
Está simplificado, pero debería funcionar como una introducción.
Puede poner en la historia de GLMs y modelos factoriales. Donde Fisher requería que las cosas comenzaran a variar juntas y este marco era adecuado para ese tipo de complejidad.
Espero que esto ayude...
fuente