He estado tratando de aprender qué distribuciones usar en GLM, y estoy un poco confundido sobre cuándo usar la distribución normal. En una parte de mi libro de texto, dice que una distribución normal podría ser buena para modelar los puntajes de los exámenes. En la siguiente parte, pregunta qué distribución sería apropiada para modelar un reclamo de seguro de automóvil. Esta vez, dijo que las distribuciones apropiadas serían gamma o gaussiana inversa porque son continuas con solo valores positivos. Bueno, creo que los puntajes de los exámenes también serían continuos con solo valores positivos, entonces, ¿por qué usaríamos una distribución normal allí? ¿La distribución normal no permite valores negativos?
13
Respuestas:
La altura, por ejemplo, a menudo se modela como normal. Tal vez la altura de los hombres es algo así como 5 pies 10 con una desviación estándar de 2 pulgadas. Sabemos que la altura negativa no es física, pero según este modelo, la probabilidad de observar una altura negativa es esencialmente cero. Usamos el modelo de todos modos porque es una aproximación lo suficientemente buena.
Todos los modelos están equivocados. La pregunta es "¿puede este modelo seguir siendo útil", y en los casos en que estamos modelando cosas como la altura y los puntajes de las pruebas, modelar el fenómeno como normal es útil a pesar de que técnicamente permite cosas no físicas.
fuente
Correcto. Tampoco tiene límite superior.
A pesar de las declaraciones anteriores, sin embargo, este es a veces el caso. Si tiene muchos componentes para la prueba, no están muy relacionados (por ejemplo, no es esencialmente la misma pregunta una docena de veces, ni cada parte requiere una respuesta correcta a la parte anterior), y no es muy fácil ni muy difícil ( para que la mayoría de las marcas estén en algún lugar cerca del medio), entonces las marcas a menudo pueden estar razonablemente bien aproximadas por una distribución normal; a menudo lo suficientemente bien como para que los análisis típicos causen poca preocupación.
Nosotros sabemos con seguridad que no son normales , pero eso no es un problema de forma automática - siempre y cuando el comportamiento de los procedimientos que utilizamos son lo suficientemente cerca de lo que deberían ser para nuestros propósitos (por ejemplo, errores estándar, intervalos de confianza, niveles de significación y poder, lo que sea necesario, hacer cerca de lo que esperamos)
Sí, pero más que eso: tienden a estar muy sesgados y la variabilidad tiende a aumentar cuando la media aumenta.
Aquí hay un ejemplo de una distribución de tamaño de reclamo para reclamos de vehículos:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig. 5 de Garrido, Genest & Schulz (2016) "Modelos lineales generalizados para frecuencia y severidad dependientes de reclamos de seguros", Seguro: Matemáticas y Economía, Vol 70, septiembre, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Esto muestra una típica cola derecha oblicua y pesada. Sin embargo, debemos ser muy cuidadosos porque esta es una distribución marginal, y estamos escribiendo un modelo para la distribución condicional , que generalmente será mucho menos sesgada (la distribución marginal que observamos si solo hacemos un histograma de tamaños de reclamo es una mezcla de estas distribuciones condicionales). Sin embargo, suele darse el caso de que si observamos el tamaño del reclamo en los subgrupos de predictores (tal vez categorizando variables continuas) la distribución sigue siendo muy sesgada a la derecha y bastante pesada a la derecha, lo que sugiere que algo así como un modelo gamma * es Es probable que sea mucho más adecuado que un modelo gaussiano.
* puede haber cualquier otra distribución que sea más adecuada que una gaussiana; la gaussiana inversa es otra opción, aunque menos común; Los modelos lognormales o de Weibull, aunque no son GLM tal como están, también pueden ser bastante útiles.
[Raramente se da el caso de que alguna de estas distribuciones sean descripciones casi perfectas; son aproximaciones inexactas, pero en muchos casos lo suficientemente buenas como para que el análisis sea útil y tenga propiedades cercanas a las deseadas.]
Porque (en las condiciones que mencioné antes: muchos componentes, no demasiado dependientes, ni duros ni fáciles) la distribución tiende a ser bastante simétrica, unimodal y no de cola pesada.
fuente
Los puntajes de los exámenes podrían modelarse mejor mediante una distribución binomial. En un caso altamente simplificado, es posible que tenga 100 preguntas de verdadero / falso cada una con un valor de 1 punto, por lo que la puntuación sería un número entero entre 0 y 100. Si supone que no hay correlación entre la corrección del examinador de un problema a otro (aunque dudoso supuesto) ), la puntuación es una suma de variables aleatorias independientes y se aplica el Teorema del límite central. A medida que aumenta el número de preguntas, la fracción de problemas correctos converge a una distribución normal.
Usted hace una buena pregunta sobre los valores inferiores a 0. También puede hacer la misma pregunta sobre los valores superiores al 100%. A medida que aumenta el número de preguntas de la prueba, la varianza de la suma disminuye, por lo que el pico se acerca a la media. De manera similar, la distribución normal de mejor ajuste tendrá una varianza menor y el peso del pdf fuera del intervalo [0, 1] tiende hacia 0, aunque siempre será distinto de cero. El espacio entre los posibles valores de "fracción correcta" también disminuirá (1/100 para 100 preguntas, 1/1000 para 1000 preguntas, etc.), de manera informal, el pdf comienza a comportarse cada vez más como un pdf continuo.
fuente