Consejos para explicar la heterogeneidad / heteroscedasticidad

8

Estoy buscando ayuda, consejos o sugerencias sobre cómo explicar la heterogeneidad / heterocedasticidad a los biólogos de mi departamento. En particular, quiero explicar por qué es importante buscarlo y tratarlo si existe, estaba buscando opiniones sobre las siguientes preguntas.

  1. ¿La heterogeneidad influye en la fiabilidad de las estimaciones de efectos aleatorios? Estoy bastante seguro de que sí, pero no pude encontrar un documento.
  2. ¿Qué tan serio es un problema la heterogeneidad? He encontrado opiniones contradictorias sobre esto, aunque algunos dicen que los errores estándar del modelo, etc., no serán confiables, también he leído que solo es un problema si la heterogeneidad es grave. ¿Qué tan grave es grave?
  3. Asesoramiento en modelado de heterogeneidad. Actualmente, me concentro en gran medida en el paquete nlme en R y en el uso de covariables de varianza, esto es bastante simple y la mayoría de las personas aquí usan R, por lo que es útil proporcionar scripts. También estoy usando el paquete MCMCglmm, pero otras sugerencias son bienvenidas, particularmente para datos no normales.
  4. Cualquier otra sugerencia es bienvenida.
usuario3136
fuente
1
@ user3136, aclare si su principal preocupación es la heterogeneidad (diferentes especies con atributos únicos, probablemente tomados de una distribución conocida) o la heterocedasticidad (la propiedad del proceso aleatorio de tener una variación variable en el tiempo), ya que estos dos conceptos son claramente diferentes. Sin embargo, ambos problemas son interesantes, el primero conduce a modelos de efectos mixtos o modelos de coeficientes aleatorios, el último tiene muchos remedios para tratar (pero es menos importante, ya que simplemente no es eficiente, pero las estimaciones son imparciales). OLS
Dmitrij Celov
Hola perdon por eso Mi preocupación realmente es sobre la heterocedasticidad. Un problema que he tenido es que estos dos términos (heterocedasticidad y heterogeneidad) se usan casi indistintamente. En este contexto, ambos se supone que se refieren a la situación cuando el error en los residuos no es constante
user3136
44
En realidad no es así, las fuentes de heterogeneidad son muchas: diferencias en los parámetros (parámetros aleatorios, por ejemplo), variables (cosa de regresión habitual), residuos (parte idiosincrásica que puede pertenecer a diferentes distribuciones o parámetros de distribución pueden ser diferentes, la heterocedasticidad pertenece aquí, por lo tanto es un caso separado de heterogeneidad), diferencias en la forma funcional. Entonces, dejaría solo el término más particular: heteroscedasticidad.
Dmitrij Celov
Gracias Dimitrij, una pregunta que quise hacer fue sobre la terminología correcta en esta área.
user3136

Respuestas:

6

La alometría sería un buen lugar para comenzar que será familiar para los biólogos. Las transformaciones logarítmicas a menudo se usan en alometría porque los datos tienen una forma de ley de potencia, pero también porque el proceso de ruido es heterocedastico (ya que la variabilidad es proporcional al tamaño). Para ver un ejemplo en el que esto ha causado un problema grave, consulte "Ecuaciones alométricas para predecir la masa corporal de los dinosaurios" , donde la conclusión de que los dinosaurios tenían solo la mitad del tamaño anterior era incorrecta porque se hizo una suposición inválida de homocedasticidad (consulte la correspondencia para detalles).

Dikran Marsupial
fuente
6

vunar(αyo)=X¯yo2σtu2

αyo=X¯yotuyotuyonorte(0 0,σtu2)

Yyoj=αyo+βXyoj+miyojmiyojnorte(0 0,σmi2)

(espero que esta notación tenga sentido). Creo que jugar con una configuración como esta te ayudará a responder la pregunta 2). Por lo tanto, encajaría este modelo utilizando una intersección aleatoria, cuando en realidad debería ser una pendiente aleatoria (lo que le da una respuesta parcial a la pregunta 3: las interceptaciones aleatorias pueden explicar el "abanico" hasta cierto punto, esto es "abanico de nivel 2" ) La idea de lo anterior es esforzarse lo más que pueda para romper su método de modelado: pruebe condiciones extremas consistentes con lo que sabe sobre los datos y vea qué sucede. Si está luchando por encontrar estas condiciones, no se preocupe.

Hice una comprobación rápida de la heterocedasticidad para OLS, y no parece afectar demasiado a las betas estimadas. Para mí, simplemente parece que la heteroscedasticidad en algunos lugares dará una subestimación del error probable, y en otros lugares dará una sobreestimación del error probable (en términos predictivos). Vea abajo:

esperando la trama de datos aquí, el usuario actualmente frustrado con las computadoras

Y una cosa que siempre encuentro divertida es esta "no normalidad de los datos" que preocupa a la gente. No es necesario que los datos se distribuyan normalmente, pero el término de error sí. Si esto no fuera cierto, entonces los GLM no funcionarían: los GLM usan una aproximación normal a la función de probabilidad para estimar los parámetros, al igual que los GLMM.

Entonces, diría que si el objetivo principal es estimar los parámetros de efectos fijos, entonces no hay mucho de qué preocuparse, pero puede obtener mejores resultados para la predicción teniendo en cuenta la heterocedasticidad.

probabilidadislogica
fuente
1
Hola, gracias por el consejo. Actualmente estoy trabajando en algunas simulaciones, así que espero que funcionen. Hasta donde yo sé, la heterocedasticidad no afecta la estimación de los coeficientes de regresión, pero puede sobreestimar o subestimar los errores estándar de estas estimaciones.
user3136
Realmente hace ambas (sobreestimación y subestimación) si hay heterocedasticidad, de manera similar que el "promedio" de datos ordinarios sobreestimará y subestimará los valores reales. Para una pendiente, tendrá diferentes grados de precisión en diferentes puntos de la línea.
probabilidadislogica
En mi campo particular también existe una gran dependencia de las pruebas de significación y, por lo tanto, de los valores p también. Por lo tanto, creo que el hecho de que el SE puede sobreestimarse y subestimarse puede causar algunos problemas si basa toda la inferencia en sus valores p.
user3136
Diría que tiene problemas más grandes que los errores estándar si toda la inferencia se basa en valores p y pruebas de significación. Este tipo de cosas fomenta las "estadísticas sin sentido".
probabilidadislogica
No podría estar más de acuerdo, creo que la mayoría de las personas con las que hablo saben que ese enfoque es sospechoso, pero es difícil evitar que se centren únicamente en los valores p, a menudo a expensas de todo lo demás.
user3136
0

El mejor recurso GRATUITO en línea que conozco para aprender sobre la heteroscedasticidad son las conferencias ECON 421 del Prof. Thoma de 2011. Específicamente las conferencias 1 - 7. Sus conferencias son muy organizadas y fáciles de seguir, independientemente de su disciplina.

Aquí está la primera conferencia. Puede encontrar el resto de las conferencias del semestre de invierno 2011 aquí también. http://www.youtube.com/watch?v=WK03XgoVsPM

Además, el sitio web correspondiente al curso Econ 421 del Prof. Thoma tiene problemas de tarea y sus soluciones. Para las soluciones que requieren software, la solución se detalla paso a paso utilizando una combinación de texto, fórmulas y capturas de pantalla de Eviews.

Si bien los pasos utilizados para resolver los problemas de tarea se detallan mediante capturas de pantalla de E-views, las soluciones se traducen fácilmente en otros paquetes estadísticos como estadísticas STATA o R.

No hay soluciones listadas para las tareas del semestre de 2011, que es el último semestre grabado en video del profesor Thoma. Sin embargo, hay tareas disponibles para su semestre de invierno de 2012 .

Aquí hay un enlace a la sección de soluciones de tarea de la clase 421 del profesor Thomas Winter 2012 Específicamente aquí está la Solución para la tarea 3, donde se introduce la heterocedasticidad en los conjuntos de tareas. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html

James Bradshaw IV
fuente
1
Gracias por estas referencias, James. Aquí, sin embargo, el interlocutor está pidiendo explicaciones y consejos. Para que su respuesta pueda ser relevante, ¿podría parafrasear "ayuda, consejos o sugerencias" específicos en estas referencias?
whuber