Esto está al borde de una pregunta filosófica, pero estoy interesado en cómo piensan otros con más experiencia sobre la selección de distribución. En algunos casos parece claro que la teoría podría funcionar mejor (las longitudes de la cola de los ratones probablemente se distribuyen normalmente). En muchos casos, probablemente no exista una teoría para describir un conjunto de datos, por lo que simplemente usa algo que se ajusta bastante bien a lo que tiene, independientemente de lo que se desarrolló originalmente para describir. Puedo imaginar algunas de las trampas de ir con uno u otro de estos, y luego, por supuesto, parece haber el problema de que tal vez deberías usar una distribución empírica si realmente no tienes idea.
Entonces, supongo lo que realmente estoy preguntando: ¿alguien tiene una forma coherente de abordar / pensar sobre este problema? ¿Y hay algún recurso que pueda sugerir que le dé un buen tratamiento?
fuente
Respuestas:
Definitivamente depende de cuáles son los datos en cuestión y cuánto uno sabe o desea asumir sobre ellos. Como dijo recientemente @whuber en el chat , "donde está involucrada la ley física, casi siempre puedes hacer conjeturas razonables sobre una forma adecuada de modelar los datos". (¡Sospecho que esto es más cierto para él que para mí! Además, espero que esto no se aplique incorrectamente fuera de su contexto original ...) En casos más parecidos al modelo de construcción latente en las ciencias sociales, a menudo es útil enfocarse en Distribuciones empíricas como una forma de entender los matices de los fenómenos menos conocidos. Es un poco demasiado fácil asumir una distribución normal y descartar el desajuste en la forma general como insignificante, y es bastante engañoso descartar los valores atípicos como erróneos sin más justificación de lo que no hacen.
Por supuesto, gran parte de este comportamiento está motivado por los supuestos de análisis que uno quiere aplicar. A menudo, las preguntas más interesantes van más allá de la descripción o clasificación de las distribuciones de variables. Esto también influye en la respuesta correcta para un escenario dado; Puede haber razones (por ejemplo, necesidades de energía ) para asumir una distribución normal cuando no se ajusta particularmente bien (ni se ajusta demasiado mal), ya que los métodos no paramétricos y robustos no son perfectos tampoco. Sin embargo, el riesgo de hacerlo habitualmente es olvidar hacer las preguntas interesantes que uno puede hacer sobre la distribución de una sola variable.
Por ejemplo, considere la relación entre riqueza y felicidad: una pregunta popular que la gente generalmente quiere hacer. Puede ser seguro asumir que la riqueza sigue una distribución gamma (Salem & Mount, 1974) o beta generalizada (Parker, 1999) , pero ¿es realmente seguro asumir que la felicidad se distribuye normalmente? Realmente, no debería ser necesario asumir esto solo para responder la pregunta original, pero las personas a veces lo hacen, y luego ignoran cuestiones potencialmente importantes como el sesgo de respuesta y las diferencias culturales. Por ejemplo, algunas culturas tienden a dar respuestas más o menos extremas (ver la respuesta de @ chl en el análisis Factorial de cuestionarios compuestos por ítems Likert ), y las normas varían con respecto a la expresión abierta de las emociones positivas y negativas (Tucker, Ozer, Lyubomirsky y Boehm, 2006 ) . Esto puede aumentar la importancia de las diferencias en las características de distribución empírica como la asimetría y la curtosis. Si estuviera comparando la relación de riqueza con calificaciones subjetivas de felicidad en Rusia, China y los Estados Unidos, probablemente desearía evaluar las diferencias en las tendencias centrales de las calificaciones de felicidad. Al hacerlo, dudaría en asumir distribuciones normales a través de cada uno en aras de un ANOVA unidireccional (aunque podría ser bastante robusto para las violaciones) cuando hay razones para esperar una distribución de "cola más gruesa" en China, una distribución sesgada positivamente en Rusia y una distribución sesgada negativamente en los EE. UU. debido a diversas normas y sesgos de respuesta dependientes de la cultura. En aras de una prueba de significación (aunque probablemente prefiera informar los tamaños de los efectos, honestamente), prefiero usar un método no paramétrico, y en aras de comprender realmente la felicidad subjetiva en cada población de forma individual, más bien describa la distribución empíricamente que intente clasificarla como una distribución teórica simple e ignore o ignore cualquier desajuste. Eso es un desperdicio de información de la OMI.
Referencias
- Parker, SC (1999). La beta generalizada como modelo para la distribución de ganancias. Cartas de economía, 62 (2), 197–200.
- Salem, ABZ y Mount, TD (1974). Un modelo descriptivo conveniente de distribución del ingreso: la densidad gamma. Econometrica, 42 (6), 1115-1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S. y Boehm, JK (2006). Prueba de invariancia de medición en la escala de satisfacción con la vida: una comparación de rusos y norteamericanos. Social Indicators Research, 78 (2), 341–360. Recuperado de http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
fuente
Yo dudaría eso. Las distribuciones normales surgen de muchos efectos aditivos independientes. Los sistemas biológicos consisten en muchos circuitos de retroalimentación interactivos (efectos multiplicativos interdependientes). También a menudo hay algunos estados que son más estables que otros (es decir, atractores). Entonces, algún tipo de distribución de cola larga o multimodal probablemente describiría longitudes de cola. De hecho, la distribución normal es probablemente una opción por defecto muy pobre para describir cualquier cosa biológica y su mal uso es responsable de los muchos "valores atípicos" reportados en esa literatura. La prevalencia de esta distribución en la naturaleza es un mito y no solo en el sentido de "los círculos perfectos realmente no existen". Sin embargo, no se sigue que la media y el SD sean inútiles como estadísticas de resumen.
Ajustar distribuciones empíricas proporciona pistas sobre el proceso subyacente, lo que facilita el desarrollo de distribuciones teóricas. Luego, la distribución teórica se compara con las distribuciones empíricas para probar la evidencia de la teoría.
Si su propósito es evaluar la probabilidad de ciertos resultados con base en la evidencia actual disponible y no tiene ninguna razón para elegir esa distribución en particular, supongo que no veo cómo hacer suposiciones adicionales podría ser útil. En cambio, parece confundir las cosas.
Sin embargo, si está intentando describir o resumir los datos, entonces puede tener sentido ajustar la distribución.
fuente
Las longitudes de cola ciertamente no se distribuyen normalmente.
Las distribuciones normales tienen una probabilidad distinta de cero de tomar valores negativos; longitudes de cola no lo hacen.
La famosa línea de George Box , " todos los modelos están equivocados, pero algunos son útiles " hace que el punto sea bastante bueno. Los casos en los que podríamos afirmar razonablemente la normalidad (en lugar de solo la normalidad aproximada) son realmente muy raros, casi criaturas legendarias, los espejismos ocasionalmente casi se vislumbran por el rabillo del ojo.
En los casos en que las cantidades que le interesan no son especialmente sensibles a la elección (siempre y cuando las características generales de la distribución sean consistentes con lo que se conoce), entonces sí, puede usar algo que se ajuste bastante bien.
En los casos en que hay un mayor grado de sensibilidad, "solo usar algo que se ajuste" no es suficiente por sí solo. Podríamos usar algún enfoque que no haga suposiciones particulares (tal vez procedimientos libres de distribución, como permutación, bootstrapping u otros enfoques de remuestreo, o procedimientos sólidos). Alternativamente, podríamos cuantificar la sensibilidad al supuesto de distribución, como a través de la simulación (de hecho, creo que generalmente es una buena idea).
No describiría eso como un problema: basar la inferencia en distribuciones empíricas ciertamente es un enfoque legítimo adecuado para muchos tipos de problemas (la permutación / aleatorización y el arranque son dos ejemplos).
en términos generales, en muchos casos, tiendo a considerar preguntas como:
1) ¿Qué entiendo * sobre cómo se comportan los medios (u otras cantidades de tipo de ubicación) para los datos de este formulario?
* (ya sea por teoría o experiencia de esta forma de datos, o asesoramiento de expertos, o si es necesario, de los datos en sí, aunque eso conlleva problemas con los que uno debe lidiar)
2) ¿Qué pasa con la propagación (varianza, IQR, etc.)? ¿Cómo se comporta?
3) ¿Qué pasa con otras características de distribución (límites, asimetría, discreción, etc.)
4) ¿Qué pasa con la dependencia, la heterogeneidad de las poblaciones, la tendencia a valores ocasionalmente muy discrepantes, etc.
Este tipo de consideración podría guiar la elección entre un modelo normal, un GLM, algún otro modelo o algún enfoque robusto o sin distribución (como los enfoques de arranque o permutación / aleatorización, incluidos los procedimientos basados en rangos)
fuente