¿Es una distribución normal, pero muy sesgada, considerada gaussiana?

12

Tengo esta pregunta: ¿cómo cree que es la distribución del tiempo que pasa por día en YouTube?

Mi respuesta es que probablemente se distribuye normalmente y queda muy sesgada. Espero que haya un modo en el que la mayoría de los usuarios pasan alrededor de un tiempo promedio y luego una larga cola derecha, ya que algunos usuarios son abrumadores usuarios avanzados.

¿Es esa una respuesta justa? ¿Hay una palabra mejor para esa distribución?

Cauder
fuente
44
Como algunas respuestas mencionan pero no enfatizan, la asimetría se denomina informalmente para la cola más larga si hay una, por lo que está sesgada hacia la derecha si es una cola derecha más larga. Izquierda y derecha, tal como se utilizan en este contexto, presuponen una visualización siguiendo una convención de que la magnitud se muestra en el eje horizontal. Si eso suena demasiado obvio, considere las pantallas en la Tierra y las ciencias ambientales en las que la magnitud es altura o profundidad y se muestra verticalmente. Letra pequeña: algunas medidas de asimetría pueden ser cero, incluso si una distribución está sesgada geométricamente.
Nick Cox
1
¿Tiempo total por día para todos los usuarios? o tiempo por día por persona? Si es lo último, entonces seguramente hay un pico moderadamente grande en 0, en cuyo caso probablemente necesite una distribución de estilo 'pico y losa' con un delta de Dirac en 0.
innisfree
66
"Normal" es sinónimo de "gaussiano", y las distribuciones gaussianas, también llamadas distribuciones normales, no están sesgadas.
Michael Hardy
Encuentro la pregunta en el título muy diferente de la pregunta en el texto del cuerpo. O al menos el título es muy confuso. Ninguna distribución es 'normal pero muy sesgada', eso es una contradicción. Además, la distribución gaussiana está muy bien definida y nada parecido a la distribución del tiempo que pasa por día en YouTube. Entonces la respuesta a la pregunta en el título es un gran no. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus
2
Además, la pregunta al final '¿hay una palabra mejor para esa distribución?' Es muy vago o amplio. La información parece ser solo 'un modo' y 'una larga cola derecha' (la parte 'probablemente distribuida normalmente' no tiene sentido). Puede haber muchas distribuciones que satisfagan estas condiciones. Es sorprendente que esta pregunta atraiga más de diez respuestas y al menos tantas propuestas para la distribución alternativa antes de que realmente intentemos aclarar la pregunta (ni siquiera hay datos).
Sextus Empiricus

Respuestas:

14

Una fracción por día ciertamente no es negativa. Esto descarta la distribución normal, que tiene una masa de probabilidad sobre todo el eje real, en particular sobre la mitad negativa.

Distribuciones de la ley de poder menudo se usan para modelar cosas como distribuciones de ingresos, tamaños de ciudades, etc. No son negativas y, por lo general, están muy sesgadas. Estos serían los primeros que probaría en el tiempo de modelado que pasa viendo YouTube. (O monitoreando preguntas CrossValidated).

Puede encontrar más información sobre las leyes de poder aquí o aquí , o en nuestra etiqueta de .

Stephan Kolassa
fuente
16
Tienes toda la razón de que las distribuciones normales tienen soporte en la línea real. Y sin embargo ... no son un modelo horrible para algunas cualidades estrictamente positivas, como la altura o el peso de los adultos, donde la media y la varianza son tales que los valores negativos son muy poco probables en el modelo.
Matt Krause
2
@MattKrause Esa es realmente una gran pregunta: ¿hay una misma probabilidad de que esté '10 cm por encima o por debajo de la altura media 'o '10 por ciento por encima o por debajo de la altura media'? Solo el primer caso podría garantizar una distribución normal.
Tomáš Kafka
1
@MattKrause: estoy completamente de acuerdo, en un sentido general. Sin embargo, la pregunta actual es sobre la proporción de tiempo diario que se pasa viendo YouTube. No tenemos ningún dato, pero me sorprendería mucho si la distribución fuera remotamente simétrica.
Stephan Kolassa
43

Una distribución normal no está muy sesgada. Eso es una contradicción. Las variables normalmente distribuidas tienen sesgo = 0.

Peter Flom - Restablece a Monica
fuente
1
¿Cuál es una mejor manera de describir la distribución? ¿Hay una palabra para ese tipo de distribución donde se centra en un modo y luego tiene una cola larga?
Cauder
13
Unimodal y sesgado es lo más cerca que puedo llegar ...
jbowman
99
Por otro lado, es realmente increíble que las personas den su tiempo para ayudar a otras personas a mejorar en estas cosas. Sé que no hace falta decirlo, ¡pero es genial lo que ambos hacen!
Cauder
66
Sí, pero vale la pena aclarar que esa declaración pertenece a la población normalmente distribuida. Una muestra extraída de esa población puede ser muy sesgada.
gung - Restablece a Monica
Cuando el valor de sesgo es pequeño ("pequeño" lo deciden las personas que se ocupan de las estadísticas en cuestión), aún puede tratar a la población como normal, aunque con un pequeño error como resultado.
Carl Witthoft
13

Podría ser una distribución logarítmica normal. Como se menciona aquí :

El tiempo de permanencia de los usuarios en artículos en línea (chistes, noticias, etc.) sigue una distribución logarítmica normal.

La referencia dada es: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). El silencio también es evidencia: interpretar el tiempo de permanencia para recomendación desde una perspectiva psicológica. Conferencia internacional de ACM sobre KDD.

Conde iblis
fuente
7

"¿Hay una palabra mejor para esa distribución?"

Aquí hay una distinción que vale la pena entre usar palabras para describir las propiedades de la distribución, en lugar de tratar de encontrar un "nombre" para la distribución para que pueda identificarla como (aproximadamente) una instancia de una distribución estándar particular: una para la cual una fórmula o pueden existir tablas estadísticas para su función de distribución, y para las cuales puede estimar sus parámetros. En este último caso, es probable que esté utilizando la distribución con nombre, por ejemplo, "normal / gaussiano" (los dos términos son generalmente sinónimos), como un modelo que captura algunas de las características clave de sus datos, en lugar de reclamar la población de sus datos. extraído de exactamente sigue esa distribución teórica. Para citar ligeramente a George Box,Todos los modelos están "equivocados", pero algunos son útiles. Si está pensando en el enfoque de modelado, vale la pena considerar qué características desea incorporar y cuán complicado o parsimonioso desea que sea su modelo.

Ser positivamente sesgado es un ejemplo de describir una propiedad que tiene la distribución, pero no se acerca a especificar qué distribución estándar es "el" modelo apropiado. Descarta algunos candidatos, por ejemplo, la distribución gaussiana (es decir, normal) tiene un sesgo cero, por lo que no será apropiado modelar sus datos si el sesgo es una característica importante. Puede haber otras propiedades de los datos que también son importantes para usted, por ejemplo, que son unimodales (tiene un solo pico) o que están delimitados entre 0 y 24 horas (o entre 0 y 1, si lo escribe como una fracción del día), o que hay una masa de probabilidad concentrada en cero (ya que hay personas que no miran YouTube en absoluto en un día determinado).curtosis . Y vale la pena tener en cuenta que, error de muestreo incluso si su distribución tenía una forma de "joroba" o "curva de campana" y tenía una inclinación cero o casi cero, ¡no se deduce automáticamente que la distribución normal sea "correcta" para ella! Por otro lado, incluso si la población de la que se extraen sus datos realmente siguió una distribución particular con precisión, debido a que su conjunto de datos puede no parecerse demasiado. Es probable que los pequeños conjuntos de datos sean "ruidosos", y puede que no esté claro si ciertas características que puede ver, por ejemplo, pequeñas jorobas adicionales o colas asimétricas, son propiedades de la población subyacente de la que se extrajeron los datos (y quizás, por lo tanto, deberían incorporarse en su modelo) o si son solo artefactos de su muestra particular (y para propósitos de modelado deben ser ignorados). Si tiene un pequeño conjunto de datos y el sesgo es cercano a cero, entonces es incluso plausible que la distribución subyacente sea realmente simétrica. Cuanto mayor sea su conjunto de datos y mayor sea la asimetría, menos plausible se volverá, pero mientras usted podría realizar una prueba de significación para ver cuán convincente es la evidencia que sus datos proporcionan de asimetría en la población de la que se extrajo, esto puede estar perdiendo el punto en cuanto a si una distribución normal (u otra distribución cero) es apropiada como modelo ...

¿Qué propiedades de los datos realmente importan para los propósitos que pretende modelar? Tenga en cuenta que si el sesgo es razonablemente pequeño y no le importa mucho, incluso si la población subyacente está realmente sesgada , aún puede encontrar la distribución normal como un modelo útil para aproximar esta verdadera distribución de los tiempos de observación. Pero debes comprobar que esto no termine haciendo predicciones tontas. Debido a que una distribución normal no tiene el valor más alto o más bajo posible, aunque los valores extremadamente altos o bajos se vuelven cada vez más improbables, siempre encontrará que su modelo predice que hay algunosprobabilidad de mirar por un número negativo de horas por día, o más de 24 horas. Esto se vuelve más problemático para usted si la probabilidad predicha de tales eventos imposibles se vuelve alta. Una distribución simétrica como la normal predecirá que tantas personas mirarán por períodos de tiempo más de, por ejemplo, 50% por encima de la media, mientras que mirarán por menos de 50% por debajo de la media. Si los tiempos de observación son muy asimétricos, entonces este tipo de predicción también puede ser tan inverosímil como tonto, y le dará resultados engañosos si está tomando los resultados de su modelo y usándolos como entradas para algún otro propósito (por ejemplo, usted estamos ejecutando una simulación de tiempos de observación para calcular la programación óptima de publicidad). Si la asimetría es tan notable que desea capturarla como parte de su modelo, entonces elLa distribución normal sesgada puede ser más apropiada. Si desea capturar tanto la asimetría como la curtosis, considere la t sesgada . Si desea incorporar los límites superior e inferior físicamente posibles, considere usar las versiones truncadas de estas distribuciones. Existen muchas otras distribuciones de probabilidad que pueden ser asimétricas y unimodales (para las elecciones de parámetros apropiadas) como las distribuciones F o gamma , y nuevamente puede truncarlas para que no predigan tiempos de observación imposiblemente altos. Una distribución betapuede ser una buena opción si está modelando la fracción del día que pasa mirando, ya que esto siempre está limitado entre 0 y 1 sin que sea necesario un mayor truncamiento. Si desea incorporar la concentración de probabilidad en exactamente cero debido a los no observadores, considere construir un modelo de obstáculo .

Pero en el momento en que intente incluir todas las características que pueda identificar a partir de sus datos y crear un modelo cada vez más sofisticado, ¿tal vez debería preguntarse por qué está haciendo esto? ¿Sería ventajoso un modelo más simple, por ejemplo, que sea más fácil trabajar matemáticamente o que tenga menos parámetros para estimar? Si le preocupa que tal simplificación lo deje incapaz de capturar todas las propiedades que le interesan, es muy posible que ninguna distribución "estándar" haga lo que usted desea. Sin embargo, no estamos restringidos a trabajar con distribuciones con nombre cuyas propiedades matemáticas se hayan dilucidado previamente. En cambio, considere usar sus datos para construir una función de distribución empírica. Esto capturará todo el comportamiento que estaba presente en sus datos, pero ya no puede darle un nombre como "normal" o "gamma", ni puede aplicar propiedades matemáticas que pertenezcan solo a una distribución particular. Por ejemplo, la regla del "95% de los datos se encuentra dentro de 1.96 desviaciones estándar de la media" es para datos distribuidos normalmente y puede no aplicarse a su distribución; aunque tenga en cuenta que algunas reglas se aplican a todas las distribuciones, por ejemplo, la desigualdad de Chebyshev garantiza al menosEl 75% de sus datos deben estar dentro de dos desviaciones estándar de la media, independientemente de la desviación. Desafortunadamente, la distribución empírica también heredará todas esas propiedades de su conjunto de datos que surgen puramente por error de muestreo, no solo las que posee la población subyacente, por lo que puede encontrar un histograma de su distribución empírica que tiene algunas jorobas y caídas que la población misma no tiene. . Es posible que desee investigar las funciones de distribución empírica suavizadas , o mejor aún, aumentar el tamaño de la muestra.

En resumen: aunque la distribución normal tiene un sesgo cero, el hecho de que sus datos estén sesgados no descarta la distribución normal como un modelo útil, aunque sí sugiere que alguna otra distribución puede ser más apropiada. Debe considerar otras propiedades de los datos al elegir su modelo, además del sesgo, y considerar también los propósitos para los que va a utilizar el modelo. Es seguro decir que su verdadera población de tiempos de observación no sigue exactamente alguna distribución famosa y con nombre, pero esto no significa que dicha distribución esté condenada a ser inútil como modelo. Sin embargo, para algunos propósitos, puede preferir usar la distribución empírica en sí misma, en lugar de intentar ajustar una distribución estándar.

Lepisma
fuente
4

024

David Richerby
fuente
2

¿Qué tal un modelo de obstáculo?

Un modelo de obstáculo tiene dos partes. El primero es el experimento de Bernoulli que determina si usas YouTube. Si no lo hace, entonces su tiempo de uso es obviamente cero y ya está. Si lo hace, "pasa ese obstáculo", entonces el tiempo de uso proviene de alguna otra distribución estrictamente positiva.

Un concepto estrechamente relacionado son los modelos inflados a cero. Estos están destinados a tratar una situación en la que observamos un montón de ceros, pero no podemos distinguir entre ceros siempre y a veces ceros. Por ejemplo, considere la cantidad de cigarrillos que una persona fuma cada día. Para los no fumadores, ese número siempre es cero, pero algunos fumadores pueden no fumar en un día determinado (¿sin cigarrillos? ¿En un vuelo largo?). A diferencia del modelo de obstáculo, la distribución de "fumadores" aquí debería incluir cero, pero estos conteos están "inflados" por la contribución de los no fumadores también.

Matt Krause
fuente
0

Si la distribución es realmente un 'subconjunto' de la distribución normal, debe considerar un modelo truncado. Ampliamente utilizado en este contexto es la familia de modelos TOBIT.
En esencia, sugieren un pdf con una masa de probabilidad (positiva) en 0 y luego un 'corte de parte de la distribución normal' para valores positivos.
Me abstendré de escribir la fórmula aquí y lo referiré al Artículo de Wikipedia: https://en.wikipedia.org/wiki/Tobit_model

Lucas
fuente
-4

Las distribuciones normales son, por definición, no sesgadas, por lo que no puede tener ambas cosas. Si la distribución está sesgada a la izquierda, entonces no puede ser gaussiana. ¡Tendrás que elegir uno diferente! Lo más parecido a su solicitud que se me ocurre es esto:

https://en.wikipedia.org/wiki/Skew_normal_distribution

David
fuente
55
Estoy de acuerdo, excepto que el OP es confusa asimetría izquierda y derecha, como ya se señaló. Y @behold ya ha sugerido el sesgo normal en una respuesta. Entonces, no puedo ver que esto se agregue a las respuestas existentes.
Nick Cox
Resume muchos de ellos en una respuesta directa de tres líneas
David
44
Lo siento, pero eso sigue siendo repetición.
Nick Cox
OK ... a quién le importa?
David
44
Bueno lo haré; y quien agregó +1 a mis comentarios (claramente no yo) y quien rechazó su respuesta (no yo, como sucede). Este hilo ya es largo y repetitivo; comentarios aún más redundantes no lo mejoran para futuros lectores.
Nick Cox