Cómo usar las estadísticas CDF y PDF para el análisis

12

Esta puede ser una pregunta demasiado general, pero espero encontrar ayuda aquí. Estoy comenzando un trabajo de RA en mi universidad y mi tema estará relacionado con el análisis de tráfico de Internet. Soy bastante nuevo en el mundo del análisis, pero creo que en el mundo de la investigación esto es lo que tengo que hacer mucho.

He revisado algunos documentos y en muchos de ellos encuentro que usan la densidad de probabilidad (PDF), CDF, CCDF, etc. para explicar los resultados que han obtenido. Por ejemplo, PDF de la duración de la sesión del usuario, CDF de bytes transferidos cada día, etc. He tomado la clase de probabilidad y estadística, así que entiendo cuáles son, pero todavía estoy confundido con los casos en los que se elegiría dicha representación.

Entonces, si hay alguien por ahí que hace tales gráficos y análisis (en cualquier otro tema en general o en este), ¿podría decirme simplemente en qué situación usaría una u otra de estas representaciones?

sfactor
fuente

Respuestas:

17

Es en parte una cuestión de gusto y convención, pero la teoría, la atención a sus objetivos y una pizca de neurociencia cognitiva [ver las referencias] pueden proporcionar alguna orientación.

Debido a que un pdf y un cdf transmiten la misma información, la distinción entre ellos surge de cómo lo hacen: un pdf representa la probabilidad con áreas, mientras que un cdf representa la probabilidad con distancias (verticales) . Los estudios muestran que las personas comparan distancias más rápido y con mayor precisión que las áreas comparadas y que sistemáticamente calculan mal las áreas. Por lo tanto, si su propósito es proporcionar una herramienta gráfica para leer las probabilidades, debe favorecer el uso de un cdf.

Pdfs y cdfs también representan densidad de probabilidad : el primero lo hace por medio de la altura, mientras que el segundo representa la densidad por pendiente . Ahora las tablas están cambiadas, porque las personas son pobres estimadores de la pendiente (que es la tangente de un ángulo; tendemos a ver el ángulo en sí). Las densidades son buenas para transmitir información sobre modos, pesadez de colas y lagunas. Favorezca el uso de archivos PDF en tales situaciones y en cualquier otro lugar donde sea necesario enfatizar los detalles locales de la distribución de probabilidad.

A veces un pdf o cdf proporciona información teórica útil. Su valor (o más bien el inverso del mismo) está involucrado en fórmulas para errores estándar para cuantiles, extremos y estadísticas de rango. Muestre un pdf en lugar de un cdf en tales situaciones. Al estudiar las correlaciones multivariadas en un entorno no paramétrico, como las cópulas , el cdf resulta ser más útil (quizás porque es la función que transforma una ley de probabilidad continua en una uniforme).

Un pdf o cdf se puede asociar íntimamente con una prueba estadística particular. La prueba de Kolmogorov-Smirnov (y la estadística KS) tiene una representación gráfica simple en términos de un buffer vertical alrededor del cdf; no tiene una representación gráfica simple en términos del pdf (que yo sepa).

El ccdf (cdf complementario) se usa en aplicaciones especiales que se centran en la supervivencia y eventos raros. Su uso tiende a establecerse por convención.

Referencias

WS Cleveland (1994). Los elementos de graficar datos. Summit, NJ, EE. UU .: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Cartografía: diseño de mapas temáticos 5ª ed. Boston, MA, EE. UU .: WCB McGraw-Hill.

AM MacEachren (2004). Cómo funcionan los mapas Nueva York, NY, EE. UU .: The Guilford Press. ISBN 1-57230-040-X

whuber
fuente
(+1) especialmente para las ideas sobre la capacidad de interpretación de distancias vs áreas y pendiente vs altura.
steffen
8

Estoy de acuerdo con la respuesta de Whuber, pero tengo un punto menor adicional:

El CDF tiene un estimador no paramétrico simple que no necesita tomar decisiones: la función de distribución empírica . No es absolutamente tan simple para estimar un PDF. Si utiliza un histograma, debe elegir el ancho del contenedor y el punto de inicio del primer contenedor. Si utiliza la estimación de densidad del núcleo , debe elegir la forma y el ancho de banda del núcleo. Un lector sospechoso o cínico puede preguntarse si realmente eligió estos completamente a priori o si probó algunos valores diferentes y eligió los que dieron el resultado que más le gustó.

Sin embargo, este es solo un punto menor. Los que hizo son más importantes, por lo que probablemente solo usaría esto para elegir cuando aún no estaba decidido después de considerarlos.

una parada
fuente
Sigue siendo un punto interesante. Gracias por sacar el tema.
whuber
2

Supongo que depende de qué estadísticas o hallazgos vaya a descubrir, investigar, estudiar o informar. Supongo que probablemente usará estos gráficos para representar los hallazgos de su tema universitario, ¿verdad?

Por ejemplo, si desea presentar su hallazgo sobre, por ejemplo, "Cuánto tiempo permanecen los usuarios en un determinado sitio web", puede ser bueno mostrarlo en CDF, ya que muestra el tiempo acumulado que pasó en ese sitio web, a través de las páginas, etc. .

Por otro lado, si simplemente desea mostrar la probabilidad de que los usuarios hagan clic en un enlace de anuncio (por ejemplo, el enlace de Google AdWords), entonces puede presentarlo en formato PDF, ya que probablemente será una curva de campana de distribución normal y puede mostrar la probabilidad de que eso ocurra

Espero que esto ayude, Jeff


fuente