¿Diferencia entre histograma y pdf?

18

Si queremos ver visiblemente la distribución de datos continuos, ¿cuál entre el histograma y el pdf debería usarse?

¿Cuáles son las diferencias, no en cuanto a fórmulas, entre el histograma y el pdf?

csgillespie
fuente
¿Podría aclarar si esta pregunta se refiere a datos (cuya distribución podría estar representada por un histograma) o construcciones teóricas (como un pdf, que describe una distribución de probabilidad).
whuber
44
¿Pero de dónde viene el pdf? Por definición, un pdf describe una distribución de probabilidad teórica. ¿Quizás te refieres a la edf (función de distribución empírica)?
whuber

Respuestas:

22

Para aclarar el punto de Dirks:

Digamos que sus datos son una muestra de una distribución normal. Podría construir la siguiente trama:

texto alternativo

La línea roja es la estimación empírica de la densidad, la línea azul es el pdf teórico de la distribución normal subyacente. Tenga en cuenta que el histograma se expresa en densidades y no en frecuencias aquí. Esto se hace para propósitos de trazado, en general las frecuencias se usan en histogramas.

Entonces, para responder a su pregunta: usted usa la distribución empírica (es decir, el histograma) si desea describir su muestra, y el pdf si desea describir la distribución subyacente hipotética.

La trama se genera mediante el siguiente código en R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
fuente
¿Cuál es la diferencia entre frecuencia y densidad?
Lakshay
2
La frecuencia de @Lakshay son recuentos. Todas las frecuencias sumadas son iguales al número de observaciones. La densidad es la abreviatura de PDF (función de densidad de probabilidad), que es un proxy de la probabilidad de tener un cierto valor. El área bajo el PDF suma a 1.
Joris Meys
13

Un histograma es una estimación previa de la edad de una densidad de la computadora. Una estimación de densidad es una alternativa.

En estos días usamos ambos, y hay una rica literatura sobre los valores predeterminados que se deben usar.

Un pdf, por otro lado, es una expresión de forma cerrada para una distribución dada . Eso es diferente de describir su conjunto de datos con una densidad o histograma estimado .

Dirk Eddelbuettel
fuente
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

No hay una regla dura y rápida aquí. Si conoce la densidad de su población, entonces un PDF es mejor. Por otro lado, a menudo tratamos con muestras y un histograma puede transmitir cierta información que cubre una densidad estimada. Por ejemplo, Andrew Gelman hace este punto:

Variaciones en el histograma.

Un beneficio clave de un histograma es que, como un gráfico de datos sin procesar, contiene las semillas de su propia evaluación de errores. O, para decirlo de otra manera, la irregularidad de un histograma ligeramente atenuado realiza un servicio útil al indicar visualmente la variabilidad del muestreo. Por eso, si miras los histogramas en mis libros y artículos publicados, casi siempre uso muchos contenedores. Casi nunca me gustan esas estimaciones de densidad de kernel que las personas a veces usan para mostrar distribuciones unidimensionales. Prefiero ver el histograma y saber dónde están los datos.

ars
fuente
3
Debo admitir que nunca entiendo completamente por qué Gelman aboga por el uso del histograma con un ancho de contenedor pequeño; ¿por qué no usar un diagrama de tira o datos en bruto con estimaciones de densidad de kernel superpuestas, que transmiten mucho mejor la distribución empírica de los datos observados?
chl
2
@chl: Por supuesto, hay otros buenos métodos de visualización para tener una idea de la variabilidad del muestreo. Pero en la comparación más estrecha del histograma v. Pdf en discusión aquí, creo que su punto está bien hecho.
ars
1
ese es un buen enlace, como lo son los documentos discutidos allí. Pero, ¿este enfoque es válido para las simulaciones, en cuyo caso realmente estamos tratando de estimar una densidad?
David LeBauer
1

Histograma de frecuencia relativa ( discreto )

  • El eje 'y' es recuento normalizado
  • El eje 'y' es una probabilidad discreta para ese bin / rango particular
  • Los recuentos normalizados suman 1

Histograma de densidad ( discreto )

  • El eje 'y' es el valor de densidad ('Recuento normalizado' dividido por 'ancho del depósito')
  • Las áreas del bar suman 1

Función de densidad de probabilidad PDF ( continuo )

  • PDF es una versión continua de un histograma ya que los contenedores de histograma son discretos
  • el área total bajo la curva se integra a 1

Estas referencias fueron útiles :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Distribución_probabilidad continua del sitio anterior

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
fuente