¿Por qué ayuda con números acotados arriba y abajo?
Una distribución definida en es lo que la hace adecuada como modelo para los datos en ( 0 , 1 ) . No creo que el texto implique nada más que "es un modelo para datos en ( 0 , 1 ) " (o más generalmente, en ( a , b ) ).(0,1)(0,1)(0,1)(a,b)
¿Cuál es esta distribución ...?
El término 'distribución de probabilidades de registro', desafortunadamente, no es completamente estándar (y no es un término muy común incluso entonces).
Discutiré algunas posibilidades de lo que podría significar. Comencemos considerando una forma de construir distribuciones para valores en el intervalo de la unidad.
Una forma común de modelar una variable aleatoria continua, en ( 0 , 1 ) es la distribución beta , y una forma común de modelar proporciones discretas en [ 0 , 1 ] es un binomio escalado ( P = X / n , al menos cuando X es un recuento).P(0,1)[0,1]P=X/nX
Una alternativa al uso de una distribución beta sería tomar un CDF inverso continuo ( ) y usarlo para transformar los valores en ( 0 , 1 ) a la línea real (o raramente, la media línea real) y luego usar cualquier distribución relevante ( G ) para modelar los valores en el rango transformado. Esto abre muchas posibilidades, ya que cualquier par de distribuciones continuas en la línea real ( F , G ) están disponibles para la transformación y el modelo.F−1(0,1)GF, G
Entonces, por ejemplo, la transformación log-odds (también llamado ellogit) sería una tal transformación inversa-cdf (siendo el CDF inversa de un estándarlogística), y luego hay muchas distribuciones podríamos considerar como modelos paraY.Y= log( P1 - P)Y
Entonces podríamos usar (por ejemplo) un modelo logístico para Y , una familia simple de dos parámetros en la línea real. Transformación de regreso a ( 0 , 1 ) a través de la transformación inversa de probabilidades de registro (es decir, P = exp ( Y )( μ , τ)Y( 0 , 1 ) ) produce una distribución de dos parámetros paraP, una que puede ser unimodal, o en forma de U, o en forma de J, simétrica o sesgada, en muchos sentidos, como una distribución beta (personalmente, llamaría a esto logit -logístico, ya que su logit es logístico). Aquí hay algunos ejemplos para diferentes valores deμ,τ:PAG= exp( Y)1 + exp( Y)PAGμ , τ
Al observar la breve mención en el texto de Witten et al, esto podría ser lo que se entiende por "distribución de probabilidades de registro", pero podrían significar fácilmente otra cosa.
Otra posibilidad es que se pretendiera el logit-normal .
[ 1 ]Fsol( 0 , 1 )), en los que parecen gastar mucho esfuerzo. (Parece más fácil evitar el modelo inapropiado, pero tal vez solo soy yo).
YPAG
PAGY- ∞∞
[ 2 ]
Como puede ver, no es un término con un solo significado. Sin una indicación más clara de Witten o de uno de los otros autores de ese libro, nos queda adivinar lo que se pretende.
[1]: Noel van Erp y Pieter van Gelder, (2008),
"Cómo interpretar la distribución beta en caso de avería",
Actas del 6º Taller internacional de probabilidad , enlace pdf de Darmstadt
[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
Disertación presentada a la Escuela de Graduados de Wayne State University, Detroit, Michigan
Soy un ingeniero de software (no un estadístico) y recientemente leí un libro llamado Introducción al aprendizaje estadístico. Con aplicaciones en R.
Creo que lo que estás leyendo es log-odds o logit. página 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Libro brillante: lo leí de principio a fin. Espero que esto ayude
fuente