Estoy estudiando estadísticas y, a menudo, encuentro fórmulas que contienen el log
y siempre estoy confundido si debo interpretarlo como el significado estándar de log
, es decir, base 10, o si en estadística log
generalmente se supone que el símbolo es el registro natural ln
.
En particular, estoy estudiando la Estimación de frecuencia de Good-Turing como ejemplo, pero mi pregunta es más general.
mathematical-statistics
notation
logarithm
Giuseppe Romagnuolo
fuente
fuente
ln
que se considera. Sin embargo, los dos están relacionados:log(x) = ln(x) / ln(10) = ln(x) / 2.303
y la función de probabilidad de ln llega al extremo en el mismo punto que la función de probabilidad de log10 .Respuestas:
Es seguro asumir que sin un base explícito = ln en estadísticas, porque el registro base 10 no se usa muy a menudo en estadísticas. Sin embargo, otros carteles señalan que log 10 u otras bases pueden ser comunes en otros campos, donde se aplican estadísticas, por ejemplo, la teoría de la información. Entonces, cuando lees documentos en otros campos, a veces se vuelve confuso.log=ln log10
La página de entropía de Wikipedia es un buen ejemplo de uso confuso del . En la misma página significan base 2, e y cualquier base. Puede averiguar por el contexto a qué se refiere, pero requiere leer el texto. Esta no es una buena manera de presentar el material. Compárelo con la página Logaritmo donde la base se muestra claramente en cada fórmula o se usa ln . Personalmente, creo que este es el camino a seguir: siempre muestra la base cuando se utiliza el signo de registro . Esto también sería compatible con ISO porque el estándar no define el uso de una base no especificada con el símbolo de registro como señaló @Henry.log e ln log log
Finalmente, el estándar ISO 31-11 prescribe signos y lg para logaritmos de base 2 y 10. Ambos raramente se usan en estos días. Recuerdo que usamos lg en la escuela secundaria, pero eso fue en otro siglo en otro mundo. Nunca lo he visto desde que se usa en un contexto estadístico. Ni siquiera hay una etiqueta para lb en LaTeX.lb lg lg lb
fuente
Depende.
Fuera de unos pocos contextos, como convertir un valor a decibelios, los logaritmos de base 10 son bastante raros en las ecuaciones. Sin embargo, las gráficas a escala logarítmica a menudo se encuentran en la base 10, aunque esto debería ser bastante fácil de verificar a partir de las etiquetas en los ejes.
En un contexto matemático, es probable que un sin adornos sea el registro natural (es decir, log e o ln ). Por otro lado, la informática a menudo usa logaritmos de base 2 ( log 2 ), y no siempre están claramente marcados como tales. La buena noticia es que puede convertir trivialmente entre bases y usar la base "incorrecta" solo hará que su respuesta sea un factor constante.log loge ln log2
En el documento de 1995 de Gale "Good-Turing Without Tears" , los logaritmos en el texto en realidad son (lo dice en la página 5), pero el código R / S + en el apéndice usa la función, que en realidad es log e o ln . Como @Henry señala a continuación, esto no hace una diferencia práctica.log10 loge ln
log
Si me viera obligado a adivinar, aquí hay algunas heurísticas:
Si las potencias de 2, , o 10 también están presentes, es probable que los registros tengan la base correspondiente.e
Si surge de la integración de (o, más generalmente, involucra cálculo), es probable que sea un registro natural.1/x
Si surge de dividir repetidamente algo por la mitad (como en la búsqueda binaria), es probable que sea . Más generalmente, algo se puede dividir entre n aproximadamente log n veces.log2 n logn
Los cálculos teóricos de la información generalmente usan , especialmente en el trabajo moderno. Sin embargo, puede verificar las unidades para asegurarse: bits → log 2 , nats → ln y bans → log 10 .log2 bits→log2 nats→ln bans→log10
Encontrar el punto donde una función cae o sube a , (37% y 63%, respectivamente) de un valor inicial sugiere un registro natural.1e or 1−1e
fuente
Para responder a su pregunta: no, no puede asumir una notación fija general para el logaritmo.
Una pregunta similar se discutió recientemente en SE.Math: ¿Cuál es la diferencia entre los tres tipos de logaritmos? desde un punto de vista matemático. En general, hay diferentes anotaciones que dependen de los hábitos (Iniciar sesión10 seems of use in medical research) or language (for instance in German, Russian, French). Unfortunately, the same notation sometimes ends up representing different definitions. Quoting from the above SE.Math link:
Quite often, if you are not concerned with the meaning of physical units (like decibels @Matt Krause), nor interested in specific rates of change (in biostatistics, thelog -ratio for fold-change often denotes the base-2 logarithm log2 ), it is likely that the natural logarithm (loge ) is used.
For instance, in power or Box-Cox transforms (for variance stabilization), the natural logarithm appears as a limit when the exponent tends to0 .
Going back to your initial motivation, the Good-Turing Frequency Estimation, it is interesting to read The Population Frequencies of Species and the Estimation of Population Parameters, I. J. Good, Biometrika, 1953. Here, he used logarithmms in different contexts: variable transformation for variance stabilisation (mentioning Bartlett and Anscombe), sum of harmonic series, entropy. We see that he generally useslog as the natural logarithm, and once in a while in the paper specifies loge or log10 , when the context requires it. For variance stabilization, or basic entropy estimation, a factor on the logarithm does not change much the result, as the outcome allows a linear change.
fuente
In the Akaike Information Criterion the base ise , and ln(L^) of the maximum likelihood L^ is being compared additively to the number of parameters k :
AIC=2(k−ln(L)).
Thus it seems that if you use any other base for the logarithm in the AIC, you may end up drawing the wrong conclusion and selecting the wrong model.
fuente