En estadística, ¿debo suponer que

18

Estoy estudiando estadísticas y, a menudo, encuentro fórmulas que contienen el logy siempre estoy confundido si debo interpretarlo como el significado estándar de log, es decir, base 10, o si en estadística log generalmente se supone que el símbolo es el registro natural ln.

En particular, estoy estudiando la Estimación de frecuencia de Good-Turing como ejemplo, pero mi pregunta es más general.

Giuseppe Romagnuolo
fuente
2
"Para muchas aplicaciones, es más conveniente trabajar con el logaritmo natural de la función de probabilidad, llamada log-verosimilitud". en.wikipedia.org/wiki/Likelihood_function#Log-likelihood En las estadísticas a menudo trabajamos con la función de verosimilitud, generalmente es lo lnque se considera. Sin embargo, los dos están relacionados: log(x) = ln(x) / ln(10) = ln(x) / 2.303y la función de probabilidad de ln llega al extremo en el mismo punto que la función de probabilidad de log10 .
John_West
55
En algunas áreas de aplicación particulares, cuando se menciona el Iniciar sesión , se pretende la base 10, pero como indica Aksakal, de lo contrario es la convención utilizada en matemáticas: que un sin adornos Iniciar sesiónsignifica registro natural.
Glen_b -Reinstalar a Mónica el
2
Como @John_West dice que ln(x) y losolun(X) son idénticos hasta un factor de escala. Por lo tanto, son iguales solo que usted mide en otra unidad.
1
@Aksakal; lo que dices viene a decir que la unidad es importante (ver mi comentario arriba), con lo que estoy de acuerdo. También escribí para indicar explícitamente la base. Para (algunas) aplicaciones en estadísticas como máxima verosimilitud, este factor de escala es sin embargo irrelevante. El máximo no cambiará después de agregar el factor de escala. En la referencia del OP (buena duración ...) quieren graficar l o g ( N r ) (o l o g ( Z r ) ) versus l o g ( r )losolunlog(Nr)log(Zr)log(r). Esto significa que la unidad cambia en ambos ejes del gráfico, por lo que la "curva" trazada no cambia.
1
A menos que esté escribiendo un documento, incluso cuando usa la probabilidad de registro, la escala (base del logaritmo) generalmente importa. Por ejemplo, las estadísticas de prueba de razón de probabilidad logarítmica usan , tendrías que ajustar desde otra base para usar los valores críticos. Si está escribiendo software, es importante obtener la base correcta al usar funciones de probabilidad de registro de documentos, etc. Hay demasiados casos en los que la base es importante para indicar que no importa. ln
Aksakal

Respuestas:

20

Es seguro asumir que sin un base explícito = ln en estadísticas, porque el registro base 10 no se usa muy a menudo en estadísticas. Sin embargo, otros carteles señalan que log 10 u otras bases pueden ser comunes en otros campos, donde se aplican estadísticas, por ejemplo, la teoría de la información. Entonces, cuando lees documentos en otros campos, a veces se vuelve confuso.log=lnlog10

La página de entropía de Wikipedia es un buen ejemplo de uso confuso del . En la misma página significan base 2, e y cualquier base. Puede averiguar por el contexto a qué se refiere, pero requiere leer el texto. Esta no es una buena manera de presentar el material. Compárelo con la página Logaritmo donde la base se muestra claramente en cada fórmula o se usa ln . Personalmente, creo que este es el camino a seguir: siempre muestra la base cuando se utiliza el signo de registro . Esto también sería compatible con ISO porque el estándar no define el uso de una base no especificada con el símbolo de registro como señaló @Henry.logelnloglog

Finalmente, el estándar ISO 31-11 prescribe signos y lg para logaritmos de base 2 y 10. Ambos raramente se usan en estos días. Recuerdo que usamos lg en la escuela secundaria, pero eso fue en otro siglo en otro mundo. Nunca lo he visto desde que se usa en un contexto estadístico. Ni siquiera hay una etiqueta para lb en LaTeX.lblglglb

Aksakal
fuente
1
Los logaritmos de base 2 también son bastante comunes en algunos campos. El registro sin adornos rara vez es de base 10, pero no siempre es de base e .
Nuclear Wang
Útil, pero creo que "rara vez" es demasiado fuerte. Hay campos sustantivos en los que las personas pueden conocer solo o, en el mejor de los casos, sentirse más familiarizados con los logaritmos de base 10. Tenga en cuenta que muchos gráficos muestran escalas logarítmicas con potencias de 10. Alguien que prefiere los logaritmos naturales no encuentra dificultades para decodificar tales escalas, pero la presunción es de base 10.
Nick Cox
@NickCox, OP establece específicamente "estadísticas" como un campo, y no veo el logaritmo de base 10 utilizado en las estadísticas a menudo.
Aksakal
ISO 31-11 parece especificar para el registro e , y deja un registro sin adornos indefinidolnlogelog
Henry
1
@ NickCox, suavicé el idioma, traes un punto justo
Aksakal
14

Depende.

Fuera de unos pocos contextos, como convertir un valor a decibelios, los logaritmos de base 10 son bastante raros en las ecuaciones. Sin embargo, las gráficas a escala logarítmica a menudo se encuentran en la base 10, aunque esto debería ser bastante fácil de verificar a partir de las etiquetas en los ejes.

En un contexto matemático, es probable que un sin adornos sea ​​el registro natural (es decir, log e o ln ). Por otro lado, la informática a menudo usa logaritmos de base 2 ( log 2 ), y no siempre están claramente marcados como tales. La buena noticia es que puede convertir trivialmente entre bases y usar la base "incorrecta" solo hará que su respuesta sea un factor constante.loglogelnlog2

En el documento de 1995 de Gale "Good-Turing Without Tears" , los logaritmos en el texto en realidad son (lo dice en la página 5), ​​pero el código R / S + en el apéndice usa la función, que en realidad es log e o ln . Como @Henry señala a continuación, esto no hace una diferencia práctica.log10loglogeln

Si me viera obligado a adivinar, aquí hay algunas heurísticas:

  • Si las potencias de 2, , o 10 también están presentes, es probable que los registros tengan la base correspondiente.e

  • Si surge de la integración de (o, más generalmente, involucra cálculo), es probable que sea un registro natural.1/x

  • Si surge de dividir repetidamente algo por la mitad (como en la búsqueda binaria), es probable que sea . Más generalmente, algo se puede dividir entre n aproximadamente log n veces.log2nlogn

  • Los cálculos teóricos de la información generalmente usan , especialmente en el trabajo moderno. Sin embargo, puede verificar las unidades para asegurarse: bitslog 2 , natsln y banslog 10 .log2bitslog2natslnbanslog10

  • Encontrar el punto donde una función cae o sube a , (37% y 63%, respectivamente) de un valor inicial sugiere un registro natural.1e or 11e

Matt Krause
fuente
55
+1. Una pequeña sugerencia es que si se encuentran exponenciales cerca, entonces el logaritmo natural es más probable y, por el contrario, con potencias de 10 o 2. Si la base que se está utilizando no está clara, intente reproducir los cálculos de ejemplo de los autores. exp()
Nick Cox
2
blog(Nr)=a+blog(r)Nr=Arb
2
base10
3

Para responder a su pregunta: no, no puede asumir una notación fija general para el logaritmo.

Una pregunta similar se discutió recientemente en SE.Math: ¿Cuál es la diferencia entre los tres tipos de logaritmos? desde un punto de vista matemático. En general, hay diferentes anotaciones que dependen de los hábitos (Iniciar sesión10 seems of use in medical research) or language (for instance in German, Russian, French). Unfortunately, the same notation sometimes ends up representing different definitions. Quoting from the above SE.Math link:

Notation lnx (almost) unambiguously denotes the natural logarithm logex (latin: logarithmus naturalis), or logarithm in base e. The notation logx should be the adopted notation for the natural logarithm, and it is so in mathematics. However, it often represents the "most natural" depending on the field: I learned it as the base-10 logarithm (log10) at school, and it is often used this way in engineering (for instance in the definition of decibels)

Quite often, if you are not concerned with the meaning of physical units (like decibels @Matt Krause), nor interested in specific rates of change (in biostatistics, the log-ratio for fold-change often denotes the base-2 logarithm log2), it is likely that the natural logarithm (loge) is used.

For instance, in power or Box-Cox transforms (for variance stabilization), the natural logarithm appears as a limit when the exponent tends to 0.

Going back to your initial motivation, the Good-Turing Frequency Estimation, it is interesting to read The Population Frequencies of Species and the Estimation of Population Parameters, I. J. Good, Biometrika, 1953. Here, he used logarithmms in different contexts: variable transformation for variance stabilisation (mentioning Bartlett and Anscombe), sum of harmonic series, entropy. We see that he generally uses log as the natural logarithm, and once in a while in the paper specifies loge or log10, when the context requires it. For variance stabilization, or basic entropy estimation, a factor on the logarithm does not change much the result, as the outcome allows a linear change.

Laurent Duval
fuente
0

In the Akaike Information Criterion the base is e, and ln(L^) of the maximum likelihood L^ is being compared additively to the number of parameters k:

AIC=2(kln(L)).

Thus it seems that if you use any other base for the logarithm in the AIC, you may end up drawing the wrong conclusion and selecting the wrong model.

Bjørn Kjos-Hanssen
fuente