Digamos que tengo algunos datos históricos, por ejemplo, precios de acciones anteriores, fluctuaciones de precios de pasajes aéreos, datos financieros anteriores de la empresa ...
Ahora alguien (o alguna fórmula) aparece y dice "tomemos / usemos el registro de la distribución" y aquí es donde voy POR QUÉ ?
Preguntas:
- ¿POR QUÉ se debe tomar el registro de la distribución en primer lugar?
- ¿QUÉ 'da / simplifica' el registro de la distribución que la distribución original no pudo / no hizo?
- ¿La transformación logarítmica es 'sin pérdidas'? Es decir, al transformarse en espacio de registro y analizar los datos, ¿se mantienen las mismas conclusiones para la distribución original? ¿Cómo?
- Y por último, ¿CUÁNDO tomar el registro de la distribución? ¿En qué condiciones se decide hacer esto?
Realmente quería entender las distribuciones basadas en registros (por ejemplo, lognormal) pero nunca entendí los aspectos cuándo / por qué, es decir, el registro de la distribución es una distribución normal, ¿y qué? ¿Qué nos dice eso y a mí y por qué molestarse? De ahí la pregunta!
ACTUALIZAR : Según el comentario de @ whuber, miré las publicaciones y, por alguna razón, entiendo el uso de las transformaciones de registro y su aplicación en la regresión lineal, ya que puede establecer una relación entre la variable independiente y el registro de la variable dependiente. Sin embargo, mi pregunta es genérica en el sentido de analizar la distribución en sí misma: no existe una relación per se que pueda concluir para ayudar a comprender la razón de tomar registros para analizar una distribución. Espero tener sentido: - /
En el análisis de regresión, usted tiene restricciones sobre el tipo / ajuste / distribución de los datos y puede transformarlos y definir una relación entre la variable dependiente independiente y (no transformada). Pero cuándo / por qué se haría eso para una distribución aislada donde las restricciones de tipo / ajuste / distribución no son necesariamente aplicables en un marco (como la regresión). Espero que la aclaración haga las cosas más claras que confusas :)
Esta pregunta merece una respuesta clara en cuanto a "POR QUÉ y CUÁNDO"
Respuestas:
Si asume una forma de modelo que no es lineal pero puede transformarse en un modelo lineal comoIniciar sesiónY= β0 0+ β1t , se justificaría tomar logaritmos de Y para cumplir con la forma de modelo especificada. En general, tenga o no series causales, el único momento en que estaría justificado o correcto al tomar el Log de Y es cuando se puede demostrar que la Varianza de Y es proporcional al Valor esperado de Y2 . No recuerdo la fuente original de lo siguiente, pero resume muy bien el papel de las transformaciones de poder. Es importante tener en cuenta que los supuestos de distribución siempre se refieren al proceso de error, no a la Y observada, por lo tanto, es un "no-no" definitivo analizar la serie original para una transformación apropiada a menos que la serie se defina por una constante simple.
Las transformaciones injustificadas o incorrectas, incluidas las diferencias, deben evitarse cuidadosamente, ya que a menudo son un intento mal concebido / mal concebido para tratar anomalías no identificadas / cambios de nivel / tendencias de tiempo o cambios en los parámetros o cambios en la varianza del error. Un ejemplo clásico de esto se discute comenzando en la diapositiva 60 aquí http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation donde tres anomalías de pulso ( sin tratamiento) condujo a una transformación de registro injustificada por los primeros investigadores. Lamentablemente, algunos de nuestros investigadores actuales siguen cometiendo el mismo error.
La transformación de potencia óptima se encuentra a través de la Prueba Box-Cox donde
fuente
La escala logarítmica informa sobre los cambios relativos (multiplicativos), mientras que la escala lineal informa sobre los cambios absolutos (aditivos). ¿Cuándo usas cada uno? Cuando le interesan los cambios relativos, use la escala logarítmica; cuando te interesan los cambios absolutos, usa la escala lineal. Esto es cierto para las distribuciones, pero también para cualquier cantidad o cambio en las cantidades.
Tenga en cuenta que uso la palabra "cuidado" aquí de manera muy específica e intencional. Sin un modelo o una meta, su pregunta no puede ser respondida; El modelo u objetivo define qué escala es importante. Si está tratando de modelar algo, y el mecanismo actúa a través de un cambio relativo, la escala logarítmica es crítica para capturar el comportamiento visto en sus datos. Pero si el mecanismo del modelo subyacente es aditivo, querrás usar una escala lineal.
Si convertimos al espacio de registro, los cambios relativos aparecen como cambios absolutos.
Ahora, tomando la diferencia absoluta en el espacio logarítmico , encontramos que ambos cambiaron en .0413.
Ambas medidas de cambio son importantes, y cuál es importante para usted depende únicamente de su modelo de inversión. Hay dos modelos (1) Invertir una cantidad fija de capital, o (2) invertir en un número fijo de acciones.
Modelo 1: Invertir con una cantidad fija de capital.
Modelo 2: número fijo de acciones.
Ahora supongamos que pensamos en el valor de una acción como una variable aleatoria que fluctúa con el tiempo, y queremos llegar a un modelo que refleje en general cómo se comportan las acciones. Y digamos que queremos usar este modelo para maximizar las ganancias. Calculamos una distribución de probabilidad cuyos valores de x están en unidades de 'precio de la acción', y valores de y en probabilidad de observar un precio de la acción dado. Hacemos esto para el stock A y el stock B. Si se suscribe al primer escenario, donde tiene una cantidad fija de capital que desea invertir, tomar el registro de estas distribuciones será informativo. ¿Por qué? Lo que le importa es la forma de la distribución en el espacio relativo. Si una acción va de 1 a 10, o de 10 a 100 no le importa, ¿verdad? Ambos casos son 10 vecesganancia relativa Esto aparece naturalmente en una distribución a escala logarítmica en la que las ganancias unitarias corresponden a las ganancias de plegado directamente. Para dos acciones cuyo valor medio es diferente pero cuyo cambio relativo se distribuye de manera idéntica (tienen la misma distribución de los cambios porcentuales diarios ), sus distribuciones logarítmicas serán idénticas en su forma recién desplazada. Por el contrario, sus distribuciones lineales no tendrán una forma idéntica, y la distribución de mayor valor tendrá una mayor varianza.
Si observara estas mismas distribuciones en un espacio lineal o absoluto, pensaría que los precios de las acciones de mayor valor corresponden a mayores fluctuaciones. Sin embargo, para sus propósitos de inversión, donde solo importan las ganancias relativas, esto no es necesariamente cierto.
Ejemplo 2. Reacciones químicas. Supongamos que tenemos dos moléculas A y B que sufren una reacción reversible.
que se define por las constantes de velocidad individuales
Su equilibrio está definido por la relación:
EDITAR . Un paralelo interesante que me ayudó a construir la intuición es el ejemplo de los medios aritméticos frente a los medios geométricos.. Una media aritmética (vainilla) calcula el promedio de números suponiendo un modelo oculto donde las diferencias absolutas son lo que importa. Ejemplo. La media aritmética de 1 y 100 es 50.5. Sin embargo, supongamos que estamos hablando de concentraciones, donde la relación química entre las concentraciones es multiplicativa. Entonces, la concentración promedio debería calcularse realmente en la escala logarítmica. Esto se llama el promedio geométrico. ¡El promedio geométrico de 1 y 100 es 10! En términos de diferencias relativas, esto tiene sentido: 10/1 = 10 y 100/10 = 10, es decir, el cambio relativo entre el promedio y los dos valores es el mismo. Aditivamente encontramos lo mismo; 50.5-1 = 49.5 y 100-50.5 = 49.5.
fuente