Tengo algunos datos con los que estoy jugando; para simplificar, supongamos que los datos contienen información sobre la cantidad de publicaciones que ha escrito un blogger frente a la cantidad de personas que se han suscrito al blog de esa persona (esto es solo un ejemplo inventado).
Quiero obtener un modelo aproximado de la relación entre # publicaciones vs. # suscriptores, y cuando veo un diagrama de log-log, veo lo siguiente:
Esto parece una relación lineal aproximada (en la escala log-log), y la comprobación rápida de los residuos parece estar de acuerdo (sin patrón aparente, sin desviación notable de una distribución normal):
Entonces mi pregunta es: ¿está bien usar este modelo lineal? Sé vagamente que hay problemas al usar regresiones lineales en las parcelas log-log para estimar las distribuciones de la ley de potencia, pero mis datos no son una distribución de probabilidad de la ley de potencia (es simplemente algo que parece seguir aproximadamente a los modelo; en particular, nada necesita sumar 1), por lo que no estoy seguro de si se aplican las mismas críticas. (Tal vez estoy corrigiendo demasiado ante la mención de "log-log" y "regresión lineal" en la misma oración ...) Además, todo lo que realmente estoy tratando de hacer es:
- Vea si hay algún patrón en los blogs con residuos positivos versus blogs con residuos negativos
- Sugiera un modelo aproximado de cómo se relacionan los suscriptores con el número de publicaciones.
fuente
Respuestas:
No hay nada intrínsecamente malo en una regresión log-log y los economistas las han usado durante siglos para estimar la elasticidad. Sin embargo, si desea permitir el efecto de la ley de potencia pero no quiere molestarse demasiado, puede aplicar esta simple corrección: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=881759
fuente