¿Cómo funciona la fórmula para generar variables aleatorias correlacionadas?

19

Si tenemos 2 variables aleatorias normales no correlacionadas entonces podemos crear 2 variables aleatorias correlacionadas con la fórmula $X_1, X_2$

$Y=\rho X_1+ \sqrt{1-\rho^2} X_2$

y luego tendrá una correlación con . $Y$ $\rho$ $X_1$

¿Alguien puede explicar de dónde viene esta fórmula?

correlation normal-distribution covariance Lanza
fuente

1

Una discusión extensa sobre este y otros temas relacionados aparece en mi respuesta en stats.stackexchange.com/a/71303 . Entre otras cosas, deja claro que (1) la suposición de Normalidad es irrelevante y (2) debe hacer suposiciones adicionales: las varianzas de y deben ser iguales para que la correlación de con sea .

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

X_{1}

$X_1$

ρ

$\rho$

whuber

Muy interesante enlace. No estoy seguro de entender lo que quieres decir con que la normalidad es irrelevante. Si o no es normal, y se hace más difícil controlar la densidad de través del algoritmo Kaiser-Dickman. Esta es la razón por la cual los algoritmos especializados generan datos correlacionados no normales (por ejemplo, Headrick, 2002; Ruscio y Kaczetow, 2008; Vale y Maurelli, 1983). Por ejemplo, imagine que su objetivo es generar ~ normal, ~ uniforme , con = .5. El uso de ~ uniform da como resultado una que no es uniforme ( termina siendo una combinación lineal de normal y uniforme).

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

X

$X$

Y

$Y$

ρ

$\rho$

X_{2}

$X_2$

Y

$Y$

Y

$Y$

Anthony

@Anthony La pregunta solo se refiere a la correlación , que es puramente una función del primer y segundo momento. La respuesta no depende de ninguna otra propiedad de las distribuciones. Lo que está discutiendo es un tema completamente diferente.

whuber

17

Supongamos que desea encontrar una combinación lineal de y modo que $X_1$ $X_2$

corr (α X_{1} + β X_{2}, X_{1}) = ρ

$\text{corr}(\alpha X_1 + \beta X_2, X_1) = \rho$

Tenga en cuenta que si multiplica tanto como por la misma constante (distinta de cero), la correlación no cambiará. Por lo tanto, vamos a agregar una condición para preservar la varianza: $\alpha$ $\beta$ $\text{var}(\alpha X_1 + \beta X_2) = \text{var}(X_1)$

Esto es equivalente a

ρ = \frac{cov (α X_{1} + β X_{2}, X_{1})}{\sqrt{var (α X_{1} + β X_{2}) var (X_{1})}} = \frac{α \overset{= var (X_{1})}{\overset{⏞}{cov (X_{1}, X_{1})}} + \overset{= 0}{\overset{⏞}{β cov (X_{2}, X_{1})}}}{\sqrt{var (α X_{1} + β X_{2}) var (X_{1})}} = α \sqrt{\frac{var (X_{1})}{α^{2} var (X_{1}) + β^{2} var (X_{2})}}

$\rho = \frac{\text{cov}(\alpha X_1 + \beta X_2, X_1)}{\sqrt{\text{var}(\alpha X_1 + \beta X_2) \text{var}(X_1)}} = \frac{\alpha \overbrace{\text{cov}(X_1, X_1)}^{=\text{var}(X_1)} + \overbrace{\beta \text{cov}(X_2, X_1)}^{=0}}{\sqrt{\text{var}(\alpha X_1 + \beta X_2) \text{var}(X_1)}} = \alpha \sqrt{\frac{\text{var}(X_1)}{\alpha^2 \text{var}(X_1) + \beta^2 \text{var}(X_2)}}$

Asumiendo que ambas variables aleatorias tienen la misma varianza (¡esta es una suposición crucial!) ( ), obtenemos $\text{var}(X_1) = \text{var}(X_2)$

ρ \sqrt{α^{2} + β^{2}} = α

$\rho \sqrt{\alpha^2 + \beta^2} = \alpha$

Hay muchas soluciones para esta ecuación, por lo que es hora de recordar la condición de preservación de la varianza:

var (X_{1}) = var (α X_{1} + β X_{2}) = α^{2} var (X_{1}) + β^{2} var (X_{2}) \Rightarrow α^{2} + β^{2} = 1

$\text{var}(X_1) = \text{var}(\alpha X_1 + \beta X_2) = \alpha^2 \text{var}(X_1) + \beta^2 \text{var}(X_2) \Rightarrow \alpha^2 + \beta^2 = 1$

Y esto nos lleva a

α = ρ β = \pm \sqrt{1 - ρ^{2}}

$\alpha = \rho \\ \beta = \pm \sqrt{1-\rho^2}$

UPD . Con respecto a la segunda pregunta: sí, esto se conoce como blanqueamiento .

Artem Sobolev
fuente

9

La ecuación es una forma bivariada simplificada de descomposición de Cholesky . Esta ecuación simplificada a veces se llama algoritmo de Kaiser-Dickman (Kaiser y Dickman, 1962).

Tenga en cuenta que y deben tener la misma variación para que este algoritmo funcione correctamente. Además, el algoritmo se usa típicamente con variables normales. Si o no son normales, podría no tener la misma forma de distribución que . $X_1$ $X_2$ $X_1$ $X_2$ $Y$ $X_2$

Referencias

Kaiser, HF y Dickman, K. (1962). Muestra y matrices de puntuación de población y muestras de matrices de correlación de una matriz de correlación de población arbitraria Psychometrika, 27 (2), 179-182.

Antonio
fuente

2

Supongo que no necesita variables normales estandarizadas, solo tener la misma varianza debería ser suficiente.

Artem Sobolev

2

Y

$Y$

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

3

$\cos$ $n^{th}$ $n^{th}$ $\cos\theta$ $sin\theta$ $X_1,X_2$
$\rho = cos \theta$ $\sqrt{1-{\rho}^2}=\pm sin \theta$

$X_1, X_2$

Dmitry Rubanovich
fuente

2

T E X

$\TeX$

¿Cómo funciona la fórmula para generar variables aleatorias correlacionadas?

Respuestas: