¿Cómo funciona la fórmula para generar variables aleatorias correlacionadas?

19

Si tenemos 2 variables aleatorias normales no correlacionadas entonces podemos crear 2 variables aleatorias correlacionadas con la fórmulaX1,X2

Y=ρX1+1ρ2X2

y luego tendrá una correlación con .ρ X 1YρX1

¿Alguien puede explicar de dónde viene esta fórmula?

Lanza
fuente
1
Una discusión extensa sobre este y otros temas relacionados aparece en mi respuesta en stats.stackexchange.com/a/71303 . Entre otras cosas, deja claro que (1) la suposición de Normalidad es irrelevante y (2) debe hacer suposiciones adicionales: las varianzas de y deben ser iguales para que la correlación de con sea . X 2 Y X 1 ρX1X2YX1ρ
whuber
Muy interesante enlace. No estoy seguro de entender lo que quieres decir con que la normalidad es irrelevante. Si o no es normal, y se hace más difícil controlar la densidad de través del algoritmo Kaiser-Dickman. Esta es la razón por la cual los algoritmos especializados generan datos correlacionados no normales (por ejemplo, Headrick, 2002; Ruscio y Kaczetow, 2008; Vale y Maurelli, 1983). Por ejemplo, imagine que su objetivo es generar ~ normal, ~ uniforme , con = .5. El uso de ~ uniform da como resultado una que no es uniforme ( termina siendo una combinación lineal de normal y uniforme). X 2 Y X Y ρ X 2 Y YX1X2YXYρX2YY
Anthony
@Anthony La pregunta solo se refiere a la correlación , que es puramente una función del primer y segundo momento. La respuesta no depende de ninguna otra propiedad de las distribuciones. Lo que está discutiendo es un tema completamente diferente.
whuber

Respuestas:

17

Supongamos que desea encontrar una combinación lineal de y X 2 de modo queX1X2

corr(αX1+βX2,X1)=ρ

Tenga en cuenta que si multiplica tanto como β por la misma constante (distinta de cero), la correlación no cambiará. Por lo tanto, vamos a agregar una condición para preservar la varianza: var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Esto es equivalente a

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Asumiendo que ambas variables aleatorias tienen la misma varianza (¡esta es una suposición crucial!) ( ), obtenemosvar(X1)=var(X2)

ρα2+β2=α

Hay muchas soluciones para esta ecuación, por lo que es hora de recordar la condición de preservación de la varianza:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

Y esto nos lleva a

α=ρβ=±1ρ2

UPD . Con respecto a la segunda pregunta: sí, esto se conoce como blanqueamiento .

Artem Sobolev
fuente
9

La ecuación es una forma bivariada simplificada de descomposición de Cholesky . Esta ecuación simplificada a veces se llama algoritmo de Kaiser-Dickman (Kaiser y Dickman, 1962).

Tenga en cuenta que y X 2 deben tener la misma variación para que este algoritmo funcione correctamente. Además, el algoritmo se usa típicamente con variables normales. Si X 1 o X 2 no son normales, Y podría no tener la misma forma de distribución que X 2 .X1X2X1X2YX2

Referencias

Kaiser, HF y Dickman, K. (1962). Muestra y matrices de puntuación de población y muestras de matrices de correlación de una matriz de correlación de población arbitraria Psychometrika, 27 (2), 179-182.

Antonio
fuente
2
Supongo que no necesita variables normales estandarizadas, solo tener la misma varianza debería ser suficiente.
Artem Sobolev
2
Y
X1X2Y
3

cosnthnthcosθsinθX1,X2
ρ=cosθ1ρ2=±sinθ

X1,X2

Dmitry Rubanovich
fuente
2
TEX