Calcular ponderaciones de probabilidad inversa: ¿estimación de densidad condicional (multivariante)?

8

La versión general:

Necesito estimar donde y son continuos y multivariados. Prefiero hacerlo de forma no paramétrica porque no tengo una buena forma funcional en mente y debe ser algo como imparcial. Quería usar un estimador de densidad de kernel condicional, pero me di cuenta de que primero tendría que cuantificarLuego tuve la idea de estimar y partir de los datos y usar eso para calcular , o tal vez lo leí en algún lugar y no recuerdo dónde.f(A|X)AXf^(A|X)Xf^(A,X)f^(X)f^(A|X)

¿Hay alguna razón por la cual este procedimiento no sea válido? ¿Existe un enfoque mejor o más honesto que la densidad del kernel? Además, ¿hay algún problema con la estimación de las densidades de población a partir de las densidades de muestra de forma no paramétrica? Los datos son datos de encuestas, y tengo pesos de encuestas; ¿Debería incorporarlos de alguna manera?


La versión específica del caso:

Probablemente valga la pena mencionar que voy a usar estas estimaciones para ponderaciones inversas de probabilidad de tratamiento en un modelo estructural marginal, como en Robins (2000) ( PDF sin delegar ). una secuencia de "tratamientos" y una secuencia de factores de confusión que varían con el tiempo con respecto a algunos resultado que ocurre en . He planteado una hipótesis de una relación causal paramétrica simple, , pero dado que hay un factor de confusión que varía con el tiempo{at}t=04{xt}t=04y~t=T+1E[Y~|a]=βaβes una estimación sesgada del "efecto de tratamiento promedio", y el factor de confusión no puede agregarse como un regresor porque está en la ruta causal y eso también sesgará . Afortunadamente, Doc Robins descubrió que puedo obtener estimaciones imparciales / sin confusión y razonablemente eficientes si vuelvo a evaluar mis observaciones mediante: β

wi=s=04f(as|as<t)f(as|as<t,xs<t)

Mi pregunta: esa secuencia de pesos es realmente para lo que necesito una estimación. Robins recomienda regresión logística. Pero encuentra en , se mide en y, a todos los efectos prácticos, se encuentra en un subconjunto finito del mismo. encuentra en un intervalo cerrado, pero solo porque es realmente la media de algunas variables, cada una medida en un subconjunto finito de .at[0,)7{0,}7xt{0,,12}

Entonces tuve algunas ideas:

  1. Estime y no paramétricaf(at,as<t,xs<t)f(x,as<t)
  2. Estime con regresión beta no paramétricamentef(at|as<t,xs<t)f(xs<t,as<t)
  3. Estime con regresión beta, y estime ) al "encadenar" regresiones beta a través del tiempo para expresar todo como condicional.f(xt1|at,as<t,xs<(t1))f(at,as<t,xs<(t1))
  4. Algo realmente coherente y honesto en la propagación de la incertidumbre, que obviamente no he pensado.
  5. Bayes? Conozco a Stan y JAGS, pero MCMC probablemente explotará mi computadora (no quiero tratar con EC2).

No he encontrado ninguna pista en la literatura, ya que los tratamientos multivariados son raros en el modelado causal. ¿Qué tengo que hacer?

Puntos de bonificación: ¿cómo se siente con la notación para representar lugar de algo como ?as<t{as}s=0tat1

Shadowtalker
fuente

Respuestas:

10

La idea basica

Según Chen, Linton y Robinson (2001) , la técnica "predeterminada" para la estimación univariada condicional de la densidad del núcleo es encontrar, para anchos de banda , a,b,c

f^ab(y,z)f^c(z)=f^abc(y|z)

Luego, con el ancho de banda del numerador y el ancho de banda del denominador y , el siguiente resultado del límite central se mantiene bajo ciertos supuestos de independencia y consistencia (que solo son realmente restrictivos cuando ): (a,b)ca=b=cy=xt,z=xt1

na2(f^abc=aaa(y|z)f(y|z))dN(0,V)

donde

V^=(K(u)2du)2f^aaa(y|z)f^a(z)=(K(u)2du)2f^aa(y,z)

Aunque nunca he visto un modelo ponderado frecuentista (incluso las estadísticas introductorias WLS) intento explicar la varianza de los pesos estimados. Por ahora voy a seguir esa convención, pero si obtengo resultados aquí, veré si puedo convertirla en un modelo completamente bayesiano que propague la incertidumbre con mayor honestidad. Entonces sí, estimar la densidad condicional estimando las densidades conjunta y marginal es un procedimiento estándar.

Aplicabilidad a mi caso

No está explícitamente claro en ese documento cómo se generaliza esto al caso cuando y , y . Pero supongo que esto es realmente lo mismo que una secuencia larga grande que parece perfectamente manejable de acuerdo con Robinson (1983) (citado en Chen, et al). Nuevamente, usar la regla de Bayes para estimar la densidad condicional parece perfectamente aceptable.y=xtz=(xs)s=1t1xs=(xs,1xs,D)x=((xs,d)d=1D)s=1t1

Banda ancha

El último problema es la selección de ancho de banda. El ancho de banda ahora es una matriz de bloques de la forma

B=(Bnumerator00Bdenominator)=((a1,1B1numB2numat,D)00(c1,1B1denomB2denomct1,D))

que es un desastre Cuando el ancho de banda tal que , entonces , pero este resultado se aplicaría por separado a y lugar de a en su conjunto ( fuente , notas de clase de alguien).H=hH0|H0|=1bN4+DBnumBdenomB

Chen et al encuentran un ancho de banda óptimo (en su caso 2-d) para un nivel dado de que parece que se generaliza al caso cuando y son multivariados. Sugieren establecer donde es la media teórica que se induciría bajo normalidad conjunta, y derivan .a=b=czyzz=μμa^(μ)

Una versión más general del mismo resultado se encuentra en otra sección de esas notas de clase, llamada ancho de banda "regla general". También obtienen un ancho de banda óptimo en función de un procedimiento general de validación cruzada.

Cálculo

Tengo un tratamiento de 7 dimensiones durante 3 períodos de tiempo, por lo que tengo una densidad de hasta 21 dimensiones para estimar. Y me olvidé de las covariables de referencia. Tengo algo así como 30 covariables de referencia, por lo que terminaría tratando de estimar una distribución de 51 dimensiones, una distribución de 44 dimensiones y una distribución de 37 dimensiones. Y eso sin mencionar que la dimensionalidad extrema requerirá una muestra increíblemente grande. Scott y Wand (1991) informan que un tamaño de muestra de 50 en una dimensión es equivalente a más de 1 millón en 8 dimensiones ... sin mención de 30. Ninguna cantidad de estos puede expresar cómo me siento en este momento.

Conclusión

Así que desperdicié una semana de mi vida en esto. Oh bien. En cambio, voy a usar MCMC para ajustar el tratamiento paramétrico y los modelos de resultados simultáneamente, de modo que los pesos de IPT terminen siendo una función de las densidades predictivas posteriores del modelo de tratamiento. Luego, pasaré por formas lineales, cuadráticas y cúbicas para el modelo de tratamiento y veré cuál se adapta mejor.

Shadowtalker
fuente
66
"Así que desperdicié una semana de mi vida en esto". Eso se llama aprendizaje e investigación. Como estudiante de maestría, deberías aceptar eso porque hay más como esto por venir. Por lo general, no hay atajos en la investigación porque a menudo nadie sabe el camino
Momo