La versión general:
Necesito estimar donde y son continuos y multivariados. Prefiero hacerlo de forma no paramétrica porque no tengo una buena forma funcional en mente y debe ser algo como imparcial. Quería usar un estimador de densidad de kernel condicional, pero me di cuenta de que primero tendría que cuantificarLuego tuve la idea de estimar y partir de los datos y usar eso para calcular , o tal vez lo leí en algún lugar y no recuerdo dónde.
¿Hay alguna razón por la cual este procedimiento no sea válido? ¿Existe un enfoque mejor o más honesto que la densidad del kernel? Además, ¿hay algún problema con la estimación de las densidades de población a partir de las densidades de muestra de forma no paramétrica? Los datos son datos de encuestas, y tengo pesos de encuestas; ¿Debería incorporarlos de alguna manera?
La versión específica del caso:
Probablemente valga la pena mencionar que voy a usar estas estimaciones para ponderaciones inversas de probabilidad de tratamiento en un modelo estructural marginal, como en Robins (2000) ( PDF sin delegar ). una secuencia de "tratamientos" y una secuencia de factores de confusión que varían con el tiempo con respecto a algunos resultado que ocurre en . He planteado una hipótesis de una relación causal paramétrica simple, , pero dado que hay un factor de confusión que varía con el tiempoes una estimación sesgada del "efecto de tratamiento promedio", y el factor de confusión no puede agregarse como un regresor porque está en la ruta causal y eso también sesgará . Afortunadamente, Doc Robins descubrió que puedo obtener estimaciones imparciales / sin confusión y razonablemente eficientes si vuelvo a evaluar mis observaciones mediante:
Mi pregunta: esa secuencia de pesos es realmente para lo que necesito una estimación. Robins recomienda regresión logística. Pero encuentra en , se mide en y, a todos los efectos prácticos, se encuentra en un subconjunto finito del mismo. encuentra en un intervalo cerrado, pero solo porque es realmente la media de algunas variables, cada una medida en un subconjunto finito de .
Entonces tuve algunas ideas:
- Estime y no paramétrica
- Estime con regresión beta no paramétricamente
- Estime con regresión beta, y estime ) al "encadenar" regresiones beta a través del tiempo para expresar todo como condicional.
- Algo realmente coherente y honesto en la propagación de la incertidumbre, que obviamente no he pensado.
- Bayes? Conozco a Stan y JAGS, pero MCMC probablemente explotará mi computadora (no quiero tratar con EC2).
No he encontrado ninguna pista en la literatura, ya que los tratamientos multivariados son raros en el modelado causal. ¿Qué tengo que hacer?
Puntos de bonificación: ¿cómo se siente con la notación para representar lugar de algo como ?
fuente