Estoy tratando de entender algunos documentos de Mark van der Laan. Es estadístico teórico en Berkeley y trabaja en problemas que se superponen significativamente con el aprendizaje automático. Un problema para mí (además de las matemáticas profundas) es que a menudo termina describiendo enfoques familiares de aprendizaje automático utilizando una terminología completamente diferente. Uno de sus conceptos principales es "Expectativa de máxima verosimilitud dirigida".
TMLE se utiliza para analizar datos de observación censurados de un experimento no controlado de una manera que permite la estimación del efecto incluso en presencia de factores de confusión. Sospecho firmemente que muchos de los mismos conceptos existen bajo otros nombres en otros campos, pero todavía no lo entiendo lo suficientemente bien como para relacionarlo directamente con nada.
Aquí hay un intento de cerrar la brecha con el "Análisis de datos computacionales":
Y una introducción para los estadísticos está aquí:
Inferencia causal basada en la máxima verosimilitud dirigida: Parte I
Del segundo:
En este artículo, desarrollamos un estimador particular de máxima probabilidad de efectos causales de múltiples intervenciones en puntos temporales. Esto implica el uso del superaprendizaje basado en la pérdida para obtener una estimación inicial de los factores desconocidos de la fórmula de cálculo G y, posteriormente, aplicar una función de fluctuación óptima específica del parámetro objetivo (submodelo paramétrico menos favorable) a cada factor estimado, estimar los parámetros de fluctuación con la estimación de máxima verosimilitud e iterar este paso de actualización del factor inicial hasta la convergencia. Este paso iterativo de actualización de máxima probabilidad dirigida hace que el estimador resultante del efecto causal sea doblemente robusto en el sentido de que es consistente si el estimador inicial es consistente, o el estimador de la función óptima de fluctuación es consistente. La función de fluctuación óptima se especifica correctamente si las distribuciones condicionales de los nodos en el gráfico causal en el que se interviene se especifican correctamente.
En su terminología, "superaprendizaje" es aprendizaje conjunto con un esquema de ponderación no negativo teóricamente sólido. Pero, ¿qué quiere decir con "aplicar una función de fluctuación óptima específica del parámetro objetivo (submodelo paramétrico menos favorable) a cada factor estimado".
O dividiéndolo en tres preguntas distintas, ¿TMLE tiene un paralelo en el aprendizaje automático, qué es un "submodelo paramétrico menos favorable" y qué es una "función de fluctuación" en otros campos?
Respuestas:
Estoy de acuerdo en que van der Laan tiene una tendencia a inventar nuevos nombres para ideas ya existentes (por ejemplo, el super-alumno), pero TMLE no es uno de ellos hasta donde yo sé. En realidad, es una idea muy inteligente, y no he visto nada de la comunidad de Machine Learning que sea similar (aunque podría ser ignorante). Las ideas provienen de la teoría de las ecuaciones de estimación semiparamétricas eficientes, que es algo en lo que creo que los estadísticos piensan mucho más que las personas de ML.
La idea es esencialmente esta. Suponga que es un verdadero mecanismo generador de datos, y el interés está en un particular funcional Ψ ( P 0 ) . Asociado con este tipo de funcional es a menudo una ecuación de estimaciónPAG0 0 Ψ ( P0 0)
donde está determinado de alguna manera por P , y contiene suficiente información para identificar Ψ . φ será tal que E P φ ( Y ∣ θ ) = 0 . Resolver esta ecuación en θ puede, por ejemplo, ser mucho más fácil que estimar todo P 0 . Esta ecuación de estimación es eficiente en el sentido de que cualquier estimador eficiente de Ψ ( P 0 ) es asintóticamente equivalente a uno que resuelve esta ecuación.θ = θ ( P) PAG Ψ φ miPAGφ ( Y∣ θ ) = 0 θ PAG0 0 Ψ ( P0 0) (Nota: estoy siendo un poco flojo con el término "eficiente", ya que solo estoy describiendo la heurística.) La teoría detrás de tales ecuaciones de estimación es bastante elegante, siendo este libro la referencia canónica. Aquí es donde uno puede encontrar definiciones estándar de "submodelos menos favorables"; estos no son términos inventados por van der Laan.
Sin embargo, estimar utilizando técnicas de aprendizaje automático no satisfará, en general, esta ecuación de estimación. Estimando, digamos, la densidad de es un problema intrínsecamente difícil, quizás mucho más difícil que estimar , pero las técnicas de aprendizaje automático generalmente seguirán adelante y estimarán con algún , y luego usarán una estimación de complemento . van der Laan criticaría este estimador por no estar dirigido y, por lo tanto, puede ser ineficiente, tal vez, ni siquiera seaPAG0 0 Ψ ( P 0 ) P 0 P Ψ ( P ) √PAG0 0 Ψ ( P0 0) PAG0 0 PAG^ Ψ ( P^) P0Ψnorte--√ -consistente en absoluto! Sin embargo, van der Laan reconoce el poder del aprendizaje automático y sabe que para estimar los efectos que le interesan, en última instancia, necesitará una estimación de la densidad. Pero no le importa estimar sí mismo; la estimación de densidad solo se realiza con el propósito de obtener .PAG0 0 Ψ
La idea de TMLE es comenzar con la estimación de densidad inicial y luego considerar un nuevo modelo como este:pag^
donde se llama parámetro de fluctuación. Ahora hacemos la máxima probabilidad en . Si resulta que es el MLE, entonces uno puede verificar fácilmente tomando la derivada que resuelve la ecuación de estimación eficiente y, por lo tanto, es eficiente para estimar . Por otro lado, si en el MLE, tenemos un nuevo estimador de densidad que se ajusta mejor a los datos que (después de todo, hicimos MLE, por lo que tiene una mayor probabilidad). Luego, iteramos este procedimiento y observamosϵ ϵ ϵ = 0 pag^ Ψ ϵ ≠ 0 pag^1 pag^
y así sucesivamente hasta que obtengamos algo, en el límite, que satisfaga la ecuación de estimación eficiente.
fuente