Actualmente estoy trabajando en un problema en el que tenemos un pequeño conjunto de datos y estamos interesados en el efecto de causalidad de un tratamiento en el resultado.
Mi asesor me ha indicado que realice una regresión univariada en cada predictor con el resultado como respuesta, luego la asignación del tratamiento como respuesta. Es decir, se me pide que ajuste una regresión con una variable a la vez y que haga una tabla de los resultados. Le pregunté "¿por qué deberíamos hacer esto?", Y la respuesta fue algo en el sentido de "estamos interesados en qué predictores están asociados con la asignación del tratamiento y el resultado, ya que esto probablemente indicaría un factor de confusión". Mi asesor es un estadístico capacitado, no un científico en un campo diferente, por lo que me inclino a confiar en ellos.
Esto tiene sentido, pero no está claro cómo usar el resultado del análisis univariante. ¿No tomaría decisiones de selección de modelo a partir de este resultado en un sesgo significativo de las estimaciones e intervalos de confianza estrechos? ¿Por qué alguien debería hacer esto? Estoy confundido y mi asesor está siendo bastante opaco sobre el tema cuando lo mencioné. ¿Alguien tiene recursos en esta técnica?
(Nota: mi asesor ha dicho que NO estamos usando valores p como límite, sino que queremos considerar "todo").
Respuestas:
El contexto causal de su análisis es un calificador clave en su pregunta. En el pronóstico, ejecutar regresiones univariantes antes de regresiones múltiples en el espíritu del "método de selección intencional" sugerido por Hosmer y Lemenshow tiene un objetivo. En su caso, donde está construyendo un modelo causal, ejecutar regresiones univariadas antes de ejecutar regresión múltiple tiene un objetivo completamente diferente. Déjame expandirme sobre esto último.
Usted y su instructor deben tener en mente un determinado gráfico causal. Los gráficos causales tienen implicaciones comprobables. Su misión es comenzar con el conjunto de datos que tiene y razonar de regreso al modelo causal que podría haberlo generado. Las regresiones univariadas que sugirió que ejecute probablemente constituyan el primer paso en el proceso de probar las implicaciones del gráfico causal que tiene en mente. Suponga que cree que sus datos fueron generados por el modelo causal representado en el gráfico a continuación. Suponga que está interesado en el efecto causal de D en E. El siguiente gráfico sugiere una serie de implicaciones comprobables, tales como:
Mencioné que este es solo el primer paso en el proceso de búsqueda causal porque la verdadera diversión comienza una vez que comienzas a ejecutar regresiones múltiples, condicionando diferentes variables y probando si el resultado de la regresión es consistente con la implicación del gráfico. Por ejemplo, el gráfico anterior sugiere que E y A deben ser independientes una vez que se condiciona en D. En otras palabras, si retrocede E en D y A y descubre que el coeficiente en A no es igual a cero, concluirá que E depende de A, después de condicionar en D, y por lo tanto, que el gráfico causal debe estar equivocado. Incluso le dará pistas sobre cómo alterar su gráfico causal, porque el resultado de esta regresión sugiere que debe haber un camino entre A y E que no esté separado por D.
fuente
Antes de intentar responder, me gustaría señalar ese tipo de datos y su distribución puede afectar la forma en que los evalúa / regresa / clasifica.
También es posible que desee buscar aquí el método que su asesor puede querer que use.
Un poco de trasfondo. Si bien el uso de una herramienta de selección de modelos es una posibilidad, aún debe poder decir por qué se utilizó o se omitió un predictor. Esas herramientas pueden ser una caja negra. Debe comprender completamente sus datos y poder indicar por qué se seleccionó un predictor particular. (Especialmente, estoy asumiendo un proyecto de tesis / maestría).
Por ejemplo, mire el precio de las casas y la edad. El precio de las casas generalmente disminuye con la edad. Por lo tanto, cuando vea una casa antigua con un alto precio en sus datos, parecería un valor atípico que se eliminará, pero ese no es el caso.
En cuanto a (NB: mi asesor ha dicho que NO estamos utilizando los valores p como punto de corte, sino que queremos considerar "todo"). Los valores p no son el todo y terminan todo, pero pueden ser útiles. . Los algoritmos / programas de recuperación son limitados y no pueden ver la imagen completa.
En cuanto a por qué podría ser una regresión univariada en cada predictor / asignación de tratamiento.
Esto podría ser para ayudar a seleccionar los predictores para incluir en el modelo multivariado básico. A partir de ese modelo básico, vería si esos predictores son significativos y si deberían permanecer o si deberían eliminarse con el objetivo de obtener un modelo parsimonioso.
O podría ser para que usted comprenda mejor los datos.
fuente
Creo que su supervisor le está pidiendo que realice un primer análisis de los datos con el objetivo de identificar si alguna de las variables puede explicar una fracción significativa de la varianza en los datos.
Una vez que haya concluido si alguna de las variables puede explicar algo de la variabilidad, podrá evaluar cómo funcionan juntas, si son colineales, o están correlacionadas entre sí, etc. En una fase puramente exploratoria para tener un análisis multivariado podría hacer más difícil una primera evaluación, porque al construir cada variable eliminaría el efecto de las otras. Podría ser más difícil evaluar si alguna de las variables podría explicar alguna de las variaciones.
fuente
Ese puede ser un enfoque para comprender los datos, pero la experiencia muestra que las predicciones variarán cuando use todos los predictores combinados y cada uno de ellos. Eso es algo que entendemos por la previsibilidad de los datos y lo que se debe hacer para futuros pasos.
He visto muchas veces cuando con todas las variables el valor p dice que algunas variables no son significativas, pero solo con esas variables no significativas, fueron lo suficientemente significativas. Eso se debe a un efecto mixto: no es que su supervisor esté equivocado, sino que para comprender los datos tenemos que hacer esto.
fuente