La respuesta a la pregunta 1 dependerá de su pregunta de investigación y de quién es la audiencia para el resultado.
Si su pregunta de investigación apunta a hablar sobre diferencias en b basadas en el perfil de A, entonces eso obviamente ayudará a enmarcar su resumen. En un estudio epidemiológico, incluso si no está tomando muestras basadas en A (variable independiente como estado expuesto / no expuesto), aún tendría sentido usar esta clasificación como una variable independiente [exposición] y la variable continua como una variable dependiente [resultado ] Parece que ya sabes la respuesta a esto.
También debe considerar cómo podría interpretar el resultado en términos de presentar los resultados a otros (e interpretarlo usted mismo). Un modelo [variable] de variable continua como dependiente tendría una diferencia media (o similar) como un resumen; un modelo dicotómico de variable como resultado tendría una razón de probabilidades (razón de probabilidades aumentadas por una unidad de la variable continua, que podría escalarse para dar, por ejemplo, un aumento relativo por cinco kilos de peso adicional para la probabilidad de diabetes tipo II).
Mi experiencia al consultar los entornos y explicar esto a las personas es que la primera (diferencia de medias) es generalmente más fácil de explicar a otras personas que la segunda (cociente de probabilidad por unidad de diferencia de variable independiente continua).
Para su pregunta 2 , si desea ejecutar un modelo multivariable, en el que controla las covariables, será útil elegir variables dependientes / independientes al comienzo. Probablemente sea mejor seguir con el mismo método, desde análisis univariado hasta multivariable, en lugar de cambiar entre los dos enfoques, solo por la facilidad de la explicación.
Nota final sobre este último punto: desde una perspectiva de prueba de hipótesis, una regresión logística con una variable independiente [exposición] continua y una variable dependiente dicotómica [única] debería devolver el mismo valor p que una prueba t no emparejada suponiendo una varianza desigual con las variables invertido (de memoria, no estoy completamente seguro de si esto siempre es cierto).
La prueba de Wilcoxon-Mann-Whitney es un caso especial del modelo logístico ordinal de probabilidades proporcionales, por lo que podría decirse que no es necesario cambiar el modelo para usar la regresión logística. Pero la cuestión fundamental al elegir el modelo es determinar qué variables tienen sentido para ajustarse.
fuente
Ese es un intento de una respuesta parcial:
Usaría una prueba de Mann Whitney porque hace menos suposiciones. La regresión logística asume una forma cercana (es decir, logit) para la relación entre estas dos variables). Además, la regresión logística supone queY se da Bernoulli X : si este no es el caso (por ejemplo, un número a priori de muestras con Y=1 y Y=0
como en un estudio de casos y controles), no estoy seguro de si los resultados (como los valores p) aún se mantendrían. Sin embargo, ya vi a muchas personas haciendo esto.
Por otro lado, Mann Whitney no parece tener problemas con esto, es decir, sostiene si es o no un estudio de casos y controles.
fuente
Como con muchas preguntas, la respuesta depende de su propósito subyacente en la realización del análisis. Si está interesado no solo en demostrar que existe una asociación significativa entre una variable dicotómica A y una variable continua b, sino también en poder calcular la probabilidad esperada del evento registrado en la variable A, entonces desea utilizar la logística regresión, ya que este enfoque le proporciona una ecuación de regresión. Además, la regresión logística en el caso bivariado de A y b puede extenderse al caso multivariado de predecir A a partir de b y numerosas otras variables independientes con el fin de controlar covariables, probar modelos mediacionales, examinar interacciones y todas las Otras cosas buenas que podemos hacer con la regresión múltiple. Una vez dicho esto, probablemente debería considerar la función de enlace que relaciona la variable dicotómica A con la variable continua B. La regresión logística utilizó un enlace logit, que es más apropiado cuando la probabilidad del resultado es muy alta o baja, mientras que un enlace probit puede ser más apropiado cuando la probabilidad del evento está más cerca de .5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces: 5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces: 5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces:
http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf
http://www.norusis.com/pdf/ASPC_v13.pdf
fuente
cloglog
cuándo las categorías de respuesta están desequilibradas, pero existen otras opciones.