¿Regresión logística o prueba T?

17

Un grupo de personas responde una pregunta. La respuesta puede ser "sí" o "no". El investigador quiere saber si la edad está asociada con el tipo de respuesta.

La asociación se evaluó mediante una regresión logística donde la edad es la variable explicativa y el tipo de respuesta (sí, no) es la variable dependiente. Se abordó por separado calculando la edad media de los grupos que respondieron "sí" y "no", respectivamente, y realizando una prueba T para comparar medias.

Ambas pruebas se realizaron siguiendo los consejos de diferentes personas, y ninguna de ellas está segura de cuál es el camino correcto. En vista de la pregunta de investigación, ¿cuál sería la mejor prueba?

Para la prueba de hipótesis, los valores de p no fueron significativos (regresión) y significativos (prueba T). La muestra tiene menos de 20 casos.

regression logistic t-test Gwen
fuente

2

No estoy seguro de que esto sea tu verdadera pregunta. Ya ejecutó los dos análisis que está preguntando. Supongo que lo que realmente quieres saber es algo sobre comparaciones o relaciones entre esas pruebas, por ejemplo, que es mejor. Edite su pregunta para solucionarlo.

John

Ambas pruebas se realizaron siguiendo los consejos de diferentes personas, y ninguna de ellas está segura de si este es el camino correcto. En vista de las preguntas de investigación (¿la edad está asociada con el tipo de respuesta?), ¿Cuál sería la mejor prueba, la regresión logística del tipo de respuesta en la edad o una prueba T que compara la edad media de las personas que respondieron "sí" con la media edad de las personas que respondieron "no"?

Gwen

19

Ambas pruebas modelan implícitamente la relación edad-respuesta, pero lo hacen de diferentes maneras. Cuál seleccionar depende de cómo elija modelar esa relación. Su elección debería depender de una teoría subyacente, si hay una; sobre qué tipo de información desea extraer de los resultados; y sobre cómo se selecciona la muestra. Esta respuesta discute estos tres aspectos en orden.

Describiré la prueba t y la regresión logística utilizando un lenguaje que suponga que está estudiando una población de personas bien definida y desea hacer inferencias de la muestra a esta población.

Para admitir cualquier tipo de inferencia estadística, debemos asumir que la muestra es aleatoria.

Una prueba t supone que las personas en la muestra que respondieron "no" son una muestra aleatoria simple de todos los que no respondieron en la población y que las personas en la muestra que respondieron "sí" son una muestra aleatoria simple de todos los que respondieron sí en el población.

Una prueba t hace suposiciones técnicas adicionales sobre las distribuciones de las edades dentro de cada uno de los dos grupos de la población. Existen varias versiones de la prueba t para manejar las posibilidades probables.
La regresión logística supone que todas las personas de cualquier edad son una muestra aleatoria simple de las personas de esa edad en la población. Los grupos de edad separados pueden presentar diferentes tasas de respuestas "sí". Se supone que estas tasas, cuando se expresan como probabilidades logarítmicas (en lugar de proporciones rectas), están relacionadas linealmente con la edad (o con algunas funciones determinadas de la edad).

La regresión logística se extiende fácilmente para acomodar las relaciones no lineales entre la edad y la respuesta. Dicha extensión se puede utilizar para evaluar la plausibilidad del supuesto lineal inicial. Es practicable con grandes conjuntos de datos, que ofrecen suficientes detalles para mostrar no linealidades, pero es poco probable que sean de mucha utilidad con pequeños conjuntos de datos. Una regla general común, que los modelos de regresión deben tener diez veces más observaciones que parámetros, sugiere que se necesitan sustancialmente más de 20 observaciones para detectar la no linealidad (que necesita un tercer parámetro además de la intersección y la pendiente de una función lineal) )

Una prueba t detecta si las edades promedio difieren entre los que respondieron que no y los que sí en la población. Una regresión logística estima cómo la tasa de respuesta varía según la edad. Como tal, es más flexible y capaz de proporcionar información más detallada que la prueba t. Por otro lado, tiende a ser menos potente que la prueba t para el propósito básico de detectar una diferencia entre las edades promedio en los grupos.

Es posible que el par de pruebas exhiba las cuatro combinaciones de significación y no significación. Dos de estos son problemáticos:

La prueba t no es significativa, pero la regresión logística sí lo es. Cuando las suposiciones de ambas pruebas son plausibles, tal resultado es prácticamente imposible, porque la prueba t no está tratando de detectar una relación tan específica como la planteada por la regresión logística. Sin embargo, cuando esa relación es suficientemente no lineal para hacer que los sujetos más viejos y más jóvenes compartan una opinión y los sujetos de mediana edad otra, entonces la extensión de la regresión logística a las relaciones no lineales puede detectar y cuantificar esa situación, que ninguna prueba t podría detectar .
La prueba t es significativa pero la regresión logística no lo es, como en la pregunta. Esto sucede a menudo, especialmente cuando hay un grupo de encuestados más jóvenes, un grupo de encuestados mayores y pocas personas en el medio. Esto puede crear una gran separación entre las tasas de respuesta de los que no responden y los que responden sí. Se detecta fácilmente mediante la prueba t. Sin embargo, la regresión logística tendría relativamente poca información detallada sobre cómo la tasa de respuesta cambia realmente con la edad o de lo contrario tendría información no concluyente: el caso de "separación completa" donde todas las personas mayores responden de una manera y todas las personas más jóvenes de otra manera: pero en ese caso, ambas pruebas generalmente tendrían valores p muy bajos.

Tenga en cuenta que el diseño experimental puede invalidar algunos de los supuestos de la prueba. Por ejemplo, si seleccionó personas según su edad en un diseño estratificado, entonces la suposición de la prueba t (que cada grupo refleja una muestra aleatoria simple de edades) se vuelve cuestionable. Este diseño sugeriría confiar en la regresión logística. Si, en cambio, tuvo dos grupos, uno sin respuesta y otro con respuesta afirmativa, y seleccionado al azar de entre ellos para determinar su edad, entonces los supuestos de muestreo de la regresión logística son dudosos, mientras que los de la prueba t se mantendrán. Ese diseño sugeriría usar alguna forma de prueba t.

(El segundo diseño puede parecer tonto aquí, pero en circunstancias en las que la "edad" se reemplaza por alguna característica que es difícil, costosa o lenta de medir, puede ser atractiva).

whuber
fuente

¿No se aliviará la mayoría de los problemas de no linealidad y separación mediante el uso de una spline en la variable de edad? En ese sentido, disculpas pero no puedo ver por qué el diseño "agrupado" invalidaría los resultados de la regresión logística. Claro, la suposición de muestra aleatoria se ha ido, pero ¿nos importa dado que hacemos esta elección de diseño? ¿Estás aludiendo al sesgo de selección? (El diseño que describe me parece un estudio de casos y controles, pero podría estar equivocado ...) (+1 obviamente)

usεr11852 dice Reinstate Monic el

@ usεr11852 Gracias por sus reflexivos comentarios. He reescrito algunos pasajes para aclarar los puntos que mencionas. Aunque dividir la edad puede hacer frente a la no linealidad en la regresión logística, puede aumentar la posibilidad de una separación completa. No estoy seguro de lo que quiere decir con "diseño agrupado", pero sospecharía de los esfuerzos para interpretar los valores p de una regresión logística donde un modelo de probabilidad no puede justificarse (que es lo que el muestreo aleatorio nos permite hacer).

whuber

Gracias por esto Sí, agradezco completamente lo que comenta sobre la separación completa (efectos de Hauck-Donner), no los consideré. Bien, veo lo que quieres decir ahora sobre eso de las dos piscinas ahora. En ese caso, tendríamos un concepto de estudio de observación acordado (observamos / definimos los dos grupos), por lo que deberíamos buscar la forma de controlarlo de

inmediato

5

$t$ $X$ $Y$

X El | Y = yo \sim norte (μ_{yo}, σ^{2}) .

$X|Y=i \sim N(\mu_i,\sigma^2).$

Y \sim bernoulli (p)

$Y \sim \operatorname{bernoulli}(p)$

Y

$Y$

X = x

$X=x$

\begin{aligned} P (Y = 1 El | X = X) & = \frac{F_{X El | Y = 1} (X) PAG (Y = 1)}{\sum_{yo = 0 0}^{1} F_{X El | Y = yo} (X) PAG (Y = yo)} \\ = \frac{pag {mi}^{- \frac{1}{2 σ^{2}} (X - μ_{1})^{2}}}{pag {mi}^{- \frac{1}{2 σ^{2}} (X - μ_{1})^{2}} + (1 - pag) {mi}^{- \frac{1}{2 σ^{2}} (X - μ_{0 0})^{2}}} \\ = \frac{1}{1 + \frac{1 - pag}{pag} {mi}^{- \frac{1}{2 σ^{2}} (X - μ_{0 0})^{2} + \frac{1}{2 σ^{2}} (X - μ_{1})^{2}}} \\ = {logit}^{- 1} (β_{0 0} + β_{1} X) \end{aligned}

$\begin{align} P(Y=1|X=x) &=\frac{f_{X|Y=1}(x)P(Y=1)}{\sum_{i=0}^1 f_{X|Y=i}(x)P(Y=i)} \\&=\frac{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2}}{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2} + (1-p)e^{-\frac1{2\sigma^2}(x-\mu_0)^2}} \\&=\frac1{1+\frac{1-p}pe^{-\frac1{2\sigma^2}(x-\mu_0)^2+\frac1{2\sigma^2}(x-\mu_1)^2}} \\&=\operatorname{logit}^{-1}(\beta_0 + \beta_1 x) \end{align}$

\begin{aligned} β_{0 0} & = En \frac{pag}{1 - pag} - \frac{1}{2 σ^{2}} (μ_{1}^{2} - μ_{0 0}^{2}) \\ β_{1} & = \frac{1}{σ^{2}} (μ_{1} - μ_{0 0}) . \end{aligned}

$\begin{align}\beta_0 &= \ln\frac p{1-p} -\frac1{2\sigma^2}(\mu_1^2-\mu_0^2) \\ \beta_1&=\frac1{\sigma^2}(\mu_1-\mu_0). \end{align}$

Entonces, en este sentido, los dos modelos condicionales son compatibles.

Jarle Tufto
fuente

3

La mejor prueba es la que mejor responde a su pregunta. Ninguno de los dos es mejor en su cara. Las diferencias aquí son equivalentes a las encontradas cuando se regresa y en x y x en y y las razones para los diferentes resultados son similares. La varianza que se evalúa depende de qué variable se trata como la variable de respuesta en el modelo.

Su pregunta de investigación es terriblemente vaga. Quizás si considerara la dirección de la causalidad, podría llegar a una conclusión sobre el análisis que desea utilizar. ¿La edad hace que las personas respondan "sí" o responder "sí" hace que las personas envejezcan? Es más probable lo primero, en cuyo caso la varianza en la probabilidad de un "sí" es lo que desea modelar y, por lo tanto, la regresión logística es la mejor opción.

Dicho esto, debe examinar los supuestos de las pruebas. Estos se pueden encontrar en línea en wikipedia o en sus libros de texto sobre ellos. Es muy posible que tenga buenas razones para no realizar la regresión logística y, cuando eso ocurra, es posible que deba hacer una pregunta diferente.

John
fuente

1

¿Quieres decir "no realizar la regresión logística"?

mark999

¿Regresión logística o prueba T?

Respuestas: