¿Regresión logística vs chi-cuadrado en tablas de contingencia 2x2 e Ix2 (factor único - respuesta binaria)?

10

Estoy tratando de entender el uso de la regresión logística en tablas de contingencia 2x2 e Ix2. Por ejemplo, usando esto como un ejemplo

ingrese la descripción de la imagen aquí

¿Cuál es la diferencia entre usar la prueba de chi-cuadrado y usar la regresión logística? ¿Qué pasa con una tabla con múltiples factores nominales (tabla Ix2) como esta:

ingrese la descripción de la imagen aquí

Hay una pregunta similar aquí - pero la respuesta es principalmente que el chi-cuadrado puede manejar tablas de pesos, pero mi pregunta es ¿cuál es specificalyl para cuando hay un resultado binario y un solo factor nominal. (El hilo vinculado también se refiere a este hilo , pero esto se refiere a múltiples variables / factores).

Si es solo un factor único (es decir, no es necesario controlar otras variables) con una respuesta binaria, ¿cuál es la diferencia de propósito de hacer una regresión logística?

L Xandor
fuente
+1 para la pregunta, pero debe facilitar la copia y el pegado de datos para trabajar con ella.
Antoni Parellada
2
Consulte ¿Por qué mis valores p difieren entre la salida de regresión logística, la prueba de ji cuadrado y el intervalo de confianza para el OR? . La prueba de chi-cuadrado de Pearson para la asociación es solo la prueba de puntaje para la hipótesis nula de que todas las pendientes son cero. La prueba de razón de probabilidad correspondiente es asintóticamente equivalente. Como dice @Kodiologist, los usos a los que se podría aplicar la regresión logística son más amplios que probar que todas las pendientes son cero.
Scortchi - Restablece a Monica

Respuestas:

12

En definitiva, son manzanas y naranjas.

La regresión logística es una forma de modelar una variable nominal como un resultado probabilístico de una o más de otras variables. El ajuste de un modelo de regresión logística podría seguirse con la prueba de si los coeficientes del modelo son significativamente diferentes de 0, calculando los intervalos de confianza para los coeficientes o examinando qué tan bien el modelo puede predecir nuevas observaciones.

La prueba de independencia χ² es una prueba de significación específica que prueba la hipótesis nula de que dos variables nominales son independientes.

Si debe usar la regresión logística o una prueba de χ² depende de la pregunta que desea responder. Por ejemplo, una prueba de χ² podría verificar si no es razonable creer que el partido político registrado de una persona es independiente de su raza, mientras que la regresión logística podría calcular la probabilidad de que una persona con una raza, edad y género pertenezca a cada partido político. .

Kodiólogo
fuente
Gracias. ¿Podría darme un ejemplo de los diferentes tipos de preguntas que puede responder con los diferentes métodos? ¿Hay algún recurso específico que pueda recomendar para comprender las diferentes preguntas que pueden responderse con los dos métodos?
L Xandor
Agregué ejemplos a mi respuesta. Con respecto a su segunda pregunta, Wikipedia es un lugar decente para comenzar. Además, la mayoría de los libros introductorios de estadísticas aplicadas mencionarán tanto la prueba de independencia and² como la regresión logística.
Kodiólogo
Gracias. Todavía no tengo claro cuál es la diferencia en el caso específico de una tabla de contignencia 2x2. chi cuadrado comprobaría si el resultado es independiente de las variaciones del factor, pero ¿qué hace aquí la regresión logística? Entiendo que LR es útil para hacer predicciones basadas en una serie de factores, pero cuando se trata del simple 2x2, no estoy seguro de cuál es la diferencia (pero se usa claramente) ... ¿podría usted (o alguien) usar el 2x2? ¿La tabla de estrés / reflujo en la publicación original como un ejemplo concreto de cómo se usarían de manera diferente? Es el caso de un solo factor en el que estoy más interesado
L Xandor
o la raza / partido político funciona tan bien como un ejemplo, pero cuando usas la regresión logística estás usando múltiples factores, y puedo ver cómo es útil allí ... pero lo que específicamente me cuesta entender es por qué use LR (o cómo es diferente) en el caso de un solo factor. Si se usan ambos métodos para examinar la relación entre raza y partido político, ¿cuál es la diferencia entre el chi cuadrado y la regresión logística?
L Xandor
En el caso del ejemplo de estrés y reflujo, podría usar la regresión logística para probar si el estrés afecta significativamente la probabilidad de reflujo, o podría calcular un intervalo de confianza para la razón de probabilidades que expresa este efecto. Una forma en que esto es conceptualmente diferente de una prueba de χ² es que una de estrés o reflujo se interpreta como la variable dependiente. Pero en cualquier caso, la regresión logística puede considerarse una exageración para una tabla de contingencia de 2 por 2.
Kodiólogo