Si he calculado correctamente, la regresión logística asintóticamente tiene el mismo poder que la prueba t. Para ver esto, escriba su probabilidad logarítmica y calcule la expectativa de su arpillera en su máximo global (su valor negativo estima la matriz de varianza-covarianza de la solución ML). No se moleste con la parametrización logística habitual: es más simple parametrizarla con las dos probabilidades en cuestión. Los detalles dependerán exactamente de cómo se pruebe la importancia de un coeficiente de regresión logística (hay varios métodos).
Que estas pruebas tengan poderes similares no debería ser demasiado sorprendente, porque la teoría de chi-cuadrado para estimaciones de ML se basa en una aproximación normal a la probabilidad logarítmica, y la prueba t se basa en una aproximación normal a las distribuciones de proporciones. El quid de la cuestión es que ambos métodos hacen las mismas estimaciones de las dos proporciones y ambas estimaciones tienen los mismos errores estándar.
Un análisis real podría ser más convincente. Adoptemos una terminología general para los valores en un grupo dado (A o B):
- pag es la probabilidad de un 1.
- norte es el tamaño de cada conjunto de sorteos.
- metro es el número de conjuntos de sorteos.
- norte= m n es la cantidad de datos.
- 0 1 j th i thkyo j (igual a o ) es el valor del resultado en el conjunto de sorteos .0 01jthyoth
- i thkyo es el número total de en el conjunto de sorteos .yoth
- k es el número total de unos.
La regresión logística es esencialmente el estimador de ML de . Su logaritmo está dado porpag
Iniciar sesión( L ) = k log( p ) + ( N- k ) registro( 1 - p ) .
Sus derivadas con respecto al parámetro sonpag
∂Iniciar sesión( L )∂pag= kpag- N- k1 - p y
- ∂2Iniciar sesión( L )∂pag2= kpag2+ N- k( 1 - p )2.
Si se establece el primero en cero, se obtiene la estimación ML y al conectarla al recíproco de la segunda expresión se obtiene la varianza , cuál es el cuadrado del error estándar. p (1 - p )/Npag^= k / Npag^( 1 - p^) / N
El estadístico t se obtendrá de estimadores basados en los datos agrupados por conjuntos de dibujos; a saber, como la diferencia de las medias (una del grupo A y la otra del grupo B) dividida por el error estándar de esa diferencia, que se obtiene de las desviaciones estándar de las medias. Veamos la media y la desviación estándar para un grupo dado, entonces. La media es igual a , que es idéntica al estimador ML . La desviación estándar en cuestión es la desviación estándar de los medios de extracción; es decir, es la desviación estándar del conjunto de . Aquí está el quid de la cuestión, así que exploremos algunas posibilidades.p k i / nk / Npag^kyo/ n
Supongamos que los datos no están agrupados en sorteos en absoluto: es decir, y . Los son los medios de extracción. Su varianza muestral es igual a veces . De esto se deduce que el error estándar es idéntico al error estándar ML aparte de un factor de , que es esencialmente cuando . Por lo tanto, aparte de esta pequeña diferencia, cualquier prueba basada en regresión logística será la misma que una prueba t y lograremos esencialmente la misma potencia.m = N k i N / ( N - 1 ) p ( 1 - p ) √n = 1m = Nkyonorte/ (N- 1 )pag^( 1 - p^) 1N=1800norte/ (N- 1 )---------√1norte= 1800
Cuando se agrupan los datos, la varianza (verdadera) de es igual a porque las estadísticas representan la suma de variables de Bernoulli ( ), cada una con varianza . Por lo tanto, el error estándar esperado de la media de de estos valores es la raíz cuadrada de , como antes.p ( 1 - p ) / n k i n p p ( 1 - p ) m p ( 1 - p ) / n / m = p ( 1 - p ) / Nkyo/ np ( 1 - p ) / nkyonortepagp ( 1 - p )metrop ( 1 - p ) / n / m = p ( 1 - p ) / N
Número 2 indica la potencia de la prueba no debe variar apreciablemente con cómo los sorteos están prorrateada (es decir, con la forma y son variados sujeto a ), aparte quizás de un bastante pequeño efecto del ajuste en la varianza de la muestra (a menos que haya sido tan tonto como para usar muy pocos conjuntos de sorteos dentro de cada grupo).n m n = Nmetronortem n = N
Simulaciones limitadas para comparar a (con 10,000 iteraciones cada una) que involucran (esencialmente regresión logística); ; y (maximizar el ajuste de varianza de la muestra) lo confirman: la potencia (en , unilateral) en los dos primeros casos es de 0,59 mientras que en el tercero, en el que el factor de ajuste realiza una cambio de material (ahora hay solo dos grados de libertad en lugar de 1798 o 58), se reduce a 0.36. Otra prueba que compara ap = 0.74 m = 900 , n = 1 m = n = 30 m = 2 , n = 450 α = 0.05 p = 0.50 p = 0.52p = 0,70p = 0,74m = 900 , n = 1m = n = 30m = 2 , n = 450α = 0.05p = 0,50p = 0,52 da potencias de 0.22, 0.21 y 0.15, respectivamente: nuevamente, observamos solo una ligera caída de no agrupar en sorteos (= regresión logística) a agrupar en 30 grupos y una caída sustancial a solo dos grupos.
Las morales de este análisis son:
- No pierde mucho cuando divide sus valores de datos en un gran número de grupos relativamente pequeños de "sorteos".mnortemetro
- Puede perder una potencia apreciable utilizando un pequeño número de grupos ( es pequeño, --la cantidad de datos por grupo - es grande).nmetronorte
- Es mejor no agrupar los valores de datos en "sorteos". Simplemente analícelos tal cual (utilizando cualquier prueba razonable, incluida la regresión logística y la prueba t).norte
Aquí hay un código en R que ilustra la simulación de la respuesta de Whuber . Los comentarios sobre cómo mejorar mi código R son más que bienvenidos.
fuente
replicate()
rbinom()
{*}apply()