Probar ciertos contrastes: ¿Es esto un problema difícil o no?

Publiqué esto en mathoverflow y nadie respondió:

El método de Scheffé para identificar contrastes estadísticamente significativos es ampliamente conocido. Un contraste entre las medias , de poblaciones es una combinación lineal en la que , y un múltiplo escalar de un contraste es esencialmente el mismo contraste, por lo que se podría decir que el conjunto de contrastes es un espacio proyectivo. El método de Scheffé prueba una hipótesis nula que dice que todos los contrastes entre estas poblaciones son , y dado un nivel de significancia , rechaza la hipótesis nula con probabilidad $\mu_i$ $i=1,\ldots,r$ $r$ $\sum_{i=1}^r c_i \mu_i$ $\sum_{i=1}^r c_i=0$ $r$ $0$ $\alpha$ $\alpha$ dado que la hipótesis nula es cierta. Y si se rechaza la hipótesis nula, Scheffé señala que su prueba nos dice qué contrastes difieren significativamente de (no estoy seguro de que el artículo de Wikipedia que vinculé señala eso). $0$

Me gustaría saber si se puede hacer algo similar en un tipo diferente de situación. Considere un modelo de regresión lineal simple , donde , . $Y_i = \alpha + \beta x_i + \varepsilon_i$ $\varepsilon_i\sim\operatorname{i.i.d.}N(0,\sigma^2)$ $i=1,\ldots,n$

La hipótesis nula que quiero considerar se refiere a un tipo diferente de contraste. Dice que no hay un subconjunto tal que para y para , donde . Si el subconjunto se especifica de antemano, entonces una prueba normal de dos muestras lo hace, pero queremos algo que considere todos los subconjuntos y mantenga baja la probabilidad de rechazar una hipótesis nula verdadera. $A\subseteq\lbrace 1,\ldots,n\rbrace$ $E(Y_i) = \alpha_1 + \beta x_i$ $i\in A$ $E(Y_i) = \alpha_2 + \beta x_i$ $i\not\in A$ $\alpha_1\ne\alpha_2$ $A$ $t$

Uno podría resolver esto si la eficiencia no fuera una preocupación: encuentre una prueba que pase por todas las posibilidades . Incluso entonces es problemático; Dos contrastes no serían independientes. Le pregunté a un experto en detección de valores atípicos sobre esto y él simplemente dijo que es una pesadilla combinatoria. Luego pregunté si se podía probar que no hay una manera eficiente de hacerlo, tal vez reduciendo un problema NP-difícil. Simplemente dijo que se mantiene alejado de los problemas NP-difíciles. $2^{n-1}-1$

Entonces: ¿se puede probar que este problema es "difícil" o que no lo es?

regression hypothesis-testing contrasts np Michael Hardy
fuente

(+1) Copiar un comentario para aclaración de la versión MO : solo un pequeño punto de aclaración: mientras lo leo, califica bajo su hipótesis nula, pero y no (independientemente de ). ¿Es eso lo que pretendías? (No parece coincidir con algunas de las otras alusiones hechas en la pregunta.)

(α_{1}, α_{2}, α_{3}) = (1, 2, 3)

$(\alpha_1, \alpha_2, \alpha_3) = (1,2,3)$

(1, 2, 2)

$(1,2,2)$

(1, 1, 1)

$(1,1,1)$

β

$\beta$

cardenal

Como se indicó anteriormente, la hipótesis nula sería que solo necesitamos una , y la hipótesis alternativa es que necesitamos dos. No sé por qué tienes un tercero. También se podría considerar la hipótesis nula de solo un versus la hipótesis alternativa de varios, y tal vez eso es lo que debería hacer en su lugar.

α

$\alpha$

α

$\alpha$

Michael Hardy

Gracias. Tal vez la declaración original del modelo me como , donde tomé el como un error tipográfico potencial para (ya que posteriormente se permitió que variara).

Y_{i} = α + β x_{i} + ε_{i}

$Y_i = \alpha + \beta x_i + \varepsilon_i$

α

$\alpha$

α_{i}

$\alpha_i$

cardenal

Bueno, ciertamente si ese dependiera de , sería un modelo sobre-parametrizado, y no se parecería en nada a lo que normalmente se llama un "modelo de regresión lineal simple".

α

$\alpha$

i

$i$

Michael Hardy

Noté que nadie ha respondido esta pregunta hasta ahora ...

Básicamente, la pregunta es la siguiente: ¿hay un vector 0-1 tal que proporcione un ajuste (significativamente) mejor que "Significativamente mejor" se puede capturar en términos de sumas de cuadrados como una desigualdad. La pregunta entonces es si hay una solución 0-1 a la desigualdad Esta es una variante del problema de partición establecida, que se sabe que es NP-hard. $Z$

y_{i} = α + β x_{i} + γ z_{i} + ϵ_{i}

$y_i = \alpha + \beta x_i + \gamma z_i + \epsilon_i$

y_{i} = α + β x_{i} + ϵ_{i} .

$y_i = \alpha + \beta x_i + \epsilon_i.$

f (z) \geq t .

$f(z) \ge t.$

usuario3697176
fuente

¿Se puede reducir el problema de partición establecido a este problema? Si es así, eso probaría que este es un problema difícil.

${}\qquad{}$

Michael Hardy

Este problema es al menos tan difícil como el clásico problema de partición de conjuntos (SPP). SPP toma una combinación lineal de pesos y trata de multiplicarlos por +/- 1 para obtener una expresión que sume a 0. Aquí desea satisfacer una desigualdad. Si esto pudiera resolverse en tiempo polinómico para entradas arbitrarias, entonces un argumento de bisección muestra que también podría resolver SPP en tiempo polinómico. Eso no es exactamente una reducción, pero está cerca.

user3697176

Probar ciertos contrastes: ¿Es esto un problema difícil o no?

Respuestas: