¿Alguien sabe de una variación de la prueba exacta de Fisher que tenga en cuenta los pesos? Por ejemplo, muestreo de pesos .
Entonces, en lugar de la tabla cruzada 2x2 habitual, cada punto de datos tiene un valor de "masa" o "tamaño" que pesa el punto.
Datos de ejemplo:
A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4
La prueba exacta de Fisher luego utiliza esta tabla cruzada de 2x2:
A\B N Y All
N 2 2 4
Y 2 4 6
All 4 6 10
Si tomáramos el peso como un número 'real' de puntos de datos, esto resultaría en:
A\B N Y All
N 4 13 17
Y 3 10 13
All 7 23 30
Pero eso daría como resultado una confianza demasiado alta. Un punto de datos que cambia de N / Y a N / N marcaría una gran diferencia en la estadística.
Además, no funcionaría si algún peso contuviera fracciones.
fuente
Una cosa rápida acerca de los pesos de las muestras: por lo general, son una forma de incorporar información sobre la población de la que se está tomando una muestra, pero generalmente se basan en escenarios de tipo "muestra grande" (generalmente predicción BLUP o AZUL limitada disfrazada). Así que me imagino que los pesos de muestra probablemente no funcionen mejor que ningún peso. Creo que lo mejor sería utilizar la información sobre la población en la que se basó directamente el diseño de la muestra.
Por ejemplo, ¿sobre qué base se calcularon las probabilidades de selección? Mi apuesta es que conocías un total de población o algún tipo de desglose de población que no involucra a A o B (por ejemplo, edad por grupos de sexo). Si esto no es correcto, entonces estoy a punto de desperdiciar algo de espacio, pero si es correcto, y suponiendo que tuviera totales de población para grupos (o estratos), y dentro de cada grupo tenías una "mini" tabla de contingencia de 2 por 2. Entonces ahora podemos escribir como el "objetivo" de nuestra inferencia. O tal vez sea la suma que sea el objetivo de la inferencia (¿cuántos en la población dan respuesta N / N ??). Entonces está tratando de razonar sobreR1, ... , Rk k R1 ; 11, R1 ; 12, R1 ; 21, R1 ; 22, ... ∑kl = 1Rl ; yo j Rl ; yo j de los números muestreados sujeto a la restricción que para . (maxent alguien?)rl ; yo j ∑i , jRl ; yo j= Rl ( l = 1 , ... , k )
Tenga en cuenta que si las probabilidades de muestreo se basaron solo en los datos que era probable que recibiera, entonces son irrelevantes (y se aplica la prueba exacta de Fisher), porque una vez que recibe los datos, sabe qué muestra recibió. Entonces, lo más coherente es actualizar la probabilidad de muestreo a si la unidad enésima está en la muestra, y si no estaban en la muestra. Sin embargo, por lo general, el diseño se basa en más información que solo en los datos que es probable que observe. pero tenga en cuenta que lo importante es la información más que el diseño de la encuesta per se. La inferencia basada en el diseño es solo una forma bastante eficiente de incorporar toda esa información en su análisis.P(Dm)=1 P(Dm)=0
fuente