prueba sobre las preferencias del usuario

8

He generado una prueba de usuario para comparar dos métodos: M1 y M2. Genero 40 casos de prueba y muestro el resultado de cada método en el caso de prueba a 20 individuos, uno al lado del otro, los individuos no saben qué resultado vino de qué método. Para cada caso de prueba, cada persona tiene que decir si el resultado calculado por M1 es mejor o si M2 es mejor o si son igualmente buenos.

Quiero saber si M1 es mejor que M2. Sumo todos los resultados y genero histograma tridimensional, votos para M1, votos para empate y votos para M2.

Si solo mirara M1 y M2 como histograma 2-D. Sé que si M1 y M2 fueran igualmente buenos, este histograma sería uniforme. Entonces solo realizaré la .χ2

Lo que no sé cómo modelar son los votos por empate. Aquí hay dos opciones que he pensado:

  • La base de la prueba de ji cuadrado es que los histogramas son mutuamente excluyentes y suman uno. Parece que los votos para empate se pueden dividir en dos y agregar a cada M1 y M2 (y eliminar empates), pero esto no parece tener muchos principios.
  • Otra opción es que podría ignorar los lazos, eso parece defectuoso porque rompe la propiedad "sumar a uno". Por ejemplo, si tuviera (M1: 2, lazos: 98 M2: 0) la diferencia entre ambos métodos no sería estadísticamente significativa.

¿Que más puedo hacer? ¿Estoy mirando esto incorrectamente? Esto parece un problema común que las personas enfrentarían al modelar los votos de los usuarios. ¿Cuál es la forma correcta de modelar los lazos?

carlosdc
fuente
Parece mucho que se trata de un modelo de preferencia (comparación) emparejado , ¿verdad?
chl
No entiendo por qué es problemático que los lazos M1: 2: 98 M2: 0 no sean estadísticamente significativos. En esencia, tendrías una muestra de 2 personas que tenían una preferencia y ninguna tabla con solo 2 personas sería estadística. sig.
Peter Flom
2
No, los dos están respondiendo preguntas diferentes, por lo que obtienen respuestas diferentes. Dejar caer los lazos me parece responder a la pregunta que quieres hacer
Peter Flom
1
Como nota al margen, re: "Si solo mirara M1 y M2 como histograma 2-D. Sé que si M1 y M2 fueran igualmente buenos, este histograma sería uniforme", este es un error común. La solo verifica si las filas y columnas son independientes, es decir, cada fila es similar a las otras filas; ellos no tienen que ser uniformes. χ2
gung - Restablece a Monica
2
Ciertamente es cierto que la distribución de un dado justo es un uniforme discreto, y que un dado específico puede ser probado contra esta "distribución teórica particular" para ser justos. Pero las pruebas de bondad de ajuste de también se pueden realizar contra otras distribuciones teóricas (no uniformes), y la prueba de independencia de (que usaría) ciertamente no requiere esto. χ2 χ2
gung - Restablece a Monica

Respuestas:

6

Un modelo psicológicamente significativo puede guiarnos.

Derivación de una prueba útil.

Cualquier variación en las observaciones puede atribuirse a variaciones entre los sujetos. Podríamos imaginar que cada sujeto, en algún nivel, obtiene un valor numérico para el resultado del método 1 y un valor numérico para el resultado del método 2. Luego comparan estos resultados. Si los dos son suficientemente diferentes, el sujeto hace una elección definitiva, pero de lo contrario el sujeto declara un empate. (Esto se relaciona con la existencia de un umbral de discriminación ).

La variación entre los sujetos causa variación en las observaciones experimentales. Habrá una cierta probabilidad de favorecer el método 1, una cierta probabilidad de favorecer el método 2 y una cierta probabilidad de empate.π1π2π0

Es justo asumir que el sujeto responde independientemente uno del otro. En consecuencia, la probabilidad de observar sujetos que favorecen el método 1, sujetos que favorecen el método 2 y sujetos que dan lazos, es multinomial . Además de una constante de normalización (irrelevante), el logaritmo de la probabilidad es igualn1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

Dado que , esto se maximiza cuando donde es el número de sujetos.π0+π1+π2=0πi=ni/nn=n0+n1+n2

Para probar la hipótesis nula de que los dos métodos se consideran igualmente buenos, maximizamos la probabilidad sujeta a la restricción implícita en esta hipótesis. Teniendo en cuenta el modelo psicológico y su invocación de un umbral hipotético, tendremos que vivir con la posibilidad de que (la posibilidad de vínculos) no sea cero. La única forma de detectar una tendencia a favorecer un modelo sobre el otro radica en cómo y se ven afectados: si se favorece el modelo 1, entonces debería aumentar y disminuir, y viceversa . Suponiendo que la variación es simétrica , la situación de no preferencia ocurre cuandoπ0π1π2π1π2π1=π2 . (El tamaño de nos dirá algo sobre el umbral, sobre la capacidad discriminatoria, pero por lo demás no proporciona información sobre las preferencias).π0

Cuando no hay un modelo favorito, la probabilidad máxima ocurre cuando , una vez más, . Al conectar las dos soluciones anteriores, calculamos el cambio en las probabilidades máximas, :π1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

El tamaño de este valor, que no puede ser negativo, nos dice cuán creíble es la hipótesis nula: cuando es pequeño, los datos se "explican" casi tan bien con la hipótesis nula (restrictiva) como en general; cuando el valor es grande, la hipótesis nula es menos creíble.G

La teoría de estimación de probabilidad máxima (asintótica) dice que un umbral razonable para este cambio es la mitad del cuantil de una distribución de chi-cuadrado con un grado de libertad (debido a la restricción única impuesta por La hipótesis nula). Como de costumbre, es el tamaño de esta prueba, a menudo tomada como 5% ( ) o 1% ( ). Los cuantiles correspondientes son y .1απ1=π2α0.050.013.8414596.634897


Ejemplo

Supongamos que de sujetos, favorecen el método 1 y favorecen el método 2. Eso implica que hay lazos. La probabilidad se maximiza, entonces, para y , donde tiene un valor de . Bajo la hipótesis nula, la probabilidad se maximiza en su lugar para , donde su valor es solo . La diferencia de es menos de la mitad del umbral 5% de . Por lo tanto hacemosn=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778G=20.208(21.778)=1.57α=3.84No rechazar la hipótesis nula.


Sobre lazos y pruebas alternativas

Mirando hacia atrás en la fórmula para , observe que el número de lazos ( ) no aparece . En el ejemplo, si en cambio hubiéramos observado sujetos y entre ellos preferían el método 1, favorecían el método 2 y los restantes estaban empatados, el resultado sería el mismo.Gn0n=1003910039=88

Dividir los lazos y asignar la mitad al método 1 y la mitad al método 2 es intuitivamente razonable, pero resulta en una prueba menos poderosa . Por ejemplo, deje y . Considere dos casos:n1=5n2=15

  1. n=20 sujetos, entonces hubo lazos. La prueba de máxima verosimilitud rechazaría el valor nulo para cualquier valor de mayor que . Otra prueba utilizada con frecuencia en esta situación (porque no hay vínculos) es una prueba binomial; rechazaría el valor nulo para cualquier valor de mayor que . Por lo tanto, las dos pruebas generalmente darían los mismos resultados, porque estos valores críticos están bastante cerca.n0=0α0.02217α0.02660

  2. n=100 sujetos, entonces hubo lazos. La prueba de máxima verosimilitud aún rechazaría el valor nulo para cualquier valor de mayor que . La prueba binomial rechazaría el nulo solo para cualquier valor de mayor que . Las dos pruebas dan resultados completamente diferentes. En particular, los lazos han debilitado la capacidad de la prueba binomial para distinguir una diferencia que la teoría de máxima probabilidad sugiere que es real.n0=80α0.02217α0.319780

Finalmente, consideremos el enfoque de tabla de contingencia3×1 sugerido en otra respuesta. Considere sujetos con favoreciendo el método 1, favoreciendo el método 2 y con vínculos. La "tabla" es solo el vector . Su estadística chi-cuadrado es con dos grados de libertad. El valor p es , lo que haría que la mayoría de las personas concluyera que no hay diferencia entre los métodos. El resultado de máxima verosimilitud en cambio da un valor p de , que rechazaría esta conclusión en el nivel 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

Con sujetos, suponga que solo favoreció el método 1, solo favoreció el método 2 y hubo lazos. Intuitivamente, hay muy poca evidencia de que uno de estos métodos tiende a ser favorecido. Pero esta vez, la estadística de chi-cuadrado de claramente, de manera incontrovertible, (pero completamente equivocada) muestra que hay una diferencia (el valor p es menor que ).n=1001297182.421015

En ambas situaciones, el enfoque de chi cuadrado obtiene la respuesta completamente incorrecta: en el primer caso carece de poder para detectar una diferencia sustancial, mientras que en el segundo caso (con muchos vínculos) es extremadamente confiado sobre una diferencia intrascendente. El problema no es que la prueba de ji cuadrado sea mala; El problema es que prueba una hipótesis diferente: a saber, si . Según nuestro modelo conceptual, esta hipótesis es una tontería psicológica, porque confunde la información sobre las preferencias (a saber, y ) con la información sobre los umbrales de discriminación (a saber, ). π1=π2=π0π1π2π0Esta es una buena demostración de la necesidad de utilizar un contexto de investigación y conocimiento de la materia (aunque simplificado) al seleccionar una prueba estadística.

whuber
fuente
Usted dice "Mirando hacia atrás en la fórmula para G, observe que el número de lazos (n0) no aparece" ... pero veo n0 como un término en la fórmula para el cambio en log-lik. ¿No es eso G?
russellpierce
1
@dr Vea la expresión final para : es la diferencia en las probabilidades de registro. Aunque ambas probabilidades dependen de , la cancelación elimina esa dependencia por completo. Gn0
whuber
Ah, ya veo ahora. Me perdí el signo igual que indicaba la reducción de la ecuación.
russellpierce
¿Cómo se compara su solución con un enfoque de tabla de contingencia 2x2 excluyendo lazos?
russellpierce
1
@dr Debería ser idéntico. El objetivo de esta derivación era justificar este enfoque utilizando principios básicos de inferencia estadística y psicología, porque parece que el quid de la cuestión se refiere a la forma correcta de manejar los lazos.
whuber
1

Sospecho que la respuesta de Whuber es (como siempre) más completa que la que estoy a punto de escribir. Lo admito, puede que no entienda completamente la respuesta de Whuber ... así que lo que digo puede no ser único o útil. Sin embargo, no noté en qué lugar de la respuesta de Whuber se consideró la anidación de preferencias bajo individuos, así como la anidación de preferencias dentro de los casos de prueba. Creo que, dada la aclaración del autor de la pregunta que:

Los casos son de hecho una muestra aleatoria de todos los casos posibles. Creo que una analogía es la siguiente: la elección está determinada por lo que sucede en las urnas, pero tengo para cada votante su afiliación partidaria. Por lo tanto, casi se esperaría que un candidato de un partido apele a los votantes afiliados a ese partido, pero esto no es necesariamente un hecho, un gran candidato puede ganar en su partido y ganarse a las personas del otro partido.

... estas son consideraciones importantes. Por lo tanto, quizás lo más apropiado no sea sino un modelo logístico de niveles múltiples. Específicamente en RI podría lanzar algo como:χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 se codificaría como 1 (sí) y 0 (no). Aquí una intersección sobre 0 indicaría la preferencia de un evaluador promedio por el método 1 en un caso de prueba promedio. Con muestras cercanas a los límites inferiores de utilidad para estas técnicas, probablemente también usaría pvals.fnc e influence.ME para investigar mis suposiciones y los efectos de los valores atípicos.

La pregunta básica sobre los vínculos aquí parece bien respondida por whuber. Sin embargo, (re) declararé que parece que los lazos reducen su capacidad de observar una diferencia estadísticamente significativa entre los métodos. Además, afirmaré que eliminarlos puede hacer que sobreestime la preferencia que las personas tienen por un método frente al otro. Por la razón posterior, los dejaría adentro.

russellpierce
fuente
Probablemente estoy confundido por la Rnotación, pero ¿su sugerencia no tiene más parámetros que datos? Esta confusión no es suya: había entendido que había sujetos y solo un resultado por sujeto (M1, M2 o empate), pero la interpretación implícita en su respuesta es que puede haber observaciones. Carlosdc, ¿podrías aclarar esto para nosotros? 20800=2040
whuber
OP declaró que "Genero 40 casos de prueba y muestro el resultado de cada método en el caso de prueba a 20 personas"; "Para cada caso de prueba, cada persona tiene que decir si el resultado calculado por M1 es mejor o si M2 es mejor o son iguales bueno." Entonces, estaba interpretando que OP decía que había 20 * 40 observaciones.
russellpierce
Tienes razón, se estimarían muchos parámetros en estos datos. El número exacto con el que estoy borroso (un lugar donde el paquete de estadísticas me ha permitido ser complaciente con mi comprensión de las ecuaciones subyacentes).
russellpierce