He generado una prueba de usuario para comparar dos métodos: M1 y M2. Genero 40 casos de prueba y muestro el resultado de cada método en el caso de prueba a 20 individuos, uno al lado del otro, los individuos no saben qué resultado vino de qué método. Para cada caso de prueba, cada persona tiene que decir si el resultado calculado por M1 es mejor o si M2 es mejor o si son igualmente buenos.
Quiero saber si M1 es mejor que M2. Sumo todos los resultados y genero histograma tridimensional, votos para M1, votos para empate y votos para M2.
Si solo mirara M1 y M2 como histograma 2-D. Sé que si M1 y M2 fueran igualmente buenos, este histograma sería uniforme. Entonces solo realizaré la .
Lo que no sé cómo modelar son los votos por empate. Aquí hay dos opciones que he pensado:
- La base de la prueba de ji cuadrado es que los histogramas son mutuamente excluyentes y suman uno. Parece que los votos para empate se pueden dividir en dos y agregar a cada M1 y M2 (y eliminar empates), pero esto no parece tener muchos principios.
- Otra opción es que podría ignorar los lazos, eso parece defectuoso porque rompe la propiedad "sumar a uno". Por ejemplo, si tuviera (M1: 2, lazos: 98 M2: 0) la diferencia entre ambos métodos no sería estadísticamente significativa.
¿Que más puedo hacer? ¿Estoy mirando esto incorrectamente? Esto parece un problema común que las personas enfrentarían al modelar los votos de los usuarios. ¿Cuál es la forma correcta de modelar los lazos?
fuente
Respuestas:
Un modelo psicológicamente significativo puede guiarnos.
Derivación de una prueba útil.
Cualquier variación en las observaciones puede atribuirse a variaciones entre los sujetos. Podríamos imaginar que cada sujeto, en algún nivel, obtiene un valor numérico para el resultado del método 1 y un valor numérico para el resultado del método 2. Luego comparan estos resultados. Si los dos son suficientemente diferentes, el sujeto hace una elección definitiva, pero de lo contrario el sujeto declara un empate. (Esto se relaciona con la existencia de un umbral de discriminación ).
La variación entre los sujetos causa variación en las observaciones experimentales. Habrá una cierta probabilidad de favorecer el método 1, una cierta probabilidad de favorecer el método 2 y una cierta probabilidad de empate.π1 π2 π0
Es justo asumir que el sujeto responde independientemente uno del otro. En consecuencia, la probabilidad de observar sujetos que favorecen el método 1, sujetos que favorecen el método 2 y sujetos que dan lazos, es multinomial . Además de una constante de normalización (irrelevante), el logaritmo de la probabilidad es igualn1 n2 n0
Dado que , esto se maximiza cuando donde es el número de sujetos.π0+π1+π2=0 πi=ni/n n=n0+n1+n2
Para probar la hipótesis nula de que los dos métodos se consideran igualmente buenos, maximizamos la probabilidad sujeta a la restricción implícita en esta hipótesis. Teniendo en cuenta el modelo psicológico y su invocación de un umbral hipotético, tendremos que vivir con la posibilidad de que (la posibilidad de vínculos) no sea cero. La única forma de detectar una tendencia a favorecer un modelo sobre el otro radica en cómo y se ven afectados: si se favorece el modelo 1, entonces debería aumentar y disminuir, y viceversa . Suponiendo que la variación es simétrica , la situación de no preferencia ocurre cuandoπ0 π1 π2 π1 π2 π1=π2 . (El tamaño de nos dirá algo sobre el umbral, sobre la capacidad discriminatoria, pero por lo demás no proporciona información sobre las preferencias).π0
Cuando no hay un modelo favorito, la probabilidad máxima ocurre cuando , una vez más, . Al conectar las dos soluciones anteriores, calculamos el cambio en las probabilidades máximas, :π1=π2=n1+n22/n π0=n0/n G
El tamaño de este valor, que no puede ser negativo, nos dice cuán creíble es la hipótesis nula: cuando es pequeño, los datos se "explican" casi tan bien con la hipótesis nula (restrictiva) como en general; cuando el valor es grande, la hipótesis nula es menos creíble.G
La teoría de estimación de probabilidad máxima (asintótica) dice que un umbral razonable para este cambio es la mitad del cuantil de una distribución de chi-cuadrado con un grado de libertad (debido a la restricción única impuesta por La hipótesis nula). Como de costumbre, es el tamaño de esta prueba, a menudo tomada como 5% ( ) o 1% ( ). Los cuantiles correspondientes son y .1−α π1=π2 α 0.05 0.01 3.841459 6.634897
Ejemplo
Supongamos que de sujetos, favorecen el método 1 y favorecen el método 2. Eso implica que hay lazos. La probabilidad se maximiza, entonces, para y , donde tiene un valor de . Bajo la hipótesis nula, la probabilidad se maximiza en su lugar para , donde su valor es solo . La diferencia de es menos de la mitad del umbral 5% de . Por lo tanto hacemosn=20 n1=3 n2=9 n0=20−3−9=8 π1=3/20=0.15 π2=9/20=0.45 −20.208… π1=π2=6/20=0.30 −21.778 G=−20.208−(−21.778)=1.57 α= 3.84 No rechazar la hipótesis nula.
Sobre lazos y pruebas alternativas
Mirando hacia atrás en la fórmula para , observe que el número de lazos ( ) no aparece . En el ejemplo, si en cambio hubiéramos observado sujetos y entre ellos preferían el método 1, favorecían el método 2 y los restantes estaban empatados, el resultado sería el mismo.G n0 n=100 3 9 100−3−9=88
Dividir los lazos y asignar la mitad al método 1 y la mitad al método 2 es intuitivamente razonable, pero resulta en una prueba menos poderosa . Por ejemplo, deje y . Considere dos casos:n1=5 n2=15
Finalmente, consideremos el enfoque de tabla de contingencia3×1 sugerido en otra respuesta. Considere sujetos con favoreciendo el método 1, favoreciendo el método 2 y con vínculos. La "tabla" es solo el vector . Su estadística chi-cuadrado es con dos grados de libertad. El valor p es , lo que haría que la mayoría de las personas concluyera que no hay diferencia entre los métodos. El resultado de máxima verosimilitud en cambio da un valor p de , que rechazaría esta conclusión en el nivel 5%.n=20 n1=3 n2=10 n0=7 (n0,n1,n2)=(7,3,10) 3.7 0.1572 0.04614 α=
Con sujetos, suponga que solo favoreció el método 1, solo favoreció el método 2 y hubo lazos. Intuitivamente, hay muy poca evidencia de que uno de estos métodos tiende a ser favorecido. Pero esta vez, la estadística de chi-cuadrado de claramente, de manera incontrovertible, (pero completamente equivocada) muestra que hay una diferencia (el valor p es menor que ).n=100 1 2 97 182.42 10−15
En ambas situaciones, el enfoque de chi cuadrado obtiene la respuesta completamente incorrecta: en el primer caso carece de poder para detectar una diferencia sustancial, mientras que en el segundo caso (con muchos vínculos) es extremadamente confiado sobre una diferencia intrascendente. El problema no es que la prueba de ji cuadrado sea mala; El problema es que prueba una hipótesis diferente: a saber, si . Según nuestro modelo conceptual, esta hipótesis es una tontería psicológica, porque confunde la información sobre las preferencias (a saber, y ) con la información sobre los umbrales de discriminación (a saber, ).π1=π2=π0 π1 π2 π0 Esta es una buena demostración de la necesidad de utilizar un contexto de investigación y conocimiento de la materia (aunque simplificado) al seleccionar una prueba estadística.
fuente
Sospecho que la respuesta de Whuber es (como siempre) más completa que la que estoy a punto de escribir. Lo admito, puede que no entienda completamente la respuesta de Whuber ... así que lo que digo puede no ser único o útil. Sin embargo, no noté en qué lugar de la respuesta de Whuber se consideró la anidación de preferencias bajo individuos, así como la anidación de preferencias dentro de los casos de prueba. Creo que, dada la aclaración del autor de la pregunta que:
... estas son consideraciones importantes. Por lo tanto, quizás lo más apropiado no sea sino un modelo logístico de niveles múltiples. Específicamente en RI podría lanzar algo como:χ2
PreferenceForM1 se codificaría como 1 (sí) y 0 (no). Aquí una intersección sobre 0 indicaría la preferencia de un evaluador promedio por el método 1 en un caso de prueba promedio. Con muestras cercanas a los límites inferiores de utilidad para estas técnicas, probablemente también usaría pvals.fnc e influence.ME para investigar mis suposiciones y los efectos de los valores atípicos.
La pregunta básica sobre los vínculos aquí parece bien respondida por whuber. Sin embargo, (re) declararé que parece que los lazos reducen su capacidad de observar una diferencia estadísticamente significativa entre los métodos. Además, afirmaré que eliminarlos puede hacer que sobreestime la preferencia que las personas tienen por un método frente al otro. Por la razón posterior, los dejaría adentro.
fuente
R
notación, pero ¿su sugerencia no tiene más parámetros que datos? Esta confusión no es suya: había entendido que había sujetos y solo un resultado por sujeto (M1, M2 o empate), pero la interpretación implícita en su respuesta es que puede haber observaciones. Carlosdc, ¿podrías aclarar esto para nosotros?