Tengo un conjunto de datos de una encuesta de clientes, quiero implementar una prueba estadística para ver si hay una diferencia significativa entre el producto 1 y el producto 2.
Aquí hay un conjunto de datos de las reseñas de los clientes.
La tasa es de muy mala, mala, buena, buena, muy buena.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
¿Qué métodos debo usar para ver si hay alguna diferencia entre estos dos productos?
Respuestas:
Para clasificar por diferentes jueces, uno puede usar la prueba de Friedman. http://en.wikipedia.org/wiki/Friedman_test
Puede convertir las calificaciones de muy malas a muy buenas a números de -2, -1, 0, 1 y 2. Luego, coloque los datos en forma larga y aplique friedman.test con el cliente como factor de bloqueo:
La clasificación de la diferencia entre 2 productos no es significativa.
Editar:
A continuación se muestra el resultado de la regresión:
fuente
Una posibilidad es que pueda usar la prueba de signos.
Esto se basa en las comparaciones dentro de los clientes para ver si su calificación del producto1 al producto2 subió, bajó o permaneció igual (bajo la prueba del signo binomial, se supone que solo se obtienen resultados de "arriba" o "abajo", pero hay varias formas comunes de acercarse a los lazos dentro del par, como el cliente 9
good
vsgood
).Un enfoque común es excluir las clasificaciones vinculadas, como las del cliente 9 (de modo que la conclusión sea sobre la proporción relativa de las diferencias de arriba a abajo en la población, suponiendo un muestreo aleatorio de los clientes).
En este caso, tuvo 4 clientes que dieron calificaciones más altas al segundo producto, 8 que dieron calificaciones más bajas y tres que dieron lo mismo.
En ese caso, con sus datos, 4 de un signo y 8 del otro, una prueba de signo de dos colas no se acercaría al rechazo en ningún nivel de significancia típico. Aquí está el análisis en R:
El valor p es bastante alto.
Ahora, si está preparado para asignar puntajes (o incluso solo para clasificar) a los tamaños relativos de los cambios en las calificaciones dentro de cada par, es decir, si el cambio "bueno" a "malo" del cliente 2 es mayor, menor o lo mismo que el cliente 4 es "muy bueno" para "estar bien", y así sucesivamente, entonces puedes aplicar una prueba de rango firmada en esos rangos o haciendo una prueba de permutación por pares en los puntajes asignados (aunque también debes lidiar con fuertes lazos, esto se puede hacer fácilmente al permutar los conjuntos de rangos o puntajes que realmente tiene).
Hay algunas otras opciones que podría considerar, pero no creo que la elección del análisis cambie el resultado; Creo que todos fracasarán en rechazar los niveles de significancia típicos en estos datos.
fuente
very bad
agood
es completamente idéntico a un cambio debad
avery good
, no puede reclamarlo después de codificarlos como números ... (ctd)Tienes datos ordinales dependientes. Debe usar la prueba de rango con signo de Wilcoxon para comprobar la diferencia significativa entre ambos productos en todos los clientes.
Pero dados los datos anteriores, la prueba de rango con signo de Wilcoxon no arroja resultados significativos.
fuente
good
,bad
) o (very good
,okay
) a un conjunto de rangos firmados, ya que esto haría que las suposiciones hechas en el camino sean más obvias.Use la prueba t emparejada
Mientras tenga suficientes calificaciones (15 es suficiente, y estaría contento incluso con menos) y alguna variación en las diferencias de calificación, no hay ningún problema en absoluto usando la prueba t emparejada . Luego obtienes estimaciones que son muy fáciles de interpretar: las calificaciones medias en una escala numérica de 1 a 5 + su diferencia (entre productos).
Código R
Es muy fácil de hacer en R:
Primero revisemos las calificaciones promedio:
Y la prueba t nos da:
El valor es 0.13, lo que no sugiere que los productos tengan una calificación diferente, a pesar de la aparente diferencia de 0.8 (pero tenga en cuenta el intervalo de confianza, realmente necesitamos más datos).p
Datos falsos?
Curiosamente e inesperadamente, una prueba t no emparejada da un valor p más bajo .
Esto sugiere que los datos de ejemplo son falsos. Para datos reales, uno esperaría una correlación positiva (bastante alta) entre las calificaciones del mismo cliente. Aquí la correlación es negativa (aunque no estadísticamente significativa):
Datos perdidos
Cuando no todos los clientes han calificado ambos productos (es decir, datos no balanceados), un mejor enfoque es usar un modelo de efectos mixtos:
Primero vamos a convertir los datos a forma numérica:
Y conviértalo a forma 'larga':
Y finalmente ajuste un modelo de efectos mixtos con el cliente como efecto aleatorio:
El valor es 0.0834. Por lo general, para datos balanceados será casi idéntico al valor p de una prueba t emparejada . Aquí está más cerca del valor p de una prueba t no emparejada , debido a la correlación negativa. Tenga en cuenta que la varianza para el efecto del cliente (intercepción aleatoria) es casi cero. Esto rara vez sucedería con datos reales.p
Resumen
En resumen, use la prueba t emparejada . Luego obtienes estimaciones que son fáciles de interpretar (promedios numéricos simples).
Si no todos los clientes han calificado ambos productos, utilice un modelo de efectos mixtos. (Esto dará aproximadamente los mismos resultados que la prueba t emparejada cuando todos hayan calificado ambos productos, por lo que es mejor que siempre la use).
fuente