Tengo la sensación de que esto puede haber sido preguntado en otro lugar, pero no realmente con el tipo de descripción básica que necesito. Sé que no paramétrico se basa en la mediana en lugar de la media para comparar ... algo. También creo que se basa en "grados de libertad" (?) En lugar de la desviación estándar. Sin embargo, corrígeme si me equivoco.
He hecho una investigación bastante buena, o eso pensé, tratando de entender el concepto, lo que está detrás de esto, lo que realmente significan los resultados de la prueba y / o qué hacer con los resultados de la prueba; sin embargo, nadie parece aventurarse en esa área.
En aras de la simplicidad, sigamos con la prueba U de Mann-Whitney, que he notado que es bastante popular (y también aparentemente mal utilizada y demasiado utilizada para forzar el "modelo cuadrado en un agujero circular"). Si desea describir las otras pruebas también, siéntase libre, aunque siento que una vez que entiendo una, puedo entender las otras de manera análoga a varias pruebas t, etc.
Digamos que ejecuto una prueba no paramétrica con mis datos y obtengo este resultado:
2 Sample Mann-Whitney - Customer Type
Test Information
H0: Median Difference = 0
Ha: Median Difference ≠ 0
Size of Customer Large Small
Count 45 55
Median 2 2
Mann-Whitney Statistic: 2162.00
p-value (2-sided, adjusted for ties): 0.4156
Estoy familiarizado con otros métodos, pero ¿qué es diferente aquí? ¿Deberíamos querer que el valor p sea menor que 0.05? ¿Qué significa la "estadística de Mann-Whitney"? ¿Tiene algún uso? ¿Esta información aquí solo verifica o no verifica que una fuente particular de datos que tengo debería o no debería usarse?
Tengo una cantidad razonable de experiencia con la regresión y los conceptos básicos, pero tengo mucha curiosidad acerca de este material no paramétrico "especial", que sé que tendrá sus propias deficiencias.
Solo imagina que soy un estudiante de quinto grado y ve si puedes explicármelo.
Respuestas:
Casi ninguna prueba no paramétrica "confía" en las medianas en este sentido. Solo puedo pensar en una pareja ... y la única de la que espero que hayas oído hablar sería la prueba de signos.
Si confiaran en las medianas, presumiblemente sería comparar medianas. Pero, a pesar de lo que varias fuentes intentan decirte, las pruebas como la prueba de rango firmada, o el Wilcoxon-Mann-Whitney o el Kruskal-Wallis no son realmente una prueba de medianas; si hace algunas suposiciones adicionales, puede considerar a Wilcoxon-Mann-Whitney y Kruskal-Wallis como pruebas de medianas, pero bajo las mismas suposiciones (siempre y cuando existan los medios de distribución) también podría considerarlas como una prueba de medios .
La estimación de ubicación real relevante para la prueba de rango firmado es la mediana de los promedios por pares dentro de la muestra, la del Wilcoxon-Mann-Whitney (y, por implicación, en Kruskal-Wallis) es la mediana de las diferencias por pares entre las muestras .
La mayoría de las pruebas no paramétricas no tienen 'grados de libertad', aunque la distribución de muchos cambios con el tamaño de la muestra y usted podría considerar eso como algo similar a los grados de libertad en el sentido de que las tablas cambian con el tamaño de la muestra. Por supuesto, las muestras conservan sus propiedades y tienen n grados de libertad en ese sentido, pero los grados de libertad en la distribución de una estadística de prueba no suelen ser algo que nos preocupe. Puede suceder que tenga algo más como grados de libertad; por ejemplo, ciertamente podría argumentar que Kruskal-Wallis tiene grados de libertad básicamente en el mismo sentido que un chi-cuadrado, pero generalmente no se mira de esa manera (por ejemplo, si alguien habla de los grados de libertad de un Kruskal-Wallis, casi siempre se referirá al df
Una buena discusión sobre los grados de libertad se puede encontrar aquí /
No estoy seguro de lo que quieres decir con esto.
Podría sugerir algunos libros, como las Estadísticas prácticas no paramétricas de Conover , y si puede obtenerlos, el libro de Neave y Worthington ( Pruebas sin distribución ), pero hay muchos otros: Marascuilo y McSweeney, Hollander y Wolfe, o el libro de Daniel, por ejemplo. Le sugiero que lea al menos 3 o 4 de los que le hablen mejor, preferiblemente aquellos que le expliquen las cosas de la manera más diferente posible (esto significaría al menos leer un poco de quizás 6 o 7 libros para encontrar 3 que le convienen).
Es lo que es lo que me desconcertó acerca de su afirmación de que "nadie parece aventurarse en esa área": muchas personas que usan estas pruebas "se aventuran en el área" de la que estaban hablando.
Yo diría que las pruebas no paramétricas generalmente se subutilizan si hay algo (incluyendo las pruebas de Wilcoxon-Mann-Whitney), especialmente las pruebas de permutación / aleatorización, aunque no necesariamente discutiría que con frecuencia se usan incorrectamente (pero también lo son las pruebas paramétricas, incluso mas de).
[recorte]
¿A qué otros métodos te refieres? ¿Con qué quieres que compare esto?
Editar: Usted menciona la regresión más tarde; Supongo que está familiarizado con una prueba t de dos muestras (ya que es realmente un caso especial de regresión).
Según los supuestos de la prueba t de dos muestras ordinaria, la hipótesis nula dice que las dos poblaciones son idénticas, en contraposición a la alternativa de que una de las distribuciones se ha desplazado. Si observa el primero de los dos conjuntos de hipótesis para el Wilcoxon-Mann-Whitney a continuación, lo básico que se está probando allí es casi idéntico; es solo que la prueba t se basa en suponer que las muestras provienen de distribuciones normales idénticas (aparte de un posible cambio de ubicación). Si la hipótesis nula es verdadera, y los supuestos que la acompañan son verdaderos, el estadístico de prueba tiene una distribución t. Si la hipótesis alternativa es cierta, entonces el estadístico de prueba es más probable que tome valores que no parecen consistentes con la hipótesis nula, pero sí parecen coherentes con la alternativa: nos centramos en lo más inusual,
La situación es muy similar con el Wilcoxon-Mann-Whitney, pero mide la desviación del nulo de manera algo diferente. De hecho, cuando los supuestos de la prueba t son verdaderos *, es casi tan buena como la mejor prueba posible (que es la prueba t).
* (que en la práctica nunca es, aunque eso no es realmente un problema como parece)
De hecho, es posible considerar el Wilcoxon-Mann-Whitney como efectivamente una "prueba t" realizada en los rangos de los datos, aunque entonces no tiene una distribución t; el estadístico es una función monotónica de un estadístico t de dos muestras calculado en los rangos de los datos, por lo que induce el mismo orden ** en el espacio muestral (es decir, una "prueba t" en los rangos, realizada adecuadamente) generaría los mismos valores de p que Wilcoxon-Mann-Whitney), por lo que rechaza exactamente los mismos casos.
** (estrictamente, ordenamiento parcial, pero dejemos eso de lado)
[Se podría pensar que el solo uso de los rangos arrojaría mucha información, pero cuando los datos se obtienen de poblaciones normales con la misma variación, casi toda la información sobre el cambio de ubicación está en los patrones de los rangos. Los valores de datos reales (condicional en sus rangos) agregan muy poca información adicional a eso. Si va más pesado de lo normal, no pasa mucho tiempo antes de que la prueba de Wilcoxon-Mann-Whitney tenga un mejor poder, así como de retener su nivel de significancia nominal, de modo que la información 'adicional' por encima de los rangos finalmente no sea simplemente informativa, sino que en algunos sentido, engañoso. Sin embargo, la cola casi simétrica es una situación rara; lo que a menudo ves en la práctica es la asimetría.]
Las ideas básicas son bastante similares, los valores p tienen la misma interpretación (la probabilidad de un resultado como, o más extrema, si la hipótesis nula fuera cierta), hasta la interpretación de un cambio de ubicación, si realiza los supuestos necesarios (ver la discusión de las hipótesis cerca del final de esta publicación).
Si hiciera la misma simulación que en las gráficas anteriores para la prueba t, las gráficas se verían muy similares: la escala en los ejes xyy sería diferente, pero la apariencia básica sería similar.
No deberías "querer" nada allí. La idea es averiguar si las muestras son más diferentes (en un sentido de ubicación) de lo que se puede explicar por casualidad, no 'desear' un resultado particular.
Si digo "¿Puedes ver de qué color es el auto de Raj, por favor?", Si quiero una evaluación imparcial de él, no quiero que te vayas "¡Hombre, realmente, realmente espero que sea azul! Solo tiene que ser azul". Lo mejor es ver cuál es la situación, en lugar de entrar con un "Necesito que sea algo".
Si su nivel de significancia elegido es 0.05, rechazará la hipótesis nula cuando el valor p esté por debajo de 0.05. Pero no rechazar cuando tiene un tamaño de muestra lo suficientemente grande como para detectar casi siempre los tamaños de efectos relevantes es al menos igual de interesante, porque dice que las diferencias que existen son pequeñas.
La estadística de Mann-Whitney .
Realmente solo tiene sentido en comparación con la distribución de valores que puede tomar cuando la hipótesis nula es verdadera (ver el diagrama anterior), y eso depende de cuál de varias definiciones particulares pueda usar cualquier programa en particular.
Por lo general, no le importa el valor exacto como tal, sino dónde reside en la distribución nula (si es más o menos típico de los valores que debería ver cuando la hipótesis nula es verdadera o si es más extrema)
Esta prueba no dice nada sobre "una fuente particular de datos que tengo debería o no debería usarse".
Vea mi discusión sobre las dos formas de ver las hipótesis de WMW a continuación.
Las pruebas no paramétricas no tienen nada de especial (yo diría que las "estándar" son, en muchos aspectos, incluso más básicas que las pruebas paramétricas típicas), siempre y cuando realmente comprenda las pruebas de hipótesis.
Sin embargo, ese es probablemente un tema para otra pregunta.
Hay dos formas principales de ver la prueba de hipótesis de Wilcoxon-Mann-Whitney.
i) Una es decir "Estoy interesado en el cambio de ubicación, es decir, bajo la hipótesis nula, las dos poblaciones tienen la misma distribución (continua) , en comparación con la alternativa de que uno se" desplaza "hacia arriba o hacia abajo en relación con el otro"
El Wilcoxon-Mann-Whitney funciona muy bien si hace esta suposición (que su alternativa es solo un cambio de ubicación)
En este caso, el Wilcoxon-Mann-Whitney en realidad es una prueba para medianas ... pero igualmente es una prueba de medias, o de hecho cualquier otra estadística equivalente a la ubicación (percentiles 90, por ejemplo, o medias recortadas, o cualquier número de otras cosas), ya que todos se ven afectados de la misma manera por el cambio de ubicación.
Lo bueno de esto es que es muy fácil de interpretar, y es fácil generar un intervalo de confianza para este cambio de ubicación.
Sin embargo, la prueba de Wilcoxon-Mann-Whitney es sensible a otros tipos de diferencia que no sean un cambio de ubicación.
fuente
Supongamos que usted y yo estamos entrenando equipos de atletismo. Nuestros atletas provienen de la misma escuela, tienen edades similares y el mismo género (es decir, provienen de la misma población), pero afirmo haber descubierto un nuevo sistema de entrenamiento revolucionario que hará que los miembros de mi equipo corran mucho más rápido que tuya. ¿Cómo puedo convencerte de que realmente funciona?
Tenemos una carrera
Después, me siento y calculo el tiempo promedio para los miembros de mi equipo y el tiempo promedio para los miembros del suyo. Reclamaré la victoria si el tiempo promedio para mis atletas no solo es más rápido que el promedio para los suyos, sino que la diferencia también es grande en comparación con la "dispersión" o desviación estándar de nuestros resultados.
"Pero Matt", te quejas, "esto no es del todo justo. Nuestros equipos son bastante similares, pero tú, por pura casualidad, terminaste con el corredor más rápido del distrito. No está en la misma liga que todos de lo contrario, es prácticamente un monstruo de la naturaleza. Terminó 3 minutos antes del siguiente finalizador más rápido, lo que reduce mucho el tiempo promedio, pero el resto de los competidores están bastante mezclados. Veamos el orden de llegada. Si tu método realmente funciona, los primeros finalistas deberían ser principalmente de tu equipo, pero si no es así, el orden de llegada debería ser bastante aleatorio. ¡Esto no da un peso indebido a tu súper estrella! "
fuente
Solicitó ser corregido si está equivocado. Aquí hay algunos comentarios bajo ese encabezado para complementar las sugerencias positivas de @Peter Flom.
"no paramétrico depende de la mediana en lugar de la media": a menudo en la práctica, pero esa no es una definición. Varias pruebas no paramétricas (por ejemplo, chi-cuadrado) no tienen nada que ver con las medianas.
se basa en grados de libertad en lugar de la desviación estándar; Eso es muy confuso. La idea de los grados de libertad no es, en ningún sentido, una alternativa a la desviación estándar; Los grados de libertad como idea se aplican en todas las estadísticas.
"una fuente particular de datos que tengo debería o no debería usarse": esta pregunta no tiene nada que ver con la prueba de significación que aplicó, que es solo sobre la diferencia entre subconjuntos de datos y está expresada en términos de diferencia entre medianas.
fuente
Usted "quiere" las mismas cosas de un valor p aquí que desea en cualquier otra prueba.
El estadístico U es el resultado de un cálculo, al igual que el estadístico t, el cociente de probabilidades, el estadístico F o lo que sea que tenga. La fórmula se puede encontrar en muchos lugares. No es muy intuitivo, pero tampoco lo son otras estadísticas de prueba hasta que te acostumbras a ellas (reconocemos que 2 está en el rango significativo porque los vemos todo el tiempo).
El resto de la salida en su texto de bloque debe ser claro.
Para una introducción más general a las pruebas no paramétricas, me hago eco de @NickCox ... consiga un buen libro. No paramétrico simplemente significa "sin parámetros"; Hay muchas pruebas y estadísticas no paramétricas para una amplia variedad de propósitos.
fuente
Como respuesta a una pregunta recientemente cerrada , esto también aborda lo anterior. A continuación hay una cita de las pruebas estadísticas de distribución libre clásicas de Bradley (1968, p. 15-16) que, aunque es un poco larga, es una explicación bastante clara, creo.
fuente