Estoy tratando de probar la nula , contra la alternativa local , para una variable aleatoria , sujeta a sesgo leve y medio y curtosis de la variable aleatoria. Siguiendo las sugerencias de Wilcox en 'Introducción a la estimación robusta y las pruebas de hipótesis', he examinado las pruebas basadas en la media recortada, la mediana, así como el estimador M de ubicación (procedimiento de "un paso" de Wilcox). Estas pruebas robustas superan a la prueba t estándar, en términos de potencia, cuando se realizan pruebas con una distribución no sesgada, pero leptokurtótica.
Sin embargo, cuando se realiza una prueba con una distribución sesgada, estas pruebas unilaterales son demasiado liberales o demasiado conservadoras según la hipótesis nula, dependiendo de si la distribución está sesgada hacia la izquierda o hacia la derecha, respectivamente. Por ejemplo, con 1000 observaciones, la prueba basada en la mediana realmente rechazará ~ 40% del tiempo, al nivel nominal de 5%. La razón de esto es obvia: para distribuciones sesgadas, la mediana y la media son bastante diferentes. Sin embargo, en mi solicitud, realmente necesito probar la media, no la mediana, no la media recortada.
¿Existe una versión más robusta de la prueba t que realmente evalúa la media, pero es impermeable al sesgo y la curtosis?
Idealmente, el procedimiento también funcionaría bien en el caso sin sesgo y de alta curtosis. La prueba de 'un paso' es casi lo suficientemente buena, con el parámetro de 'flexión' establecido relativamente alto, pero es menos potente que las pruebas medias recortadas cuando no hay sesgo, y tiene algunos problemas para mantener el nivel nominal de rechazos bajo sesgo .
Antecedentes: la razón por la que realmente me importa la media, y no la mediana, es que la prueba se usaría en una aplicación financiera. Por ejemplo, si quisiera probar si una cartera tenía retornos log esperados positivos, la media es realmente apropiada porque si invierte en la cartera, experimentará todos los retornos (que es la media multiplicada por el número de muestras), en lugar de duplicados de la mediana. Es decir, lo que realmente importa la suma de se basa en la RV .
fuente
Respuestas:
¿Por qué estás mirando pruebas no paramétricas? ¿Se violan los supuestos de la prueba t? A saber, datos ordinales o no normales y variaciones inconstantes? Por supuesto, si su muestra es lo suficientemente grande, puede justificar la prueba t paramétrica con su mayor potencia a pesar de la falta de normalidad en la muestra. Del mismo modo, si su preocupación son las variaciones desiguales, hay correcciones en la prueba paramétrica que producen valores p precisos (la corrección de Welch).
De lo contrario, comparar sus resultados con la prueba t no es una buena manera de hacerlo, porque los resultados de la prueba t están sesgados cuando no se cumplen los supuestos. La U de Mann-Whitney es una alternativa no paramétrica adecuada, si eso es lo que realmente necesita. Solo pierde potencia si está utilizando la prueba no paramétrica cuando podría usar justificadamente la prueba t (porque se cumplen los supuestos).
Y, para más información, ve aquí ...
http://www.jerrydallal.com/LHSP/STUDENT.HTM
fuente
Estoy de acuerdo en que si realmente desea probar si las medias grupales son diferentes (en lugar de probar las diferencias entre las medianas grupales o las medias recortadas, etc.), entonces no desea usar una prueba no paramétrica que pruebe una hipótesis diferente.
En general, los valores p de una prueba t tienden a ser bastante precisos dadas las desviaciones moderadas del supuesto de normalidad de los residuos. Consulte este applet para tener una idea de esta robustez: http://onlinestatbook.com/stat_sim/robustness/index.html
Si todavía le preocupa la violación del supuesto de normalidad, es posible que desee arrancar . por ejemplo, http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf
También podría transformar la variable dependiente sesgada para resolver problemas con desviaciones de la normalidad.
fuente
trimpb
ytrimcibt
, pero son demasiado lentos para hacer mis pruebas de potencia, al menos para mi gusto. re: 3, había pensado en este método, pero estoy interesado en la media de los datos no transformados (es decir, no estoy comparando 2 RV con una prueba t, en cuyo caso, una transformación monotónica estaría bien para una comparación basada en rangos, como lo señaló @JoFrhwld.)El 'último y más grande' se debe a Ogaswara , con referencias a Hall y otros.
fuente
No tengo suficiente reputación para un comentario, por lo tanto, como respuesta: Echa un vistazo a este cálculo. Creo que esto proporciona una excelente respuesta. En breve:
fuente