¿Alguien puede ayudarme a entender qué tipo de problema estoy viendo? No estoy seguro si esto clasifica como prueba de hipótesis

8

Perdóname si esta pregunta no está clara. No estoy seguro si estoy usando las terminologías correctas.

He realizado un experimento en diferentes entornos varias veces. Entonces mis datos se parecen a esto:

Environment1  1.2  2.1  1.1  1.5  1.6
Environment2  4.2  2.6  3.5  2.5  2.9
Environment3  7.2  4.6  5.3  4.5  1.6
Environment4  0.0  0.0  1.2  15.0 0.0
Environment5  3.2  2.4  7.2  5.5  6.6
Environment6  23.2  32.1  18.1  1.5  19.6

Puedo ver claramente (o tal vez mi intuición dice) que el experimento no se realizó correctamente en Environment4 (demasiado bajo y fluctuante mucho) y Environment5 (demasiado alto), pero no estoy seguro de cómo probarlo. ¿Se supone que debo confiar en la prueba de hipótesis con la hipótesis:

El experimento no se realizó correctamente en los entornos 4 y 6.

y luego usar algún procedimiento para probar esto? ¿O hay una forma estándar de mostrar esto? ¿Puede alguien ayudarme a abordar este tipo de problemas? Estoy usando R.

Leyenda
fuente
Buena pregunta, es un buen ejemplo para exponerse a diferentes procedimientos, porque básicamente sabemos sin ningún tipo de matemática o formalidad, que el Ambiente 4 y 6 son diferentes al resto (y el Ambiente 1 es un poco diferente de 2, 3 y 5). Por lo tanto, cualquier buen procedimiento debería ser capaz de producir el resultado obvio, solo la diferencia proviene de cuantificar cuán diferente en un sentido matemático. La pregunta obvia es "¿hay alguna otra forma en que el experimento podría haber producido realmente estos resultados, además de un error?"
chanceislogic
@probabilityislogic: Gracias. Lo que dices es útil: si puedo cuantificar de alguna manera la efectividad del experimento en cada entorno, entonces puedo decir algo pero todavía no estoy seguro de qué decir o cómo decirlo. Ah ... (... me siento estúpido escribiendo rompecabezas) :) Con respecto a su pregunta: el experimento fue bastante controlado en el sentido de que se aseguró de que el entorno no cambiara. Sin embargo, el procedimiento podría haber salido mal. Puede ser que el procedimiento no se haya ejecutado correctamente de acuerdo con las pautas (¿tal vez?)
Leyenda
Estoy hablando más en la línea de "¿ es una cantidad físicamente significativa? ¿Qué pasaría en el mundo real si esto fuera correcto?" También puede ser útil hablar con alguien que realmente realizó el experimento 4 o 6 (preferiblemente la persona que registró los datos). 32.1
chanceislogic
@probabilityislogic: Ya veo. Entiendo tu punto. El dato es pregunta es una variable de tiempo de respuesta. Mi opinión sobre su pregunta sería que el valor tiene sentido en un mundo físico, pero es demasiado inusual como para llamarlo un caso raro. La persona con la que hablé dijo que no hizo nada diferente. En realidad, los datos que pongo aquí son solo una muestra de los datos completos y hay algunos casos como este diseminados aquí y allá.
Leyenda
por lo que parece que el resultado más probable es un error, pero se pueden hacer descubrimientos interesantes si "profundiza", por así decirlo. ¡Podría ser un nuevo hallazgo de algún tipo! pero no te emociones demasiado, probablemente no sea nada, pero puede valer la pena considerar la posibilidad y ver a dónde te lleva.
probabilidadislogica

Respuestas:

2

Puede hacer una prueba de estudiante para ver si la media es diferente entre el grupo 4,6 y el resto. Incluso si el tamaño de su muestra es pequeño, concluirá en una diferencia. Tenga en cuenta que le dirá que el grupo 4,6 es significativamente diferente en promedio del resto, pero no le dirá que "El experimento no se realizó correctamente en los entornos 4 y 6", que no se puede responder sin un conocimiento de qué significa "correctamente" en las observaciones.

robin girard
fuente
girad: En realidad, esta pregunta surgió de alguien sobre el equipo de prueba. Correctamente significa que se les dio un conjunto de instrucciones para ejecutar para obtener un valor final. El experimento se completará incluso si se omite una de las instrucciones, pero dará como resultado una observación incorrecta. Comprobaré lo student testque mencionaste. Pero si la prueba se basa en la media, ¿no se supone que la media es una mala medida debido a su sensibilidad al cambio en los valores de los datos? Gracias por tu tiempo.
Leyenda
@Legend Una prueba de diferencia de medias puede ser inapropiada, pero eso no es culpa de @robin, como se señaló en la segunda mitad de su respuesta, lo cual es apropiado: la prueba a usar está determinada por qué característica de un conjunto de Los resultados indican un experimento "incorrecto". Podría realizar una prueba F para detectar una diferencia de desviaciones estándar; podría realizar pruebas de valores atípicos múltiples; podrías realizar una prueba de Kruskal-Wallis; etc., dependiendo de qué tipo de diferencias esté buscando.
whuber
@Legend También hay otra dificultad que se ve ensombrecida por su pregunta porque aquí adivinó que 4,6 eran las diferentes muestras. Pero qué pasa si no lo sabe de antemano ... tendrá que probar toda la configuración y probablemente introducir un criterio de hipótesis múltiple. En este caso, esto parece una detección de valores atípicos y muchas preguntas ya han tratado de eso aquí.
robin girard
@whuber: no tenía la intención de ver que era culpa de nadie. Soy un novato aquí, así que me disculpo si sonó así. @robin girard: Esa es una toma muy interesante. Gracias. Estaba pensando en la detección de valores atípicos. ¿Podrá señalarme algún material relevante para este caso en particular? Todo lo que he usado antes son simples como k-means etc.
Leyenda