¿Cuál es el enfoque frecuente de la historia del voltímetro y sus variaciones? La idea detrás de esto es que un análisis estadístico que apela a eventos hipotéticos tendría que revisarse si luego se supiera que esos eventos hipotéticos no podrían haber tenido lugar como se suponía.
La versión de la historia en Wikipedia se proporciona a continuación.
Un ingeniero extrae una muestra aleatoria de tubos de electrones y mide su voltaje. Las medidas varían de 75 a 99 voltios. Un estadístico calcula la media muestral y un intervalo de confianza para la media verdadera. Más tarde, el estadístico descubre que el voltímetro lee solo hasta 100, por lo que la población parece estar 'censurada'. Esto requiere un nuevo análisis, si el estadístico es ortodoxo. Sin embargo, el ingeniero dice que tiene otra lectura de medidor a 1000 voltios, que habría utilizado si cualquier voltaje hubiera sido superior a 100. Esto es un alivio para el estadístico, porque significa que la población estaba efectivamente sin censura después de todo. Pero, al día siguiente, el ingeniero informa al estadístico que este segundo medidor no estaba funcionando en el momento de la medición. El estadístico verifica que el ingeniero no hubiera retrasado las mediciones hasta que se haya reparado el medidor, y le informa que se requieren nuevas mediciones. El ingeniero está asombrado. "A continuación preguntarás por mi osciloscopio".
La historia obviamente está destinada a ser tonta, pero no me queda claro qué libertades se están tomando con la metodología en la que se burla. Estoy seguro de que en este caso un estadístico aplicado ocupado no se preocuparía por esto, pero ¿qué pasa con un frecuente especialista académico?
Usando un enfoque dogmático frecuentista, ¿tendríamos que repetir el experimento? ¿Podríamos sacar alguna conclusión de los datos ya disponibles?
Para abordar también el punto más general hecho por la historia, si queremos hacer uso de los datos que ya tenemos, ¿podría hacerse la revisión necesaria de los resultados hipotéticos para encajar en el marco frecuentista?
fuente
Respuestas:
En inferencia frecuentista , queremos determinar con qué frecuencia algo habría sucedido si un proceso estocástico dado se realizara repetidamente. Ese es el punto de partida para la teoría de los valores p, los intervalos de confianza y similares. Sin embargo, en muchos proyectos aplicados, el proceso "dado" no se da realmente, y el estadístico tiene que hacer al menos algún trabajo para especificarlo y modelarlo. Este puede ser un problema sorprendentemente ambiguo, como lo es en este caso.
Modelado del proceso de generación de datos
Según la información proporcionada, nuestro mejor candidato parece ser el siguiente:
¿Pero no es esto un poco injusto para nuestro ingeniero? Suponiendo que es un ingeniero y no simplemente un técnico, probablemente comprende por qué necesita volver a medir cuando el primer medidor lee 100V; es porque el medidor está saturado en el límite superior de su rango, por lo tanto, ya no es confiable. Entonces, tal vez lo que el ingeniero realmente haría es
Ambos procesos son consistentes con los datos que tenemos, pero son procesos diferentes y producen diferentes intervalos de confianza. El proceso 2 es el que preferiríamos como estadísticos. Si los voltajes a menudo están muy por encima de 100 V, el Proceso 1 tiene un modo de falla potencialmente catastrófico en el que las mediciones se subestiman ocasionalmente, porque los datos se censuran sin que lo sepamos. El intervalo de confianza se ampliará en consecuencia. Podríamos mitigar esto pidiéndole al ingeniero que nos diga cuándo su medidor de 1000V no funciona, pero esta es realmente otra forma de garantizar que nuestros datos se ajusten al Proceso 2.
Si el caballo ya ha salido del establo y no podemos determinar cuándo las mediciones están o no censuradas, podríamos tratar de inferir a partir de los datos los momentos en que el medidor de 1000V no está funcionando. Al introducir una regla de inferencia en el proceso, creamos efectivamente un nuevo Proceso 1.5 distinto de 1 y 2. Nuestra regla de inferencia a veces funcionaría y otras no, por lo que el intervalo de confianza del Proceso 1.5 sería de tamaño intermedio en comparación con los Procesos 1 y 2)
En teoría, no hay nada malo o sospechoso en una estadística única que tenga tres intervalos de confianza diferentes asociados con tres procesos estocásticos plausiblemente representativos diferentes. En la práctica, pocos consumidores de estadísticas desean tres intervalos de confianza diferentes. Quieren uno, el que se basa en lo que realmente habría sucedido, si el experimento se hubiera repetido muchas veces.Por lo general, la estadística aplicada considera el conocimiento de dominio que ha adquirido durante el proyecto, hace una conjetura educada y presenta el intervalo de confianza asociado con el proceso que ha adivinado. O ella trabaja con el cliente para formalizar el proceso, por lo que no es necesario adivinar en el futuro.
Cómo responder a nueva información
A pesar de la insistencia del estadístico en la historia, la inferencia frecuentista no requiere que repitamos las mediciones cuando obtenemos nueva información que sugiere que el proceso generador de estocástico no es exactamente lo que originalmente concebimos. Sin embargo, si el proceso se va a repetir, debemos asegurarnos de que todas las repeticiones sean consistentes con el proceso del modelo asumido por el intervalo de confianza. Podemos hacer esto cambiando el proceso o cambiando nuestro modelo del mismo.
Si cambiamos el proceso, es posible que debamos descartar datos pasados que se recopilaron de manera inconsistente con ese proceso. Pero eso no es un problema aquí, porque todas las variaciones del proceso que estamos considerando son solo diferentes cuando algunos de los datos están por encima de 100V, y eso nunca sucedió en este caso.
Hagamos lo que hagamos, el modelo y la realidad deben alinearse. Solo entonces la tasa de error frecuentista teóricamente garantizada será la que el cliente realmente obtenga al repetir el proceso.
La alternativa bayesiana
Por otro lado, si todo lo que realmente nos importa es el rango probable de la media real para esta muestra, deberíamos descartar el frecuentismo por completo y buscar a las personas que venden la respuesta a esa pregunta: los bayesianos. Si seguimos esta ruta, todo el regateo sobre contrafactuales se vuelve irrelevante; todo lo que importa es el previo y la probabilidad. A cambio de esta simplificación, perdemos cualquier esperanza de garantizar una tasa de error bajo la repetida ejecución del "experimento".
¿Por qué tanto alboroto?
Esta historia fue construida para que parezca que el estadístico frecuentista se preocupa por cosas tontas sin ninguna razón. Honestamente, ¿a quién le importan estos tontos contrafácticos? La respuesta, por supuesto, es que a todos debería importarles. Los campos científicos de vital importancia sufren actualmente una grave crisis de replicación , lo que sugiere que la frecuencia de los descubrimientos falsos es mucho mayor de lo esperado en la literatura científica. Uno de los impulsores de esta crisis, aunque no es el único de ninguna manera , es el aumento de p-hacking , que es cuando los investigadores juegan con muchas variaciones de un modelo, controlando diferentes variables, hasta que adquieren importancia.
El hackeo P ha sido ampliamente vilipendiado en los medios científicos populares y la blogosfera, pero pocos entienden realmente qué hay de malo en el hackeo P y por qué. Contrariamente a la opinión estadística popular, no hay nada de malo en mirar sus datos antes, durante y después del proceso de modelado. Lo que está mal es no informar los análisis exploratorios y cómo influyeron en el curso del estudio. Solo observando el proceso completo podemos incluso determinar qué modelo estocástico es representativo de ese proceso y qué análisis frecuentista es apropiado para ese modelo, si lo hay.
Afirmar que cierto análisis frecuentista es apropiado es un reclamo muy serio. Hacer esa afirmación implica que te estás vinculando a la disciplina del proceso estocástico que has elegido, lo que implica un sistema completo de contrafactuales sobre lo que habrías hecho en diferentes situaciones. En realidad, debe ajustarse a ese sistema para que la garantía frecuente se aplique a usted. Muy pocos investigadores, especialmente aquellos en campos que enfatizan la exploración abierta, se ajustan al sistema y no informan escrupulosamente sus desviaciones; Es por eso que ahora tenemos una crisis de replicación en nuestras manos. (Algunos investigadores respetados han argumentado que esta expectativa no es realista, una posición con la que simpatizo, pero que va más allá del alcance de esta publicación).
En estudios que son relativamente simples y / o estandarizados, como los ensayos clínicos, podemos ajustar para cosas como comparaciones múltiples o secuenciales y mantener la tasa de error teórico; En estudios más complejos y exploratorios, un modelo frecuentista puede ser inaplicable porque el investigador puede no ser plenamente consciente de todas las decisiones que se toman , y mucho menos registrarlas y presentarlas explícitamente. En tales casos, el investigador debe (1) ser honesto y directo sobre lo que se hizo; (2) presentar los valores de p con fuertes advertencias, o nada en absoluto; (3) considere presentar otras líneas de evidencia, como la plausibilidad previa de la hipótesis o un estudio de replicación de seguimiento.
fuente
Parece una falacia lógica. Independientemente de si el medidor de 1000 voltios funcionaba o no, el ingeniero dice que "si las lecturas hubieran sido superiores a 100, habría utilizado el otro medidor". Pero, ¿cómo podría saber que el voltaje era> 100 sin haber usado el medidor de 1000 voltios?
No creo que este acertijo esté suficientemente formulado como para hacer una pregunta filosófica útil. Prácticamente, estoy de acuerdo con la respuesta de que lo correcto es hacer un histograma y ver si parece truncado.
Pero, en cualquier caso, nada en la pregunta trata los temas importantes, como: (1) ¿cuál es la distribución conocida (o sospechada) de las lecturas y por qué? ¿Hay alguna razón para creer que normalmente se distribuyen? (2) Si esa pregunta no se responde, entonces, ¿cómo se estimó algún intervalo de confianza?
Para llevarlo al extremo, se está midiendo algo de 'voltaje'. Suponga que la fuente de alimentación no puede entregar más de 100 voltios. Si eso fuera cierto, presumiblemente no podría haber mediciones de más de 100 voltios, por lo que el medidor es irrelevante.
Hay un montón más, en términos de antecedentes, restricciones, etc., que entra en la estimación y similares que la pregunta cubre. Esto es diferente a la paradoja de 'Monty Hall', que es nítida y limpia.
fuente