¿Cuál es la visión frecuente de la historia del voltímetro?

15

¿Cuál es el enfoque frecuente de la historia del voltímetro y sus variaciones? La idea detrás de esto es que un análisis estadístico que apela a eventos hipotéticos tendría que revisarse si luego se supiera que esos eventos hipotéticos no podrían haber tenido lugar como se suponía.

La versión de la historia en Wikipedia se proporciona a continuación.

Un ingeniero extrae una muestra aleatoria de tubos de electrones y mide su voltaje. Las medidas varían de 75 a 99 voltios. Un estadístico calcula la media muestral y un intervalo de confianza para la media verdadera. Más tarde, el estadístico descubre que el voltímetro lee solo hasta 100, por lo que la población parece estar 'censurada'. Esto requiere un nuevo análisis, si el estadístico es ortodoxo. Sin embargo, el ingeniero dice que tiene otra lectura de medidor a 1000 voltios, que habría utilizado si cualquier voltaje hubiera sido superior a 100. Esto es un alivio para el estadístico, porque significa que la población estaba efectivamente sin censura después de todo. Pero, al día siguiente, el ingeniero informa al estadístico que este segundo medidor no estaba funcionando en el momento de la medición. El estadístico verifica que el ingeniero no hubiera retrasado las mediciones hasta que se haya reparado el medidor, y le informa que se requieren nuevas mediciones. El ingeniero está asombrado. "A continuación preguntarás por mi osciloscopio".

La historia obviamente está destinada a ser tonta, pero no me queda claro qué libertades se están tomando con la metodología en la que se burla. Estoy seguro de que en este caso un estadístico aplicado ocupado no se preocuparía por esto, pero ¿qué pasa con un frecuente especialista académico?

Usando un enfoque dogmático frecuentista, ¿tendríamos que repetir el experimento? ¿Podríamos sacar alguna conclusión de los datos ya disponibles?

Para abordar también el punto más general hecho por la historia, si queremos hacer uso de los datos que ya tenemos, ¿podría hacerse la revisión necesaria de los resultados hipotéticos para encajar en el marco frecuentista?

Praxeolítico
fuente
44
El enfoque frecuentista también permite el condicionamiento, por lo que no estoy seguro de que el razonamiento encontrado en la cita sea totalmente adecuado.
Xi'an
@ Xi'an Incluso si incorporamos la censura de la muestra o la probabilidad de que el segundo voltímetro se rompa en nuestros cálculos, existe el problema de que estamos cambiando el diseño del experimento después de que tuvo lugar . No sé si eso puede conciliarse con los métodos frecuentas.
Praxeolítico
66
Quizás revise esta entrada en el Principio de Condicionalidad . Aunque no soy un frecuentador, no soy un gran admirador de esta historia porque parece implicar la integración de todos los posibles eventos hipotéticos sin definir el rango de esos. Esto es bastante caricaturesco.
Xi'an
55
De hecho, esto es digno de una discusión reflexiva y respuestas. Pero tenga en cuenta que "si el estadístico es ortodoxo" y no es incompetente o codicioso para un trabajo adicional, ella declarará que dado que ninguna de las observaciones originales fue censurada, su elección original del procedimiento (presumiblemente admisible) sigue siendo admisible y, por lo tanto, no hay base para cambialo. La base teórica que sustenta las estadísticas "frecuentes", la teoría de la decisión, no tiene utilidad para este "principio de probabilidad".
whuber
1
Sé lo que haría, siempre que haya suficientes datos. Haría un histograma. Yo miraría el histograma. Si hubiera un límite claro en 99 haciendo un histograma truncado unilateral en ese punto, sospecharía que estaba truncado. También miraría los datos que se sabe que no están truncados e inspeccionaría sus formas curvas, y vería si puedo obtener un modelo de probabilidad que se ajuste a eso, por ejemplo, una distribución gamma, o lo que no. Luego volvería a los datos truncados (por supuesto) y vería si el resto también está distribuido en gamma (o lo que sea). Entonces necesito explicar, "¿Por qué gamma?" Si es así, he terminado.
Carl

Respuestas:

4

En inferencia frecuentista , queremos determinar con qué frecuencia algo habría sucedido si un proceso estocástico dado se realizara repetidamente. Ese es el punto de partida para la teoría de los valores p, los intervalos de confianza y similares. Sin embargo, en muchos proyectos aplicados, el proceso "dado" no se da realmente, y el estadístico tiene que hacer al menos algún trabajo para especificarlo y modelarlo. Este puede ser un problema sorprendentemente ambiguo, como lo es en este caso.

Modelado del proceso de generación de datos

Según la información proporcionada, nuestro mejor candidato parece ser el siguiente:

  1. Si el medidor de 100 V lee 100 V, el ingeniero vuelve a medir con el medidor de 1000 V si está operativo. De lo contrario, simplemente marca 100V y sigue adelante.

¿Pero no es esto un poco injusto para nuestro ingeniero? Suponiendo que es un ingeniero y no simplemente un técnico, probablemente comprende por qué necesita volver a medir cuando el primer medidor lee 100V; es porque el medidor está saturado en el límite superior de su rango, por lo tanto, ya no es confiable. Entonces, tal vez lo que el ingeniero realmente haría es

  1. Si el medidor de 100 V lee 100, el ingeniero vuelve a medir con el medidor de 1000 V si está operativo. De lo contrario, simplemente marca 100 V, agrega un signo más para indicar la medición saturada y continúa.

Ambos procesos son consistentes con los datos que tenemos, pero son procesos diferentes y producen diferentes intervalos de confianza. El proceso 2 es el que preferiríamos como estadísticos. Si los voltajes a menudo están muy por encima de 100 V, el Proceso 1 tiene un modo de falla potencialmente catastrófico en el que las mediciones se subestiman ocasionalmente, porque los datos se censuran sin que lo sepamos. El intervalo de confianza se ampliará en consecuencia. Podríamos mitigar esto pidiéndole al ingeniero que nos diga cuándo su medidor de 1000V no funciona, pero esta es realmente otra forma de garantizar que nuestros datos se ajusten al Proceso 2.

Si el caballo ya ha salido del establo y no podemos determinar cuándo las mediciones están o no censuradas, podríamos tratar de inferir a partir de los datos los momentos en que el medidor de 1000V no está funcionando. Al introducir una regla de inferencia en el proceso, creamos efectivamente un nuevo Proceso 1.5 distinto de 1 y 2. Nuestra regla de inferencia a veces funcionaría y otras no, por lo que el intervalo de confianza del Proceso 1.5 sería de tamaño intermedio en comparación con los Procesos 1 y 2)

En teoría, no hay nada malo o sospechoso en una estadística única que tenga tres intervalos de confianza diferentes asociados con tres procesos estocásticos plausiblemente representativos diferentes. En la práctica, pocos consumidores de estadísticas desean tres intervalos de confianza diferentes. Quieren uno, el que se basa en lo que realmente habría sucedido, si el experimento se hubiera repetido muchas veces.Por lo general, la estadística aplicada considera el conocimiento de dominio que ha adquirido durante el proyecto, hace una conjetura educada y presenta el intervalo de confianza asociado con el proceso que ha adivinado. O ella trabaja con el cliente para formalizar el proceso, por lo que no es necesario adivinar en el futuro.

Cómo responder a nueva información

A pesar de la insistencia del estadístico en la historia, la inferencia frecuentista no requiere que repitamos las mediciones cuando obtenemos nueva información que sugiere que el proceso generador de estocástico no es exactamente lo que originalmente concebimos. Sin embargo, si el proceso se va a repetir, debemos asegurarnos de que todas las repeticiones sean consistentes con el proceso del modelo asumido por el intervalo de confianza. Podemos hacer esto cambiando el proceso o cambiando nuestro modelo del mismo.

Si cambiamos el proceso, es posible que debamos descartar datos pasados ​​que se recopilaron de manera inconsistente con ese proceso. Pero eso no es un problema aquí, porque todas las variaciones del proceso que estamos considerando son solo diferentes cuando algunos de los datos están por encima de 100V, y eso nunca sucedió en este caso.

Hagamos lo que hagamos, el modelo y la realidad deben alinearse. Solo entonces la tasa de error frecuentista teóricamente garantizada será la que el cliente realmente obtenga al repetir el proceso.

La alternativa bayesiana

Por otro lado, si todo lo que realmente nos importa es el rango probable de la media real para esta muestra, deberíamos descartar el frecuentismo por completo y buscar a las personas que venden la respuesta a esa pregunta: los bayesianos. Si seguimos esta ruta, todo el regateo sobre contrafactuales se vuelve irrelevante; todo lo que importa es el previo y la probabilidad. A cambio de esta simplificación, perdemos cualquier esperanza de garantizar una tasa de error bajo la repetida ejecución del "experimento".

¿Por qué tanto alboroto?

Esta historia fue construida para que parezca que el estadístico frecuentista se preocupa por cosas tontas sin ninguna razón. Honestamente, ¿a quién le importan estos tontos contrafácticos? La respuesta, por supuesto, es que a todos debería importarles. Los campos científicos de vital importancia sufren actualmente una grave crisis de replicación , lo que sugiere que la frecuencia de los descubrimientos falsos es mucho mayor de lo esperado en la literatura científica. Uno de los impulsores de esta crisis, aunque no es el único de ninguna manera , es el aumento de p-hacking , que es cuando los investigadores juegan con muchas variaciones de un modelo, controlando diferentes variables, hasta que adquieren importancia.

El hackeo P ha sido ampliamente vilipendiado en los medios científicos populares y la blogosfera, pero pocos entienden realmente qué hay de malo en el hackeo P y por qué. Contrariamente a la opinión estadística popular, no hay nada de malo en mirar sus datos antes, durante y después del proceso de modelado. Lo que está mal es no informar los análisis exploratorios y cómo influyeron en el curso del estudio. Solo observando el proceso completo podemos incluso determinar qué modelo estocástico es representativo de ese proceso y qué análisis frecuentista es apropiado para ese modelo, si lo hay.

Afirmar que cierto análisis frecuentista es apropiado es un reclamo muy serio. Hacer esa afirmación implica que te estás vinculando a la disciplina del proceso estocástico que has elegido, lo que implica un sistema completo de contrafactuales sobre lo que habrías hecho en diferentes situaciones. En realidad, debe ajustarse a ese sistema para que la garantía frecuente se aplique a usted. Muy pocos investigadores, especialmente aquellos en campos que enfatizan la exploración abierta, se ajustan al sistema y no informan escrupulosamente sus desviaciones; Es por eso que ahora tenemos una crisis de replicación en nuestras manos. (Algunos investigadores respetados han argumentado que esta expectativa no es realista, una posición con la que simpatizo, pero que va más allá del alcance de esta publicación).

Puede parecer injusto que critiquemos los artículos publicados basados ​​en un reclamo sobre lo que habrían hecho si los datos hubieran sido diferentes. Pero esta es la naturaleza (algo paradójica) del razonamiento frecuentista: si acepta el concepto del valor p, debe respetar la legitimidad de modelar lo que se habría hecho con datos alternativos. (Gelman y Loken, 2013)

En estudios que son relativamente simples y / o estandarizados, como los ensayos clínicos, podemos ajustar para cosas como comparaciones múltiples o secuenciales y mantener la tasa de error teórico; En estudios más complejos y exploratorios, un modelo frecuentista puede ser inaplicable porque el investigador puede no ser plenamente consciente de todas las decisiones que se toman , y mucho menos registrarlas y presentarlas explícitamente. En tales casos, el investigador debe (1) ser honesto y directo sobre lo que se hizo; (2) presentar los valores de p con fuertes advertencias, o nada en absoluto; (3) considere presentar otras líneas de evidencia, como la plausibilidad previa de la hipótesis o un estudio de replicación de seguimiento.

Pablo
fuente
Parece una buena respuesta, pero mañana tendré que digerirlo mentalmente.
Praxeolitic
por la descripción del problema como se indica, suena como si un ingeniero afirmara que siempre estaba haciendo su opción # 2
Aksakal
Quizás, pero no lo dijo explícitamente. Se pueden cometer grandes errores cuando las personas adivinan lo que otras personas están pensando en lugar de discutir explícitamente.
Paul
En los cursos de estadística aplicada, se da muy poco énfasis al formalismo de lo que significa estimar parámetros. Supongamos que planeamos lanzar una moneda y registrar la frecuencia de las caras. Al entrar, asumimos tácitamente que la distribución real es Bernoulli con p = q = 0.5. Luego de 1,000 lanzamientos, nos preguntamos 'qué tan probable es que sea una moneda justa' al comparar la realidad con la teoría / suposición. Pero en mucha ciencia, la gente asume que las cosas se distribuyen normalmente, luego usan pruebas t. Pero eso no tiene sentido si los retornos no se distribuyen normalmente.
eSurfsnake
1

Parece una falacia lógica. Independientemente de si el medidor de 1000 voltios funcionaba o no, el ingeniero dice que "si las lecturas hubieran sido superiores a 100, habría utilizado el otro medidor". Pero, ¿cómo podría saber que el voltaje era> 100 sin haber usado el medidor de 1000 voltios?

No creo que este acertijo esté suficientemente formulado como para hacer una pregunta filosófica útil. Prácticamente, estoy de acuerdo con la respuesta de que lo correcto es hacer un histograma y ver si parece truncado.

Pero, en cualquier caso, nada en la pregunta trata los temas importantes, como: (1) ¿cuál es la distribución conocida (o sospechada) de las lecturas y por qué? ¿Hay alguna razón para creer que normalmente se distribuyen? (2) Si esa pregunta no se responde, entonces, ¿cómo se estimó algún intervalo de confianza?

Para llevarlo al extremo, se está midiendo algo de 'voltaje'. Suponga que la fuente de alimentación no puede entregar más de 100 voltios. Si eso fuera cierto, presumiblemente no podría haber mediciones de más de 100 voltios, por lo que el medidor es irrelevante.

Hay un montón más, en términos de antecedentes, restricciones, etc., que entra en la estimación y similares que la pregunta cubre. Esto es diferente a la paradoja de 'Monty Hall', que es nítida y limpia.

eSurfsnake
fuente
1
El objetivo de la historia es criticar las interpretaciones de probabilidad que se basan en eventos hipotéticos al extender estas interpretaciones a un extremo absurdo. Los problemas que menciona no vienen al caso. Supuestamente, el ingeniero habría sabido cambiar los voltímetros si fuera necesario (por ejemplo, ve una lectura de "100") y el estadístico tiene razones para usar el enfoque que está utilizando (por ejemplo, ya sabe que la distribución normal es buena modelo para estas lecturas).
Praxeolitic