¿Número de cifras significativas para poner en una tabla?

13

¿Existe una regla bien fundada para el número de cifras significativas para publicar?

Aquí hay algunos ejemplos / preguntas específicos:

  • ¿Hay alguna forma de relacionar el número de cifras significativas con el coeficiente de variación? Por ejemplo, si la estimación es 12.3 y el CV es 50%, ¿eso significa que la información representada por '.3' se aproxima a cero?

  • Si un intervalo de confianza tiene un rango de órdenes de magnitud, si aún tienen el mismo número de cifras significativas, por ejemplo:

    12.3 (1.2, 123.4) vs 12 (1.2, 120)

  • ¿El número de cifras significativas en una estimación de error debe ser igual o menor que el número de cifras significativas en una media?

David LeBauer
fuente
Si puede, no use una tabla :) Un gráfico es, en mi opinión, casi siempre más fácil de leer que una tabla (la excepción obvia es si no tiene muchos números). Las revistas y sus revisores no siempre están de acuerdo, desafortunadamente ...
JMS
3
@JMS Buen punto, pero las tablas son útiles para resumir características detalladas de unidades estadísticas (clasificadas de forma cruzada por un factor de interés, por ejemplo, diagnóstico clínico o lo que sea), con variables de diferentes tipos (continua, nominal y ordinal), y otros resultados derivados a partir del modelado estadístico per se (matriz de confusión, coeficiente de regresión, etc.) que no encajará en las Figuras (o no siempre si piensa en el enfoque de Gelman para mostrar el coeficiente de regulación como gráficos de puntos). Necesitamos ambos; la pregunta es cuándo realmente necesitamos una Figura en lugar de una Tabla, OMI.
chl
@chi Feria. Dije casi siempre :). Cosas como las grandes tablas n-way son imposibles de reproducir (completamente) gráficamente. Depende del foro que yo diría. Las tablas tienen la ventaja de ser completas, claro, pero ¿su lector realmente absorbe toda esa información adicional? Si hay demasiados parámetros para caber en un gráfico, afirmaría que una tabla a menudo es al menos difícil de leer. Sin embargo, creo que los resultados completos deberían ser accesibles (en línea, apéndice, etc.) si no fuera por nada más que reproducibilidad. ¡En ese caso, también me gustaría tener datos y código! OT deambulado, lo siento ..
JMS
También creo que los coeficientes de regresión y las matrices de confusión (correlación, covarianza, ...) suelen ser más adecuados para una visualización gráfica, diagramas de puntos o similares para el primero y mapas de calor o gráficos para el segundo.
JMS
@JMS Estoy de acuerdo con su punto, pero en este caso hay un límite de cifras, en otros casos hay cargos por cifras. Además, en este caso, si los lectores miran por encima de la mesa y se centran en las figuras que se presentan, no perderán el tiempo tratando de descubrir el punto de una figura esotérica. Pero apoyo totalmente la reproducibilidad, y mientras lo hago, podría (si me pongo a ello) agregar una visualización de la tabla al código que se adjunta.
David LeBauer

Respuestas:

19

Dudo que haya una regla universal, así que no voy a inventar nada. Puedo compartir estos pensamientos y las razones detrás de ellos:

  • Cuando los resúmenes reflejen los datos en sí mismos (máx., Mín., Estadísticas de pedidos, etc.), utilice el mismo número de cifras significativas utilizadas para registrar los datos en primer lugar. Esto proporciona una representación coherente en todo el documento sobre la precisión de los datos.

  • nortenorte3norte3030<norte300

    -Tenga en cuenta que el CV no proporciona información útil a este respecto.

    -Algunas estimaciones se pueden obtener con gran precisión. No tienen que redondearse para que coincida con otra cosa. Por ejemplo, la media de 1,000,000 de enteros podría ser 10.977 con un error estándar de 0.00301. Mi decisión de escribir la media con tres decimales (y 4-5 sig figs) se basó en el orden de magnitud de la SE, lo que indica que el último dígito es parcialmente confiable. La decisión de escribir el SE en tres higos sig (cinco decimales) es más arbitraria: dos higos sig funcionarían; uno probablemente no lo haría; cuatro higos sig también funcionarían y serían consistentes con los higos 4-5 sig en la media; más de cuatro higos serían excesivos. (Se podría estimar el error estándar de la propia SE en términos del cuarto momento de los datos, y usarlo para determinar una cantidad adecuada de redondeo, pero la mayoría de nosotros no nos tomamos esa molestia ...)

  • Señale al lector cuando esté realizando un redondeo considerable . Tenga especial cuidado cuando el informe discuta la prueba estadística en sí . La razón es que las personas pueden usar su trabajo para verificar sus propios cálculos. A veces, incluso una ligera diferencia puede revelar un error. No querrás causar problemas porque redondeaste 123 a 120 y alguien más, revisando el trabajo, obtiene 123 y sospecha que uno de ustedes ha cometido un error.

  • Se consistente . Puede perder algunos lectores si enumera un valor como 123 en un punto y luego lo referencia como 120.

  • No seas ridícula . (Sospecho automáticamente la incompetencia cuando encuentro informes que dan resultados estadísticos a 15 sig figs cuando los datos tienen solo dos sig figs, por ejemplo).

whuber
fuente
2
Mi gran +1 porque realmente son muchos buenos consejos. En la misma línea, me gusta mostrar a los estudiantes que realmente no tiene sentido resumir los datos recopilados de las encuestas (o votos) como% con muchos decimales sin tener en cuenta el tamaño de la muestra (lo que afecta el error estándar).
chl
0

Sugeriría 12 (1.2, 123.4). Omita el .3 ya que casi no tiene sentido, pero muchas personas cuando lo vean (1.2, 120) supondrán que el último '0' en 120 es significativo.

AVB
fuente
¿Por qué sugiere omitir un decimal para la estadística de interés si acepta mostrarlos en los IC (es decir, si no tiene sentido para 12, ¿por qué tiene sentido para 123.4)?
chl
@chl: no tiene mucho sentido, pero omitirlo puede ser engañoso. Si pongo 123.4, alguien como usted verá los dígitos adicionales y simplemente los ignorará, sin causar daño. Si pongo 120, muchos lectores pensarán que esto tiene una precisión de 3 dígitos, malo.
AVB
todavía no está claro por qué recomienda 123.4 en lugar de 123 (¿por qué omitir .3 pero no .4 en el ejemplo?)
David LeBauer