Excel como banco de trabajo de estadísticas

52

Parece que a mucha gente (incluido yo) le gusta hacer análisis de datos exploratorios en Excel. Algunas limitaciones, como la cantidad de filas permitidas en una hoja de cálculo, son difíciles, pero en la mayoría de los casos no hacen que sea imposible usar Excel para jugar con los datos.

Sin embargo, un artículo de McCullough y Heiser prácticamente grita que obtendrá resultados incorrectos, y probablemente también se quemarán en el infierno, si intenta usar Excel.

¿Es correcto este documento o está sesgado? Los autores parecen odiar a Microsoft.

Carlos Accioly
fuente
55
Un análisis reciente de la precisión del software de hoja de cálculo para cálculos estadísticos aparece en [Kellie B. Keeling y Robert J. Pavur (2011): Precisión estadística del software de hoja de cálculo, The American Statistician, 65: 4, 265-273] (actualmente una descarga gratuita en amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Los resultados son mixtos y quizás un poco sorprendentes. Es notable la gran mejora en los cálculos de distribución entre Excel 2007 y Excel 2010 (que parece ser más preciso que Ro SAS).
whuber

Respuestas:

45

Use la herramienta adecuada para el trabajo correcto y explote las fortalezas de las herramientas con las que está familiarizado.

En el caso de Excel hay algunos problemas importantes:

  • No use una hoja de cálculo para administrar los datos, incluso si sus datos encajan en uno. Solo estás pidiendo problemas, problemas terribles. Prácticamente no hay protección contra errores tipográficos, mezcla de datos al por mayor, truncamiento de valores de datos, etc., etc.

  • Muchas de las funciones estadísticas de hecho están rotas. La distribución t es una de ellas.

  • Los gráficos predeterminados son horribles.

  • Le faltan algunos gráficos estadísticos fundamentales, especialmente diagramas de caja e histogramas.

  • El generador de números aleatorios es una broma (pero a pesar de eso sigue siendo efectivo para fines educativos).

  • Evite las funciones de alto nivel y la mayoría de los complementos; son c ** p. Pero esto es solo un principio general de la informática segura: si no está seguro de lo que está haciendo una función, no la use. Apéguese a los de bajo nivel (que incluyen funciones aritméticas, clasificación, exp, ln, funciones trigonométricas y, dentro de los límites, las funciones de distribución normales). Nunca use un complemento que produzca un gráfico: será terrible. (Nota: es muy fácil crear sus propias gráficas de probabilidad desde cero. Serán correctas y altamente personalizables).

A su favor, sin embargo, son los siguientes:

  • Sus cálculos numéricos básicos son tan precisos como pueden ser los flotadores de doble precisión. Incluyen algunos útiles, como log gamma.

  • Es bastante fácil ajustar un control alrededor de los cuadros de entrada en una hoja de cálculo, lo que permite crear simulaciones dinámicas fácilmente.

  • Si necesita compartir un cálculo con personas no estadísticas, la mayoría se sentirá cómodo con una hoja de cálculo y ninguna con el software estadístico, no importa cuán barato pueda ser.

  • Es fácil escribir macros numéricas efectivas, incluido el puerto de código Fortran antiguo, que está bastante cerca de VBA. Además, la ejecución de VBA es razonablemente rápida. (Por ejemplo, tengo un código que calcula con precisión las distribuciones t no centrales desde cero y tres implementaciones diferentes de transformadas rápidas de Fourier).

  • Admite simulación efectiva y complementos de Monte-Carlo como Crystal Ball y @Risk. (Por cierto, usan sus propios RNG, lo comprobé).

  • La inmediatez de interactuar directamente con (un pequeño conjunto de datos) no tiene paralelo: es mejor que cualquier paquete de estadísticas, Mathematica, etc. Cuando se usa como una calculadora gigante con un montón de almacenamiento, una hoja de cálculo realmente tiene su propio valor.

  • Un buen EDA, utilizando métodos robustos y resistentes, no es fácil, pero después de haberlo hecho una vez, puede configurarlo nuevamente rápidamente. Con Excel, puede reproducir de manera efectiva todos los cálculos (aunque solo algunos de los gráficos) en el libro EDA de Tukey, incluido el pulido medio de las tablas n-way (aunque es un poco engorroso).

En respuesta directa a la pregunta original, hay un sesgo en ese documento: se centra en el material en el que Excel es más débil y que un estadístico competente es menos probable que use. Sin embargo, eso no es una crítica del periódico, porque se deben transmitir advertencias como esta.

whuber
fuente
77
@whuber ¡Una descripción agradable y práctica de los pros y los contras!
chl
44
+1 agradable y equilibrado. Me gusta especialmente el punto sobre "la inmediatez de interactuar directamente", que creo que es el mayor punto de venta de Excel (o realmente, la hoja de cálculo). Programación declarativa para las masas, lo que explica por qué algunas personas piensan que el 80% de la lógica de negocios del mundo está escrita en Excel (vale la pena señalar a los programadores y estadísticos que discuten sobre R v SAS o Java v C ++, etc.).
ars
2
Escuché que Microsoft contrató a algunos analistas numéricos hace varios años para arreglar las funciones rotas en Excel. ¿Sabes si los problemas con Excel aún existen en las versiones 2007 o 2010?
John D. Cook,
2
@Zach Por ejemplo, usando Excel 2002, calcule =TINV(2*p,df)valores de p que varían desde .01 hasta casi 0 y compárelos con los valores correctos. (Verifiqué con df que oscilaba entre 2 y 32). Los errores comienzan en la sexta cifra significativa y luego explotan una vez que p está alrededor de 1.E-5 o menos. Aunque estos valores de p son pequeños, son valores realistas para probar porque son cruciales para las pruebas de comparaciones múltiples y para calcular valores relacionados con la distribución t, como la t no central.
whuber
2
Creo que tu primera viñeta debe tener estrellas y flechas que lo llamen. Las hojas de cálculo no proporcionan pistas de auditoría, lo cual es crítico si tiene la intención de hacer un trabajo en el que alguien realmente confía. R, por el contrario, no proporciona directamente un seguimiento de auditoría, pero dado que acepta comandos y puede guardar los comandos para importar, preprocesar, procesar, graficar, etc., en un archivo separado puede tener un seguimiento de lo que hizo obtenga el Gráfico # 1, y puede recrearlo desde cero, en caso de que de repente tenga motivos para cuestionarlo.
Wayne
18

Un artículo interesante sobre el uso de Excel en una configuración de Bioinformática es:

Identificadores erróneos: los errores de nombres de genes pueden introducirse inadvertidamente cuando se usa Excel en bioinformática, BMC Bioinformatics, 2004 ( enlace ).

Este breve documento describe el problema de las conversiones automáticas de tipos en Excel (en particular las conversiones de fecha y coma flotante). Por ejemplo, el nombre del gen Sept2 se convierte en 2-Sept. De hecho, puede encontrar este error en las bases de datos en línea .

Usar Excel para administrar cantidades de datos medianas a grandes es peligroso. Los errores pueden aparecer fácilmente sin que el usuario lo note.

csgillespie
fuente
66
Este es, de lejos, el aspecto de Excel que más me enfurece. El almacenamiento de datos necesita tipos de datos explícitos, no formateo.
Matt Parker, el
3
En realidad, esto es algo sobre el software de MS en general que me molesta: cambia su entrada a lo que cree que realmente quiso decir, y por lo general ni siquiera lo ve suceder.
Carlos Accioly
@csgillespie (+1) ¡Es bueno saber de Excel desde esta perspectiva!
chl
66
Mi error favorito ocurrió cuando Excel solía truncar silenciosamente los campos durante la exportación a otros formatos. ¡En un archivo de concentraciones de pesticidas en el suelo, convirtió un valor de 1,000,050 (extraordinariamente tóxico) a 50 (casi sin importancia) al recortar el dígito inicial!
whuber
@Matt solo es irritante si está "almacenando" datos en Excel. Es una gran característica cuando se usa Excel simplemente como front-end para la creación de informes y gráficos.
Tipo anónimo
11

Bueno, la pregunta de si el documento es correcto o sesgado debería ser fácil: simplemente podría replicar algunos de sus análisis y ver si obtiene las mismas respuestas.

McCullough ha estado desarmando diferentes versiones de MS Excel durante algunos años, y aparentemente MS no ha considerado adecuado corregir los errores que señaló hace años en versiones anteriores.

No veo un problema con jugar con datos en Excel. Pero para ser honesto, no haría mis análisis "serios" en Excel. Mi principal problema no serían las inexactitudes (lo cual supongo que muy rara vez será un problema), sino la imposibilidad de rastrear y replicar mis análisis un año después, cuando un revisor o mi jefe me pregunta por qué no hice X: puedes guardar tu trabajo y sus callejones sin salida en el código R comentado, pero no de manera significativa en Excel.

S. Kolassa - Restablece a Monica
fuente
2
(+1) ¡Está haciendo eco de la discusión en Medstats sobre la necesidad de mantener un registro de edición y análisis de datos ( j.mp/dAyGGY )! Gracias.
chl
Guardar su "trabajo y callejones sin salida" no es más difícil de hacer con Excel que con R. Es solo cuestión de hacerlo. El principal problema con Excel está relacionado con su fortaleza: es demasiado fácil cambiar algo sin darse cuenta. Pero para EDA, el enfoque del OP, raramente, si alguna vez, guardamos todo lo que hacemos. EDA, después de todo, se supone que es interactivo.
whuber
1
es posible mantener un registro reproducible de sus métodos si lo hace en VB, pero el enfoque GUI de Excel no fomenta ese comportamiento.
James
7

Incidentalmente, una pregunta sobre el uso de las hojas de cálculo de Google generó opiniones contrastantes (por lo tanto, interesantes) al respecto. ¿Algunos de ustedes usan la hoja de cálculo de Google Docs para realizar y compartir su trabajo estadístico con otros?

Tengo en mente un artículo anterior que no parecía tan pesimista, pero solo se cita marginalmente en el documento que mencionó: Keeling y Pavur, un estudio comparativo de la confiabilidad de nueve paquetes de software estadístico (CSDA 2007 51: 3811). Pero ahora, encontré el tuyo en mi disco duro. También hubo un problema especial en 2008, consulte la sección Especial en Microsoft Excel 2007 , y más recientemente en el Journal of Statistical Software: On the Numerical Accuracy of Spreadsheets .

Creo que es un debate de larga data, y encontrará diversos artículos / opiniones sobre la confiabilidad de Excel para la computación estadística. Creo que hay diferentes niveles de discusión (qué tipo de análisis planea hacer, confía en el solucionador interno, ¿hay términos no lineales que ingresan a un modelo dado, etc.) y pueden surgir fuentes de imprecisión numérica? como resultado de errores informáticos adecuados o problemas de elección de diseño ; esto está bien resumido en

M. Altman, J. Gill y MP McDonald, Problemas numéricos en informática estadística para el científico social , Wiley, 2004.

Ahora, para el análisis exploratorio de datos, hay varias alternativas que brindan capacidades mejoradas de visualización, gráficos multivariados y dinámicos, por ejemplo, GGobi , pero vea hilos relacionados en este wiki.

Pero, claramente, el primer punto que hizo aborda otro problema (IMO), a saber, el uso de una hoja de cálculo para manejar un conjunto de datos de gran tamaño: simplemente no es posible importar un gran archivo csv a Excel (estoy pensando en datos genómicos, pero se aplica a otro tipo de datos de alta dimensión). No ha sido construido para ese propósito.

chl
fuente
Me gusta el matiz sobre "diferentes niveles de discusión".
whuber
7

Los documentos y otros participantes señalan debilidades técnicas. Whuber hace un buen trabajo al describir al menos algunas de sus fortalezas. Personalmente, realizo un extenso trabajo estadístico en Excel (prueba de hipótesis, regresiones lineales y múltiples) y me encanta. Utilizo Excel 2003 con una capacidad de 256 columnas y 65,000 filas que pueden manejar casi el 100% de los conjuntos de datos que uso. Entiendo que Excel 2007 ha ampliado esa capacidad en una gran cantidad (filas en millones).

Como menciona Whuber, Excel también sirve como plataforma de inicio para una multitud de software de complementos bastante sobresalientes que son bastante potentes y fáciles de usar. Estoy pensando en Crystal Ball y @Risk para Monte Carlo Simulation; XLStat para poderosas estadísticas y análisis de datos; Lo mejor para la optimización. Y la lista continúa. Es como si Excel fuera el equivalente de un iPod o iPad con un millón de aplicaciones bastante increíbles. Por supuesto, las aplicaciones de Excel no son baratas. Pero, por lo que son capaces de hacer, suelen ser muy buenos negocios.

En lo que respecta a la documentación del modelo, es muy fácil insertar un cuadro de texto donde literalmente puede escribir un libro sobre su metodología, sus fuentes, etc. También puede insertar comentarios en cualquier celda. Entonces, si algo Excel es realmente bueno para facilitar la documentación incrustada.

Sympa
fuente
1
Gracias por los puntos adicionales y por compartir tu perspectiva.
whuber
grandes puntos, es bueno escuchar a alguien usarlo de la manera correcta y beneficiarse.
Tipo anónimo
6

Excel no es bueno para las estadísticas, pero puede ser maravilloso para el análisis exploratorio de datos. Eche un vistazo a este video para conocer algunas técnicas particularmente interesantes. La capacidad de Excel de colorear condicionalmente sus datos y agregar gráficos de barras en la celda puede brindar una gran visión de la estructura de sus datos sin procesar.

Zach
fuente
6

Otra buena fuente de referencia de por qué es posible que no desee utilizar Excel es:

Adicción a la hoja de cálculo

Si se encuentra en una situación en la que realmente necesita usar Excel (insisten algunos departamentos académicos), le sugiero que use el complemento Rexcel . Esto le permite interactuar con Excel, pero usa el programa R como motor computacional. No necesita saber R para usarlo, puede usar menús desplegables y cuadros de diálogo, pero puede hacer mucho más si lo hace. Dado que R está haciendo los cálculos, son mucho más confiables que Excel y tiene gráficos y diagramas de caja mucho mejores y otros gráficos que faltan en Excel. Incluso funciona con la actualización automática de celdas en Excel (aunque eso puede hacer que las cosas sean realmente lentas si tiene muchos análisis complejos para recalcular cada vez). No soluciona todos los problemas de la página de adicción a la hoja de cálculo, pero es una gran mejora sobre el uso de Excel directo.

Greg Snow
fuente
1

Excel puede ser excelente tanto para el análisis exploratorio de datos como para el análisis de regresión lineal con los complementos correctos. Hay una serie de productos comerciales, aunque la mayoría de ellos dejan algo que desear en términos de la calidad de la producción que producen (no aprovechan al máximo las opciones de gráficos de Excel o la capacidad de vincularse con otras aplicaciones de Office) y en general no son tan buenos como podrían ser para la visualización y presentación de datos. También tienden a no admitir un enfoque de modelado disciplinado en el que (entre otras cosas) mantenga un registro de auditoría bien documentado para su trabajo. Aquí hay un complemento GRATUITO, "RegressIt", que aborda muchos de estos problemas: http://regressit.com. Proporciona muy buen soporte para el análisis exploratorio (incluida la capacidad de generar diagramas de series de tiempo paralelas y matrices de diagramas de dispersión con hasta 50 variables), facilita la aplicación de transformaciones de datos como retraso, registro y diferenciación (que a menudo no se aplican apropiadamente por usuarios ingenuos de regresión), proporciona resultados muy detallados de tablas y gráficos que respaldan las mejores prácticas de análisis de datos, y mantiene una hoja de trabajo de seguimiento de auditoría que facilita las comparaciones de modelos lado a lado y mantiene un registro de qué modelos fueron instalados en qué orden. Es un buen complemento para cualquier otra cosa que pueda estar usando, si se trata de datos multivariados y al menos parte de su trabajo se lleva a cabo en un entorno Excel.

Bob Nau
fuente