Parece que a mucha gente (incluido yo) le gusta hacer análisis de datos exploratorios en Excel. Algunas limitaciones, como la cantidad de filas permitidas en una hoja de cálculo, son difíciles, pero en la mayoría de los casos no hacen que sea imposible usar Excel para jugar con los datos.
Sin embargo, un artículo de McCullough y Heiser prácticamente grita que obtendrá resultados incorrectos, y probablemente también se quemarán en el infierno, si intenta usar Excel.
¿Es correcto este documento o está sesgado? Los autores parecen odiar a Microsoft.
software
computational-statistics
excel
Carlos Accioly
fuente
fuente
R
o SAS).Respuestas:
Use la herramienta adecuada para el trabajo correcto y explote las fortalezas de las herramientas con las que está familiarizado.
En el caso de Excel hay algunos problemas importantes:
No use una hoja de cálculo para administrar los datos, incluso si sus datos encajan en uno. Solo estás pidiendo problemas, problemas terribles. Prácticamente no hay protección contra errores tipográficos, mezcla de datos al por mayor, truncamiento de valores de datos, etc., etc.
Muchas de las funciones estadísticas de hecho están rotas. La distribución t es una de ellas.
Los gráficos predeterminados son horribles.
Le faltan algunos gráficos estadísticos fundamentales, especialmente diagramas de caja e histogramas.
El generador de números aleatorios es una broma (pero a pesar de eso sigue siendo efectivo para fines educativos).
Evite las funciones de alto nivel y la mayoría de los complementos; son c ** p. Pero esto es solo un principio general de la informática segura: si no está seguro de lo que está haciendo una función, no la use. Apéguese a los de bajo nivel (que incluyen funciones aritméticas, clasificación, exp, ln, funciones trigonométricas y, dentro de los límites, las funciones de distribución normales). Nunca use un complemento que produzca un gráfico: será terrible. (Nota: es muy fácil crear sus propias gráficas de probabilidad desde cero. Serán correctas y altamente personalizables).
A su favor, sin embargo, son los siguientes:
Sus cálculos numéricos básicos son tan precisos como pueden ser los flotadores de doble precisión. Incluyen algunos útiles, como log gamma.
Es bastante fácil ajustar un control alrededor de los cuadros de entrada en una hoja de cálculo, lo que permite crear simulaciones dinámicas fácilmente.
Si necesita compartir un cálculo con personas no estadísticas, la mayoría se sentirá cómodo con una hoja de cálculo y ninguna con el software estadístico, no importa cuán barato pueda ser.
Es fácil escribir macros numéricas efectivas, incluido el puerto de código Fortran antiguo, que está bastante cerca de VBA. Además, la ejecución de VBA es razonablemente rápida. (Por ejemplo, tengo un código que calcula con precisión las distribuciones t no centrales desde cero y tres implementaciones diferentes de transformadas rápidas de Fourier).
Admite simulación efectiva y complementos de Monte-Carlo como Crystal Ball y @Risk. (Por cierto, usan sus propios RNG, lo comprobé).
La inmediatez de interactuar directamente con (un pequeño conjunto de datos) no tiene paralelo: es mejor que cualquier paquete de estadísticas, Mathematica, etc. Cuando se usa como una calculadora gigante con un montón de almacenamiento, una hoja de cálculo realmente tiene su propio valor.
Un buen EDA, utilizando métodos robustos y resistentes, no es fácil, pero después de haberlo hecho una vez, puede configurarlo nuevamente rápidamente. Con Excel, puede reproducir de manera efectiva todos los cálculos (aunque solo algunos de los gráficos) en el libro EDA de Tukey, incluido el pulido medio de las tablas n-way (aunque es un poco engorroso).
En respuesta directa a la pregunta original, hay un sesgo en ese documento: se centra en el material en el que Excel es más débil y que un estadístico competente es menos probable que use. Sin embargo, eso no es una crítica del periódico, porque se deben transmitir advertencias como esta.
fuente
=TINV(2*p,df)
valores de p que varían desde .01 hasta casi 0 y compárelos con los valores correctos. (Verifiqué con df que oscilaba entre 2 y 32). Los errores comienzan en la sexta cifra significativa y luego explotan una vez que p está alrededor de 1.E-5 o menos. Aunque estos valores de p son pequeños, son valores realistas para probar porque son cruciales para las pruebas de comparaciones múltiples y para calcular valores relacionados con la distribución t, como la t no central.Un artículo interesante sobre el uso de Excel en una configuración de Bioinformática es:
Este breve documento describe el problema de las conversiones automáticas de tipos en Excel (en particular las conversiones de fecha y coma flotante). Por ejemplo, el nombre del gen Sept2 se convierte en 2-Sept. De hecho, puede encontrar este error en las bases de datos en línea .
Usar Excel para administrar cantidades de datos medianas a grandes es peligroso. Los errores pueden aparecer fácilmente sin que el usuario lo note.
fuente
Bueno, la pregunta de si el documento es correcto o sesgado debería ser fácil: simplemente podría replicar algunos de sus análisis y ver si obtiene las mismas respuestas.
McCullough ha estado desarmando diferentes versiones de MS Excel durante algunos años, y aparentemente MS no ha considerado adecuado corregir los errores que señaló hace años en versiones anteriores.
No veo un problema con jugar con datos en Excel. Pero para ser honesto, no haría mis análisis "serios" en Excel. Mi principal problema no serían las inexactitudes (lo cual supongo que muy rara vez será un problema), sino la imposibilidad de rastrear y replicar mis análisis un año después, cuando un revisor o mi jefe me pregunta por qué no hice X: puedes guardar tu trabajo y sus callejones sin salida en el código R comentado, pero no de manera significativa en Excel.
fuente
Incidentalmente, una pregunta sobre el uso de las hojas de cálculo de Google generó opiniones contrastantes (por lo tanto, interesantes) al respecto. ¿Algunos de ustedes usan la hoja de cálculo de Google Docs para realizar y compartir su trabajo estadístico con otros?
Tengo en mente un artículo anterior que no parecía tan pesimista, pero solo se cita marginalmente en el documento que mencionó: Keeling y Pavur, un estudio comparativo de la confiabilidad de nueve paquetes de software estadístico (CSDA 2007 51: 3811). Pero ahora, encontré el tuyo en mi disco duro. También hubo un problema especial en 2008, consulte la sección Especial en Microsoft Excel 2007 , y más recientemente en el Journal of Statistical Software: On the Numerical Accuracy of Spreadsheets .
Creo que es un debate de larga data, y encontrará diversos artículos / opiniones sobre la confiabilidad de Excel para la computación estadística. Creo que hay diferentes niveles de discusión (qué tipo de análisis planea hacer, confía en el solucionador interno, ¿hay términos no lineales que ingresan a un modelo dado, etc.) y pueden surgir fuentes de imprecisión numérica? como resultado de errores informáticos adecuados o problemas de elección de diseño ; esto está bien resumido en
Ahora, para el análisis exploratorio de datos, hay varias alternativas que brindan capacidades mejoradas de visualización, gráficos multivariados y dinámicos, por ejemplo, GGobi , pero vea hilos relacionados en este wiki.
Pero, claramente, el primer punto que hizo aborda otro problema (IMO), a saber, el uso de una hoja de cálculo para manejar un conjunto de datos de gran tamaño: simplemente no es posible importar un gran archivo csv a Excel (estoy pensando en datos genómicos, pero se aplica a otro tipo de datos de alta dimensión). No ha sido construido para ese propósito.
fuente
Los documentos y otros participantes señalan debilidades técnicas. Whuber hace un buen trabajo al describir al menos algunas de sus fortalezas. Personalmente, realizo un extenso trabajo estadístico en Excel (prueba de hipótesis, regresiones lineales y múltiples) y me encanta. Utilizo Excel 2003 con una capacidad de 256 columnas y 65,000 filas que pueden manejar casi el 100% de los conjuntos de datos que uso. Entiendo que Excel 2007 ha ampliado esa capacidad en una gran cantidad (filas en millones).
Como menciona Whuber, Excel también sirve como plataforma de inicio para una multitud de software de complementos bastante sobresalientes que son bastante potentes y fáciles de usar. Estoy pensando en Crystal Ball y @Risk para Monte Carlo Simulation; XLStat para poderosas estadísticas y análisis de datos; Lo mejor para la optimización. Y la lista continúa. Es como si Excel fuera el equivalente de un iPod o iPad con un millón de aplicaciones bastante increíbles. Por supuesto, las aplicaciones de Excel no son baratas. Pero, por lo que son capaces de hacer, suelen ser muy buenos negocios.
En lo que respecta a la documentación del modelo, es muy fácil insertar un cuadro de texto donde literalmente puede escribir un libro sobre su metodología, sus fuentes, etc. También puede insertar comentarios en cualquier celda. Entonces, si algo Excel es realmente bueno para facilitar la documentación incrustada.
fuente
Excel no es bueno para las estadísticas, pero puede ser maravilloso para el análisis exploratorio de datos. Eche un vistazo a este video para conocer algunas técnicas particularmente interesantes. La capacidad de Excel de colorear condicionalmente sus datos y agregar gráficos de barras en la celda puede brindar una gran visión de la estructura de sus datos sin procesar.
fuente
Otra buena fuente de referencia de por qué es posible que no desee utilizar Excel es:
Adicción a la hoja de cálculo
Si se encuentra en una situación en la que realmente necesita usar Excel (insisten algunos departamentos académicos), le sugiero que use el complemento Rexcel . Esto le permite interactuar con Excel, pero usa el programa R como motor computacional. No necesita saber R para usarlo, puede usar menús desplegables y cuadros de diálogo, pero puede hacer mucho más si lo hace. Dado que R está haciendo los cálculos, son mucho más confiables que Excel y tiene gráficos y diagramas de caja mucho mejores y otros gráficos que faltan en Excel. Incluso funciona con la actualización automática de celdas en Excel (aunque eso puede hacer que las cosas sean realmente lentas si tiene muchos análisis complejos para recalcular cada vez). No soluciona todos los problemas de la página de adicción a la hoja de cálculo, pero es una gran mejora sobre el uso de Excel directo.
fuente
Excel puede ser excelente tanto para el análisis exploratorio de datos como para el análisis de regresión lineal con los complementos correctos. Hay una serie de productos comerciales, aunque la mayoría de ellos dejan algo que desear en términos de la calidad de la producción que producen (no aprovechan al máximo las opciones de gráficos de Excel o la capacidad de vincularse con otras aplicaciones de Office) y en general no son tan buenos como podrían ser para la visualización y presentación de datos. También tienden a no admitir un enfoque de modelado disciplinado en el que (entre otras cosas) mantenga un registro de auditoría bien documentado para su trabajo. Aquí hay un complemento GRATUITO, "RegressIt", que aborda muchos de estos problemas: http://regressit.com. Proporciona muy buen soporte para el análisis exploratorio (incluida la capacidad de generar diagramas de series de tiempo paralelas y matrices de diagramas de dispersión con hasta 50 variables), facilita la aplicación de transformaciones de datos como retraso, registro y diferenciación (que a menudo no se aplican apropiadamente por usuarios ingenuos de regresión), proporciona resultados muy detallados de tablas y gráficos que respaldan las mejores prácticas de análisis de datos, y mantiene una hoja de trabajo de seguimiento de auditoría que facilita las comparaciones de modelos lado a lado y mantiene un registro de qué modelos fueron instalados en qué orden. Es un buen complemento para cualquier otra cosa que pueda estar usando, si se trata de datos multivariados y al menos parte de su trabajo se lleva a cabo en un entorno Excel.
fuente