R vs SAS, ¿por qué las empresas privadas prefieren SAS?

143

Aprendí R pero parece que las empresas están mucho más interesadas en la experiencia SAS. ¿Cuáles son las ventajas de SAS sobre R?

Benoit_Plante
fuente
17
Es trágico, pero cierto, me temo ...
Gung
19
Un estadístico médico me dijo una vez que usan SAS porque si cometen errores debido a errores de software y se trata de demandas, SAS los recompensará. R viene sin garantía.
Momo
42
@Momo R viene sin garantía, es cierto, pero me gustaría ver una referencia de que SAS tiene esa fuerte. No pude encontrar el texto de la licencia SAS en su sitio web, pero pude encontrar algo para un componente: support.sas.com/documentation/onlinedoc/sasc/doc650/common/… Eso tiene una garantía de 90 días en los medios que el el software se envía con un descargo de responsabilidad de cualquier otra garantía. Por favor, da una referencia que no sea "alguien me dijo una vez".
Brian Diggs el
13
Fue solo una anécdota, me gusta el cinismo pragmático del comentario. Pero me alegro de que hayas comprobado, nunca me importó.
Momo
36
SAS viene con la misma garantía que R: ninguna.
Frank Harrell

Respuestas:

139

Creo que hay varios problemas (en orden ascendente de posible validez):

  1. Tradición / hábito : las personas están acostumbradas a SAS y no quieren tener que aprender algo nuevo. (Para hacerlo más difícil, la forma en que piensa en SAS y R es diferente). Esto puede aplicarse a cualquier persona que deba enviarle un código o leer / usar su código, incluidos los gerentes y colegas.
  2. Desconfianza del software gratuito : varias personas dicen que no están dispuestas a aceptar los resultados de R porque no tienes una empresa con fines de lucro que verifique el código para garantizar que dé los resultados correctos antes de que salga a los clientes, para que no terminar perdiendo negocios.
  3. Big data : R realiza operaciones con todo en la memoria, mientras que SAS no necesariamente. Por lo tanto, si sus datos se acercan a los límites de su memoria, habrá problemas.

Personalmente, solo creo que el n. ° 3 tiene algún mérito legítimo, aunque existen enfoques para el big data que se han desarrollado con R. Los problemas con el n. ° 1 hablan por sí mismos. Creo que el n. ° 2 ignora varios hechos: hay algunas investigaciones que continúan con R, muchos de los paquetes principales están escritos por algunos de los nombres más importantes en estadística, y se han realizado estudios que comparan la precisión de diferentes programas estadísticos y R Ciertamente ha sido competitivo.

gung
fuente
41
El punto 1 gana más legitimidad si también incluye "infraestructura existente" bajo ese banner de inercia. Si hay procesos comerciales existentes que ya usan SAS, entonces hay un costo de transición con el cambio. Si este es el caso, no es elegir entre SAS y R, sino elegir entre quedarse con SAS y cambiar a R, lo que puede tener una conclusión diferente.
Brian Diggs el
25
El punto del punto 2 es que, si bien ALGUNOS paquetes R están escritos por expertos, otros no. ¿Quién los avala? ¿Quién los prueba? (Sé que se prueban que CORREN, pero ¿quién prueba que funcionan correctamente?) Lo sé, puede ver el código, pero eso presupone el tiempo y la capacidad de revisar el código de otra persona y verificarlo, a menudo para métodos que Son muy complejas.
Peter Flom
18
@PeterFlom, planteas un punto razonable. A medida que los paquetes se vuelven más esotéricos, hay menos garantía de lo que hay con lo básico. ¿Pero qué tan lejos tienes que ir? Incluso SEM, que está bastante avanzado, fue escrito en R por John Fox. Además, StasK hace un buen punto sobre la realidad de la verificación de software estadístico en la práctica. Finalmente, R es mucho más completo que cualquier otra cosa, por lo que cuando desea hacer cosas esotéricas con otro software, tiene que codificarlo usted mismo. ¿Quién garantiza la precisión de ese código?
Gung
33
¿Quién examina exactamente el código SAS, Stata, SPSS? ¿Hay alguna manera de saber si los resultados que proporcionan, por los métodos que dicen que están usando, se implementan correctamente? Sé por seguir, por ejemplo, la lme4lista de correo que las comparaciones con SAS aparecen con bastante frecuencia. Pero es imposible saber si incluso deberíamos hacer tales comparaciones. Sin acceso a la fuente, tenemos que tomar en cuenta a esas compañías que los resultados producidos por su software son realmente válidos. Francamente, prefiero tener la capacidad de revisar el código de software que uso.
Jason Morgan
28
Es cierto, pero es difícil penalizar a un sistema informático estadístico por su exhaustividad. O para decirlo de otra manera, la forma en que R hace algo es mejor que la forma en que otro sistema no lo hace.
Frank Harrell
105

Además de las buenas respuestas hasta ahora, agregaría el factor de vergüenza. Si gastó cientos de miles de dólares el año pasado en soporte SAS y SAS, y propone no gastar nada en R, con precios de soporte extremadamente bajos (Revolution, etc.), alguien de la cadena va a preguntar por qué. ¿Fue un error gastar tanto dinero el año pasado cuando R existió el año pasado? ¿O es un error dejar el software profesional para algo creado por un grupo de voluntarios?

Una vez que el problema se enmarca de esa manera, es una propuesta de perder-perder, por lo que quizás sea mejor no mencionarlo.

Wayne
fuente
47
Esta es quizás la respuesta más cínica en validación cruzada. +1
probabilistico
11
@probabilityislogic: ¡Gracias! Para ser claros, se trata más de un comentario sobre una gestión deficiente de alto nivel que sobre las personas que usan el software. He trabajado en lugares donde realmente existía la actitud (en los niveles más altos), "Hmmm ... no gastaste todo el dinero que te presupuestamos este año. Obviamente puedes sobrevivir con menos dinero, así que nosotros está recortando su presupuesto para el próximo año y dando el extra al departamento que gastó en exceso ". Reglas de Dilbert.
Wayne
11
"No gastaste el dinero ...", así es exactamente como solía funcionar el sistema de planificación soviético, que yo sepa.
StasK
55
Alguien de la cadena necesita que se le explique que por una fracción del costo de una licencia SAS, puede instalar R Studio Server en una máquina virtual AWS con 16 núcleos y 256 GB de RAM, en manos de 2 buenos programadores de R, eso es más poderoso que cualquier cosa que SAS pueda hacer. ¡Piense cuán rápido pueden emparejarse millones de registros difusos entre sí! O para el caso, incluso el código abierto PostgreSQL con Python + PERL logrará a una fracción del costo.
vagabundo
1
"¿O es un error abandonar el software profesional por algo creado por un grupo de voluntarios?" Esta es una falsa dicotomía!
kjetil b halvorsen
54

Además de lo que Gung ha identificado correctamente aquí, el mayor problema en el mundo corporativo es el legado. Y cuando tiene un código de producción de buena calidad que se sabe que hace el trabajo, no lo cambia. SAS estuvo en el mercado desde la década de 1970, y en ese momento era el único lenguaje estadístico efectivo de scripting para los estándares. La cantidad de código de producción acumulada desde entonces en SAS en farmacéutica y gobierno es inimaginable, decenas de miles de años humanos. Reescribir esto en R o Stata llevaría algunos años, el código resultante se volverá más flexible, más eficiente, más transparente, más fácil y más barato de mantener, pero nadie pagará por dicha refactorización. (Mi experiencia al hacer esto es que mi código Stata es generalmente tres veces más corto; una vez tuve un proyecto que convertía el código SPSS en Stata donde lo hice unas 20 veces más corto.

En cierto sentido, esta es una historia similar con los editores académicos: están manejando una marea de usuarios finales que mantienen sus suscripciones por necesidad; Una universidad sin suscripción a la naturaleza no es realmente una universidad. La publicación gratuita a través de sociedades profesionales lo hará más barato, la gente prepara sus presentaciones en LaTeX en estos días, por lo que están listos para la cámara, y las mismas personas proporcionarán la revisión por pares, por lo que no habrá un retroceso de calidad en ninguna de las dimensiones. Pero ... no hay una marca y el factor de impacto detrás de las revistas en línea.

Esto lo resume todo: http://scatter.wordpress.com/2011/06/28/stata-12/ . Stata es preferida en los círculos relacionados con la economía y las políticas, y cuanto más aprendo SAS, más me gusta Stata.

StasK
fuente
38
SAS tiene una sintaxis horrible que comenzó con algo similar a JCL (lenguaje de control de trabajos de IBM) para enviar trabajos por lotes de tarjetas perforadas en el día. Es notable que la gente todavía lo esté usando, de verdad.
Wayne
66
+1 Disfruté especialmente el BlackBerry: iOS: Android: Nokia como SAS: Stata: R: SPSS analogía en la publicación del diagrama de dispersión.
jthetzel
66
Wayne, si alguna vez has pensado en la declaración de CARDS, te das cuenta de que SAS es el paquete de software estadístico para trabajar con tarjetas perforadas. Stata funciona con conjuntos de datos rectangulares. R trabaja con objetos. Entonces, dependiendo del tipo de formato de datos con el que tenga que lidiar, uno puede ser mejor que otros.
StasK
3
Un gran punto en el legado es cosas como la aprobación de la FDA o regulaciones similares. La industria con la que he hablado no tocará nada (TM) después de pasar por eso para asegurarse de que no tengan que pasar por todo el proceso nuevamente. Y ese es un gran argumento en términos de dinero.
cbeleites
48

He trabajado de manera efectiva como programador de SAS durante los últimos siete años, junto a mí un compañero de trabajo ha estado programando SAS más tiempo de lo que he estado vivo. Como se señaló aquí, hay una gran cantidad de inercia / legado detrás de SAS; pero SAS al igual que R es un camino hacia un medio, no el medio en sí mismo.

SAS es extremadamente eficiente en el acceso secuencial a datos, y el acceso a la base de datos a través de SQL está extremadamente bien integrado. Los PROC están muy bien documentados, pero desafortunadamente no están completamente estandarizados con notación (PROC OPTMODEL e IML son dos ejemplos). Es un poco torpe cuando se trata de escribir código complicado, y no es tan elegante para el código paralelo. También he encontrado que la importación de archivos csv es una fuente de gran miseria a veces y prefiero simplemente volcarlo a R primero y luego a una base de datos.

Aunque SAS tiene interfaces para objetos compartidos y archivos DLL, no tiene un buen acceso a ningún archivo de encabezado ni nada por el estilo, y la distribución de código tampoco está disponible a través de paquetes felices.

Sin embargo, existe poca preocupación acerca de alguien que incluya algún paquete esotérico ahora obsoleto o roto en su código que ahora necesita mantener, y la calidad del código en SAS tiende a ser uniformemente excelente (el código central R también es excelente, y también libremente disponible para cualquier persona).

Como se mencionó anteriormente, SAS también es extremadamente costoso, pero es una buena herramienta a la que recurro cuando sé que hay un procedimiento fijo que funciona bien para mis necesidades.

R + SAS + mysql con un poco de perl para unirlos funciona increíblemente :)

Jonathan Lisic
fuente
11
El comentario sobre el mantenimiento de paquetes antiguos es igual de bueno para una macro escrita por el usuario o un proceso antiguo que sas no ha actualizado.
probabilistico
44
R también tiene muy buen soporte SQL obtenido recientemente a través de la dplyrbiblioteca: literalmente traduce la sintaxis R / dplyr en SQL y llama a la base de datos, puede decidir qué operaciones hacer en el servidor db y qué localmente usando la misma sintaxis: cran.r-project. org / web / packages / dplyr / vignettes / bases de datos.html
Tim
41

Así que uso tanto R como SAS, ciertamente en la academia, pero hay algunas razones por las que tiendo a dirigirme hacia SAS a veces:

  1. Mejor documentación R está mejorando en esto, pero la documentación, especialmente la documentación oficial, a menudo es algo terrible y opaca. Más allá de eso, SAS es compatible con una infraestructura masiva de libros: el uso R! La serie está ayudando a esto en R, pero aún no está allí. Puedo recurrir al análisis de supervivencia de Paul Allison usando SAS , o al análisis de datos categóricos usando SAS o el libro que tengo sobre los métodos de Monte Carlo usando SAS y tengo un libro claramente escrito en un estilo bastante consistente para el lenguaje que estoy usando.
  2. Inercia. Esto no es solo "las compañías son flojas", la inercia también tiene valor. Hay conocimiento institucional. Tal y tal tiene un código que hace eso, y lo hace bien.
  3. Paquetes Algunos paquetes en R son increíbles. Algunos paquetes no lo son. Tienes que ir a buscarlos, evaluarlos, y aun así hay algunos problemas de salto de fe en que el paquete es tan bueno como el que lo escribe. Es difícil confiar en eso. SAS tiene esencialmente la "plena fe y crédito del Instituto SAS", que tiene un historial bastante sólido.
  4. Soporte de fuente única. Si SAS está roto, llame a SAS. Si R está roto, ¿llamas ...?
Fomite
fuente
21
"Si R está roto, ¿llamas ...?" Brian Ripley :-) (+1 por esta respuesta bien argumentada)
chl
66
Con respecto a 4), creo que hay una confusión de conceptos. Si usa un programa y se rompe, generalmente tiene dos opciones. Puede pagar por el soporte, o puede buscar soporte gratuito disponible (comunidad en línea, literatura, usted mismo). R y SAS se pueden comparar como lenguajes de programación estadística. Ambos tienen soporte gratuito, que también se puede comparar. R y SAS no se pueden comparar como soluciones de soporte de pago ...
jthetzel
77
... SAS Institute proporciona soporte de pago para SAS. Empresas como Revolution Analytics y TIBCO (S +) brindan soporte de pago para R. Si desea comparar soluciones de soporte de pago para R y SAS, debe comparar SAS Institute con Revolution Analytics y TIBCO, no R. La confusión, creo, surge de la estrecha integración del lenguaje SAS con el SAS Institute y la no integración del lenguaje R con el soporte corporativo y la educación relacionados con R.
jthetzel
3
@jthetzel No creo que sea "confusión". SAS el lenguaje está estrechamente vinculado con SAS el servicio. Cualquier plataforma en la que trabaje SAS tiene soporte de SAS. Esto no es cierto para R: el soporte y el lenguaje están desacoplados, puede que no haya ayuda para usted dependiendo de la plataforma (intente hablar con Revolution en algún momento mientras no usa Windows o RHEL ...), y no necesariamente se harán responsables de Errores de RandomPackage, donde SAS admitirá PROC Arbitrary.
Fomite
2
@probabilityislogic Creo que está más allá de tener que evaluarlo para ver si es apropiado para su análisis. Sí, ambos podrían estar equivocados y ambos necesitan ser evaluados. Pero confío en el equipo de control de calidad de SAS más de lo que confío en mí, solo.
Fomite
39

Nadie ha sugerido que la razón por la que se prefiere es la simple idiotez. Aquí hay dos citas que encontré recientemente:

"El uso de software de código abierto como R estaba fuera de discusión; no podíamos garantizar un resultado perfectamente repetible"

y

"No podríamos proporcionar ningún soporte para esto, ya que es un software de código abierto"

Dos minutos con estas personas les mostrarían cuán equivocados están.

Hombre espacial
fuente
3
¿Dos minutos con qué personas? Sin referencias es casi como si acabaras de hacer esas citas.
David Heffernan el
44
la segunda cita parece estar bien del departamento de TI del consejo, no se puede esperar que admitan todo el software de código abierto posible que un cliente pueda usar, de ahí la advertencia general. Creo que lo peor contra la cotización de código abierto que he oído era de SAS diciendo soemthing como 'tendría que confiar en un jumbo diseñado en código abierto, un motor podría dejar'
PaulHurleyuk
55
@PaulHurleyuk: +1 La cita fue "Tenemos clientes que fabrican motores para aviones. Estoy feliz que no están usando software gratuito cuando me subo a un avión “. Por un director de marketing de SAS en este artículo del New York Times el R . El representante de SAS aclaró sus comentarios en una publicación de blog posterior .
jthetzel
44
@PaulHurleyuk: Del mismo modo, no se puede esperar que el consejo admita ningún software propietario que el cliente quiera usar. La apertura no es la razón. Si hubieran dicho que no podían soportar nada fuera de su conjunto de software compatible, entonces está bien.
Spacedman
55
En los dos casos que cito, bien podría haber una decisión racional, pero las razones dadas claramente no son esas razones. Una razón racional podría ser "ya admitimos SAS y no podemos darnos el lujo de admitir dos paquetes de estadísticas". Pero "No podemos respaldar esto porque es de código abierto" es un no-sequitur. Las dos partes pueden ser ciertas, pero la conclusión no sigue. Es como decir "Elizabeth es la reina porque el cielo es azul".
Spacedman
23

Un problema no parece haber sido abordado explícitamente: cubrirse el culo. Si va con SAS y las cosas explotan, el tomador de decisiones siempre puede decir que compró software de última generación, y ¿cómo iba a saber que se rompería? Si decidió ir con R, este argumento será más difícil de hacer. Sí, esto está relacionado con el argumento de inercia ya mencionado aquí.

Hace unas décadas, solían decir que "nunca se despidió a ningún chico por comprar IBM" , que se ha llamado la mejor frase de marketing de la historia.

Stephan Kolassa
fuente
2
Sin embargo, no estoy seguro de cómo R es menos avanzado que SAS (y con respecto a muchos procedimientos, tengo la impresión de que R es más avanzado que SAS). Supongo que muchos usuarios de SAS no saben sobre eso ...
Patrick Coulombe
21

Como usuario de SAS y R, diría que la razón más importante por la que usamos SAS sobre R (cuando lo hacemos) es su capacidad de procesamiento secuencial. Solo necesitamos máquinas con no más de 4 GB de RAM para procesar 15 años de datos. Necesitaría una máquina mucho más grande con el stock R y no he tratado de migrar el código SAS para ejecutarlo con Revolution R.

dmonder
fuente
8
+1, aunque vale la pena señalar que hay algunas formas de trabajar con conjuntos de datos más grandes que la memoria en R ( bigmemory , ff , fragmentación de datos de una base de datos, una amplia gama de opciones informáticas distribuidas). Pero todo eso requiere configuración; SAS, de hecho, solo atravesará todo lo que le arrojes, lo cual es una verdadera ventaja.
Matt Parker el
21

Los tiempos están cambiando

A partir de 2015, los actuarios menores de aproximadamente 35 años prefieren usar R: los libros de texto usan código R y SAS. Los actuarios más antiguos nunca aprendieron a usar R y prefieren SAS y no usan R. La proporción de actuarios que realmente codifican en SAS disminuirá.

Si busca en Google Scholar artículos que se refieran a SAS, encontrará un número constante de publicaciones de 550 por año durante los últimos años. Si busca documentos con R ("Fundación R para la computación estadística"), había 25.100 en 2014 y, a mediados de julio de 2015, había 16.700. Trazando la tasa, ¡está creciendo muy rápido!

SAS no se ayudó a sí misma durante unos años al exigir grandes tarifas de licencia a las universidades, lo que han revertido desde entonces, pero ahora es demasiado tarde, muchas universidades se han convertido a la enseñanza usando R y no SAS.

Se publican nuevas técnicas estadísticas en documentos junto con un paquete R. Algunas técnicas que han estado en la base R durante años todavía no han aparecido en SAS. Ahora puede usar R desde dentro de SAS.

En resumen, las cosas están cambiando y cambiando rápidamente.

Sean
fuente
19

En la industria farmacéutica, se usa SAS porque es lo que la FDA usa y le gusta. Sin embargo, hay algunas razones serias. Los resultados son trazables y la salida tiene una marca de tiempo. Los estadísticos de la FDA pueden verificar lo que obtienes. Es muy bueno para la gestión de bases de datos y es un software confiable. Por supuesto, se puede argumentar que muchos de los atributos de SAS están presentes en otros paquetes de software, incluidos R y SAS, que son caros. Aún así, creo que cualquiera que quiera ser un estadístico aplicado que trabaje en la industria será mejor que al menos aprenda a programar en SAS. Use R o STATA si lo prefiere pero conoce SAS. Cuando trabajas para una empresa que quiere que uses SAS, pagarán por la licencia.

Michael Chernick
fuente
44
Aquí hay información adicional sobre el pensamiento de la FDA con respecto a R: blog.revolutionanalytics.com/2012/06/fda-r-ok.html
Matt Parker
44
La Fundación R publicó un artículo en 2008 que analiza el uso de R en ensayos clínicos regulados . Debería ser una buena referencia para los colaboradores que son escépticos de usar R.
jthetzel
2
Estoy de acuerdo en que hay un movimiento para usar R más en la investigación clínica y que muchos creen que R puede hacerse tan rastreable como SAS.
Michael Chernick
66
La FDA habla bastante sobre NO respaldar o exigir el uso de ningún software. Es históricamente cierto que la mayoría de las presentaciones han utilizado SAS, por lo que la FDA tiene mucho conocimiento de SAS, pero se han apresurado a adoptar otros sistemas, utilizando R para una gran cantidad de trabajo reciente, especialmente en torno al metanálisis.
PaulHurleyuk
1
@PaulHurleyuk Lo que la FDA dirá públicamente y cómo actúan en la práctica no es necesariamente lo mismo. La mayoría de las compañías farmacéuticas se preocupan principalmente por los ensayos clínicos de fase II y III y, en general, esperan que tengan que seguir utilizando el SAS para el análisis de esos ensayos.
Michael Chernick
18

Creo que esta cita de Anne H. Milley resume la forma en que mucha gente piensa acerca de R:

Tenemos clientes que fabrican motores para aviones. Estoy feliz de que no estén usando software gratuito cuando me subo a un avión.

Desafortunadamente, creo que este concepto erróneo (gratis == inferior) es común en el público en general.

Zach
fuente
16

(ligeramente fuera de tema): viéndolo al otro lado: algunas de las ventajas que R tiene en la academia no se aplican a la industria.

Por ejemplo, en la academia es una clara ventaja si puedes decirles a los estudiantes que vayan a buscar el software y trabajen en casa. En la industria, no se supone que lleves datos a casa ...

Tampoco se supone que pruebe algunas cosas (TM), descargue toneladas de paquetes (incluso si son de buena reputación y probados), use métodos de vanguardia. En su lugar, generalmente se espera que se adhiera a los métodos y códigos que se han utilizado durante años y en los que el comportamiento se conoce desde hace siglos. No ganarías muchos méritos académicos con eso.

Y, por supuesto, como se ha mencionado: nadie se arriesgará a rehacer todo tipo de aprobación regulatoria en aras de cambiar a R. De lo que he visto, eso es menos sobre R y más sobre los enormes costos + trabajo para obtener la aprobación regulatoria .

Cbeleites
fuente
3
No hay nada que hacer para rehacer la aprobación regulatoria en aras de cambiar a R.
Frank Harrell
2
@Frank: tal vez estamos pensando en diferentes escenarios: supongo que posiblemente estés pensando en una nueva prueba (y ahí tienes la razón) - Estoy más pensando en términos de análisis de procesos (análisis químico + estadístico) de en curso producción. AFAIK, no puede simplemente cambiar su análisis de datos allí (pero tampoco es un país SAS). Pero puedo estar equivocado.
cbeleites
2
No estoy familiarizado con ese mundo, pero sospecho que los científicos tienen más libertad de lo que piensan.
Frank Harrell
13

Si bien es bastante pesimista, mi respuesta sería que el tipo de personas que toman decisiones radicales en corporaciones como 'solo usamos SAS' también son el tipo de personas que no confían en lo que no entienden y piensan automáticamente en el valor de algo es directamente proporcional a la cantidad de dinero que gasta en ello. Esto los lleva a preferir pagar por SAS en lugar de pasar tiempo investigando alternativas.

PaulHurleyuk
fuente
12

¿Por qué una importante compañía farmacéutica incluso querría convertir a R de SAS? SAS cuesta millones pero no es nada para una compañía farmacéutica. Sin embargo, convertir todos los sistemas de informes estables de SAS a R costaría 50-100 veces más.

SAS tiene un sistema de soporte fenomenal: cada vez que necesitaba ayuda, podían proporcionarla en pocas horas.

Y qué tiene exactamente R que SAS no: 1) mejores gráficos ... bueno, es grande pero los gráficos no lo son todo. Además de R, siempre se puede usar una herramienta adicional para crear algunos gráficos geniales y SAS no es tan malo cuando se trata de gráficos 2) lenguaje de programación moderno y más eficiente. Muchos usuarios de SAS no son programadores y no les importa usar un lenguaje genial. Solo quieren poder analizar los datos.

Me encanta R pero sería una locura que una gran empresa se convirtiera a SAS. Aunque podría tener sentido para las empresas más pequeñas

Max C
fuente
3
De acuerdo contigo, @Max. Finalmente una respuesta de alguien en la industria. Es CARO cambiar a R.
Dan
3
Eso es falso. El costo del soporte de programación para SAS es mucho más alto que el de R. Las empresas contratan acumuladores de programadores SAS para compensar el lenguaje arcaico que utiliza SAS.
Frank Harrell
Estoy en la industria y uso ambos. R puede realizar manipulaciones de datos y, lo que es más importante, análisis con muchas menos líneas y, por lo tanto, puede desarrollarse mucho más rápido. Diré que algunas compañías farmacéuticas han desarrollado a fondo sistemas SAS para la programación regulatoria que han tenido éxito. El punto tiene en cuenta: ¿por qué cambiar (en este punto)? Si lo estuvieran haciendo desde cero, quizás R en su lugar.
AdamO
11

Hay varias ventajas principales, sin ningún orden en particular.

  • SAS tiene una gran base instalada y un largo historial

Estoy evitando a propósito el uso de términos peyorativos como "legado" o "hábito". Muchas empresas han estado utilizando SAS durante 30 o 40 años, y tienen millones de líneas de código de trabajo. Además, existen todos los beneficios de una base de código estable con millones de días de usuario en un área donde los errores pequeños pueden ser críticos. Esta es la misma razón por la que los sabores de Unix siguen siendo populares a pesar de que Unix tiene más de 40 años y está obsoleto de alguna manera. Finalmente, hay una gran comunidad de profesionales SAS con experiencia que están acostumbrados a resolver problemas de negocios.

  • SAS es muy adecuado para entornos operativos y de datos heterogéneos y complejos.

Las empresas tienen muchas fuentes de datos diferentes, basadas en diferentes tipos de sistemas, así como en muchos casos, múltiples entornos operativos. R recientemente obtuvo algunas capacidades extremadamente básicas para lidiar con más de lo que se puede guardar en la memoria. Compare esto con la capacidad de SAS de admitir el procesamiento nativo, optimizado en la base de datos para terradata, por citar solo un ejemplo. En la mayoría de las situaciones del mundo real, la parte más difícil de la analítica es tratar con los datos y el entorno operativo. (¿necesita ejecutar su código de puntuación de modelo desarrollado por Windows en el mainframe? Con SAS, no hay problema. Con R, no tiene suerte.) R no resuelve ninguno de esos problemas.

  • El usuario no tiene que preocuparse por estar "solo"

Un usuario de SAS puede estar razonablemente seguro de que cada módulo de código ha sido probado por personas calificadas. No es necesario dedicar tiempo y esfuerzo a aprender la procedencia del código o validarlo independientemente. Además, si se encuentran problemas de cualquier tipo, asistencia robusta (desde algo tan básico como documentación hasta algo tan completo como la exploración detallada de resultados inesperados o el comportamiento de un método sofisticado) el usuario puede levantar el teléfono y obtener ayuda.

  • Es lo suficientemente bueno"

El lenguaje apaga a algunas personas porque es diferente a los lenguajes modernos para la programación general. Dicho esto, el lenguaje es de alto nivel, potente, expresivo e integral. En resumen, una vez que lo aprende, hace el trabajo. Para las empresas, la elegancia de la solución no es un gran punto de venta.

JBK
fuente
2
Elegancia tal vez, pero ¿costo? ¡Creo que las empresas se preocupan por eso!
probabilityislogic
2
R puede funcionar con cualquier cosa, desde un teléfono móvil hasta una supercomputadora a un costo cero, y una unidad central también, también a un costo cero.
Sean el
9

Atención al cliente.

Una vez conversé con un amigo que trabajaba en una empresa especializada en la instalación de servidores, y luego me explicó por qué las grandes empresas siempre optan por los productos de Microsoft en lugar de ir a código abierto. La ventaja que Microsoft tiene sobre sus competidores de código abierto es la atención al cliente. Si algo sale mal con el producto, la compañía puede llamar a Microsoft, las grandes compañías incluso tienen soporte personalizado para ellos. No es así con el software de código abierto.

Creo que esa es exactamente la misma razón por la que SAS está teniendo prioridad sobre R.

Raskolnikov
fuente
2
revolución R (u otras empresas)?
Ben Bolker
44
Creo que estos comentarios no son correctos. En el mundo del servidor, las reglas de código abierto, y el servidor web Apache es el servidor web más popular.
Frank Harrell
Nunca dije que estaba hablando de servidores. Más bien sobre productos como Microsoft Office. Solo mencioné que está trabajando en el mundo del servidor.
Raskolnikov
2
Me recuerda a las empresas que usan un sharepoint y un wiki de código abierto. Casi siempre el punto compartido es estéril y solo se actualiza la wiki.
TLJ
9

¿Qué pasa con Frontends? ¿Cuál es el equivalente de R para SAS Enterprise Guide, Web Report Studio o Enterprise Miner? Editar: estas herramientas hacen posible que un Usuario no programado use un ALMACÉN DE DATOS, sin conocimiento de la tecnología subyacente. No son principalmente herramientas para el uso de SAS como tal. R GUI son solo IDE para el lenguaje / sistema R, AFAIK. No pueden proporcionar ayuda para el usuario no técnico que desea obtener información y conocimiento del DWH.

Kurt
fuente
2
Es una respuesta. Lo que hace que SAS sea tan valioso para los clientes (como nosotros) es la facilidad de uso para las personas que no tienen que escribir una sola línea de código.
Kurt
2
@Kurt, gung no quería decir que esto no es una respuesta, sino que su respuesta no se ajusta a este sitio (y especialmente para la presente pregunta, en realidad)
Stéphane Laurent
Hay toneladas de GUI para R, ver stats.stackexchange.com/questions/5292/…
naught101
2
Bueno, he trabajado con RStudio. En comparación con SAS Enterprise Guide, todavía tiene un largo camino por recorrer hasta llegar a la facilidad de uso para un usuario novato. Agregue el hecho de que a R le falta un equivalente al servidor de metadatos. Y extraño completamente un equivalente inmediato para WRS (tal vez soy ciego :)). La belleza de un lenguaje y la productividad que puede lograr significa casi nada para las empresas donde el 90% de los "clientes" del almacén de datos no podían escribir "Hello World" en ningún entorno de programación. Eso es lo que quería señalar, y ahí es donde queda mucho trabajo por hacer.
Kurt
2
Gracias por actualizar su respuesta, @Kurt. Creo que ahora será más útil para futuros lectores. Es cierto que hay ofertas de almacenamiento de datos de apuntar y hacer clic y para SAS que son más completas y listas para usar que R. Esto es un punto razonable para plantear. +1
gung
8

Una vez trabajé para una empresa de consultoría que brindó asistencia de SAS a un gran fabricante de chips en Silicon Valley. Nuestra persona de contacto en la compañía nos dijo que recibió una oferta de otra compañía para brindarles exactamente la misma consultoría, utilizando un software diferente que cubre todas las áreas cubiertas por SAS y que le costaría a la compañía una fracción de lo que SAS les estaba cobrando. ( $ 30,000 en lugar de $ 1,000,000). La persona de contacto consideró qué hacer y decidió no informar a su jefe sobre la oferta porque temía ser despedido por usar SAS en primer lugar y no considerar alternativas más baratas. En cambio, insistió en que nuestra compañía de consultoría le diera a su compañía una gran oportunidad en nuestra tarifa de consultoría. Nuestra compañía estuvo de acuerdo.

sAV
fuente
1
Entonces, ¿su persona de contacto no pudo argumentar que R todavía es relativamente nuevo en comparación con SAS, y quería esperar para asegurarse de que R se estableció antes de usarlo?
probabilityislogic
6

No creo que se haya mencionado la seguridad de las aplicaciones. Esta pregunta se planteó en Stack Overflow pero se eliminó porque estaba fuera del tema.

Colaboro con la Junta Nacional de Salud y Bienestar de Suecia que utiliza SAS. Cuando hablé con sus estadísticos (que, como R), afirman que sus empleados de TI prefieren SAS, ya que no confían en los paquetes descargados en R. Mi esposa también trabaja en SAS y su institución a menudo reclama el mismo problema ...

Me encantaría ver algunos comentarios sobre este tema. He hecho una búsqueda rápida pero no he encontrado ninguna buena referencia ...

Max Gordon
fuente
3
¿Cuál es la alternativa a descargar un paquete que ofrece nuevas capacidades (como lo hacen la mayoría de los paquetes R)? ¿Es para hacer crecer esas capacidades en casa? ¿Es eso más confiable?
Frank Harrell
2
@FrankHarrell Estoy de acuerdo, pero creo que esta puede ser un área fácil para que los desarrolladores de R apunten y mejoren. Una solución simple podría ser diferentes niveles de seguridad para los paquetes: si un paquete tiene una llamada al sistema o se conecta solo a Internet, el paquete debería tener una autorización más alta. Esto podría permitir instalaciones con una autorización de bajo nivel en aquellas instituciones / empresas donde una fuga de datos es motivo de gran preocupación. Yo, como usuario, también podría hacer una verificación adicional cuando elijo instalar un paquete de alta autorización. (Por cierto, ¿cuándo está programado su libro (RMS ver 2)?)
Max Gordon
Espero que la segunda edición de RMS esté disponible en poco más de un año.
Frank Harrell
5

La razón por la que entendí que era la más convincente fue que SAS tiene una amplia biblioteca de módulos verticales de negocios específicos que todas las personas en estas verticales utilizan, por lo que es algo así como un bloqueo.
Pero también que SAS ha abordado las necesidades de estos segmentos verticales en los negocios y optimizado en torno a sus necesidades, optimizado en el sentido de "el usuario no tiene que hacer mucho trabajo adicional para obtener los resultados". No soy un usuario de SAS, por lo que esto no pretende ser una defensa parcial de la estrategia comercial de SAS.

Nitina
fuente
4

Siendo el gran producto comercial que es SAS, los vendedores pagados hacen un esfuerzo fuerte y coordinado para promocionarlo. No creo que los esfuerzos para promover el uso de R puedan igualarlos.

Itamar
fuente
8
Sí, las personas tienen que descubrir R en cierta medida. Pero gran parte del problema se reduce a la inercia de aprender un nuevo idioma. Siempre salen nuevos idiomas que tienen ventajas sobre los idiomas antiguos, pero los usuarios se aferran a los idiomas antiguos (testigo COBOL). La programación en SAS es enormemente ineficiente, ya que requiere quizás el doble de la cantidad de programadores para hacer el mismo trabajo que R, pero los expertos de SAS están felices de seguir adelante y las empresas temen el tipo de interrupción que les ahorraría millones de dólares. en salarios
Frank Harrell
3

Miro Open Source o software con licencia como este, ya sea SAS o cualquier otra cosa. Mi departamento de TI está allí para brindar un servicio a nuestro negocio. La empresa no gana dinero con TI, solo con el negocio que TI admite. El negocio tiene ingresos anuales de $ 16 mil millones. Cuesta alrededor de $ 200 millones al año. Si el problema fuera el dinero, reduciría los costos, pero si ahorro el 10% ( $ 20 millones) de mi presupuesto, ¿se dará cuenta la empresa? ¿Reducirán mi presupuesto el año que viene? Si la TI falla, la empresa pierde ingresos, cuánto variará según la naturaleza de la falla. Es posible que partes del negocio ya no obtengan ingresos. Si un producto como SAS falla, puedo demandar bajo un contrato. Si un producto OSS falla, no puedo. No recuperaré mis $16 mil millones, pero puedo recuperar algo, y de manera realista con SAS, es poco probable que pierdas el lote. La diferencia de precio versus costo tiene que justificar cualquier riesgo adicional percibido para el negocio. A veces es más barato quedarse con SAS que volver a entrenar. A veces hay problemas de mayor prioridad, por lo que las empresas se quedan con SAS. Algunas compañías no necesitan la funcionalidad completa, en cuyo caso las alternativas son viables. Algunos no necesitan el apoyo y nuevamente las alternativas son viables. Si cumple con los requisitos comerciales, cualquiera de las opciones es válida; si desea brindar asistencia para un negocio, debe considerar el costo total de propiedad durante 5-10 años, la capacidad de reclutar expertos en las herramientas, la estabilidad en el producto para que no tenga que reescribir todo con cada nueva versión, los cursos de capacitación disponibles para mejorar,

Bruce Rei
fuente
44
No sigo tu razonamiento. La cantidad de dinero que se desperdicia pagando a los programadores para programar en un idioma arcaico (SAS) frente a los idiomas gratuitos modernos es asombrosa.
Frank Harrell
44
@ Frank: tengo que estar en desacuerdo con tu caracterización. Un programador SAS competente puede ser altamente productivo en SAS, y los programadores SAS competentes están ampliamente disponibles. Le garantizo que R está estructurado más como un lenguaje moderno, por lo que podría ser más fácil de aprender para un programador que sabe, por ejemplo, Java. En mi experiencia en muchas compañías, la productividad del desarrollador que usa SAS rara vez es un problema material.
JBK
99
Después de haber usado SAS durante 23 años y S-Plus / R durante 22 años, puedo decir que un programador SAS altamente experimentado puede ser altamente productivo, pero que un programador R experimentado puede ser fácilmente tres veces más productivo.
Frank Harrell
2
"Puedo demandar bajo contrato" jaja - un código incorrecto escrito por los empleados es mucho más probable que se produzcan problemas que algo SAS o R significa "por sí mismo"
probabilityislogic
1

Algunas razones que no he visto mencionaron:

  1. Mejor documentación La documentación de SAS es detallada, la documentación de R es concisa. Muchas compañías pueden preferir documentación detallada.

  2. Mejores mensajes de error. Los mensajes de error de R a menudo parecen diseñados para demostrar que la persona que escribe el mensaje es más inteligente que la persona que lo lee.

  3. Apoyo técnico. SAS tiene el mejor soporte técnico con el que me he encontrado en cualquier lugar, proporcionado por SAS. Puede obtener ayuda con R, pero esa ayuda está dispersa en diferentes lugares y no siempre está disponible. Las personas en los diversos sitios que brindan ayuda con R son voluntarios, y los voluntarios no están obligados a ayudar. A las personas en el soporte técnico de SAS se les paga por hacer lo que hacen, y lo hacen bien. No solo lo hacen bien, lo hacen cortésmente, un rasgo que a menudo no está presente en todas las comunidades R (¿mi favorito? "Obtuve ayuda escribiendo 'help', ¿por qué no intentas escribir 'help'?")

  4. LATEX

Peter Flom
fuente
1
Estoy seguro de que hay empresas que venden soporte técnico para R. ¡Pero qué bueno es que no tengo experiencia!
kjetil b halvorsen
1

Creo que el ángulo heredado puede ser grande por la siguiente razón. Una organización contrata a una persona, llámela persona X. Son un gurú de la informática / asistente / etc. Construyen increíbles programas / herramientas SAS, etc. Son tan buenos que otras personas en la organización no sienten que necesitan entender cómo funcionan los programas. Hacen que sea tan fácil presionar un botón, y todo funciona (las cajas negras mágicas).

La persona X abandona la organización. Desafortunadamente, el conocimiento que tiene la persona X deja la organización (no se priorizó la documentación y la gestión del conocimiento, sino los programas de trabajo). Se reemplazan por la persona Y. La persona Y es excelente con R pero no tiene idea de SAS y, por lo tanto, no tiene idea de cómo funcionan realmente los programas de SAS. Hay una gran curva de aprendizaje para incluso descubrir quéCTCTes significativamente mayor que una licencia de un año para SAS. Espero que SAS haga un análisis de esta compensación, y deje que esto influya en cómo establece la tarifa de la licencia (bueno, lo haría si trabajara en SAS). Observe también cómo los procedimientos de trazado de SAS son mucho mejores que hace una década más o menos (por ejemplo, proc sgplot vs proc plot). coincidencia de que R hizo un buen plan primero? ¡Yo creo que no! Esto reduce efectivamente la eficiencia del cambio porque el trazado ya no es tan diferente: R sigue siendo mejor, pero no lo suficiente como para cambiar ...

probabilidadislogica
fuente
0

Para las estadísticas industriales, hay personas de garantía de calidad que (generalmente) no tienen programación, estadísticas o antecedentes científicos y que auditan a estadísticos, programadores y científicos. Quieren saber, "¿Cómo sabes que lo que estás haciendo es correcto?" y "Si está mal, ¿cómo podemos culpar a alguien y cómo van a pagarlo?".

La licencia GNU / GPL Copyleft viene con texto enlatado que dice: "R es software libre y NO VIENE ABSOLUTAMENTE GARANTÍA" en texto en mayúsculas exactamente como lo he escrito. Esto es desagradable. Cuando una persona de calidad lee este texto, básicamente desacredita a R directamente. Quiero decir, si un producto es bueno, vale la pena agregar una garantía ¿verdad? Tales productos comerciales nos han hecho creer. De hecho, fue en última instancia la FDA quien dijo que aceptaría las presentaciones regulatorias en R que reflejaban un cambio radical en la industria del software. (Tenga en cuenta que esta declaración viene después de la fecha de publicación original de la pregunta).

Para alguien que no sabe nada sobre computadoras, los escenarios imaginarios de seguridad, irreproductividad y graves errores científicos son ilimitados como resultado de esta ABSOLUTAMENTE FALTA DE GARANTÍA. Todos estamos de acuerdo en que los errores pueden tener costos catastróficos. Para su licencia de SAS, SAS tiene expertos que pueden explicar su software a los auditores, y en el escenario imposible de que SAS realmente cause tal problema, pueden ser responsables de multas y castigos (también tienen suficiente dinero para que los abogados se aseguren de que lo hagan). exonerarse por completo en tal caso). La carga y el costo de tener un analista / programador presente este caso para R básicamente equivale a una licencia SAS. ¡No es que la programación en SAS lo exonere completamente de la abrumadora carga del cumplimiento de la calidad!

Básicamente, diría que la litigiosidad ha desempeñado un papel destacado en la necesidad de un software de licencia costoso.

AdamO
fuente