¿Hacer estadísticas correctas en un entorno de trabajo?

20

No estoy seguro de a dónde pertenece esta pregunta: Cross Validated o The Workplace. Pero mi pregunta está vagamente relacionada con las estadísticas.

Esta pregunta (o supongo que preguntas) surgió durante mi trabajo como "pasante de ciencia de datos". Estaba construyendo este modelo de regresión lineal y examinando la gráfica residual. Vi signos claros de heterocedasticidad. Recuerdo que la heterocedasticidad distorsiona muchas estadísticas de prueba, como el intervalo de confianza y la prueba t. Así que usé el mínimo cuadrado ponderado, siguiendo lo que aprendí en la universidad. Mi gerente lo vio y me aconsejó que no lo hiciera porque "estaba complicando las cosas", lo cual no fue una razón muy convincente para mí.

Otro ejemplo sería "eliminar una variable explicativa ya que su valor p es insignificante". Para ser, este consejo simplemente no tiene sentido desde un punto de vista lógico. Según lo que he aprendido, un valor p insignificante podría deberse a diferentes razones: azar, usar el modelo incorrecto, violar los supuestos, etc.

Otro ejemplo más es que utilicé la validación cruzada k-fold para evaluar mi modelo. Según el resultado, es mucho mejor que . Pero tenemos un para el modelo 1, y la razón tiene algo que ver con la intercepción . Sin embargo, mi supervisor parece preferir el modelo 2 porque tiene un más alto . Sus razones (como es robusta, o la validación cruzada es un enfoque de aprendizaje automático, no un enfoque estadístico) simplemente no parecen ser lo suficientemente convincentes como para cambiar de opinión. C V m o d e l 2 R 2 R 2 R 2CVmodel1CVmodel2R2R2R2

Como alguien que acaba de graduarse de la universidad, estoy muy confundido. Me apasiona aplicar estadísticas correctas para resolver problemas del mundo real, pero no sé cuál de las siguientes afirmaciones es verdadera:

  1. Las estadísticas que aprendí por mí mismo son simplemente incorrectas, así que solo estoy cometiendo errores.
  2. Hay una gran diferencia entre las estadísticas teóricas y los modelos de construcción en las empresas. Y aunque la teoría estadística es correcta, la gente simplemente no la sigue.
  3. El gerente no está utilizando las estadísticas correctamente.

Actualización al 17/04/2017: he decidido buscar un doctorado. en estadísticas Gracias a todos por su respuesta.

3x89g2
fuente
1
Relacionado con su pregunta están los comentarios (especialmente los que están al final) debajo de esta respuesta: stats.stackexchange.com/questions/229193/…
Esta discusión también puede ser relevante . En la práctica, a veces puede usar modelos en los que sus datos violan algunas suposiciones requeridas (por ejemplo, Naive Bayes en variables dependientes) y aún así tienen resultados interesantes. Pero debe tener mucho cuidado con las conclusiones que extraiga, y ahí es donde está el problema principal: a la mayoría de las personas simplemente no les importa el significado de sus resultados, siempre y cuando obtenga resultados. Publicar o perecer ...
gaborous
1
Las respuestas "tienes razón y él está equivocado" probablemente sean correctas y se aplican a tu caso. De todos modos, tenga en cuenta que a veces la respuesta puede ser "está equivocado, pero su manera incorrecta funciona para sus propósitos, tal vez funcione incluso mejor que la forma correcta para sus propósitos no estadísticos de dirigir negocios". Creo que eso sucede a menudo con todo tipo de conocimiento científico, no solo con estadísticas. Tal vez en SE Workplace puedan darle ejemplos no estadísticos.
Pere
3
@ Aksakal: Por lo que el OP describe estadísticamente , es más probable que tenga razón. Su anécdota personal, es solo una anécdota. Puedo contrarrestarlo diciendo que me mudé a un trabajo donde las pruebas A / B se realizarían con solo 30 muestras; mostrar cálculos de poder básicos cambió la mentalidad de los equipos sobre los tamaños de muestra y la toma de decisiones. Volviendo a la pregunta del OP, estoy de acuerdo en que lo que se describe no significa que el supervisor del OP haya hecho una llamada equivocada. Los flujos de trabajo de negocios tienen una inercia particular asociada con ellos y el "chico nuevo" tiene que probarse a sí mismo como predicador antes de convertirse en profeta ...
usεr11852 dice Reinstate Monic
1
@ usεr11852, mi comentario fue una queja :) pero tiene un punto, creo: para alguien que es nuevo en el campo, es más seguro asumir que un jefe sabe mejor. Con experiencia, puede relajar esta suposición, tal vez dar más peso a su propia opinión y menos al jefe '. para un pasante, el peso de la propia opinión debe estar cerca de CERO.
Aksakal

Respuestas:

12

En pocas palabras, tienes razón y él está equivocado. La tragedia del análisis de datos es que mucha gente lo hace, pero solo una minoría lo hace bien, en parte debido a una educación débil en el análisis de datos y en parte debido a la apatía. Preste atención a la mayoría de los artículos de investigación publicados que no tengan un estadístico o un experto en aprendizaje automático en la lista de autores y rápidamente detectará errores tan elementales como la interpretación de los valores como la probabilidad de que la hipótesis nula sea cierta. .p

Creo que lo único que debe hacer, cuando se enfrenta a este tipo de situación, es explicar cuidadosamente lo que está mal en la práctica equivocada, con un ejemplo o dos.

Kodiologist
fuente
3
Gracias por la respuesta. Creo que una "pregunta del siguiente paso" es: ¿hay algún trabajo que realmente corrija las estadísticas? Entiendo que la ciencia de datos es muy popular hoy en día, pero de alguna manera tengo esta impresión de que muchos "científicos de datos" realmente no se preocupan por hacer estadísticas correctas ...
3x89g2
1
@Misakov Creo que realmente depende de la persona u organización. Pero las palabras de moda como "ciencia de datos", "análisis" e "inteligencia de negocios" son señales de alerta. Y no olvide que en una entrevista de trabajo, también los está entrevistando. No solo te hace. Me veo bien para hacer preguntas detalladas sobre cómo se hacen las cosas; le permite ver cuán serios son sobre el análisis de datos.
Kodiólogo
@Misakov Probablemente necesites ingresar a la academia si realmente quieres hacer estadísticas correctas. La gran mayoría (ver mi respuesta más arriba) de uso industrial estará equivocada.
Mooks
@Kodiologist: Creo que está tomando un enfoque ligeramente " justo " en esto y no está ayudando al OP simplemente confirmando su sesgo en contra de las estadísticas de la industria. También la idea de contradecir a un miembro de alto rango después de que él tomó una decisión directa (" Ir con mayor "R2 ) es un poco ingenua ... Dado que la empresa aún existe, las decisiones del gerente no son tan erróneas y la simplificación excesiva de algunas reglas podrían no ser demasiado catastróficas en el contexto de su trabajo. Nuevas personas (como el OP) se unen y el equipo evoluciona; ¡Sin embargo, la evolución es un proceso de Wiener, no un vuelo de Lévy!
usεr11852 dice Reinstate Monic el
1
@ usεr11852 Un buen gerente (es decir, sin pelo puntiagudo) diferirá a los empleados cuando sepan mejor que él. "Dado que la empresa todavía existe, las decisiones del gerente no están tan equivocadas ". La carrera no es rápida.
Kodiólogo
11

Kodiologist tiene razón, tienes razón, está equivocado. Sin embargo, lamentablemente este es un problema de lugar aún más común que lo que estás encontrando. En realidad, estás en una industria que está relativamente bien.

Por ejemplo, actualmente trabajo en un campo donde se deben establecer especificaciones sobre productos. Esto casi siempre se realiza mediante el monitoreo de los productos / procesos de alguna manera y registrando los medios y las desviaciones estándar, y luego utilizando la buena .mean+3σ

Ahora, aparte del hecho de que este intervalo de confianza no les dice lo que realmente necesitan (necesitan un intervalo de tolerancia para eso), esto se hace a ciegas en los parámetros que se ciernen cerca de algún valor máximo o mínimo (pero donde ganó el intervalo ' t realmente excede esos valores). Debido a que Excel calculará lo que necesitan (sí, dije Excel), establecieron sus especificaciones de acuerdo con eso, a pesar del hecho de que el parámetro no estará cerca de la distribución normal. A estas personas se les ha enseñado estadísticas básicas, pero no q tramas o similares. Uno de los mayores problemas es que las estadísticas te darán un número, incluso cuando se usen de manera inapropiada, por lo que la mayoría de las personas no saben cuándo lo han hecho.

En otras palabras, las especificaciones de la gran mayoría de los productos, en la gran mayoría de las industrias, no tienen sentido.

Uno de los peores ejemplos que tengo de personas que siguen ciegamente las estadísticas, sin comprender, es el uso de Cpk en la industria automotriz. Una empresa pasó cerca de un año discutiendo sobre un producto con su proveedor, porque pensaban que el proveedor podía controlar su producto a un nivel que simplemente no era posible. Establecían solo una especificación máxima (sin mínimo) en un parámetro y usaban Cpk para justificar su reclamo, hasta que se señaló que sus cálculos (cuando se usaban para establecer un nivel mínimo teórico) no querían que no se hubiera verificado ) implicaba un valor negativo masivo. Esto, en un parámetro que nunca podría ser inferior a 0. Cpk supone normal, el proceso no proporcionó datos cercanos a lo normal. Tomó mucho tiempo lograr que eso se asimilara. Todo eso desperdició tiempo y dinero porque la gente no No entiendo lo que estaban calculando, y podría haber sido mucho peor si no se hubiera notado. ¡Esto podría ser un factor que contribuye a por qué hay retiros regulares en la industria automotriz!

Yo mismo vengo de una formación científica y, francamente, la enseñanza de la estadística en ciencias e ingeniería es sorprendentemente insuficiente. Nunca había escuchado sobre la mayor parte de lo que necesito usar ahora: todo ha sido autodidacta y hay vacíos masivos (en comparación con un estadístico adecuado) en mi conocimiento, incluso ahora. Por esa razón, no le agradezco a la gente el mal uso de las estadísticas (probablemente todavía lo hago regularmente), es una educación deficiente.

Entonces, volviendo a su pregunta original, realmente no es fácil. Estoy de acuerdo con la recomendación de Kodiologist de tratar de explicar suavemente estas cosas para que se usen las estadísticas correctas. Pero , agregaría una advertencia adicional a eso y también le aconsejaría que elija sus batallas sabiamente, por el bien de su carrera.

Es lamentable, pero es un hecho que no podrá lograr que todos hagan las mejores estadísticas cada vez. Elija corregirlos cuando realmente sea importante para la conclusión general final (lo que a veces significa hacer las cosas de dos maneras diferentes para verificar). Hay momentos (por ejemplo, el ejemplo de su modelo 1,2) en los que el uso de la forma "incorrecta" puede llevar a las mismas conclusiones. Evite corregir a demasiadas personas con demasiada frecuencia.

Sé que eso es intelectualmente frustrante y que el mundo debería funcionar de manera diferente, lamentablemente no es así. Hasta cierto punto, tendrás que aprender a juzgar tus batallas según las personalidades individuales de tus colegas. Su objetivo (profesional) es ser el experto al que acuden cuando realmente necesitan ayuda, no la persona exigente que siempre trata de corregirlos. Y, de hecho, si te conviertes en esa persona, probablemente sea allí donde tendrás más éxito haciendo que la gente escuche y haga las cosas de la manera correcta. Buena suerte.

Mooks
fuente
Excel es posiblemente el software de análisis de datos más utilizado. No es necesario el comentario " sí, lo dije ". A menos que alguien no haya salido de la academia (y tal vez de la gran industria farmacéutica), no se sorprendería con su declaración original. (Buena respuesta, +1)
usεr11852 dice Reinstate Monic el
1
Es el más utilizado, y creo que resalta mi punto original. Excel tiene enormes deficiencias para el análisis de datos. Si lo que está haciendo se está haciendo en Excel, realmente no puede llamarlo análisis de datos, a menos que esté ingresando manualmente todos los cálculos usted mismo. Nada en contra de Excel como una hoja de cálculo, pero es una herramienta de análisis de datos rudimentaria, en el mejor de los casos. Pero la gente no sabe nada mejor, porque no se les enseña mejor. No vengo de un fondo de estadísticas, pero tuve la suerte de que alguien me mencionara R para hacer mejores gráficos, y eso, casualmente, me llevó a mejores estadísticas.
Mooks
"Estoy de acuerdo con la recomendación de Kodiologist de tratar de explicar suavemente estas cosas para que se usen las estadísticas correctas". - Quiero ser testigo. Un interno que explica a su empleador cómo hacer negocios.
Aksakal
1
Esto ayudará, verifique el # 9. Es un consejo común que viene en este tipo de listas todo el tiempo. Primeros 100 días en el trabajo: no sugiera cambiar las cosas, primero descubra por qué las personas hacen las cosas de la manera en que lo hacen, a menudo hay una razón válida. Te pondrás en ridículo, y he visto que esto sucede con nuevos tipos una y otra vez. Solo cállate y observa durante unos meses
Aksakal
@ Aksakal Lo que dijiste definitivamente tiene sentido. Estoy actuando un poco "audaz" en mi situación principalmente porque soy un interno y sé que me iré muy pronto de todos modos.
3x89g2
3

Lo que se describe parece una experiencia algo mala. Sin embargo, no debería ser algo que haga que uno cuestione de inmediato su propia formación académica ni el juicio estadístico de su supervisor / gerente.

Sí, muy, muy probablemente sea correcto sugerir el uso de CV en lugar de para la selección del modelo, por ejemplo. Pero necesita descubrir por qué surgió esta metodología (potencialmente dudosa), ver cómo esto perjudica a la empresa en el futuro y luego ofrecer soluciones para ese dolor. Nadie quiere usar una metodología incorrecta conscientemente a menos que sean razones para hacerlo. Decir que algo está mal (lo cual podría estar muy bien) y no mostrar cómo el error afecta su actualR2El trabajo, en lugar del comportamiento asintótico en algún lugar en el futuro, no significa mucho. La gente será reacia a aceptarlo; ¿Por qué gastar energía para cambiar cuando todo funciona (algo)? Su gerente no está necesariamente equivocado desde una perspectiva comercial. Es responsable de las decisiones estadísticas y comerciales de su departamento; esas decisiones no necesariamente coinciden siempre y es muy probable que no coincidan con los entregables a corto plazo (las limitaciones de tiempo son un factor muy importante en el análisis de datos de la industria).

Mi consejo es que se adhiera a sus armas (estadísticas) pero esté abierto a lo que hace la gente, sea paciente con las personas que podrían estar separadas de las nuevas prácticas estadísticas y ofrezca consejos / opiniones cuando se le solicite, haga crecer una piel más gruesa y aprenda de su entorno. Si está haciendo lo correcto, esto se mostrará lentamente, la gente querrá su opinión porque reconocerán que puede ofrecer soluciones donde su flujo de trabajo actual no lo hace. Finalmente, sí, claro, si después de un período de tiempo razonable (al menos un par de meses) sientes que estás devaluado y faltas de respeto, simplemente sigue adelante.

No hace falta decir que ahora está en la industria, no puede sentarse y pensar que no necesita perfeccionar su educación en Estadística. El modelado predictivo, las estrategias de regresión, los algoritmos de agrupamiento siguen evolucionando. Por ejemplo, el uso de la regresión de procesos gaussianos en un entorno industrial estuvo cerca de la ciencia ficción hace 10 años; ahora puede verse casi como una cosa lista para usar para probar.

usεr11852 dice Reinstate Monic
fuente