No estoy seguro de a dónde pertenece esta pregunta: Cross Validated o The Workplace. Pero mi pregunta está vagamente relacionada con las estadísticas.
Esta pregunta (o supongo que preguntas) surgió durante mi trabajo como "pasante de ciencia de datos". Estaba construyendo este modelo de regresión lineal y examinando la gráfica residual. Vi signos claros de heterocedasticidad. Recuerdo que la heterocedasticidad distorsiona muchas estadísticas de prueba, como el intervalo de confianza y la prueba t. Así que usé el mínimo cuadrado ponderado, siguiendo lo que aprendí en la universidad. Mi gerente lo vio y me aconsejó que no lo hiciera porque "estaba complicando las cosas", lo cual no fue una razón muy convincente para mí.
Otro ejemplo sería "eliminar una variable explicativa ya que su valor p es insignificante". Para ser, este consejo simplemente no tiene sentido desde un punto de vista lógico. Según lo que he aprendido, un valor p insignificante podría deberse a diferentes razones: azar, usar el modelo incorrecto, violar los supuestos, etc.
Otro ejemplo más es que utilicé la validación cruzada k-fold para evaluar mi modelo. Según el resultado, es mucho mejor que . Pero tenemos un para el modelo 1, y la razón tiene algo que ver con la intercepción . Sin embargo, mi supervisor parece preferir el modelo 2 porque tiene un más alto . Sus razones (como es robusta, o la validación cruzada es un enfoque de aprendizaje automático, no un enfoque estadístico) simplemente no parecen ser lo suficientemente convincentes como para cambiar de opinión. C V m o d e l 2 R 2 R 2 R 2
Como alguien que acaba de graduarse de la universidad, estoy muy confundido. Me apasiona aplicar estadísticas correctas para resolver problemas del mundo real, pero no sé cuál de las siguientes afirmaciones es verdadera:
- Las estadísticas que aprendí por mí mismo son simplemente incorrectas, así que solo estoy cometiendo errores.
- Hay una gran diferencia entre las estadísticas teóricas y los modelos de construcción en las empresas. Y aunque la teoría estadística es correcta, la gente simplemente no la sigue.
- El gerente no está utilizando las estadísticas correctamente.
Actualización al 17/04/2017: he decidido buscar un doctorado. en estadísticas Gracias a todos por su respuesta.
Respuestas:
En pocas palabras, tienes razón y él está equivocado. La tragedia del análisis de datos es que mucha gente lo hace, pero solo una minoría lo hace bien, en parte debido a una educación débil en el análisis de datos y en parte debido a la apatía. Preste atención a la mayoría de los artículos de investigación publicados que no tengan un estadístico o un experto en aprendizaje automático en la lista de autores y rápidamente detectará errores tan elementales como la interpretación de los valores como la probabilidad de que la hipótesis nula sea cierta. .p
Creo que lo único que debe hacer, cuando se enfrenta a este tipo de situación, es explicar cuidadosamente lo que está mal en la práctica equivocada, con un ejemplo o dos.
fuente
Kodiologist tiene razón, tienes razón, está equivocado. Sin embargo, lamentablemente este es un problema de lugar aún más común que lo que estás encontrando. En realidad, estás en una industria que está relativamente bien.
Por ejemplo, actualmente trabajo en un campo donde se deben establecer especificaciones sobre productos. Esto casi siempre se realiza mediante el monitoreo de los productos / procesos de alguna manera y registrando los medios y las desviaciones estándar, y luego utilizando la buena .mean+3∗σ
Ahora, aparte del hecho de que este intervalo de confianza no les dice lo que realmente necesitan (necesitan un intervalo de tolerancia para eso), esto se hace a ciegas en los parámetros que se ciernen cerca de algún valor máximo o mínimo (pero donde ganó el intervalo ' t realmente excede esos valores). Debido a que Excel calculará lo que necesitan (sí, dije Excel), establecieron sus especificaciones de acuerdo con eso, a pesar del hecho de que el parámetro no estará cerca de la distribución normal. A estas personas se les ha enseñado estadísticas básicas, pero no q tramas o similares. Uno de los mayores problemas es que las estadísticas te darán un número, incluso cuando se usen de manera inapropiada, por lo que la mayoría de las personas no saben cuándo lo han hecho.
En otras palabras, las especificaciones de la gran mayoría de los productos, en la gran mayoría de las industrias, no tienen sentido.
Uno de los peores ejemplos que tengo de personas que siguen ciegamente las estadísticas, sin comprender, es el uso de Cpk en la industria automotriz. Una empresa pasó cerca de un año discutiendo sobre un producto con su proveedor, porque pensaban que el proveedor podía controlar su producto a un nivel que simplemente no era posible. Establecían solo una especificación máxima (sin mínimo) en un parámetro y usaban Cpk para justificar su reclamo, hasta que se señaló que sus cálculos (cuando se usaban para establecer un nivel mínimo teórico) no querían que no se hubiera verificado ) implicaba un valor negativo masivo. Esto, en un parámetro que nunca podría ser inferior a 0. Cpk supone normal, el proceso no proporcionó datos cercanos a lo normal. Tomó mucho tiempo lograr que eso se asimilara. Todo eso desperdició tiempo y dinero porque la gente no No entiendo lo que estaban calculando, y podría haber sido mucho peor si no se hubiera notado. ¡Esto podría ser un factor que contribuye a por qué hay retiros regulares en la industria automotriz!
Yo mismo vengo de una formación científica y, francamente, la enseñanza de la estadística en ciencias e ingeniería es sorprendentemente insuficiente. Nunca había escuchado sobre la mayor parte de lo que necesito usar ahora: todo ha sido autodidacta y hay vacíos masivos (en comparación con un estadístico adecuado) en mi conocimiento, incluso ahora. Por esa razón, no le agradezco a la gente el mal uso de las estadísticas (probablemente todavía lo hago regularmente), es una educación deficiente.
Entonces, volviendo a su pregunta original, realmente no es fácil. Estoy de acuerdo con la recomendación de Kodiologist de tratar de explicar suavemente estas cosas para que se usen las estadísticas correctas. Pero , agregaría una advertencia adicional a eso y también le aconsejaría que elija sus batallas sabiamente, por el bien de su carrera.
Es lamentable, pero es un hecho que no podrá lograr que todos hagan las mejores estadísticas cada vez. Elija corregirlos cuando realmente sea importante para la conclusión general final (lo que a veces significa hacer las cosas de dos maneras diferentes para verificar). Hay momentos (por ejemplo, el ejemplo de su modelo 1,2) en los que el uso de la forma "incorrecta" puede llevar a las mismas conclusiones. Evite corregir a demasiadas personas con demasiada frecuencia.
Sé que eso es intelectualmente frustrante y que el mundo debería funcionar de manera diferente, lamentablemente no es así. Hasta cierto punto, tendrás que aprender a juzgar tus batallas según las personalidades individuales de tus colegas. Su objetivo (profesional) es ser el experto al que acuden cuando realmente necesitan ayuda, no la persona exigente que siempre trata de corregirlos. Y, de hecho, si te conviertes en esa persona, probablemente sea allí donde tendrás más éxito haciendo que la gente escuche y haga las cosas de la manera correcta. Buena suerte.
fuente
Lo que se describe parece una experiencia algo mala. Sin embargo, no debería ser algo que haga que uno cuestione de inmediato su propia formación académica ni el juicio estadístico de su supervisor / gerente.
Sí, muy, muy probablemente sea correcto sugerir el uso de CV en lugar de para la selección del modelo, por ejemplo. Pero necesita descubrir por qué surgió esta metodología (potencialmente dudosa), ver cómo esto perjudica a la empresa en el futuro y luego ofrecer soluciones para ese dolor. Nadie quiere usar una metodología incorrecta conscientemente a menos que sean razones para hacerlo. Decir que algo está mal (lo cual podría estar muy bien) y no mostrar cómo el error afecta su actualR2 El trabajo, en lugar del comportamiento asintótico en algún lugar en el futuro, no significa mucho. La gente será reacia a aceptarlo; ¿Por qué gastar energía para cambiar cuando todo funciona (algo)? Su gerente no está necesariamente equivocado desde una perspectiva comercial. Es responsable de las decisiones estadísticas y comerciales de su departamento; esas decisiones no necesariamente coinciden siempre y es muy probable que no coincidan con los entregables a corto plazo (las limitaciones de tiempo son un factor muy importante en el análisis de datos de la industria).
Mi consejo es que se adhiera a sus armas (estadísticas) pero esté abierto a lo que hace la gente, sea paciente con las personas que podrían estar separadas de las nuevas prácticas estadísticas y ofrezca consejos / opiniones cuando se le solicite, haga crecer una piel más gruesa y aprenda de su entorno. Si está haciendo lo correcto, esto se mostrará lentamente, la gente querrá su opinión porque reconocerán que puede ofrecer soluciones donde su flujo de trabajo actual no lo hace. Finalmente, sí, claro, si después de un período de tiempo razonable (al menos un par de meses) sientes que estás devaluado y faltas de respeto, simplemente sigue adelante.
No hace falta decir que ahora está en la industria, no puede sentarse y pensar que no necesita perfeccionar su educación en Estadística. El modelado predictivo, las estrategias de regresión, los algoritmos de agrupamiento siguen evolucionando. Por ejemplo, el uso de la regresión de procesos gaussianos en un entorno industrial estuvo cerca de la ciencia ficción hace 10 años; ahora puede verse casi como una cosa lista para usar para probar.
fuente