Soy estudiante de segundo año de pregrado, estudio matemáticas, y he estado hablando con uno de mis profesores bastante sobre la diferencia entre la habilidad matemática y la habilidad estadística. Una de las diferencias clave que planteó fue el "sentido de los datos", que explicó como una combinación de habilidad técnica mientras operaba dentro de un conjunto de lo que informalmente llamaré "restricciones de sentido común", es decir, no perder de vista la realidad del problema en medio de Mucha teoría. Este es un ejemplo de lo que estaba hablando, que apareció en el blog de Gowers:
En varias partes del Reino Unido, la policía recopiló estadísticas sobre dónde ocurrieron los accidentes de tráfico, identificó puntos negros de accidentes, colocó cámaras de velocidad allí y recopiló más estadísticas. Hubo una clara tendencia a que la cantidad de accidentes en estos puntos negros disminuya después de que se instalaron las cámaras de velocidad. ¿Muestra esto de manera concluyente que las cámaras de velocidad mejoran la seguridad vial?
La misma persona que abogó por la estrategia aleatoria en el juego de negociación básicamente ya sabía la respuesta a esta pregunta. Él dijo que no, ya que si seleccionas los casos extremos, entonces esperarías que fueran menos extremos si ejecutas el experimento nuevamente. Decidí pasar rápidamente de esta pregunta ya que no había mucho más que decir. Pero le conté a la gente sobre un plan que tenía, que era hacer un falso experimento de telepatía. Les haría adivinar los resultados de 20 lanzamientos de monedas, que trataría de transmitirles telepáticamente. Luego elegiría los tres mejores y los tres peores, y volvería a tirar las monedas, esta vez pidiendo a los mejores que me ayuden a transmitir las respuestas a los peores. La gente podía ver fácilmente que se esperaría que las actuaciones mejoraran y que no tendría nada que ver con la telepatía.
Lo que pregunto es cómo aprender más sobre este "sentido de los datos" , a través de cualquier publicación sobre el tema, si existe, o mediante lo que otros usuarios han encontrado útil para desarrollar esta habilidad. Lo siento si esta pregunta necesita aclaración; Si es así, ¡por favor publique sus preguntas! Gracias.
fuente
Respuestas:
Primero diría que no debemos menospreciar las matemáticas. Es una herramienta importante en el desarrollo de la teoría estadística y los métodos estadísticos están justificados por la teoría. La teoría también le dice qué está mal y qué técnicas podrían ser mejores (por ejemplo, más eficientes). Así que creo que el conocimiento matemático y el pensamiento son importantes (casi necesarios) para ser un buen estadístico. Pero definitivamente no es suficiente. Creo que los libros a los que se hace referencia en los comentarios son buenos. Déjame dar algunos otros.
El sentido de los datos: una guía práctica para el análisis de datos exploratorios y la minería de datos
El sentido de los datos II: una guía práctica para la visualización de datos, métodos avanzados de extracción de datos y aplicaciones
Pensamiento estadístico: mejora del rendimiento empresarial
El papel de la estadística en los negocios y la industria
Una carrera en estadística: más allá de los números
Los libros de Hahn y Snee son particularmente valiosos e interesantes porque son estadísticos industriales famosos con habilidades matemáticas y experiencia práctica.
fuente
[manuscript title](uri)
enlace de reducción . Después de un largo día, encuentro que encontrar respuestas con hipervínculos largos puede ser inconscientemente discordante y, desafortunadamente, podría sesgar al lector en contra de una respuesta que de otro modo sería buena.En el ejemplo que menciona, el tema central es la inferencia causal. Un buen lugar para comenzar por la inferencia causal es esta revisión de tres libros por Andrew Gelman, y los libros revisados en ella. Además de aprender sobre la inferencia causal, debe aprender sobre el valor del análisis exploratorio de datos, la descripción y la predicción.
He aprendido muchísimo al escuchar a los científicos sociales criticar la investigación de cada uno en trabajos publicados, blogs , seminarios y en conversaciones personales: hay muchas maneras de aprender. Siga este sitio y el blog de Andrew Gelman.
Por supuesto, si desea la detección de datos, necesita practicar trabajando con datos reales. Existen habilidades generales de detección de datos, pero también existe la detección de datos que es específica de un área problemática, o incluso más específicamente, la detección de datos específica de un conjunto de datos en particular.
fuente
Un buen recurso gratuito es el Chance News Wiki . Tiene muchos ejemplos extraídos de ejemplos reales junto con la discusión de puntos buenos y malos sobre cómo las personas interpretan los datos y las estadísticas. A menudo también hay preguntas de discusión (parte de la motivación de la vista es dar a los maestros de estadística ejemplos del mundo real para discutir con los estudiantes).
fuente
¡+1 para una gran pregunta! (Y +1 a todos los respondedores hasta ahora).
Creo que existe una gran cantidad de datos, pero no creo que haya nada místico. La analogía que usaría es para conducir. Cuando conduces por la carretera, solo sabes lo que está sucediendo con los otros autos. Por ejemplo, usted sabe que el tipo que está frente a usted a un lado está buscando el letrero de la calle donde debe girar, a pesar de que no está usando su señal de giro. Identifica automáticamente al conductor lento y excesivamente cauteloso y anticipa cómo reaccionará en diferentes situaciones. Puedes ver al adolescente que solo quiere correr tan rápido como pueda. Tienes un sentido basado en el reconocimiento de lo que están haciendo todos los autos. Esto es exactamente lo mismo que el sentido de datos. Viene de la experiencia, muchade experiencia. Si conoce lo suficiente de la teoría, solo necesita comenzar a jugar con conjuntos de datos reales. Quizás te interese explorar un sitio como DASL . Sin embargo, una condición es que no solo debe tener experiencia en cargar un conjunto de datos, ejecutar una prueba y obtener un valor p. Deberá explorar los datos, probablemente trazarlos de diferentes maneras, ajustar algunos modelos y pensar en lo que está sucediendo. (Tenga en cuenta que EDA ha sido un hilo conductor aquí).
Un hecho posiblemente no obvio sobre este proceso es que el sentido de los datos se puede localizar en un área temática determinada. Por ejemplo, podría obtener mucha experiencia trabajando con datos experimentales y ANOVA, pero no necesariamente tener una buena idea de lo que está sucediendo cuando mira datos de series temporales o datos de supervivencia.
Permítanme agregar una estrategia más que he encontrado enormemente útil: creo que vale la pena su tiempo para aprender un poco de programación (estadística). No tienes que ser terriblemente bueno en eso (soy conocido por escribir código "cómicamente ineficiente"). Sin embargo, una vez que pueda escribir un código de procedimiento básico (digamos en
R
), puede simular . Sería difícil para mí enfatizar demasiado cuánto puede ser capaz de realizar incluso simulaciones muy simples. Una cosa para la que puede usar esto es que, en el curso de sus estudios, lea sobre alguna propiedad que pueda explorar. Por ejemplo, si sabe (de manera abstracta) que es difícil determinar empíricamente si un modelo logit o probit es mejor para un conjunto de datos, puede codificar simulaciones simples de estey juega con ellos para entender la idea más completamente. Esto también le proporcionará experiencia, pero de un tipo ligeramente diferente, y también lo ayudará a desarrollar su sentido de los datos.fuente