¿Qué tan importante es el conocimiento del dominio en nuestra profesión?

8

o: ¿Seleccionar un dominio al ingresar a un trabajo reduce sus opciones futuras para dominios y, por lo tanto, trabajos?

Para hacer esta pregunta tan ampliamente aplicable como sea posible ...

  • La profesión se refiere a todo tipo de analistas de datos, desde estadísticos sobre programadores de aprendizaje automático hasta mineros de datos.
  • imagina que te pidieron que le dieras un consejo a una audiencia que contiene estudiantes y profesionales de diferentes clases de edad

Quizás un punto de partida:

Las competencias en Kaggle han demostrado que los extraños pueden superar los modelos creados por los empleados de la compañía (ver, por ejemplo, aquí ). Por otro lado, mi experiencia laboral (limitada) me ha llevado a la conclusión de que comprender cómo y dónde se han generado los datos es absolutamente obligatorio para crear un entorno abstracto en el que pueda ocurrir algo así como una competencia de Kaggle. Además, sin conocimiento de dominio, me resulta difícil informar los resultados a otras capas / departamentos. Algunos asocian la última habilidad como clave para la "nueva" profesión "Ciencia de datos" (ver, por ejemplo, aquí o aquí ).

steffen
fuente
La pregunta ya se ha marcado para que sea cw.
steffen
1
Wrt. para el ejemplo de Kaggle: 1. El "punto de referencia interno" (que parece ser la base para el "340% de rendimiento superior") no dice que sea el mejor modelo que tiene Allstate. Otras competiciones utilizan modelos razonablemente simples y básicos para la evaluación comparativa, que también puede ser el caso aquí. 2. Sin conocimiento de dominio: no olvide la cantidad de conocimiento de dominio y análisis de datos que viene durante la preparación del conjunto de datos. Y: No conozco la experiencia profesional / de aplicación del ganador.
Cbeleites descontento con SX

Respuestas:

7

Hago una analogía: resolver problemas estadísticos sin contexto es como boxear con los ojos vendados. Puede noquear a su oponente, pero puede golpear su mano en el ringpost.

Trabajo principalmente con investigadores médicos y de ciencias sociales. Parece haber una sensación generalizada de que el modelo adecuado para la investigación es

1) Se les ocurre una idea, recopilan datos, escriben sobre ella y luego 2) Nos la dan para "hacer las estadísticas".

Por lo tanto, estoy de acuerdo en que necesitamos entender los problemas; Por supuesto, no necesitamos una comprensión de la investigación tan completa como la del profesional. Es por eso que yo (y muchas otras personas de datos) puedo trabajar con personas de diferentes profesiones. Pero, cuanto menos sepamos sobre un tema, más necesitamos interactuar con el profesional para asegurarnos de que los resultados tengan sentido.

Una de las muchas cosas que me gustan de lo que hago es que aprendo un poco sobre muchas materias diferentes.

Peter Flom
fuente
1
Muy bonita analogía. Aunque un poco de estadísticas en el DoE (aleatorización, planificación del tamaño de la muestra) no hace daño, tampoco ... Y la necesidad de interacción puede explotar si la superposición de conocimientos (y también la terminología) es demasiado baja.
Cbeleites descontento con SX
5

¿Qué tan importante es el conocimiento del dominio en nuestra profesión?

  • Lo suficientemente importante como para dar nombres distintos a los análisis de datos orientados al dominio (por ejemplo, -metrics: biometrics, psychometrics, chemometrics, ...)

  • La combinación de conocimiento de dominio y conocimiento estadístico es extremadamente importante en

    • diseño de experimentos, p. ej. prácticos ./. viabilidad estadística, normas específicas del dominio, planificación del tamaño de la muestra
    • análisis de datos orientadores (¿Qué tipo de transformaciones o preprocesamiento son significativos física / biológicamente / químicamente? ¿Qué correcciones de los datos brutos son necesarios ?, criterios de calidad de datos, heurística)
    • comprobar si los resultados pueden ser significativos / correctos
    • interpretación de resultados
      Aquí hay un ejemplo de una interpretación específica de dominio de un clasificador que fue posible solo porque tanto el conocimiento analítico de datos como el espectroscópico estaban a la mano (sección "LDA descriptiva e interpretación espectroscópica"). Trate de imaginar la cantidad de comunicación que se necesitaría entre un analista de datos sin conocimiento espectroscópico y un espectroscopista sin idea de LDA para llegar a tal interpretación.
    • En el contexto de (falta de) reproducibilidad de los resultados publicados, existe preocupación por la investigación realizada como si no hubiera más conocimiento del campo / problema / datos, ver, por ejemplo, E. R: Dougherty: Desarrollo de biomarcadores: Prudencia, riesgo y reproducibilidad, BioEssays, 2012, 34, 277-279.
      Beck-Bornholt y Dubben probablemente argumentarían que incorporar más conocimiento de dominio aumenta la prevalencia (probabilidad previa) de buenas ideas científicas.
    • El teorema de no almuerzo gratis insinúa en la misma dirección.

    (Soy un químico especializado en quimiometría y espectroscopía, y hago mediciones y análisis de datos)

¿Seleccionar un dominio al ingresar a un trabajo reduce sus opciones futuras para dominios y, por lo tanto, trabajos?

Tal vez, pero al mismo tiempo, podrá reclamar más experiencia en esa área y, en consecuencia, puede solicitar los trabajos especializados (y mi experiencia es que nosotros, los quimiometristas, somos una especie muy deseada).

Y, además, demuestra que puede unirse al trabajo en nuevos dominios.

cbeleitas
fuente