¿Cuáles son algunas buenas preguntas de entrevista para los candidatos desarrolladores de algoritmos estadísticos?

15

Estoy entrevistando a personas para un puesto de desarrollador / investigador de algoritmos en un contexto de estadísticas / aprendizaje automático / minería de datos.

Estoy buscando preguntas para determinar, específicamente, la familiaridad, comprensión y fluidez de un candidato con la teoría subyacente, por ejemplo, propiedades básicas de expectativa y variación, algunas distribuciones comunes, etc.

Mi pregunta actual es: "Hay una cantidad desconocida X que nos gustaría estimar. Para este fin tenemos estimadores Y1,Y2,...,Ynorte que, dados , son todos imparciales e independientes, y cada uno tiene una varianza conocida , diferente para cada uno. Encuentre el estimador óptimo que es imparcial y tiene una varianza mínima ".σ 2 i Y =Xσi2Y=F(Y1,...,Ynorte)

Esperaría que cualquier candidato serio lo manejara con facilidad (dado un tiempo para resolver los cálculos), y sin embargo, me sorprende la cantidad de candidatos que supuestamente provienen de campos relevantes no logran ni el más mínimo progreso. Por lo tanto, lo considero una buena pregunta discriminatoria. El único problema con esta pregunta es que es solo una.

¿Qué otras preguntas se pueden usar para esto? Alternativamente, ¿dónde puedo encontrar una colección de tales preguntas?

Meni Rosenfeld
fuente
77
Para muchas personas de aprendizaje automático (incluidas las buenas), esa pregunta está fuera de su zona de confort. Esta es una pregunta estadística obvia.
Marc Claesen
44
Esta pregunta está legítimamente en el tema de encendido / apagado. Sin embargo, tiene muchas vistas, varios votos a favor, una respuesta con varios votos a favor y, además, es CW. Podría permanecer abierto, OMI.
gung - Restablece a Monica
2
La pregunta a seguir podría estar redactada de manera confusa. Por ejemplo, el uso de con mayúscula haría que X parezca aleatorio. Pero como está mencionando la varianza mínima, parece que quiere que X sea ​​no aleatorio (en cuyo caso, ¿por qué la varianza de los estimadores no tiene una dependencia escrita de X ?)XXXX
Batman
44
¡Un punto de precaución, Google hizo un gran estudio de su proceso interno de recursos humanos y descubrió que los puntajes de los entrevistadores no se correlacionan en absoluto con el desempeño laboral posterior! Mi impresión de la literatura aquí es que (1) las preguntas tipo acertijo son absolutamente peores, solo sirven para hacer que el entrevistador se sienta inteligente (es decir, 0 poder de pronóstico) y (2) reanudar, las preguntas basadas en la experiencia pueden tener valor predictivo. El rendimiento pasado pronostica el rendimiento futuro y es posible que desee centrar las preguntas para determinar cuál fue su rendimiento pasado, pero la entrevista es mucho menos informativa de lo que piensan los entrevistadores.
Matthew Gunn
3
La imparcialidad está garantizada al hacer que los pesos sumen a la unidad. Sin embargo, incluso limitando su solución a combinaciones lineales de los estimadores, casi siempre ocurrirá que múltiples estimadores basados ​​en los mismos datos estén altamente correlacionados. (Si son verdaderamente independientes, entonces se aplicarían a subconjuntos independientes e independientes de los datos). Sin embargo, no es del todo evidente que una combinación lineal de estimadores sea óptima.
Whuber

Respuestas:

12

¿Qué quieres que haga tu desarrollador de estadísticas?

El ejército de los Estados Unidos dice "entrenarás para luchar, porque lucharás como si estuvieras entrenado". Pruébalos en lo que quieres que hagan todo el día. Realmente, desea que "creen valor" o "ganen dinero" para la empresa.

Jefe 101

Piensa "muéstrame el dinero".

  • El dinero crece en los árboles llamados empleados. Pones un "centavo" (su salario) y te pagan un "cuarto" (su valor).
  • Si no puede relacionar su trabajo con la forma en que ganan dinero para la empresa, ni usted ni ellos están haciendo su trabajo correctamente.

Nota: Si su pregunta de manipulación simbólica no se conecta limpiamente con el "dinero", entonces podría estar haciendo la pregunta incorrecta.

Hay 3 cosas que todo empleado debe hacer para ser empleado:

  • Ser realmente capaz de hacer el trabajo.
  • Trabajar bien con el equipo
  • Estar dispuesto / motivado para hacer el trabajo

Si no obtienes estos sólidos, ninguna otra respuesta te servirá de nada.

Si puede reemplazarlos con una buena pieza de software o un adolescente bien entrenado, entonces eventualmente tendrá que hacerlo y le costará.

Datos 101

Lo que deberían poder hacer:

  • use sus sabores internos de software (red, sistema operativo, oficina, presentación y análisis)
  • use algunos tipos de software estándar de la industria (Excel, R, JMP, MatLab, pick_three )
  • obtener los datos ellos mismos. Deben conocer conjuntos de datos básicos para tareas básicas. Deben conocer los repositorios. Deben saber qué datos famosos se utilizan para cada tarea. Fisher Iris. Cangrejo Pearson. ... quizás hay 20 elementos que deberían ir aquí. UCI, NIST, NOAA.
  • Deben conocer las reglas de manejo de datos. Los datos binarios (T / F) tienen un contenido de información muy diferente al categórico (A, B, C, D) o continuo. El manejo adecuado de los datos por tipo de datos es importante.
  • Algunas tareas estadísticas básicas incluyen: si estas dos son iguales o diferentes (también conocido como agrupación / clasificación), ¿cómo se relaciona esto con eso
    (regresión / ajuste incluyendo modelos lineales, glm, base radial,
    ecuaciones de diferencia), es cierto que "x "(prueba de hipótesis), cuántas muestras necesito (muestreo de aceptación), cómo obtengo la mayor cantidad de
    datos de pocos experimentos / baratos / eficientes (diseño estadístico del
    experimento) - descargo de responsabilidad, soy ingeniero, no estadístico. Puede preguntarles la pregunta "¿cuáles son las diferentes tareas fundamentales y cómo evalúa que el estadístico puede hacerlas de manera eficiente y correcta?
  • acceder / usar los datos ellos mismos. Se trata de formatos y herramientas.
    Deben poder leer desde csv, xlsx (excel), SQL e
    imágenes. (HDF5, Rdata) Si tiene un formato personalizado, deberían
    poder leerlo y trabajar con las herramientas de manera rápida y
    eficiente. Deben conocer la fuerza / debilidad del formato. CSV es de uso rápido, ha existido desde siempre, prototipo rápido, pero hinchado, ineficiente y lento de ejecutar.
  • procesar los datos correctamente, utilizando las mejores prácticas y sin cometer pecados. No deseche los datos, nunca. No ajuste los datos binomiales con una línea continua. No desafíes a la física.
  • llegar a resultados que sean repetibles y reproducibles. Algunas
    personas dicen "hay mentiras, malditas mentiras y estadísticas", pero no en mi
    empresa. La misma buena entrada da la misma buena salida. El resultado no es un número, siempre es una decisión comercial que informa una
    acción técnica y da como resultado un resultado comercial. Diferentes pruebas pueden establecer el dial en 5.5 o 6.5, pero la capacidad siempre es superior a 1.33.
  • Presente los hallazgos en el lenguaje y al nivel que los tomadores de
    decisiones y / o los desarrolladores de minions, y / o ellos mismos en un año, puedan
    entender con la menor cantidad de errores. Una cosa hermosa es poder explicarlo para que tu abuela lo entienda. Este ( enlace ) es mi respuesta, pero me gusta.

Zingers analíticos:

Creo que las preguntas imposibles son geniales. Son imposibles por una razón. Ser bueno saber si algo es imposible por la puerta es algo bueno. Saber por qué, tener algunas formas de involucrarlo o poder hacer una pregunta diferente puede ser mejor.

Otras preguntas de CV. ( enlace ) En reddit. ( enlace ) otros ( enlace )

Por cierto: esta fue una buena pregunta. Puede que tenga que actualizar esta respuesta con el tiempo.

revs EngrStudent
fuente
3
Esta parece ser una buena respuesta, para una pregunta diferente a la que hice. No pregunté cómo elegir buenos empleados (probablemente preguntaría algo así en el lugar de trabajo, si fuera necesario), pregunté sobre probar una calificación específica.
Meni Rosenfeld
Lo reduciré a estadísticas solo entonces.
EngrStudent - Restablece a Monica