Preguntas de entrevista estadística

65

Estoy buscando algunas preguntas de entrevista de estadísticas (y de probabilidad, supongo), desde las más básicas hasta las más avanzadas. Las respuestas no son necesarias (aunque los enlaces a preguntas específicas en este sitio harían bien).

shabbychef
fuente
Sería muy interesante si alguien pudiera dar ejemplos que se dieron cuando fueron entrevistados ...
kjetil b halvorsen

Respuestas:

40

No estoy seguro de cuál es el trabajo, pero creo que "Explicar x a un novato" probablemente sería bueno.

a) porque probablemente necesitarán hacer esto en el trabajo

b) creo que es una buena prueba de comprensión.

Chris Beeley
fuente
8
(+1): No puedo contar las veces que pensé que había entendido algo, pero luego no se lo expliqué a alguien más en palabras fáciles. Ejemplo: valor p;)
steffen
66
"Si no puedes explicárselo a un niño de seis años, entonces probablemente no lo entiendas tú mismo" - Albert Einstein. Tal vez no sea tan extremo, pero entiendes ... :)
JM no es un estadístico
1
Me gusta "Explicar un valor p", con o sin la parte "a un novato".
shabbychef
Es por eso que la validación cruzada es excelente. muchas preguntas y respuestas "laicas".
Neil McGuigan
Muy buen consejo si estás entrevistando o no!
JMS
21

El estándar Q donde trabajo está en la línea de:

Eche un vistazo a este resultado de una regresión logística múltiple de un paquete estadístico que afirma haber utilizado (preferiblemente uno que también usamos). XXX es la variable independiente de interés principal. ¿Cómo interpretaría los resultados para un colega con conocimiento del tema pero sin capacitación estadística formal? (Si es necesario, solicite una interpretación separada de la estimación puntual, IC, valor p).

parada
fuente
15
En contextos más académicos, uno también puede preguntar: 'eche un vistazo a la salida de este modelo en este documento que usted (co) escribió . Dime qué significa. Las respuestas decepcionantes son fatales porque no hay excusas de desconocimiento disponibles, pero son terriblemente comunes.
conjugateprior
44
@conjugateprior No es cierto. Mientras haya al menos un coautor que no esté presente, era el área del coautor no presente. El uso principal de esta técnica es en presentaciones de conferencias.
Mark L. Stone
18

También es posible que desee reflexionar sobre si la entrevista es el mejor medio para medir la construcción de interés. Si desea medir el conocimiento previo de probabilidad o estadísticas, es mejor que confíe más en una prueba escrita. Puede hacer más preguntas y así aumentar la fiabilidad de la medición. Está más estandarizado tanto en administración como en puntuación. Y una vez que se desarrolla el instrumento, probablemente utiliza menos recursos para administrar.

Luego, podría usar la entrevista como una herramienta más enfocada para observar factores como las habilidades verbales e interpersonales.

Jeromy Anglim
fuente
1
Este es un buen punto. En el pasado, descubrí que es muy difícil saber si un candidato determinado funcionará, a menos que haya trabajado con él en el pasado.
shabbychef
15

Dos preguntas que me han hecho:

1) Usted ajusta una regresión múltiple para examinar el efecto de una variable particular que le interesa a un trabajador de otro departamento. La variable se vuelve insignificante, pero su compañero de trabajo dice que esto es imposible ya que se sabe que tiene un efecto. ¿Qué dirías / harías?

2) Tienes 1000 variables y 100 observaciones. Le gustaría encontrar las variables significativas para una respuesta particular. ¿Qué harías?

Cañada
fuente
¿Podría publicar las respuestas también? Para 1) supongo que puede haber algunas variables dependientes que causan el problema. Para 2) Probablemente iría para la prueba estadística χ² (chi-cuadrado)
Rishi Dua
2
Hay muchas respuestas razonables para ambos, aquí están mis pensamientos rápidos: 1) el modelo de regresión es de una muestra, esta muestra tiene una variación aleatoria y, por lo tanto, el modelo es solo una estimación y puede dar lugar a errores de tipo 1 o tipo 2. También podría haber una fuerte colinealidad entre los predictores. Para 2) es el gran problema de P frente a N pequeño. Existen muchas técnicas para manejar esta situación, como la reducción de las dimensiones y el lazo.
Glen
2) haga ajustes univariados de variables e identifique las que son más significativas para reducir el conjunto de variables
Adam
11

Aquí hay un gran conjunto de datos. ¿Cuál es su plan para lidiar con los valores atípicos? ¿Qué tal valores perdidos? ¿Qué hay de las transformaciones?

¿Pueden tratar con datos del mundo real?

Neil McGuigan
fuente
Estimado usuario anónimo, no use la edición para comentarios (no es para usted, Neil).
10

Muchas preguntas / respuestas en este sitio podrían dar ideas para buenas preguntas. Daré una lista con algunos enlaces que creo que son buenos. Las publicaciones donde respondí están sobrerrepresentadas, porque las conozco mejor, ¡no porque necesariamente sean las mejores! Doy comentarios breves a cada enlace, para que pueda decidir si desea seguir el enlace.

¿Cuál es la intuición detrás de SVD? "¿Puede explicarle a uno de nuestros clientes cómo funciona la SVD?"

Estimación de máxima verosimilitud (MLE) en términos simples "¿Puede explicar en un lenguaje no técnico la idea de la estimación de máxima verosimilitud?"

Taleb y el cisne negro "Dime, ¿qué es un cisne negro y por qué es relevante? ¿Cuándo es relevante?"

Inferencia estadística cuando la muestra "es" la población "¿Qué puede decir acerca de la inferencia estadística cuando la muestra es la población total?"

Bondad de ajuste y qué modelo elegir regresión lineal o Poisson "Tenemos un problema de regresión donde la respuesta es una variable de conteo. ¿Cuál elegiría en este contexto, mínimos cuadrados ordinarios o regresión de Poisson (o tal vez algún otro)? Explique su elección , ¿cuáles son las principales diferencias entre estos modelos? "

¿Cuál es la diferencia entre la varianza finita e infinita "¿Puede explicar, en un lenguaje tan simple como sea posible, lo que significa que una variable aleatoria tenga expectativa infinita o varianza infinita? ¿Cuál es la importancia práctica de esta distinción? Explique con un ejemplo."

¿Cuáles son las alternativas modernas y fáciles de usar para la regresión gradual? "¿Cómo construiría un modelo de regresión complejo cuando hay muchas variables predictoras posibles? Describa diferentes estrategias posibles y cuente los problemas con cada una de ellas"

¿Cómo lidiar con la separación perfecta en la regresión logística? "¿Cuál es el problema de la separación en la regresión logística, sus causas, síntomas? ¿Qué puede hacer para resolverlo, si realmente es un problema?"

¿Por qué la matriz de correlación necesita ser positiva semi-definida y qué significa ser o no positiva semi-definida? y
¿Qué me dice una matriz de covarianza definida no positiva sobre mis datos? "Explique por qué una matriz de covarianza debe ser positiva (semi) definida, y qué significa eso. ¿Cómo puede usarse ese hecho?"

¿Cuáles son las versiones multidimensionales de la mediana "¿Puedes proponer alguna forma de generalizar la mediana a los datos multivariados?"

Interpretar los términos de interacción en la regresión logit con variables categóricas y ¿Cuáles son las mejores prácticas para identificar los efectos de interacción? y ¿ Dos efectos principales negativos pero efecto de interacción positiva? e Incluyendo la interacción pero no los efectos principales en un modelo y ¿Cómo interpretar los efectos principales cuando el efecto de interacción no es significativo? "Explique qué se entiende por interacción en los modelos de regresión. Específicamente, ¿qué significa si la interacción es significativa mientras que los efectos principales no lo son? ¿Hay alguna diferencia en la interpretación de la interacción entre la regresión lineal ordinaria y la regresión logística?"

¿Cuál podría ser la razón para usar la transformación de raíz cuadrada en los datos? y Transformación de datos apropiada "¿Cuándo, cómo y por qué transforma la variable de respuesta en un modelo de regresión (o ANOVA)? ¿Hay alguna alternativa?

¿Puedo confiar en los resultados de ANOVA para un DV no distribuido normalmente? "¿Cómo trataría un ANOVA con residuos no normales?

¿Por qué las estadísticas son útiles cuando muchas cosas que importan son cosas de una sola vez?

¿Cómo puedo modelar eficientemente la suma de variables aleatorias de Bernoulli?

¿Cuándo usar ecuaciones de estimación generalizadas versus modelos de efectos mixtos?

¿Qué sucede aquí, cuando uso la pérdida al cuadrado en la configuración de regresión logística? "¿Por qué utilizamos la máxima probabilidad de regresión logística? ¿Por qué no menos cuadrados?"

revs kjetil b halvorsen
fuente
9

Una vez me preguntaron cómo explicaría la relevancia del teorema del límite central para una clase de estudiantes de primer año en ciencias sociales que apenas tienen conocimiento sobre estadísticas.

Wolfgang
fuente
44
La relevancia del Teorema del límite central es hacer que la gente piense que todo es Normal, cuando en realidad nada lo es. Y por lo tanto lleva a muchas conclusiones erróneas.
Mark L. Stone
8

¿Cómo evita el sobreajuste cuando crea un modelo estadístico?

Buena respuesta: validación cruzada

Neil McGuigan
fuente
6

A menudo pregunto "¿cómo definirías / explicarías qué es el pronóstico?"

La respuesta a ese tipo de pregunta muy general me ayuda a ver si las personas están conectadas a un caso particular de pronóstico. No hay una respuesta correcta, pero responderla sintéticamente durante una entrevista no siempre es fácil :)

robin girard
fuente
5

Para un contexto de datos observacionales:

Considere este modelo de regresión aplicado a este problema sustantivo. ¿Qué, en todo caso, puede ser interpretado causalmente? [Sonda adicional] ¿Qué necesitarías aprender para cambiar tu opinión?

conjugadoprior
fuente
4

¿Cómo contarás el número de árboles de madera de sándalo en Bangalore?

usuario3153
fuente
1
¿Eso se entiende como una especie de pregunta de Fermi ?
Thies Heidecke
2
Buena pregunta. He usado una versión de esto en clase (árboles en un parque). Se les ocurre la idea del muestreo, pero tienden a perder la necesidad de una definición operativa: ¿cuándo empiezas a llamarlo árbol?
zbicyclist
4

Bajo el título Causación vs correlación :

Es común utilizar la participación del cliente / usuario como características para un modelo predictivo. Por ejemplo, las personas que hacen clic en este botón tienen más probabilidades de suscribirse que las personas que no lo hacen. Las personas que compran los lunes tienen más probabilidades de comprar de nuevo que las que compran los martes.

Si llevamos esto al extremo: los usuarios que hacen clic en "comprar" tienen más probabilidades de comprar un producto que los usuarios que no hacen clic en comprar.

Pero obviamente eso no es muy útil para explicar por qué algunos usuarios se suscriben y otros no.

¿Cómo se equilibraría usando las características del cliente que explican por qué se suscriben frente a aquellas que están altamente correlacionadas con la suscripción, pero que son necesarias para realizar la tarea?

ilanman
fuente
3

Aquí hay un conjunto de TinkerToy . Muéstrame cómo funciona la distancia euclidiana en tres dimensiones. Ahora muéstrame cómo funciona la regresión múltiple.

¿Pueden explicar cómo funcionan las estadísticas en el mundo físico?

Neil McGuigan
fuente
1
nortenorte
1
si desea dispersar el diagrama de dos variables con 100 observaciones, solo necesita 2 dimensiones, no 100 :), y así sucesivamente
Neil McGuigan
3

Estamos ejecutando un centro de servicio al cliente. Estamos recibiendo 1 millón de llamadas por mes. ¿Cómo lo reducimos a diez mil?

usuario3153
fuente
55
¡elimina el 99% de tus teléfonos!
shabbychef
55
Deja de pagar la factura del teléfono.
Glen
3
Incurrir una tarifa por la llamada. (un número 900 en los EE. UU. ...)
gWaldo
77
Esta pregunta es sobre la regla 80–20. Es una regla general común en los negocios; por ejemplo, "el 80% de sus ventas provienen del 20% de sus clientes". Microsoft señaló que al corregir el 20% de los errores más reportados, se eliminaría el 80% de los errores y fallas. Por lo tanto, significaría establecer una pregunta frecuente para identificar la solución de este 20% de los problemas
Rishi Dua
3

Muchas de las preguntas que hacemos son similares a las que ya se han descrito. Pero algunos que aún no he leído, que se usan: se le puede pedir que bosqueje un programa en una pizarra para hacer algo como: simular un lanzamiento de dados u otro problema de probabilidad, o calcular una serie de números primos (por ejemplo, todos los números primos que son menos de 1,000,000): podría hacerlo en el idioma que desee, pero la mayoría de la gente elige R, y algunos eligen Python (creo), pero supongo que podría elegir Stata, SAS, SPSS , Matlab, etc. Probablemente se le harán preguntas para probar la profundidad de su conocimiento del lenguaje de programación de su elección, por qué usar apply en lugar de un bucle for en R, por ejemplo.

También se le puede pedir que diseñe un experimento u otro estudio para investigar algo, generalmente algo práctico, a veces esto estará relacionado con el trabajo que hacemos, pero a menudo no. (Se supone que no debe tener conocimiento del trabajo que hacemos, pero debe ser capaz de comprender la esencia de un problema del que no ha oído hablar y especular sobre él de manera inteligente, incluso si tiene cierto conocimiento de dominio que sabría eso estaba mal, está bien, no se espera que tengas conocimiento del dominio). Se le puede pedir que tenga en cuenta cosas como el poder.

Jeremy Miles
fuente
2

Al hacer el análisis de varianza de la variable cuantitativa, a veces se encontró que la frecuencia de la variable es muy alta (> 5), luego usamos la prueba exacta de Fisher para encontrar la independencia de la variable.

Mike Anderson
fuente
Esto probablemente se incluiría en la respuesta de Chris.
JM no es un estadístico
44
¿La respuesta correcta a esta pregunta incluye saber que existe una controversia sobre si los marginales fijos tienen sentido y tener una opinión informada sobre el tema?
Ben Bolker,
1

El promedio de asistencia pagada a los juegos de los Yankees el año pasado fue de 55,000. Al azar le preguntas a un grupo de personas en Nueva York si fueron a un juego de los Yankees la temporada pasada, y si lo hicieron, registras la asistencia pagada. ¿Cuál es el promedio de asistencia pagada para los juegos a los que asistieron las personas a las que les preguntó que asistieron a un juego?

Le daré una pista para mi respuesta (no se proporcionó ninguna pista): muestreo sesgado por longitud. Marqué un jonrón con eso, pero no fue suficiente para ganar el juego, ja, ja. Nota: Mencioné muchas advertencias relacionadas con la forma en que se realizó el muestreo, y el entrevistador me dijo que las ignorara todas.

Mark L. Stone
fuente