¿Cómo puedo mejorar mi análisis de los efectos de la reputación en la votación?

15

Recientemente hice un análisis de los efectos de la reputación en los votos a favor (ver la publicación del blog ), y posteriormente tuve algunas preguntas sobre análisis y gráficos posiblemente más esclarecedores (o más apropiados).

Entonces, algunas preguntas (y siéntase libre de responder a cualquiera en particular e ignorar a los demás):

  1. En su actual encarnación, no quise centrar el número de publicación. Creo que lo que esto hace es dar la falsa apariencia de una correlación negativa en el diagrama de dispersión, ya que hay más publicaciones hacia el extremo inferior del recuento de publicaciones (ves que esto no sucede en el panel Jon Skeet, solo en los usuarios mortales panel). ¿Es inapropiado no centrar la media del número de publicación (ya que me refiero a centrar la puntuación por puntuación media del usuario)?

  2. Debería ser obvio a partir de los gráficos que la puntuación está muy sesgada (y el centrado medio no cambió eso). Al ajustar una línea de regresión, ajusté tanto los modelos lineales como los modelos que usan los errores de arena de Huber-White (que se encuentran rlmen el paquete MASS R ) y no hizo ninguna diferencia en las estimaciones de la pendiente. ¿Debería haber considerado una transformación de los datos en lugar de una regresión robusta? Tenga en cuenta que cualquier transformación debería tener en cuenta la posibilidad de 0 y puntuaciones negativas. ¿O debería haber usado algún otro tipo de modelo para los datos de conteo en lugar de OLS?

  3. Creo que los dos últimos gráficos, en general, podrían mejorarse (y también están relacionados con estrategias de modelado mejoradas). En mi opinión (cansada), sospecharía que si los efectos de reputación son reales, se darían cuenta bastante temprano en la historia de los pósters (supongo que si es cierto, estos podrían reconsiderarse ", dio algunas respuestas excelentes, así que ahora votaré a todos sus publica efectos "en lugar de" reputación por puntuación total "). ¿Cómo puedo crear un gráfico para demostrar si esto es cierto, teniendo en cuenta el trazado excesivo? Pensé que tal vez una buena manera de demostrar esto sería ajustar un modelo de la forma;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

donde es el (igual que en los diagramas de dispersión actuales), X 1 es el , y Z 1Z k son variables ficticias que representan un rango arbitrario de números de publicación (por ejemplo, Z 1 es igual si el número de publicación es , Z 2 es igual si el número de publicación es etc.). β 0 y ϵ son el término de gran intercepción y error respectivamente. Entonces solo examinaría el γ estimadoYscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγpendientes para determinar si los efectos de reputación aparecieron al principio de la historia de los carteles (o mostrarlos gráficamente). ¿Es este un enfoque razonable (y apropiado)?

Parece popular ajustar algún tipo de línea de suavizado no paramétrico a diagramas de dispersión como estos (como loess o splines), pero mi experimentación con splines no reveló nada esclarecedor (cualquier evidencia de efectos positivos al principio de la historia del póster fue leve y temperamental a la cantidad de splines que incluí). Dado que tengo la hipótesis de que los efectos ocurren desde el principio, ¿es mi enfoque de modelado más razonable que las splines?

También tenga en cuenta que aunque he dragado todos estos datos, todavía hay muchas otras comunidades para examinar (y algunas como superusuario y servidor predeterminado tienen muestras similares de gran tamaño para extraer), por lo que es bastante razonable sugerir en el futuro análisis que utilizo una muestra de reserva para examinar cualquier relación.

Andy W
fuente
Actualmente he tomado algunas notas sobre mi primera pregunta, y se pueden encontrar aquí . No estoy seguro en este momento si debería publicar esto como respuesta a mi propia pregunta o abrir una pregunta separada (ya que esto se centra principalmente en la visualización de datos). Pero siéntase libre de dejarme un comentario sobre el documento de Google aquí o en la sala de chat .
Andy W

Respuestas:

14

Este es un intento valiente, pero solo con estos datos, será difícil o imposible responder a su pregunta de investigación sobre el "efecto de la reputación en los votos positivos". El problema radica en separar los efectos de otros fenómenos, que enumero junto con breves indicaciones de cómo podrían abordarse.

  • Efectos de aprendizaje . A medida que aumenta la reputación, aumenta la experiencia; A medida que aumenta la experiencia, esperaríamos que una persona publique mejores preguntas y respuestas; A medida que mejore su calidad, esperamos más votos por publicación. Posiblemente, una forma de manejar esto en un análisis sería identificar a las personas que están activas en más de un sitio de SE . En cualquier sitio dado, su reputación aumentaría más lentamente que la cantidad de su experiencia, proporcionando así un control para desgarrar la reputación y los efectos de aprendizaje.

  • Cambios temporales en contexto. Estos son innumerables, pero los obvios incluirían

    • Cambios en el número de votantes a lo largo del tiempo , incluida una tendencia al alza general, tendencias estacionales (a menudo asociadas con ciclos académicos) y valores atípicos (que surgen de publicidad externa, como enlaces a hilos específicos). Cualquier análisis debería tener esto en cuenta al evaluar las tendencias de reputación de cualquier individuo .

    • Cambios en las costumbres de una comunidad con el tiempo . Las comunidades y cómo interactúan, evolucionan y se desarrollan. Con el tiempo, pueden tender a votar con mayor o menor frecuencia. Cualquier análisis tendría que evaluar este efecto y factorizarlo .

    • El tiempo mismo A medida que pasa el tiempo, las publicaciones anteriores permanecen disponibles para búsquedas y continúan obteniendo votos. Así, caeteris paribus , los mensajes más antiguos deberían producir más votos que los más nuevos. (Este es un efecto fuerte : ¡algunas personas constantemente altas en las ligas de reputación mensual no han visitado este sitio durante todo el año!) Esto enmascararía o incluso invertiría cualquier efecto de reputación positivo real. Cualquier análisis debe tener en cuenta el tiempo que cada publicación ha estado presente en el sitio .

  • Asunto popularidad. Algunas etiquetas (p. Ej., ) son mucho más populares que otras. Por lo tanto, los cambios en los tipos de preguntas que responde una persona pueden confundirse con cambios temporales, como un efecto de reputación. Por lo tanto, cualquier análisis debe tener en cuenta la naturaleza de las preguntas que se responden.

  • Vistas [agregadas como edición]. Las preguntas son vistas por diferentes números de personas por varias razones (filtros, enlaces, etc.). Es posible que el número de votos recibidos por las respuestas esté relacionado con el número de puntos de vista, aunque uno esperaría una proporción decreciente a medida que aumenta el número de puntos de vista. (Es una cuestión de cuántas personas realmente interesadas en la pregunta realmente la ven, no el número bruto. Mi propia experiencia, anecdótica, es que aproximadamente la mitad de los votos positivos que recibo en muchas preguntas vienen dentro de los primeros 5-15 puntos de vista, aunque eventualmente las preguntas se ven cientos de veces.) Por lo tanto, cualquier análisis debe tener en cuenta el número de puntos de vista, pero probablemente no de forma lineal.

  • Dificultades de medición. "Reputación" es la suma de votos recibidos para diferentes actividades: reputación inicial, respuestas, preguntas, aprobación de preguntas, edición de wikis de etiquetas, votación negativa y votación negativa (en orden descendente de valor). Debido a que estos componentes evalúan cosas diferentes, y no todos están bajo el control de los votantes de la comunidad, deben separarse para su análisis . Un "efecto de reputación" presumiblemente se asocia con votos a favor en las respuestas y, tal vez, en las preguntas, pero no debería afectar a otras fuentes de reputación. La reputación inicial definitivamente debe restarse (pero quizás podría usarse como un proxy para una cantidad inicial de experiencia).

  • Factores ocultos. Puede haber muchos otros factores de confusión que son imposibles de medir. Por ejemplo, hay varias formas de "agotamiento" en la participación en foros. ¿Qué hacen las personas después de unas pocas semanas, meses o años iniciales de entusiasmo? Algunas posibilidades incluyen centrarse en las preguntas raras, inusuales o difíciles; proporcionar respuestas solo a preguntas sin respuesta; proporcionando menos respuestas pero de mayor calidad; etc. Algunos de estos podrían enmascarar un efecto de reputación, mientras que otros podrían confundirse erróneamente con uno. Un proxy para tales factores podrían ser los cambios en las tasas de participación de un individuo : podrían indicar cambios en la naturaleza de las publicaciones de esa persona.

  • Fenómenos subcomunitarios. Un análisis exhaustivo de las estadísticas, incluso en páginas SE muy activas, muestra que un número relativamente pequeño de personas responde y vota. Una camarilla tan pequeña como dos o tres personas puede tener una profunda influencia en el crecimiento de la reputación. Los monitores integrados del sitio detectarán una camarilla de dos personas (y existe uno de esos grupos en este sitio), pero las camarillas más grandes probablemente no lo serán. (No estoy hablando de una colusión formal: las personas pueden ser miembros de tales camarillas sin siquiera ser conscientes de ello). ¿Cómo separaríamos un efecto aparente de reputación de las actividades de estas camarillas invisibles, no detectadas e informales? Los datos detallados de la votación podrían usarse para el diagnóstico, pero no creo que tengamos acceso a estos datos.

  • Datos limitados Para detectar un efecto de reputación, es probable que deba concentrarse en personas con docenas o cientos de publicaciones (al menos). Eso reduce la población actual a menos de 50 individuos. Con toda la posibilidad de variación y confusión, eso es demasiado pequeño para detectar efectos significativos a menos que sean muy fuertes. La cura es aumentar el conjunto de datos con registros de otros sitios de SE .

Dadas todas estas complicaciones, debe quedar claro que los gráficos exploratorios en el artículo del blog tienen pocas posibilidades de revelar algo a menos que sea evidentemente obvio. Nada nos sorprende: como era de esperar, los datos son confusos y complicados. Es prematuro recomendar mejoras en las parcelas o en el análisis que se ha presentado: los cambios incrementales y el análisis adicional no ayudarán hasta que se aborden estos problemas fundamentales .

whuber
fuente
Gracias por la respuesta. Dada la amplitud de la crítica, no podré abordar adecuadamente todas las sugerencias en los comentarios (tendré que pensar en otro lugar, tal vez solo publique otro documento de Google). Pero ahora diré que no creo que sea imposible responder (en la medida en que cualquiera pueda responder cualquier cosa con datos de observación como este). Como mínimo, dadas las limitaciones de posibles confusiones, uno puede ver si los efectos de reputación son consistentes con la evidencia disponible.
Andy W
@ Andy, creo que la confusión es sustancial y generalizada, por lo que incluso si parece que existe un efecto de reputación, podría ser un artefacto: no podrás sacar ninguna conclusión válida a menos que hayas abordado estos problemas. Por supuesto que podría estar equivocado, pero la carga de la prueba recae sobre usted.
whuber
el "si parece que hay un efecto de reputación está ahí" es la declaración clave (como yo lo veo). La mayoría de las confusiones que presentó se relacionarían ambiguamente con la reputación / número de publicación / historial de los pósters o, en teoría, se esperaría que aumentaran la puntuación de los pósters en las respuestas más adelante en su historia. Si no encuentro evidencia de efectos de reputación, muchos de los posibles factores de confusión no pueden usarse para explicar su ausencia.
Andy W
@Andy Pero al menos uno puede, y eso es suficiente. Estos incluyen factores ocultos, popularidad del sujeto y cambios temporales en el contexto. Si no maneja explícitamente todo esto en el análisis, sus conclusiones serán sospechosas. Un vistazo a los registros muestra que la popularidad de los sujetos y los cambios temporales son enormes; sus influencias potenciales inundan lo que razonablemente podríamos esperar que los efectos de reputación sean de hasta un orden de magnitud.
whuber
2
@cardinal, incluso sin una definición formal, sería posible que un pequeño número de personas tenga un impacto apreciable en los patrones de votación (que es a lo que supongo que se refiere Whuber en este contexto). La publicación promedio de Jon Skeet fue de solo 5 votos positivos. Si, de repente, una persona decide votar todas sus respuestas, eso podría tener un impacto bastante considerable dado el bajo puntaje promedio para comenzar.
Andy W
5

Los econométricos han examinado problemas similares en el marco de la causalidad de Granger . Si tienes dos series,YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2 es cómo su reputación precede a su palabra (siempre que se cumplan los supuestos del modelo, etc.)

En el punto 1: si estaba haciendo efectos fijos a mano, debería haber centrado tanto la variable de respuesta como las variables explicativas. El paquete de regresión de datos del panel hubiera hecho esto por usted, pero la forma econométrica oficial de ver las cosas es restar la regresión "entre" de la regresión "agrupada" (vea el libro negro de Wooldridge ; no he revisado la segunda edición, pero generalmente veo la primera edición como la mejor descripción de tipo de libro de texto de datos econométricos de panel).

En su punto 2: por supuesto, los errores estándar de Eicker / White no afectarán sus estimaciones de puntos; si lo hicieran, eso indicaría una implementación incorrecta. En el contexto de series temporales, un estimador aún más apropiado se debe a Newey y West (1987) . Intentar transformaciones podría ayudar. Personalmente soy un gran admirador de la transformación de Box-Cox, pero en el contexto del análisis que está realizando, es difícil hacerlo de manera limpia. Primero, necesitaría un parámetro de cambio encima del parámetro de forma, y ​​los parámetros de cambio son notoriamente difíciles de identificar en modelos como este. En segundo lugar, probablemente necesitaría diferentes parámetros de cambio / forma para diferentes personas, y / o diferentes publicaciones, y / o ... (todo el infierno se desata). Los datos de recuento también son una opción, pero en el contexto del modelado medio, una regresión de Poisson es tan buena como la transformación logarítmica, pero impone un supuesto difícil de varianza = media.

PD: Probablemente podría etiquetar esto con "datos longitudinales" y "series de tiempo".

StasK
fuente
Gracias por la respuesta, y algunos comentarios / preguntas. Estoy de acuerdo en que al menos debería haber explorado un enfoque de series de tiempo más explícito en estos datos (ni siquiera verifiqué si había alguna evidencia de autocorrelación en los residuos). Sin embargo, hay algunas complicaciones más en el modelado de series de tiempo de estos datos (¿qué es t? es una función de!
Andy W
También dudo mucho que el puntaje no sea estacionario, ¿qué te hace pensar que es?
Andy W
Por lo menos, probablemente sea heteroscedastic: algunas publicaciones son interesantes, reciben muchos éxitos y muchos votos positivos, mientras que otras son pequeñas aclaraciones o preguntas / respuestas tipo RTFM- "Lea este enlace". Eso por sí mismo técnicamente lo haría no estacionario. Por supuesto, la estacionariedad es una suposición comprobable, pero con datos locos como estos, es probable que desee estar muy seguro de ser demasiado conservador en los métodos de análisis (o, como mencioné, tener en cuenta que los resultados pueden ser extraño).
StasK
Estoy un poco confundido por el último comentario. ¿Cómo los factores exógenos que afectan el puntaje de una respuesta hacen que la serie sea heterocedastica (supongo que quiere decir que la varianza del puntaje se hace más grande / más pequeña con el número de publicación), y de qué relevancia es esto para la pregunta en cuestión?
Andy W
Una serie de tiempo es estacionaria si las distribuciones marginales en todos los puntos de tiempo son las mismas. Entonces, incluso podría tener la misma media, una variación cambiante hará que la serie no sea estacionaria. Un ejemplo son los modelos (G) ARCH por los cuales se otorgó un premio Nobel a principios de la década de 2000. Pero en estos datos, también esperaría algunos cambios en la media. Si la audiencia del sitio web crece, entonces, para una calidad dada de respuesta, es probable que vea más votos, lo que probablemente aumentará tanto la media como la varianza de los puntajes.
StasK
3

Varios otros cambios en las parcelas:

  1. Bandas cuantiles para el puntaje de respuesta versus reputación previa. (Parcelas 1 y 3)
  2. Gráficos de densidad para Skeet versus otros, estratificados por número de publicación (Gráfico 3)
  3. Considere la posibilidad de estratificar por # de publicaciones competidoras
  4. Estratifique por tiempo (uno puede continuar ganando puntos mucho después de que se haya formulado la pregunta)

Modelar esto será más difícil. Puede considerar la regresión de Poisson. Francamente, sin embargo, desarrollar buenas tramas es un método mucho mejor para desarrollar ideas y habilidades. Comience a modelar después de comprender mejor los datos.

Iterador
fuente
(+1) Después de dejar que la publicación se asiente por un tiempo, me di cuenta de que visualizar la densidad de los puntos parece ser una solución mucho mejor que tratar de visualizar los puntos en sí (aunque no estoy muy seguro de lo que quieres decir con "estratificar por el cargo #"). También creo que trazar los cuantiles estimados suena como una buena idea, aunque para los gráficos 1 y 2 probablemente solo estará en la nube masiva. Una vez más, tampoco sé qué significa "estratificar por tiempo" en este contexto, vea el comentario de Brad Larson en la publicación del blog y mi respuesta al respecto.
Andy W
También dudo mucho que las publicaciones en competencia tengan algo que ver con las relaciones observadas. ¿Crees que las personas que tienen una alta reputación publicaron en hilos con respuestas más competitivas anteriormente en su historia? Sus sugerencias sobre la inclusión de otras covariables parecen estar en conflicto con la sugerencia de evitar el modelado y centrarse en las parcelas.
Andy W
La idea detrás de los puestos de la competencia es de naturaleza exploratoria. La motivación para responder no tiene nada que ver con eso. Con respecto al modelado, no es que esté en contra del modelado per se, sino que aún no esté listo para hacerlo hasta que comprenda mejor los datos. Si no comprende los datos, no comprenderá los modelos.
Iterator
Al estratificar por publicación #, sugiero que agrupe las publicaciones. Puede estar en una escala de intervalo, como 0-100 publicaciones, 101-200, etc. O en una escala cuantil: divida a los usuarios entre los que están en el 10% inferior del total de publicaciones, 20%, etc. Debido a Skeet tiene tantas publicaciones, es mejor compararlo con su grupo de pares, pero es difícil compararlo con un grupo de pares con exactamente el mismo número de publicaciones; agrupar los datos puede ayudar.
Iterator
Por cierto, para la estratificación, puedes usar coplot().
Iterator
1

Whoa allí (Y lo digo en el buen sentido ;-)) Antes de continuar con los modelos, debe abordar lo que está sucediendo con los datos.

No veo una explicación para la curva muy peculiar en el medio de este gráfico: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Ver esa curva me hace pensar que hay algo muy extraño en esos puntos: que no son independientes entre sí y que reflejan una secuencia de observaciones de la misma fuente.

(Nota menor: titular ese argumento "Correlación ..." es engañoso).

Iterador
fuente
55
23
Esa curva puede explicarse por la naturaleza de cómo se relaciona la reputación con los votos a favor, y es probable que las personas que hayan publicado una respuesta y hayan ganado toda la reputación de esa única respuesta (puedo entrar en más detalles sobre por qué es probable que ese sea el caso si es necesario) . Si hubiera trazado la reputación actual menos la reputación de la publicación más reciente, esto se habría ocupado de eso en su mayor parte (también esas observaciones no tienen nada que ver con el análisis posterior). ¿Le gustaría dar más detalles sobre la correlación que es engañosa?
Andy W
@whuber, no creo que diría que algo por debajo de 10 ^ 3 es solo ruido. Seguramente, una teoría de los efectos de reputación debería ser aplicable cuando la reputación está ausente. También agradezco cualquier mejora sugerida a las parcelas (¡no hay mucha información en ninguna de las parcelas!)
Andy W
Gracias. Para el título, no hay cálculo de la correlación. Es solo un diagrama de dispersión de puntaje marginal versus reputación. Excepto, como usted y @whuber mencionan, no es realmente la puntuación marginal: debería ser deltaRep (o Rep (t) - Rep (t-1)) versus Rep (t-1).
Iterator
1
@Iterator, correcto para la última declaración (10 puntos por voto a favor), pero aún parece que puede confundirse lo que estoy tramando con la otra declaración. El eje Y no es reputación, pero es el número de votos a favor para la publicación más reciente (esto no es necesariamente Rep(t) - Rep(t-1)porque los usuarios pueden ganar reputación en otros lugares), el eje X es la reputación actual (incluida la reputación obtenida de esa publicación). El eje X es lo que sugerí que debería reemplazarse (restando los votos positivos obtenidos de la respuesta en cuestión que tracé en el eje Y).
Andy W