Recientemente hice un análisis de los efectos de la reputación en los votos a favor (ver la publicación del blog ), y posteriormente tuve algunas preguntas sobre análisis y gráficos posiblemente más esclarecedores (o más apropiados).
Entonces, algunas preguntas (y siéntase libre de responder a cualquiera en particular e ignorar a los demás):
En su actual encarnación, no quise centrar el número de publicación. Creo que lo que esto hace es dar la falsa apariencia de una correlación negativa en el diagrama de dispersión, ya que hay más publicaciones hacia el extremo inferior del recuento de publicaciones (ves que esto no sucede en el panel Jon Skeet, solo en los usuarios mortales panel). ¿Es inapropiado no centrar la media del número de publicación (ya que me refiero a centrar la puntuación por puntuación media del usuario)?
Debería ser obvio a partir de los gráficos que la puntuación está muy sesgada (y el centrado medio no cambió eso). Al ajustar una línea de regresión, ajusté tanto los modelos lineales como los modelos que usan los errores de arena de Huber-White (que se encuentran
rlm
en el paquete MASS R ) y no hizo ninguna diferencia en las estimaciones de la pendiente. ¿Debería haber considerado una transformación de los datos en lugar de una regresión robusta? Tenga en cuenta que cualquier transformación debería tener en cuenta la posibilidad de 0 y puntuaciones negativas. ¿O debería haber usado algún otro tipo de modelo para los datos de conteo en lugar de OLS?Creo que los dos últimos gráficos, en general, podrían mejorarse (y también están relacionados con estrategias de modelado mejoradas). En mi opinión (cansada), sospecharía que si los efectos de reputación son reales, se darían cuenta bastante temprano en la historia de los pósters (supongo que si es cierto, estos podrían reconsiderarse ", dio algunas respuestas excelentes, así que ahora votaré a todos sus publica efectos "en lugar de" reputación por puntuación total "). ¿Cómo puedo crear un gráfico para demostrar si esto es cierto, teniendo en cuenta el trazado excesivo? Pensé que tal vez una buena manera de demostrar esto sería ajustar un modelo de la forma;
donde es el (igual que en los diagramas de dispersión actuales), X 1 es el , y Z 1 ⋯ Z k son variables ficticias que representan un rango arbitrario de números de publicación (por ejemplo, Z 1 es igual si el número de publicación es , Z 2 es igual si el número de publicación es etc.). β 0 y ϵ son el término de gran intercepción y error respectivamente. Entonces solo examinaría el γ estimadoscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
pendientes para determinar si los efectos de reputación aparecieron al principio de la historia de los carteles (o mostrarlos gráficamente). ¿Es este un enfoque razonable (y apropiado)?
Parece popular ajustar algún tipo de línea de suavizado no paramétrico a diagramas de dispersión como estos (como loess o splines), pero mi experimentación con splines no reveló nada esclarecedor (cualquier evidencia de efectos positivos al principio de la historia del póster fue leve y temperamental a la cantidad de splines que incluí). Dado que tengo la hipótesis de que los efectos ocurren desde el principio, ¿es mi enfoque de modelado más razonable que las splines?
También tenga en cuenta que aunque he dragado todos estos datos, todavía hay muchas otras comunidades para examinar (y algunas como superusuario y servidor predeterminado tienen muestras similares de gran tamaño para extraer), por lo que es bastante razonable sugerir en el futuro análisis que utilizo una muestra de reserva para examinar cualquier relación.
Respuestas:
Este es un intento valiente, pero solo con estos datos, será difícil o imposible responder a su pregunta de investigación sobre el "efecto de la reputación en los votos positivos". El problema radica en separar los efectos de otros fenómenos, que enumero junto con breves indicaciones de cómo podrían abordarse.
Efectos de aprendizaje . A medida que aumenta la reputación, aumenta la experiencia; A medida que aumenta la experiencia, esperaríamos que una persona publique mejores preguntas y respuestas; A medida que mejore su calidad, esperamos más votos por publicación. Posiblemente, una forma de manejar esto en un análisis sería identificar a las personas que están activas en más de un sitio de SE . En cualquier sitio dado, su reputación aumentaría más lentamente que la cantidad de su experiencia, proporcionando así un control para desgarrar la reputación y los efectos de aprendizaje.
Cambios temporales en contexto. Estos son innumerables, pero los obvios incluirían
Cambios en el número de votantes a lo largo del tiempo , incluida una tendencia al alza general, tendencias estacionales (a menudo asociadas con ciclos académicos) y valores atípicos (que surgen de publicidad externa, como enlaces a hilos específicos). Cualquier análisis debería tener esto en cuenta al evaluar las tendencias de reputación de cualquier individuo .
Cambios en las costumbres de una comunidad con el tiempo . Las comunidades y cómo interactúan, evolucionan y se desarrollan. Con el tiempo, pueden tender a votar con mayor o menor frecuencia. Cualquier análisis tendría que evaluar este efecto y factorizarlo .
El tiempo mismo A medida que pasa el tiempo, las publicaciones anteriores permanecen disponibles para búsquedas y continúan obteniendo votos. Así, caeteris paribus , los mensajes más antiguos deberían producir más votos que los más nuevos. (Este es un efecto fuerte : ¡algunas personas constantemente altas en las ligas de reputación mensual no han visitado este sitio durante todo el año!) Esto enmascararía o incluso invertiría cualquier efecto de reputación positivo real. Cualquier análisis debe tener en cuenta el tiempo que cada publicación ha estado presente en el sitio .
Asunto popularidad. Algunas etiquetas (p. Ej., R ) son mucho más populares que otras. Por lo tanto, los cambios en los tipos de preguntas que responde una persona pueden confundirse con cambios temporales, como un efecto de reputación. Por lo tanto, cualquier análisis debe tener en cuenta la naturaleza de las preguntas que se responden.
Vistas [agregadas como edición]. Las preguntas son vistas por diferentes números de personas por varias razones (filtros, enlaces, etc.). Es posible que el número de votos recibidos por las respuestas esté relacionado con el número de puntos de vista, aunque uno esperaría una proporción decreciente a medida que aumenta el número de puntos de vista. (Es una cuestión de cuántas personas realmente interesadas en la pregunta realmente la ven, no el número bruto. Mi propia experiencia, anecdótica, es que aproximadamente la mitad de los votos positivos que recibo en muchas preguntas vienen dentro de los primeros 5-15 puntos de vista, aunque eventualmente las preguntas se ven cientos de veces.) Por lo tanto, cualquier análisis debe tener en cuenta el número de puntos de vista, pero probablemente no de forma lineal.
Dificultades de medición. "Reputación" es la suma de votos recibidos para diferentes actividades: reputación inicial, respuestas, preguntas, aprobación de preguntas, edición de wikis de etiquetas, votación negativa y votación negativa (en orden descendente de valor). Debido a que estos componentes evalúan cosas diferentes, y no todos están bajo el control de los votantes de la comunidad, deben separarse para su análisis . Un "efecto de reputación" presumiblemente se asocia con votos a favor en las respuestas y, tal vez, en las preguntas, pero no debería afectar a otras fuentes de reputación. La reputación inicial definitivamente debe restarse (pero quizás podría usarse como un proxy para una cantidad inicial de experiencia).
Factores ocultos. Puede haber muchos otros factores de confusión que son imposibles de medir. Por ejemplo, hay varias formas de "agotamiento" en la participación en foros. ¿Qué hacen las personas después de unas pocas semanas, meses o años iniciales de entusiasmo? Algunas posibilidades incluyen centrarse en las preguntas raras, inusuales o difíciles; proporcionar respuestas solo a preguntas sin respuesta; proporcionando menos respuestas pero de mayor calidad; etc. Algunos de estos podrían enmascarar un efecto de reputación, mientras que otros podrían confundirse erróneamente con uno. Un proxy para tales factores podrían ser los cambios en las tasas de participación de un individuo : podrían indicar cambios en la naturaleza de las publicaciones de esa persona.
Fenómenos subcomunitarios. Un análisis exhaustivo de las estadísticas, incluso en páginas SE muy activas, muestra que un número relativamente pequeño de personas responde y vota. Una camarilla tan pequeña como dos o tres personas puede tener una profunda influencia en el crecimiento de la reputación. Los monitores integrados del sitio detectarán una camarilla de dos personas (y existe uno de esos grupos en este sitio), pero las camarillas más grandes probablemente no lo serán. (No estoy hablando de una colusión formal: las personas pueden ser miembros de tales camarillas sin siquiera ser conscientes de ello). ¿Cómo separaríamos un efecto aparente de reputación de las actividades de estas camarillas invisibles, no detectadas e informales? Los datos detallados de la votación podrían usarse para el diagnóstico, pero no creo que tengamos acceso a estos datos.
Datos limitados Para detectar un efecto de reputación, es probable que deba concentrarse en personas con docenas o cientos de publicaciones (al menos). Eso reduce la población actual a menos de 50 individuos. Con toda la posibilidad de variación y confusión, eso es demasiado pequeño para detectar efectos significativos a menos que sean muy fuertes. La cura es aumentar el conjunto de datos con registros de otros sitios de SE .
Dadas todas estas complicaciones, debe quedar claro que los gráficos exploratorios en el artículo del blog tienen pocas posibilidades de revelar algo a menos que sea evidentemente obvio. Nada nos sorprende: como era de esperar, los datos son confusos y complicados. Es prematuro recomendar mejoras en las parcelas o en el análisis que se ha presentado: los cambios incrementales y el análisis adicional no ayudarán hasta que se aborden estos problemas fundamentales .
fuente
Los econométricos han examinado problemas similares en el marco de la causalidad de Granger . Si tienes dos series,Yt Zt Yt=a0+a1Yt−1+a2Zt−1+ϵt Zt=b0+b1Yt−1+b2Zt−1+δt a2 Z Y Z Y t ΔYt=Yt−Yt−1 Yt F χ2 T−1 T−1/2 Yt Zt a0 a1 a2 es cómo su reputación precede a su palabra (siempre que se cumplan los supuestos del modelo, etc.)
En el punto 1: si estaba haciendo efectos fijos a mano, debería haber centrado tanto la variable de respuesta como las variables explicativas. El paquete de regresión de datos del panel hubiera hecho esto por usted, pero la forma econométrica oficial de ver las cosas es restar la regresión "entre" de la regresión "agrupada" (vea el libro negro de Wooldridge ; no he revisado la segunda edición, pero generalmente veo la primera edición como la mejor descripción de tipo de libro de texto de datos econométricos de panel).
En su punto 2: por supuesto, los errores estándar de Eicker / White no afectarán sus estimaciones de puntos; si lo hicieran, eso indicaría una implementación incorrecta. En el contexto de series temporales, un estimador aún más apropiado se debe a Newey y West (1987) . Intentar transformaciones podría ayudar. Personalmente soy un gran admirador de la transformación de Box-Cox, pero en el contexto del análisis que está realizando, es difícil hacerlo de manera limpia. Primero, necesitaría un parámetro de cambio encima del parámetro de forma, y los parámetros de cambio son notoriamente difíciles de identificar en modelos como este. En segundo lugar, probablemente necesitaría diferentes parámetros de cambio / forma para diferentes personas, y / o diferentes publicaciones, y / o ... (todo el infierno se desata). Los datos de recuento también son una opción, pero en el contexto del modelado medio, una regresión de Poisson es tan buena como la transformación logarítmica, pero impone un supuesto difícil de varianza = media.
PD: Probablemente podría etiquetar esto con "datos longitudinales" y "series de tiempo".
fuente
Varios otros cambios en las parcelas:
Modelar esto será más difícil. Puede considerar la regresión de Poisson. Francamente, sin embargo, desarrollar buenas tramas es un método mucho mejor para desarrollar ideas y habilidades. Comience a modelar después de comprender mejor los datos.
fuente
coplot()
.Whoa allí (Y lo digo en el buen sentido ;-)) Antes de continuar con los modelos, debe abordar lo que está sucediendo con los datos.
No veo una explicación para la curva muy peculiar en el medio de este gráfico: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Ver esa curva me hace pensar que hay algo muy extraño en esos puntos: que no son independientes entre sí y que reflejan una secuencia de observaciones de la misma fuente.
(Nota menor: titular ese argumento "Correlación ..." es engañoso).
fuente
Rep(t) - Rep(t-1)
porque los usuarios pueden ganar reputación en otros lugares), el eje X es la reputación actual (incluida la reputación obtenida de esa publicación). El eje X es lo que sugerí que debería reemplazarse (restando los votos positivos obtenidos de la respuesta en cuestión que tracé en el eje Y).