Espero que esto no sea demasiado básico o redundante. He estado buscando orientación, pero hasta ahora todavía no estoy seguro de cómo proceder.
Mis datos consisten en conteos de una estructura particular utilizada en conversaciones entre pares de interlocutores. La hipótesis que quiero probar es la siguiente: el uso más frecuente de esta estructura por parte de un hablante tenderá a aumentar la frecuencia de la estructura por parte del otro hablante (es decir, esto podría ser evidencia de un efecto de cebado).
Así que solo tengo dos vectores, los recuentos para el hablante A y los recuentos para el hablante B son las columnas, y si están alineados cada fila representa una conversación particular, como esta:
AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1
Hay alrededor de 420 conversaciones (filas). Hay muchos ceros en estos datos.
¿Cuál sería la mejor manera de analizar estos datos? Estoy usando R, si eso hace la diferencia.
Aquí hay una gráfica de las frecuencias (conteos). El eje x es el número de usos del hablante A, el número de usos del eje y por el hablante B. La distinción entre hablantes significa solo que el hablante A habló primero, y no hay ninguna razón especial por la que lo hicieron. De lo contrario, la distinción entre el hablante A y el hablante B básicamente no tiene sentido:
XHTML válido http://phonematic.com/convplot.jpg
Y esta es la frecuencia relativa al número de oraciones pronunciadas por cada hablante en cada conversación. :
XHTML válido http://phonematic.com/rs_plot.jpg
(Debo mencionar que he descartado conversaciones sin ningún resultado, es decir, {0,0}).
fuente
Respuestas:
Los modelos lineales logarítmicos podrían ser otra opción a considerar, si desea estudiar su estructura de datos bidireccional.
Si supone que las dos muestras coinciden (es decir, existe algún tipo de dependencia entre las dos series de locuciones) y tiene en cuenta que los datos son en realidad recuentos que pueden considerarse como puntuaciones o respuestas ordenadas (como sugiere @caracal ), también puede observar modelos marginales para pares coincidentes, que generalmente implican el análisis de una tabla de contingencia cuadrada. Puede que no sea necesariamente el caso que termine con una tabla tan cuadrada, pero también podemos decidir un límite superior para el número de, por ejemplo, oraciones pasivas. De todos modos, los modelos para pares coincidentes se explican bien en el Capítulo 10 de Agresti, Análisis de datos categóricos ; los modelos relevantes para categorías ordinales en tablas cuadradas están probando cuasi-simetría(la diferencia en el efecto de una categoría de un caso a otro sigue una tendencia lineal en los puntajes de la categoría), simetría condicional ( o , ) y asociación cuasi uniforme ( asociación lineal por lineal fuera de la diagonal principal, que en el caso de puntajes de intervalos iguales significa una asociación local uniforme). La cuasi-simetría ordinal (OQS) es un caso especial del modelo logit lineal, y se puede comparar con un modelo más simple donde solo la homogeneidad marginal se mantiene con una prueba LR, porque la cuasi-simetría ordinal + homogeneidad marginal simetría.πab<πab πab>πab ∀a,b =
Siguiendo la notación de Agresti (p. 429), consideramos puntuaciones ordenadas para la variable (en filas) y la variable (en columnas); o denota cualquier fila o columna. El modelo OQS se lee como el siguiente modelo log-lineal:u1≤⋯≤uI X Y a b
donde para todos . En comparación con el modelo QS habitual para datos nominales que es , donde significaría independencia entre las dos variables , en el modelo OQS imponemos (introduciendo así la idea de una tendencia lineal). La representación de logit equivalente es , para .λab=λba a<b logμab=λ+λXa+λYb+λab λab=0 λYb−λXb=βub log(πab/πba)=β(ub−ua) a≤b
Si , entonces tenemos simetría como un caso especial de este modelo. Si , entonces tenemos márgenes estocásticamente ordenados, es decir, significa que la media de la columna es mayor en comparación con la media de la fila (y cuanto mayor es , mayores son las diferencias entre las dos distribuciones de probabilidades conjuntas y son, lo que se reflejará en las diferencias entre las distribuciones marginales de fila y columna). Una prueba de corresponde a una prueba de homogeneidad marginal. La interpretación de la estimada es sencilla: la probabilidad estimada de que la puntuación en la variable seaβ ≠ 0 β > 0 | β | π un b π b una β = 0 β X x Y exp ( β x ) ββ=0 β≠0 β>0 |β| πab πba β=0 β X x unidades más positivas que la puntuación en es multiplicado por la probabilidad inversa. En su caso particular, significa que podría permitir cuantificar la influencia que un hablante en particular ejerce sobre el otro.Y exp(β^x) β^
Cabe destacar que Laura Thompson puso a disposición todo el código R en su Manual S para Acompañar el Análisis de Datos Categóricos de Agresti .
En lo sucesivo, proporciono un código R de ejemplo para que pueda jugar con sus propios datos. Entonces, intentemos generar algunos datos primero:
Visualmente, la clasificación cruzada se ve así:
Ahora, podemos adaptarnos al modelo OQS. A diferencia de Laura Thompson, que utilizó laβ
glm()
función base y una matriz de diseño personalizado para la simetría, podemos confiar en el paquete gnm ; sin embargo, necesitamos agregar un vector para puntajes numéricos para estimar en el modelo anterior.Recientemente me encontré con el paquete catspec R que parece ofrecer instalaciones similares, pero no lo probé. ¡Hubo un buen tutorial en UseR! 2009 sobre todo esto: Introducción a los modelos no lineales generalizados en R , pero vea también la viñeta de acompañamiento, Modelos no lineales generalizados en R: una descripción general del paquete gnm .
fuente
Parece que ha ordenado datos categóricos, por lo tanto, sugiero una prueba lineal por lineal según lo descrito por Agresti (2007, p229 y siguientes). La función
lbl_test()
del paquete locoin
implementa en R.Agresti, A. (2007). Introducción al análisis de datos categóricos. 2da ed. Hoboken, Nueva Jersey: John Wiley & Sons. Hoboken, Nueva Jersey: Wiley.
fuente
Quizás comenzaría con un análisis de correlación de rango .
El problema es que puede tener correlaciones muy bajas ya que los efectos que intenta capturar son pequeños.
Los coeficientes de correlación de Kendall y Spearman se implementan en R en
fuente