Correlación entre datos continuos y datos de conteo

9

Supongamos que estamos tratando con este conjunto de datos donde es una variable continua (por ejemplo, Exponencial) y es una distribución discreta (por ejemplo, Poisson) para . Digamos que es la correlación entre y . ¿Cómo puede alguien definir ? (Xi,Ni)XiNii=1,...,nρXNρ

usuario9292
fuente
Es común hacer una selección de variables para modelar cuando algunas de las variables predictoras son datos de conteo y los datos de respuesta son continuos. No hay prohibición de comparar entre números reales y enteros. La forma de las distribuciones será un problema mayor. Deberá probar una serie de funciones de escalera de Tukey (también conocidas como series de potencia).
Chris
@ Chris Gracias por el comentario. No estoy tratando con la regresión aquí (aunque alguien puede argumentar que construir un GLM capturará la correlación). Me interesa saber si hay una medida de correlación (es decir, Pearson para datos continuos). g(Y)=βN
user9292
2
¿Por qué la correlación ordinaria de Pearson no sería una medida de correlación para este problema?
Glen_b -Reinstate Monica

Respuestas:

13

Yo diría que hay al menos 3 opciones decentes que tendrían sentido para usted:

  1. Polyserial Correlación - Esta sería la más exótica de las 3 opciones y consiste en una aproximación de una latente, variable continua utilizada para construir la variable discreta ( en su caso), así como un procedimiento de estimación de máxima verosimilitud para los más propensos que podría resultar entre esa variable continua latente y la real, , cuando se trata como muestras normales bivariadas (implementación de ejemplo en R: polycor ). Existen varias referencias a esta idea, pero esta es la publicación original sobre el tema de 1974: Estimación de la correlación entre una variable continua y una variable discreta .NiρXi
  2. Correlación no paramétrica : el coeficiente de correlación de rango de Spearman es probablemente una buena opción en este caso. El cálculo para Rho de Spearman funciona en base a los rangos de los valores de cada variable en lugar de los valores en sí, lo que lo hace más ampliamente aplicable en presencia de relaciones no lineales o tipos de datos mixtos.
  3. Modelado : sé que mencionó en los comentarios que no está tratando de hacer ningún tipo de modelado, pero aún creo que una estimación de parámetros o dos de una relación funcional y adecuada entre las dos variables es mucho más informativa que cualquier coeficiente de correlación que encontrará (a menos que la variable discreta se haya creado realmente a partir de la mitad de los valores de una distribución normal bivariada, lo cual dudaría).

Para responder su pregunta más directamente, calcular como de costumbre (suponiendo que se refiere al coeficiente de correlación producto-momento con eso) probablemente tendría las propiedades que esperaría, o al menos se haría más grande a medida que crezca la dependencia lineal entre las variables . Sin embargo, una prueba estadística de significancia de la correlación no sería válida ya que uno de los supuestos requeridos para dicha prueba es la normalidad bivariada y eso claramente no es cierto si una de las variables es discreta.ρ

Sin embargo, sería posible realizar pruebas de significación con un coeficiente de correlación no paramétrico (por ejemplo, Spearman) y sería fácil encontrar implementaciones bien documentadas de eso en cualquier idioma.

Eric checo
fuente