Mejores prácticas al tratar los datos de rango como continuos

9

Estoy mirando si la abundancia está relacionada con el tamaño. El tamaño es (por supuesto) continuo, sin embargo, la abundancia se registra en una escala tal que

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

A a Q ... 17 niveles. Estaba pensando que un enfoque posible sería asignar a cada letra un número: el mínimo, el máximo o la mediana (es decir, A = 5, B = 18, C = 38, D = 75.5 ...).

¿Cuáles son las posibles dificultades, y como tal, sería mejor tratar estos datos como categóricos?

He leído esta pregunta que proporciona algunas ideas, pero una de las claves de este conjunto de datos es que las categorías no son uniformes, por lo que tratarla como categórica supondría que la diferencia entre A y B es la misma que la diferencia entre B y C ... (que puede rectificarse utilizando el logaritmo, gracias Anonymouse)

En última instancia, me gustaría ver si el tamaño puede usarse como un predictor de abundancia después de tener en cuenta otros factores ambientales. La predicción también estará en un rango: dado el tamaño X y los factores A, B y C, predecimos que la abundancia Y caerá entre Min y Max (que supongo que podría abarcar uno o más puntos de escala: más de Min D y menos de Max F ... aunque cuanto más preciso, mejor).

Árboles4el bosque
fuente

Respuestas:

13

Solución categórica

Tratar los valores como categóricos pierde la información crucial sobre los tamaños relativos . Un método estándar para superar esto es la regresión logística ordenada . En efecto, este método "sabe" que y, al usar relaciones observadas con regresores (como el tamaño), se ajustan valores (algo arbitrarios) a cada categoría que respeta el orden.A<B<<J<

Como ilustración, considere 30 pares (tamaño, categoría de abundancia) generados como

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

con abundancia categorizada en intervalos [0,10], [11,25], ..., [10001,25000].

Diagrama de dispersión de la categoría de abundancia vs tamaño

La regresión logística ordenada produce una distribución de probabilidad para cada categoría; La distribución depende del tamaño. A partir de dicha información detallada, puede generar valores estimados e intervalos a su alrededor. Aquí hay una gráfica de los 10 PDF estimados a partir de estos datos (no fue posible realizar una estimación para la categoría 10 debido a la falta de datos allí):

Densidades de probabilidad por categoría

Solución continua

¿Por qué no seleccionar un valor numérico para representar cada categoría y ver la incertidumbre sobre la verdadera abundancia dentro de la categoría como parte del término de error?

Podemos analizar esto como una aproximación discreta a una reexpresión idealizada que convierte los valores de abundancia en otros valores para los cuales los errores de observación son, en una buena aproximación, simétricamente distribuidos y de aproximadamente el mismo tamaño esperado independientemente de (una transformación estabilizadora de la varianza).a f ( a ) afaf(a)a

Para simplificar el análisis, supongamos que se han elegido las categorías (basadas en la teoría o la experiencia) para lograr tal transformación. Podemos suponer entonces que re-expresa los puntos de corte de la categoría como sus índices . La propuesta equivale a seleccionar algún valor "característico" dentro de cada categoría y usar como el valor numérico de la abundancia cuando se observa que la abundancia se encuentra entre y . Esto sería un proxy para el valor correctamente .α i i β i i f ( β i ) α i α i + 1 f ( a )fαiiβiif(βi)αiαi+1f(a)

Supongamos, entonces, que la abundancia se observa con error , de modo que el dato hipotético es en realidad lugar de . El error cometido al codificar esto como es, por definición, la diferencia , que podemos expresar como una diferencia de dos términosa + ε a f ( β i ) f ( β i ) - f ( a )εa+εaf(βi)f(βi)f(a)

error=f(a+ε)f(a)(f(a+ε)f(βi)).

El primer término, , está controlado por (no podemos hacer nada sobre ) y aparecería si no categorizáramos las abundancias. El segundo término es aleatorio, depende de y evidentemente está correlacionado con . Pero podemos decir algo al respecto: debe estar entre e . Además, si está haciendo un buen trabajo, el segundo término podría distribuirse aproximadamente de manera uniforme . Ambas consideraciones sugieren elegir para quef(a+ε)f(a)fεεεif(βi)<0i+1f(βi)0fβif(βi)se encuentra a medio camino entre e ; es decir, .ii+1βif1(i+1/2)

Estas categorías en esta pregunta forman una progresión aproximadamente geométrica, lo que indica que es una versión ligeramente distorsionada de un logaritmo. Por lo tanto, deberíamos considerar usar las medias geométricas de los puntos finales del intervalo para representar los datos de abundancia .f

La regresión de mínimos cuadrados ordinarios (MCO) con este procedimiento da una pendiente de 7,70 (error estándar es 1,00) y una intersección de 0,70 (error estándar es 0,58), en lugar de una pendiente de 8,19 (se de 0,97) y una intersección de 0,69 (se de 0.56) cuando se regresa la abundancia de troncos contra el tamaño. Ambos exhiben regresión a la media, porque la pendiente teórica debe estar cerca de . El método categórico exhibe un poco más de regresión a la media (una pendiente menor) debido al error de discretización agregado, como se esperaba.4log(10)9.21

Resultados de regresión

Este gráfico muestra las abundancias no categorizadas junto con un ajuste basado en las abundancias categorizadas (utilizando medios geométricos de los puntos finales de la categoría como se recomienda) y un ajuste basado en las abundancias mismas. Los ajustes son notablemente cercanos, lo que indica que este método de reemplazar categorías por valores numéricos elegidos adecuadamente funciona bien en el ejemplo .

Por lo general, se necesita cierta atención al elegir un "punto medio" para las dos categorías extremas, porque a menudo no está acotado allí. (Para este ejemplo, considero que el punto final izquierdo de la primera categoría es lugar de y el punto final derecho de la última categoría es ). Una solución es resolver el problema primero usando datos que no estén en ninguna de las categorías extremas , luego use el ajuste para estimar los valores apropiados para esas categorías extremas, luego regrese y ajuste todos los datos. Los valores p serán un poco demasiado buenos, pero en general el ajuste debe ser más preciso y menos sesgado. f 1 0 25000βif1025000

whuber
fuente
+1 excelente respuesta! Me gusta especialmente cómo se describen 2 opciones diferentes junto con sus justificaciones. También deduzco que tomar el registro de la abundancia, no el tamaño, debe ser el énfasis, que también fue mi pensamiento. Una pregunta, en la parte 1, dice "puede producir valores estimados e intervalos a su alrededor". ¿Cómo se hace esto?
gung - Restablece a Monica
Buena pregunta, @gung. Una forma cruda, que puede ser efectiva, es tratar las categorías como datos con valores de intervalo y los resultados de logit ordenados están proporcionando una distribución (discreta) sobre esos intervalos para cualquier valor dado del 'tamaño'. El resultado es una distribución de valor de intervalo, que tendrá un valor de intervalo medio y límites de confianza de valor de intervalo.
whuber
3
@whuber, valdría la pena mencionar las opciones de software. Supongo que usaste Stata (si estoy entrenado lo suficientemente bien como para representar gráficas de Stata y distinguirlas de las gráficas R y SAS), donde está equipado este modelo ologit. En R, se puede hacer esto con polren el MASSpaquete.
StasK
1
Tienes razón, @Stask. Gracias por la referencia a la solución R. (Los gráficos son todos gráficos predeterminados en Stata 11; solo la leyenda y los estilos de línea en el último fueron personalizados porque la distinción rojo-verde podría no ser evidente para aproximadamente el 3% de todos los lectores.)
whuber
2
@StasK rms::lrmy el paquete ordinal ( clm) también son buenas opciones.
chl
2

Considere usar el logaritmo del tamaño.

HA SALIDO - Anony-Mousse
fuente
Ja - Esa respuesta provocó una palma de la cara parcial. Es cierto que se ocupa del problema de la escala, pero aún está a la mano: categorizar o no, y a qué número vincular el "valor". Si estas preguntas son irrelevantes, puedo manejar escuchar eso también.
Trees4theForest
1
Bueno, has estado poniendo varios problemas en uno. Los datos que tiene parecen tener más sentido en una escala logarítmica. Si desea hacer binning o no es una pregunta separada, y solo tengo otra respuesta cara a mano para usted: depende de sus datos y de lo que desea lograr. Luego hay otra pregunta oculta: ¿cómo calculo la diferencia entre intervalos, calculo la diferencia de sus medias? o la distancia mínima (entonces A a B sería 0, B a C sería 0, pero A a C no). etc.
HA SALIDO - Anony-Mousse
Buenos puntos, he actualizado mi pregunta con más información para abordar los objetivos. En cuanto a la diferencia en intervalos, creo que esa es mi pregunta: ¿cuáles serían las ventajas / desventajas relativas de calcular el intervalo en función de la diferencia de medias, distancia mínima, distancia máxima, distancia entre minutos, distancia entre máximos, etc. Cualquier consejo sobre qué tipo de cosas debo tener en cuenta para tomar esta decisión (o si es necesario considerarlo) sería genial.
Trees4theForest
Hay muchas opciones más. Por ejemplo, para eliminar todos los efectos de escala, puede intentar predecir la posición de clasificación. Aparte de eso, se trata de medir errores. Al tomar el logaritmo, generalmente también pondera los errores de esta manera. Entonces, cuando el valor verdadero es 10000 y el valor pronosticado es 10100, esto es mucho menor que cuando el valor predicho es 1 y el valor verdadero es 101. Además, al hacer binning y calcular la mentalista entre los contenedores, incluso pesaría poco errores con 0.
Tiene SALIDA - Anony-Mousse