Regresión de errores en variables: ¿es válido agrupar datos de tres sitios?

15

Recientemente, un cliente vino a mí para hacer un análisis de arranque porque un revisor de la FDA dijo que su regresión de errores en variables no era válida porque al agrupar datos de sitios, el análisis incluía datos de tres sitios donde dos sitios incluían algunas muestras que estaban lo mismo.

ANTECEDENTES

El cliente tenía un nuevo método de ensayo que quería mostrar que era "equivalente" a un método aprobado existente. Su enfoque consistía en comparar los resultados de ambos métodos aplicados a las mismas muestras. Se usaron tres sitios para hacer la prueba. Se aplicaron errores en las variables (regresión de Deming) a los datos en cada sitio. La idea es que si la regresión mostró que el parámetro de pendiente está cerca de 1 y la intersección cerca de 0, esto demostraría que las dos técnicas de ensayo dieron casi los mismos resultados y, por lo tanto, el nuevo método debería ser aprobado. En el sitio 1 tenían 45 muestras que les daban 45 observaciones emparejadas. El sitio 2 tenía 40 muestras y el sitio 3, 43 muestras. Hicieron tres regresiones de Deming separadas (suponiendo una relación de 1 para los errores de medición para los dos métodos). Entonces el algoritmo minimizó la suma de las distancias perpendiculares al cuadrado.

En su presentación, el cliente señaló que algunas de las muestras utilizadas en los sitios 1 y 2 eran las mismas. En la revisión, el revisor de la FDA dijo que la regresión de Deming no era válida porque se usaron muestras comunes que causan "interferencia" que invalida los supuestos del modelo. Solicitaron que se aplicara un ajuste de arranque a los resultados de Deming para tener en cuenta esta interferencia.

En ese momento, dado que el cliente no sabía cómo hacer el bootstrap, me llevaron. El término interferencia era extraño y no estaba seguro de a qué se refería exactamente el crítico. Supuse que el punto realmente era que debido a que los datos agrupados tenían muestras comunes, habría correlación para las muestras comunes y, por lo tanto, los términos de error del modelo no serían todos independientes.

EL ANÁLISIS DEL CLIENTE

Las tres regresiones separadas fueron muy similares. Cada uno tenía parámetros de pendiente cercanos a 1 e intercepta cerca de 0. El intervalo de confianza del 95% contenía 1 y 0 para la pendiente e intercepción respectivamente en cada caso. La principal diferencia fue una varianza residual ligeramente mayor en el sitio 3. Además, compararon esto con los resultados de hacer OLS y encontraron que eran muy similares (en solo un caso el intervalo de confianza para la pendiente basado en OLS no contenía 1). En el caso donde el IC OLS para la pendiente no contenía 1, el límite superior del intervalo era algo así como 0.99.

Con los resultados tan similares en los tres sitios que agrupaban los datos del sitio, parecía razonable. El cliente realizó una regresión de Deming agrupada que también condujo a resultados similares. Dados estos resultados, escribí un informe para el cliente que disputaba la afirmación de que las regresiones no eran válidas. Mi argumento es que debido a que hay errores de medición similares en ambas variables, el cliente tenía razón al usar la regresión de Deming como una forma de mostrar acuerdo / desacuerdo. Las regresiones de sitios individuales no tuvieron problemas de errores correlacionados porque no se repitieron muestras dentro de un sitio dado. Agrupando datos para obtener intervalos de confianza más ajustados.

Esta dificultad podría remediarse simplemente agrupando los datos con las muestras comunes del sitio 1, por ejemplo, excluidas. Además, los tres modelos de sitio individuales no tienen el problema y son válidos. Esto me parece proporcionar una fuerte evidencia de acuerdo, incluso sin la agrupación. Además, las mediciones se tomaron independientemente en los sitios 1 y 2 para los sitios comunes. Entonces, creo que incluso el análisis agrupado que usa todos los datos es válido porque los errores de medición para una muestra en el sitio 1 no están correlacionados con los errores de medición en la muestra correspondiente en el sitio 2. Esto realmente equivale a repetir un punto en el diseño espacio que no debería ser un problema. No crea correlación / "interferencia".

En mi informe escribí que un análisis de arranque era innecesario porque no hay correlación para ajustar. Los tres modelos de sitio eran válidos (no era posible "interferencia" dentro de los sitios) y se podía realizar un análisis agrupado para eliminar las muestras comunes en el sitio 1 cuando se realizaba la agrupación. Tal análisis agrupado no podría tener un problema de interferencia. Un ajuste de arranque no sería necesario porque no hay sesgo para ajustar.

CONCLUSIÓN

El cliente estuvo de acuerdo con mi análisis, pero tenía miedo de llevarlo a la FDA. Quieren que haga el ajuste de arranque de todos modos.

MIS PREGUNTAS

A) ¿Está de acuerdo con (1) Mi análisis de los resultados del cliente y (2) mi argumento de que el bootstrap es innecesario.

B) Dado que tengo que arrancar la regresión de Deming, ¿hay algún procedimiento SAS o R que esté disponible para que yo haga la regresión de Deming en las muestras de arranque?

EDITAR: Dada la sugerencia de Bill Huber, planeo mirar los límites en la regresión de errores en variables por regresión tanto en y en x como en x en y. Ya sabemos que para una versión de OLS la respuesta es esencialmente la misma que los errores en variables cuando se supone que las dos variaciones de error son iguales. Si esto es cierto para la otra regresión, entonces creo que eso mostrará que la regresión de Deming da una solución adecuada. ¿Estás de acuerdo?

Para cumplir con la solicitud del cliente, necesito hacer el análisis de arranque solicitado que se definió vagamente. Éticamente creo que sería un error simplemente proporcionar el bootstrap porque realmente no resuelve el problema real del cliente, que es justificar su procedimiento de medición de ensayo. Por lo tanto, les daré ambos análisis y solicitaré al menos que le digan a la FDA que, además de hacer el arranque, hice una regresión inversa y limité las regresiones de Deming, lo que creo que es más apropiado. También creo que el análisis mostrará que su método es equivalente a la referencia y, por lo tanto, la regresión de Deming también es adecuada.

Planeo usar el programa R que @whuber sugirió en su respuesta para permitirme iniciar la regresión de Deming. No estoy muy familiarizado con R, pero creo que puedo hacerlo. Tengo R instalado junto con R Studio. ¿Eso lo hará lo suficientemente fácil para un novato como yo?

También tengo SAS y estoy más cómodo programando en SAS. Entonces, si alguien sabe una manera de hacer esto en SAS, agradecería saberlo.

Michael R. Chernick
fuente
2
No sé la respuesta a esta pregunta, pero, sobre una base puramente política, ¿no sería mejor hacer lo que la FDA quiere y demostrar (al menos, presumiblemente), que los resultados son similares? (Buena pregunta, por cierto, +1)
Peter Flom - Restablece a Monica
1
Sí @PeterFlom Estoy de acuerdo en que hacer el análisis para la FDA y mostrarlo no importa Pero creo que señalar diplomáticamente los resultados de las regresiones y sus implicaciones y hacer la agrupación sin las muestras superpuestas fortalece el argumento. Voy a hacer el arranque, pero podría usar la ayuda para encontrar el software disponible para hacer la regresión de Deming yo mismo sin codificarlo de forma independiente.
Michael R. Chernick
2
Michael, la posibilidad de "muestras" comunes a los "sitios" pone en tela de juicio algunas interpretaciones naturales de lo que podrían significar estos términos (abstractos). Por ejemplo, inicialmente pensé en los "sitios" como diferentes ubicaciones geográficas y las "muestras" como entidades separadas asociadas con esas ubicaciones, cada una sujeta a mediciones independientes. En este modelo es imposible que las muestras sean comunes a diferentes sitios. ¿Podría aclarar qué quiere decir con estos términos?
whuber
33
@whuber los sitios son diferentes ubicaciones. Las muestras son plasma citratado de individuos. Las pruebas de laboratorio se realizan en los diferentes sitios en diferentes momentos. Las comparaciones son para dos dispositivos de medición de ensayos que están destinados a realizar la misma función. En los sitios 1 y 2, algunas de las muestras se reutilizaron, pero los dispositivos funcionaron de forma independiente en el sitio 1 y en el sitio 2. Por eso digo que los errores de medición son realmente independientes a pesar de que se usan las mismas muestras (o porciones de las mismas muestras) .
Michael R. Chernick
1
a) Convino en que excluir la muestra duplicada del análisis agrupado elimina las preocupaciones sobre la falta de independencia. b) Muy pocos usuarios de SAS encontrarán que es "fácil" usar R para análisis de arranque que involucren métodos de regresión poco comunes. Los análisis de Bootstrap realmente requieren el modo de pensamiento de programación funcional, y ese no es un modo que SAS alienta.
DWin

Respuestas:

10

Este es un problema de calibración mutua: es decir, comparar cuantitativamente dos dispositivos de medición independientes.

Parece que hay dos problemas principales. El primero (que solo está implícito en la pregunta) es enmarcar el problema: ¿cómo debería uno determinar si un nuevo método es "equivalente" a uno aprobado? El segundo se refiere a cómo analizar datos en los que algunas muestras pueden haberse medido más de una vez.

Enmarcando la pregunta

La mejor (y quizás obvia) solución al problema enunciado es evaluar el nuevo método usando muestras con valores conocidos con precisión obtenidos de medios comparables (como el plasma humano). (Esto generalmente se hace añadiendo muestras reales con materiales estándar de concentración conocida). Debido a que esto no se ha hecho, supongamos que no es posible o no sería aceptable para los reguladores (por cualquier razón). Por lo tanto, nos vemos reducidos a comparar dos métodos de medición, uno de los cuales se está utilizando como referencia porque se cree que es preciso y reproducible (pero sin precisión perfecta).

En efecto, el cliente solicitará que la FDA permita el nuevo método como sustituto o sustituto del método aprobado. Como tal, su carga es demostrar que los resultados del nuevo método predecirán, con suficiente precisión, lo que el método aprobado habría determinado si se hubiera aplicado. El aspecto sutil de esto es que estamos no se trate de predecir los verdaderos valores en sí - que ni siquiera conocemos. Por lo tanto, la regresión de errores en variables podría no ser la forma más adecuada de analizar estos datos.

YXXYYXYX. (En mi experiencia, este enfoque tiende a ser estrictamente conservador: estos intervalos pueden ser sorprendentemente grandes a menos que ambas mediciones sean altamente precisas, precisas y estén relacionadas linealmente).

Abordar muestras duplicadas

Los conceptos relevantes aquí son de muestra de apoyo y componentes de varianza. El "soporte de muestra" se refiere a la parte física de un sujeto (un ser humano aquí) que se mide realmente. Después de tomar una parte del tema, generalmente debe dividirse en submuestras adecuadas para el proceso de medición. Podríamos estar preocupados por la posibilidad de variación entre submuestras. En una muestra líquida que está bien mezclada, esencialmente no hay variación en la cantidad subyacente (como la concentración de un químico) en toda la muestra, pero en las muestras de sólidos o semisólidos (que pueden incluir sangre), dicha variación puede ser sustancial. Teniendo en cuenta que los laboratorios a menudo solo necesitan microlitros de una solución para realizar una medición, debemos preocuparnos por la variación casi a escala microscópica. Esto puede ser importante.

La posibilidad de tal variación dentro deuna muestra física indica que la variación en los resultados de la medición debe dividirse en "componentes de varianza" separados. Un componente es la variación de la variación dentro de la muestra, y otros son contribuciones a la variación de cada paso independiente del proceso de medición posterior. (Estos pasos pueden incluir el acto físico de submuestreo, procesamiento químico y físico adicional de la muestra, como agregar estabilizadores o centrifugación, inyección de la muestra en el instrumento de medición, variaciones dentro del instrumento, variaciones entre instrumentos y otros variaciones debido a los cambios en quién opera el instrumento, posible contaminación ambiental en los laboratorios, y más. Espero que esto deje en claro que para hacer un muy buen trabajo al responder esta pregunta, El estadístico necesita una comprensión profunda de todo el proceso de muestreo y análisis. Todo lo que puedo hacer es proporcionar alguna orientación general).

Estas consideraciones se aplican a la pregunta en cuestión porque una "muestra" que se mide en dos "sitios" diferentes es realmente dos muestras físicas obtenidas de la misma persona y luego divididas entre laboratorios. La medición mediante el método aprobado utilizará una pieza de una muestra dividida y la medición simultánea mediante el nuevo método utilizará otra pieza de la muestra dividida. Al considerar los componentes de la varianza que implican estas divisiones, podemos resolver el problema principal de la pregunta. Ahora debería quedar claro que las diferencias entre estas mediciones emparejadas se deben atribuir a dos cosas: primero, las diferencias reales entre los procedimientos de medición, esto es lo que estamos tratando de evaluar, y segundo, las diferencias debidas a cualquier variación dentro detanto la muestra como la variación causada por los procesos físicos de extracción de las dos submuestras a medir. Si el razonamiento físico sobre la homogeneidad de la muestra y el proceso de submuestreo puede establecer que la segunda forma de variación es insignificante, entonces, de hecho, no hay "interferencia" como lo afirma el revisor. De lo contrario, estos componentes de la varianza pueden necesitar explícitamente ser modelados y estimados en el análisis de regresión inversa.

whuber
fuente
1
Gracias por un análisis muy agradable que sugiere la mejor manera de abordar este problema. Sin embargo, en mi situación particular, el cliente ha elegido el enfoque de regresión de Deming y no está buscando un método diferente. La inyección de la FDA a la regresión de Deming parece deberse solo a la interferencia y su sugerencia para solucionar el problema es algún tipo de corrección de arranque. Solo me trajeron porque no saben cómo hacer bootstrap. No tienen estadísticos involucrados y no presentaron un análisis estadístico de los resultados como di en mi informe.
Michael R. Chernick
2
Aprecio las limitaciones (y debería haber sido explícito al respecto). Sin embargo, en general, un buen marco para resolver preguntas como esta es tomar un modelo apropiado como punto de partida. Si intenta razonar su camino hacia una solución utilizando un enfoque inapropiado y un modelo no válido (para satisfacer a un cliente), solo agravará los errores y no podrá llegar a ninguna solución claramente defendible. Lo que podría considerar ahora es cómo la regresión de Deming varía de la regresión inversa, así como cómo la regresión de Deming podría adaptarse para acomodar componentes de varianza múltiple.
whuber
1
Es posible que esté motivado para demostrar que la regresión de Deming, como ya se aplica, es lo suficientemente cercana a lo que produciría un método más habitual o apropiado: tal demostración podría ser la mejor resolución posible en su situación.
whuber
En cambio, lo que hicieron fue simplemente describir el problema y cómo se recopilaron los datos y mostrar el resultado de la regresión de Deming. Si un estadístico hubiera estado involucrado, podría haber surgido menos problemas estadísticos sobre la regresión de Deming. Todo lo que puedo hacer por el clinet es proporcionar un caso para el análisis que se realizó (que incluyó una explicación de por qué la mayor parte de la regresión podría analizarse sin preocuparse por la interferencia del muestreo repetido de una fuente común) y proporcionar el arranque solicitado ajuste para la varianza residual en el modelo agrupado.
Michael R. Chernick
En este momento no puedo decirles que hagan una regresión inversa. Si se aprueba un método de medición, creo que se puede ver como referencia y la carga de la empresa es demostrar que el nuevo método hace esencialmente el mismo trabajo que la referencia. Para esto, creo que la regresión de Deming puede ser adecuada y al menos puede ser aceptable para la FDA. Probablemente lo hubiera sido si no surgiera el problema de las muestras repetidas. Ese problema no habría surgido si hubieran dejado una de las muestras repetidas cuando hicieron la agrupación.
Michael R. Chernick