Interim analysis in clinical trials: a methodological guide

Muñoz N, Sergio R; Bangdiwala, Shrikant I

doi:10.4067/S0034-98872000000800014

Services on Demand

Journal

Article

Automatic translation

Indicators

Revista médica de Chile

Print version ISSN 0034-9887

Rev. méd. Chile vol.128 n.8 Santiago Aug. 2000

http://dx.doi.org/10.4067/S0034-98872000000800014

Análisis interino en ensayos clínicos:
una guía metodológica

Interim analysis in clinical trials: a
methodological guide

Sergio R Muñoz N, Shrikant I Bangdiwala

Interim analysis of data accumulated in clinical trials is one aspect of the monitoring of the study progress. It is usually done to assess whether there are significant differences in efficacy between the experimental and control treatment groups, in order to decide whether to stop or no the trial prematurely. Among many reasons for early interruption of a trial is the ethical consideration that subjects should not be exposed to an unsafe, inferior or ineffective treatment. Statistical methods suited for doing interim analysis, that allow to control the probability of incorrectly rejecting the null hypothesis of no treatment differences, are often not well understood by researchers. In this article we present an intuitive, non-mathematical explanation and review of the statistical methods for doing interim analysis in clinical trials along with an illustrative example of the application of the methods on a hypothetical dataset (Rev Méd Chile 2000; 128: 935-41).
(Key-words: Clinical protocols; Research design; Statistics & numerical data.

Recibido el 27 de enero, 2000. Aceptado el 23 de marzo, 2000.
Financiado en parte por grants #1980373 y 7980063 de Fondo Nacional de Ciencias y Tec-
nología (FONDECYT) de Chile.
Facultad de Medicina, Universidad de la Frontera, Temuco, Chile.
Departament of Biostatistics, University of North Carolina at Chapel Hill, USA.

Este artículo presenta la metodología y los aspectos relacionados al término anticipado de ensayos clínicos dentro del contexto de la visión de un investigador clínico. El objetivo principal de este artículo es pedagógico y su intención es ayudar al investigador clínico a entender los principios estadísticos de monitorización y los aspectos que afectan la interpretación de los resultados de un ensayo clínico.

Un ensayo clínico es un estudio experimental diseñado para evaluar la eficacia de un tratamiento en seres humanos a través de la comparación de los resultados en un grupo de pacientes sometidos a un tratamiento experimental con otro grupo de pacientes que reciben un tratamiento de control. En general, el diseño de un ensayo clínico considera aspectos éticos que se relacionan con el paciente, y por lo tanto involucra análisis interinos previos al término de la recolección total de los datos definido para el estudio. El análisis interino realizado sobre los datos acumulados a un tiempo dado, se realiza con el fin de determinar la existencia de diferencias significativas entre los tratamientos en comparación de modo de determinar la posibilidad de detener el estudio en forma anticipada¹.

Razones para una detención anticipada de un ensayo clínico. Entre las múltiples razones para realizar el análisis de datos interino, se encuentra la posible evidencia de encontrar diferencias de eficacia entre los tratamientos en etapas tempranas de la conducción del estudio, como a la vez la consideración ética de que los pacientes no deberían estar expuestos a un tratamiento que sea inseguro, inferior o inefectivo².

Las razones para un término anticipado de un ensayo clínico pueden agruparse en las siguientes categorías: (i) consideraciones relacionadas a la conducción general del estudio; (ii) consideraciones relacionadas a la respuesta clínica que se acumula durante el estudio; y (iii) información externa al estudio (Tabla 1).

La consideración primaria es que los pacientes que participan de un estudio de esta naturaleza, confían en que el estudio no se continuaría una vez que se encuentren evidencias razonables de toxicidad inaceptable, o si la diferencia entre la eficacia de los tratamientos se ha establecido más allá de la debida a variaciones producto del azar, o si se evidencia un final del estudio sin conclusiones concluyentes claras. Un estudio mal conducido debido a un pobre reclutamiento de pacientes, mala asignación de pacientes, problemas de seguimiento, de enmascaramiento, de adhesión a los tratamientos, o de manejo de datos, hace que muy probablemente se produzca un sesgo en la comparación hacia el efecto nulo y de este modo resulte un estudio con una potencia estadística sub-valorada. Generalmente, este tipo de consideraciones se evalúan durante la etapa de diseño del estudio, pero también deben ser contrastadas durante la ejecución del mismo. Se consideran factores externos a aquellos que están más allá del control de los investigadores, pero estos entran en las deliberaciones del llamado Comité de Monitorización de Datos y de Seguridad (Data and Safety Monitoring Board). Los aspectos relacionados a la respuesta a los tratamientos son los que reciben consideración estadística y corresponden a los que se presentan en este trabajo.

Implicaciones del término anticipado de un ensayo clínico. El término anticipado de un ensayo clínico (antes del término programado) tiene implicaciones tanto de tipo estadístico, como en la diseminación de sus resultados. Entre las implicaciones estadísticas, tenemos el hecho potencial de que las diferencias entre los tratamientos sean pequeñas, y de este modo los valores p de las pruebas de significación estadística, las estimaciones puntuales y por intervalos de confianza deben ser ajustados^3-5 debido a estos análisis llamados interinos. Una detención anticipada de un estudio aumenta la variabilidad de la estimación debido al menor número de eventos observados, haciendo poco probable el estudio de efectos a largo plazo. El término de un estudio involucra decisiones complejas que van desde la detención del reclutamiento de los pacientes, de la asignación de intervención a pacientes ya aleatorizados a alguna de las ramas del estudio, hasta la detención completa del estudio. Esto lleva también dificultades en la decisión de cómo, cuándo y a quién diseminar los resultados; los procedimientos normales de término especificados en el protocolo deben ser acelerados, y si no se hacen del modo adecuado, puede afectar la credibilidad de los resultados del estudio a los ojos de la comunidad científica y de los participantes del estudio, quienes obviamente aceptaron participar en él.

Término anticipado y el papel del comité de monitorización de datos. Las consideraciones de tipo estadístico corresponden a una de las muchas involucradas en el proceso de decidir por una potencial detención anticipada de un ensayo clínico. La monitorización del progreso de un estudio descansa en las manos del llamado comité externo de monitorización de datos. Este comité está generalmente compuesto por médicos clínicos, epidemiólogos, bioestadísticos, eticistas y otros profesionales de afines, se reúne periódicamente durante la conducción del estudio, y son responsables tanto por la seguridad de los pacientes, como de las recomendaciones acerca del potencial término anticipado del estudio⁶.

Diseños estadísticos. La mayoría de los estudios epidemiológicos requieren de un diseño estadístico que contempla un tamaño de muestra fijo, el cual se calcula de modo que el estudio tenga potencia estadística suficiente como para detectar diferencias que se han determinado como clínicamente significativas. Sin embargo, este tipo de diseño no es adecuado para ensayos clínicos debido esencialmente a problemas de tipo ético. Se considera no ético esperar hasta el término de un estudio cuando se observan reacciones adversas que ameritan una detención anticipada del estudio.

Una alternativa a los diseños con tamaño de muestra fijo, son los llamados diseños secuenciales, en los cuales no se especifica de antemano el número total de pacientes a estudiar. En este tipo de diseño se recluta un grupo de pacientes, se aleatorizan a los tratamientos, y luego de un seguimiento, se evalúa la hipótesis en estudio. Si no se obtienen resultados significativos, se recluta un segundo grupo de pacientes, se aleatorizan, se hace su seguimiento y se prueba la hipótesis nuevamente. Desde un punto de vista ético, estos diseños secuenciales clásicos son mejores que los de tamaño de muestra fijo debido a que permiten una potencial detención anticipada del estudio cuando uno de los tratamientos es claramente superior que el otro. La mayor desventaja de este tipo de diseño secuencial es que tanto el costo total como la duración del estudio son desconocidos, y en teoría el tamaño muestral máximo no está acotado. Este diseño puede ser utilizado en estudios con respuesta inmediata⁷.

Durante las últimas dos décadas, se han propuesto varios procedimientos estadísticos alternativos que permiten la realización de análisis estadísticos interinos basados en la acumulación de datos, y a la misma vez permiten mantener el nivel de significación especificado. Análisis interino se define como una evaluación de datos hecha durante la etapa de enrolamiento de pacientes así como en la etapa de seguimiento de los mismos, y cuyo propósito principal (entre otros) es el de evaluar el efecto de los tratamientos. Un análisis interino conlleva, posiblemente, a la decisión de detener el estudio.

Si un estudio se detiene anticipadamente debido a que el tratamiento experimental aumenta la incidencia de la respuesta negativa, entonces no se debe considerar seguir acumulando más datos, y no deben haber otras consideraciones estadísticas que no vayan más allá de la estimación de la incidencia. Sin embargo, aun cuando el estudio no se detenga en forma anticipada, tanto las pruebas de hipótesis como los intervalos de confianza requieren de un ajuste por estos análisis previos.

Aspectos estadísticos en análisis interinos y diseños secuenciales agrupados. La solución a los problemas más arriba planteados la provee el diseño llamado "diseño secuencial agrupado"⁸. Este tipo de diseño está especialmente destinado a los análisis interinos debido a que permite controlar la probabilidad del error Tipo I, que se sabe aumenta como consecuencia de la sucesión de pruebas estadísticas realizadas sobre datos que se acumulan⁹. El uso de los métodos basados en muestras de tamaño fijo no es adecuado debido a que éstos no permiten la corrección del nivel de significación. La decisión estadística de detener o continuar el estudio se basa en la secuencia de pruebas estadísticas sobre los datos que se acumulan luego de la evaluación hecha una vez efectuado el reclutamiento de cada grupo de pacientes. De este modo, un estudio que muestre un beneficio temprano o efectos adversos inesperados, obliga a la consideración de una detención anticipada del ensayo.

El procedimiento general del análisis secuencial agrupado requiere que la evaluación del tratamiento experimental contra el control en una muestra total de N sujetos se efectúe en un número pre-especificado de tiempos K y que los N sujetos hayan sido aleatorizados en K grupos de 2n pacientes cada uno (N = 2nK). Supongamos que se inicia el estudio con 2n pacientes de modo que se aleatorizan n sujetos a cada una de las dos ramas del ensayo. La decisión estadística de detener el estudio se basa en la realización de pruebas estadísticas usando los datos que se acumulan luego de la evaluación de cada grupo de 2n pacientes. El problema es que este requerimiento es muy restrictivo dado que los datos se obtienen en forma continua. Por otro lado, esta forma de recolección de datos y de análisis implica el tener una respuesta inmediata a los tratamientos.

Lan y DeMets¹⁰ propusieron un método basado en lo que llamaron "función de gasto", la que permite tener pruebas estadísticas más flexibles que las arriba descritas. El procedimiento se basa en la elección de una función a(t), llamada "función de gasto", que especifica la tasa a la cual se desea gastar la probabilidad total de error de Tipo I. Suponiendo que el estudio comienza al tiempo 0 y se termina al tiempo T, se escala de tal forma que T=1, para que la función a(t) se construye de modo que a(0)=0 y a(l)= a. Esta función entrega la probabilidad acumulada de error de Tipo I y permite fijar la cantidad de error que se desea gastar en cada análisis. El incremento a(t_k)- a(t_k-1) representa el nivel de significación adicional que se usa al tiempo t_k.

Existen diversos criterios de selección de dicha función de gasto^11-13 que satisfacen la condición de que el total de probabilidad de error Tipo I sea a. Algunas de las elecciones más comunes se presentan más adelante.

Ejemplo numérico de la aplicación del análisis interino y funciones de gasto. La primera consideración es la estadística a ser utilizada. Se asume que la hipótesis de nulidad es la de ausencia de diferencias entre los tratamientos, y que la hipótesis alterna es de que existe alguna diferencia. La hipótesis alterna se denomina como de una cola si la dirección de la diferencia es especificada, y como de dos colas si la dirección de la diferencia no es especificada. La estadística que se utiliza es la de logrank¹³, la cual es equivalente a la estadística estandarizada Z. En el k-ésimo análisis interino, se calcula Z^k (k = 1,2,....,K). Para ilustrar la metodología, asumimos que tenemos un estudio de 24 meses de duración del seguimiento, con análisis interinos posibles cada tres meses.

Las funciones de gasto consideradas en este trabajo incluyen los procedimientos más comunes para análisis secuenciales agrupados, adaptados por la metodología de funciones de gasto propuesto por Lan y DeMets¹⁰. Pocock¹⁴ sugirió un ajuste constante para los K puntos críticos fijos relacionados con las K pruebas estadísticas repetidas de los K análisis interinos planificados. Los puntos críticos propuestos por OBrien - Fleming¹⁵ disminuyen monotónicamente con k. Esto es más intuitivo, y ha resultado en que este procedimiento sea bastante popular, puesto que no es deseable terminar el estudio en las etapas cercanas al comienzo del estudio a menos de que las diferencias entre los grupos siendo comparados sean sustanciales. DeMets y Lan¹⁶ proponen una clase general de funciones de gasto at^P, donde p>0 es una constante que si <1 corresponde a gasto temprano, si =1 es para gasto lineal o constante, y si >1 corresponde a gasto tardío del total de aaa. La Tabla 2 compara las funciones de gasto de Pocock, OBrien y Fleming, y las funciones de gasto para p=0,5; 1,0; 1,5, en términos de los valores de p necesarios en la mirada intermedia k para satisfacer el control del nivel de significación global de un a=0,05.

De la Tabla 2 se nota que el procedimiento de Pocock implica niveles de gastos que disminuye el procedimiento de OBrien y Fleming ofrece niveles de gastos que aumentan desde un nivel muy bajo, y que las funciones de gasto de tipo aaatP gastan en aumento dependiendo si p>1 o p<1.

Ejemplo de la aplicación del análisis secuencial agrupado a ensayos clínicos. Considere un ensayo clínico donde los participantes son asignados aleatoriamente a un tratamiento experimental o uno de control. Asuma que hay un número no previamente especificado de K análisis interinos durante el período del estudio, y que la decisión de parar el estudio se basa en pruebas de significación estadísticas. En adición, asuma que la decisión de parar anticipadamente el estudio se basa en pruebas de significación estadísticas repetidas después de que cada grupo sea evaluado. Si t denota el tiempo de estudio, los análisis interinos se llevan a cabo en los tiempos t₁,...,t_K, donde K no es especificado, y 0<t1<...<tK "£1. La Tabla 3 presenta valores hipotéticos de los números de eventos observados en cada grupo durante el transcurso del estudio, el valor de la estadística de Logrank a cada tiempo, así como el valor de p nominal no-ajustado para la estadística. Es importante notar que en un estudio real, al tiempo t_k solamente se tiene información previa a ese tiempo.

Los grupos de tratamiento son consistentemente diferentes durante todos los períodos del estudio, y alcanzan significación estadística nominalmente en el tiempo t=12. A la medida que el tiempo del estudio transcurre, los números de eventos en ambos grupos se acercan y el valor de la estadística de logrank disminuye. La decisión estadística de si se ha alcanzado significación se basa en el valor de p nominal al tiempo t_k, el cual se compara con el valor del incremento en la función de gasto de la Tabla 2, para una función de gasto en particular y escogida a priori. Nótese que si no hay ajuste por pruebas repetidas, se alcanza la significación estadística en el análisis interino al tiempo t=12. Sin embargo, dependiendo de cual función de gasto es escogida, y de cuando se decide hacer los análisis interinos, se alcanza la significación estadística en diferentes tiempos, como se ilustra en la Tabla 4.

Bajo el escenario A, donde los análisis interinos son cada 6 meses uniformemente, uno alcanza significación en el tercer análisis, al tiempo t= 18 si usa las funciones de gasto (b) o (e) que guardan el a para los análisis tardíos, pero no alcanza significación con funciones de gasto (a), (c), o (d), que malgastaron el a tempranamente. Con el escenario B, una mirada temprana se efectúa al comienzo del estudio, pero las miradas subsiguientes son efectuadas cada 6 meses; todas las funciones de gasto excepto el (c) alcanzan significación al tercer análisis, al tiempo t= 15; la función de gasto (c) es una malgastador temprano y por lo tanto no alcanza la significación estadística. Finalmente, bajo el escenario C, donde el primer análisis interino no se efectúa hasta el noveno mes de iniciado el estudio, y luego cada 3 meses por dos períodos y un análisis final a los 2 años, los resultados no alcanzan significación para las funciones de gasto tempranas (a), (c) y (d); encontrando significación estadística sólo al final del estudio para las funciones de gasto de OBrien-Fleming (b) y la definida en (e). Nótese que si los análisis interinos se efectúan cada tres meses (Tabla 2), la significación nunca se obtiene. La elección, tanto de la función de gasto como de la frecuencia y periodicidad de los análisis interinos afectan la significación.

DISCUSIÓN

En este trabajo intentamos proveer una explicación de la necesidad de llevar a cabo análisis interinos en ensayos clínicos, así como de ilustrar la implementación de los análisis estadísticos. Además de las consideraciones de ética, los análisis interinos pueden resultar en aumentos importantes en la eficiencia, y por lo tanto, en disminuciones de los costos de la conducción de los ensayos clínicos. De no manejarse apropiadamente desde el punto de vista estadístico, el resultado de los múltiples análisis de la información acumulada podría ser la posibilidad de falsamente rechazar la hipótesis de nulidad de ninguna diferencia entre los tratamientos siendo comparados.

La toma de decisiones por parte del comité externo de monitorización del estudio para una posible terminación anticipada de un ensayo clínico, utiliza la información estadística como una de varias consideraciones que son evaluadas para arribar a esta difícil y compleja decisión. Fueron las intenciones de este trabajo de proveer en forma clara y accesible las consideraciones metodológicas estadísticas para que la comunidad médica trabajando en investigaciones clínicas experimentales las pueda apreciar.

Correspondencia a: Sergio R Muñoz Navarro. Unidad de Epidemiología Clínica. Departamento de Salud Pública. Facultad de Medicina. Universidad de La Frontera. M. Montt 112, Temuco. Chile. Teléfono: (56) 45-325744. Fax: (56)45-325741. E-mail: munozs@ufro.cl.

REFERENCIAS

1. EMERSON SS, FLEMING TR. Interim analyses in clinical trials, Oncology 1990; 4: 126-36.

2. JENNISON C, TURNBULL B. Group sequential tests and repeated confidence intervals. Handbook of Sequential Analysis vol 12 (Ghosh BK and Sen PK, eds), Marcel Dekker lnc, New York, 1991; 283-311.

3. EMERSON SS, FLEMING TR. Parameter estimation following group sequential hypothesis testing. Biometrika 1990; 77: 875-92.

4. SIEGMUND D. Estimation following sequential tests. Biometrika 1978; 65: 341-49.

5. TSIATIS AA, ROSNAR GL, MEHTA CR. Exact confidence intervals following a group sequential test. Biometrics 1984; 40: 797-803.

6. WHITEHEAD J. On being the statistician on the data and safety monitoring board. Statistics in Medicine 1999;18: 3425-34.

7. WHITEHEAD J. The design and analysis of sequential clinical trials. Halsted Press, New York 1983.

8. DE METS DL. Practical aspects in data monitoring: A brief review. Statistics in Medicine 1987; 6: 753-60.

9. ARMITAGE P, MCPHERSON CK, ROWE BC. Repeated significance tests on accumulating data. Journal of the Royal Statistical Society 1969; 132: 235-44.

10. LAN KKG, DE METS DL. Discrete sequential boundaries for clinical trials. Biometrika 1983; 70: 659-63.

11. KIM K, DE METS DL. Design and analysis of group sequential tests based on the type I error spending function rate. Biometrika 1987; 74: 149-54.

12. HWANG IK, SHIH WJ, DE CANI JS. Group sequential designs using a family of type l error probability spending functions. Statistics in Medicine 1990; 9: 1439-45.

13. PETO R, PIKE MC, ARMITAGE P, BRESLOW EN, COX DR, HOWARD SV, MANTEL N, MCPHERSON K, PETO J, SMITH PG. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. B J Cancer 1976; 34: 585-612.

14. POCOCK SJ. Group sequential methods in the design and analysis of clinical trials. Biometrika 1977; 64: 1919.

15. OBRIEN PC, FLEMING TH. A multiple testing procedure for clinical trials. Biometrics 1979; 35: 549-56.

16. DE METS DL, LAN KKG. Interim analyses: the alpha spending function approach, Statistics in Medicine 1994; 13: 1341-52.

Services on Demand

Journal

Article

Indicators

Related links

Share

Revista médica de Chile

Print version ISSN 0034-9887

Rev. méd. Chile vol.128 n.8 Santiago Aug. 2000

http://dx.doi.org/10.4067/S0034-98872000000800014

Análisis interino en ensayos clínicos:
una guía metodológica

Services on Demand

Journal

Article

Indicators

Related links

Share

Revista médica de Chile

Print version ISSN 0034-9887

Rev. méd. Chile vol.128 n.8 Santiago Aug. 2000

http://dx.doi.org/10.4067/S0034-98872000000800014

Análisis interino en ensayos clínicos: una guía metodológica

Análisis interino en ensayos clínicos:
una guía metodológica