Recuperación de los datos brutos detrás de una curva de supervivencia no paramétrica

Principios

Para empezar, asumiremos que los valores de las curvas de Kaplan-Meier o Nelson-Aalen se pueden medir con suficiente exactitud y precisión (relajaremos este requisito en secciones posteriores). En tales casos, los primeros principios, y algunas deducciones, generalmente permiten recuperar no solo (i) el tiempo de «evento» distinto t que define cada conjunto de riesgos, sino también para cada conjunto de riesgos (ii) el número en riesgo n y (iii) el número de eventos d. Luego , mediante sustracciones sucesivas , se puede calcular (iv) el número de observaciones censuradas entre conjuntos de riesgos sucesivos c. A menos que se indiquen los tiempos exactos de las observaciones censuradas en el gráfico , los datos recuperados se pueden comprimir en la secuencia

n 0 , c 0 , t 1 , n 1 , d 1 , c 1, t 2, n 2, d 2,….

Si se indican los tiempos exactos de censura en el gráfico, en principio, se puede reconstruir todo el conjunto de datos; de lo contrario, lo mejor que se puede hacer es utilizar la interpolación, junto con la descripción del período de reclutamiento y las fechas de cierre del estudio, para imputar las ubicaciones de las observaciones censuradas dentro de los diversos intervalos de tiempo. La mayoría de los autores los han espaciado uniformemente dentro de estos intervalos.

Para revisar los principios e ilustrar el razonamiento, comenzamos con un pequeño ejemplo, utilizando un conjunto de datos ilustrativos ampliamente utilizado. En la figura 1a se muestra la estimación de Kaplan-Meier de la función de supervivencia de los pacientes con leucemia mielógena aguda (LMA) en el grupo «mantenido», disponible en el paquete de supervivencia de R. La pregunta en ese momento era si el ciclo estándar de quimioterapia se debía mantener durante ciclos adicionales para estos pacientes. Para empezar, pedimos al lector que ignore la información adicional que mostramos en cada panel y que limite su atención a la curva, con sus pasos y marcas de censura.

Figura 1
figura 1

Función sobreviviente de Kaplan-Meier, que muestra las alturas, saltos y proporciones de alturas. a) Estimación de Kaplan-Meier de la función de sobreviviente para pacientes con LMA en el grupo mantenido, mostrando las alturas S (t j). (b) La misma curva K-M que muestra los saltos J(t j). (c) La misma curva K-M que muestra las proporciones de alturas S(t j) /S(tj−1). La curva mostrada en cada panel se ajustó y dibujó utilizando el paquete de supervivencia en R.

Let S(t j ) denotar la probabilidad de supervivencia, o la ‘altura’ de la curva de supervivencia, en el momento t j y definir el ‘salto’ J(t j ) como S(tj−1)−S (t j ). Normalmente lo sabríamos, pero supongamos que ni siquiera sabemos n0, el número de sujetos en el tiempo t0 = 0. Sin ninguna otra información, excepto los valores de la función de paso y los tiempos de los pasos, ¿cuánta información en bruto se puede recuperar de un gráfico de este tipo, si las S se conocen con suficiente precisión? (Por precisión suficiente, queremos decir que el valor verdadero puede deducirse de manera confiable para ser n j y no n j -1 o n j + 1).

Una inspección rápida de la Figura 1a muestra que hay siete saltos y tres marcas de censura, por lo que n0 es al menos 10. Incluso sin marcas de censura, las diferencias en el tamaño de los saltos indican alguna censura – si no hubiera ninguna, todos los saltos serían de igual tamaño (1/n0), o múltiplos de esto, es decir, m/n0 si m>1 eventos en un conjunto de riesgos. Como se muestra en la Figura 1b, J(t3)>J(t2), mientras que J(t5)>J(t4), y J(t7)>J(t6); además, desde la última observación es censurado, podemos deducir que debe haber al menos cuatro censurado valores en total.

Una forma de entender por qué los saltos (de un solo evento) ubicados más a la derecha solo pueden ser más grandes que los que los preceden es a través del algoritmo de redistribución a la derecha de Efron : inicialmente, se coloca una masa de probabilidad de 1/n0 en cada momento de observación. Procediendo de izquierda a derecha, a medida que se encuentra un tiempo censurado, su masa se redistribuye en porciones iguales a todas las observaciones a su derecha. Este procedimiento de barrer las observaciones censuradas se repite hasta que todas sus masas asociadas hayan sido redistribuidas.

En la Figura 1b, los dos primeros saltos J(t1) y J(t2) son de igual tamaño de 0,09091, o 1/11, lo que sugiere que puede haber habido inicialmente 11 personas en riesgo (por supuesto, sin tener más información, también podría haber sido 22 o 33, pero los valores posteriores de la curva descartarán efectivamente estos). El hecho de que el tercer salto sea más grande establece que debe haber una observación censurada en o después de la t2 y antes de la t3. Pero dado que (a diferencia de las otras observaciones censuradas que caen estrictamente entre tiempos de eventos) no se denota por una marca de verificación en el gráfico, la censura debe, por convención, haber ocurrido inmediatamente después del evento(s) en t2, pero debido a la discreción de los datos, se han registrado como un ‘ t2+’. Por lo tanto, si bien las marcas de censura pueden dar ubicaciones más precisas de las observaciones censuradas, los paquetes estadísticos no necesariamente las muestran todas, por lo que no se debe confiar en identificarlas todas solo a partir de las marcas de verificación.

Siguiendo el algoritmo de Efron, se puede ver que J(t3) de tamaño 0,10227 es la suma de la masa original de 1/11 (0,09091) y (1/8)de la misma masa de tamaño asociada con la observación censurada ‘ t2+’ que se redistribuyó entre los ocho que estaban en riesgo justo después de t2, es decir, J(t3)=J(t2)+1/8×J(t2). Sin embargo, la aritmética y los múltiples «legados» y configuraciones posibles se complican, si hay varios eventos al mismo tiempo observado, o si se censura más de una observación en un intervalo. Por lo tanto, a medida que las expresiones para los tamaños absolutos de los saltos comienzan a complicarse, ¿de qué otra manera podríamos determinar los números en riesgo – y los números de eventos – en el momento de cada salto sucesivo?

Nos pareció más fácil asumir primero que cada d j = 1 , luego derivar el n j correspondiente, luego usar cualquier anomalía en el patrón de n j s sucesivos para revisar d j a un entero más grande, y escalar el n j correspondiente hacia abajo en consecuencia. Una forma de ir de d j a n j es explotar la estructura de «producto de probabilidades de supervivencia condicionales» del estimador K-M: invierta la secuencia de productos que se utilizan como estimador y divida la Ŝ t j por Ŝ t j − 1 . El resultado de la relación es 1−d(t j )/n(t j ), donde d(t j ) denota el número de eventos en el tiempo t, j y n(t j ) es el número en riesgo en el tiempo t j . Si podemos establecer lo que d(t j), entonces obtenemos la expresión simple para n j :

n t j = d t j 1 − Ŝ t j / Ŝ t j − 1 ,j=1,2,….
(1)

De hecho, como se muestra en la Figura 1c, podemos inferir mediante esta expresión que los números en riesgo en {t1,…,t7} son {n1,…,n7}={11,10,8,7,5,4,2}.

Los números iniciales-que generalmente se reportan en publicaciones – y la secuencia de números ‘ajustados’ o ‘inferidos’ en riesgo, se pueden usar para establecer con certeza virtual el número de eventos en cada momento de evento distinto, el dj s. Si efectivamente hay un solo evento en cada momento de evento distinto, entonces los números inferidos en riesgo formarán, aparte de los errores de medición (generalmente pequeños), una secuencia monótona decreciente. Las desviaciones sistemáticas de la monotonía son evidentes de inmediato: si de hecho hubo dos eventos en un momento de evento distinto, el número’ ajustado ‘ en riesgo, n j, será 1/2 de lo que debería ser, y se destacará claramente de sus vecinos basados en un solo evento; si hubo tres eventos, el número ‘ajustado’ en riesgo será 1/3 de sus vecinos, y así sucesivamente. Ilustraremos esto más adelante cuando discutamos el ejemplo en la Figura 2 (derecha). Desde el {s1,…,s7} así establecidos, y la {n1,…,n7}, entonces podemos resta deducir que en nuestro ejemplo {c1,…,c7}={0,1,0,1,0,1,1}.

Figura 2
figura2

Acumulada de las tasas de eventos y número estimado en riesgo. (Izquierda) Tasas acumuladas de eventos en pacientes con fibrilación auricular que recibieron warfarina o rivaroxaban. (Derecha) La ubicación vertical de cada punto representa el número estimado de personas en riesgo en el grupo de warfarina en el conjunto de riesgos en cuestión (ubicación horizontal). Los números se obtuvieron aplicando la Ecuación 1 a las estimaciones de S(t j ) derivadas de los comandos PostScript utilizados para representar la imagen vectorial. Los diamantes representan números en riesgo en los días 0, (120), 840, indicados en la parte inferior de la cifra del artículo. Es evidente que, incluso si no se hubieran proporcionado, podrían haberse estimado con gran precisión sólo a partir de las sucesivas estimaciones S(tj). La ligera falta de monotonía en la serie (a) refleja errores de redondeo en las coordenadas PostÍndice. Cada n j en la serie (b) se basa en la suposición (claramente falsa) de que el correspondiente d j =1; en estos tiempos de falla distintos, claramente, d j =2, por lo que cada n j es el doble de lo que se muestra. Del mismo modo, los n j s en serie (c) se basan en asumir d j =1, cuando, de nuevo claramente, d j =3, y el n j debe ser tres veces el mostrado.

Si los espaciamientos de tiempo entre las t adyacentes son relativamente cortos, o si los números en riesgo en puntos de tiempo específicos (p. ej.,. anual o mensual) se indican en el gráfico, luego, mediante una interpolación adicional de la secuencia de números en riesgo, se pueden establecer las cantidades totales de tiempo de persona para cada intervalo de tiempo de interés con un error mínimo. Las parcelas de supervivencia suelen tener un ancho:relación de aspecto de altura superior a 1. Por lo tanto, los errores relativos tenderán a ser más pequeños en el «tiempo» que en la dimensión «persona» de las entradas del denominador persona-tiempo a las tasas de eventos calculadas.

La fórmula anterior se refiere a la curva de Kaplan-Meier. Si en lugar de la curva de supervivencia, el gráfico muestra el estimador Nelson-Aalen de la función de tasa de riesgo acumulada, dada por H t j = ∑ t i ≤ t j d t i / n t i, entonces la expresión para n (t j ) es

n t j = d t j j j − J t j − 1 ,j=1,2,….
(2)

No siempre es obvio a partir de la etiqueta del eje vertical si una curva creciente ‘Nelson-Aalen’ se refiere a esta secuencia de H s, es decir, peligros integrados, o a la incidencia o riesgo acumulativo, es decir, CI j =R j =1− exp. Si de hecho es el último, es decir, el complemento de S, entonces la fórmula para n j se convierte en

n t j = d t j log log t j-1 / t t j .
(3)

Hasta ahora, hemos asumido que las coordenadas verticales y horizontales de los vértices se pueden medir con ‘suficiente’ precisión. Ahora pasamos a lo que se puede lograr usando las curvas K-M y N-A reales que se pueden extraer de imágenes de mapa de bits y gráficos basados en vectores en publicaciones.

Aspectos prácticos

Hace apenas una o dos décadas, todavía era común, pero llevaba mucho tiempo, utilizar el enfoque de «lápiz y regla «para» leer las probabilidades de supervivencia » de un gráfico impreso (posiblemente ampliado). Esta práctica podría implicar errores de medición sustanciales, especialmente cuando la impresión era pequeña o la resolución era deficiente. Hoy en día, dado que la mayoría de los gráficos se pueden acceder electrónicamente o convertir a un formato de este tipo, el trabajo intensivo se puede reducir, con mayor precisión y precisión. En nuestro sitio web http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery, hemos recopilado una serie de gráficos que se encuentran en artículos publicados electrónicamente. Estas imágenes son típicamente de dos tipos, a lo que la documentación de Adobe Acrobat se refiere como «imágenes rasterizadas» y «objetos vectoriales».

Imágenes rasterizadas

Una imagen rasterizada, o mapa de bits, consiste en píxeles (los elementos de pantalla direccionables más pequeños de un dispositivo de visualización) dispuestos en una cuadrícula bidimensional. Cada píxel, representado por un punto o un cuadrado, tiene sus propias coordenadas y color. Cuando uno se acerca más y más, la imagen se vuelve más granulada y los puntos individuales que componen las líneas y los símbolos en el gráfico se vuelven más evidentes.

En una imagen en blanco y negro o en escala de grises, el blanco se representa típicamente por el valor 1, el negro por un 0 y el gris por un valor intermedio; las imágenes en color utilizan un esquema de codificación más elaborado que involucra múltiples canales, como RGB o CMYK. Al igual que en la fotografía digital, cuanto mayor sea el número de píxeles, más fiel será la representación de los valores originales. Para ver un ejemplo de los exámenes de detección del cáncer de próstata (un tema que se discutirá más adelante), vea las Figuras Dos y Tres en el artículo de Andriole .

Las imágenes rasterizadas se pueden almacenar en varios formatos de archivo; los más comunes son.jpeg,.png,.tiff y.gif. Se pueden generar de varias maneras, como (i) escanear la copia impresa y almacenarla como una imagen rasterizada, (ii) (si está en una página de un documento electrónico) acercar el área que contiene el gráfico y tomar una captura de pantalla, o (iii) (si ya está incrustado en un archivo PDF) utilizando la función «exportar imágenes» de Adobe Acrobat.

Los puntos deseados en el gráfico se pueden extraer del archivo de imagen de una de dos maneras. La forma más técnica es usar un lenguaje de programación como Basic, C++ o SAS para leer los valores de color en una matriz 2D, identificar a partir de los colores de los puntos las ubicaciones de píxeles de puntos de referencia clave (como los ejes que se cruzan y las marcas de verificación verticales y horizontales más alejadas) y, finalmente, determinar qué secuencias de ubicaciones de píxeles contienen los puntos que conforman las curvas de interés. Mientras que el paquete ReadImages facilita la lectura de la matriz en R, la programación para procesar la matriz sigue siendo un desafío considerable, particularmente para las porciones donde las curvas se superponen.

La forma más fácil es utilizar un digitalizador de gráficos, un programa informático que (i) importa y muestra la imagen seleccionada en la pantalla y (ii) permite al usuario identificar puntos de referencia horizontales y verticales a través del cursor y hacer clic en tantas ubicaciones del gráfico como desee, luego convierte y almacena los valores (x,y) correspondientes. Varios digitalizadores de gráficos (como GraphClick, Engauge Digitizer y Plot Digitizer) están disponibles de forma gratuita en la web. Guyot et al. informe de que la digitalización del software (http://www.digitizeit.de/) funcionó bien. Debido a que las digitalizaciones de imágenes rasterizadas han sido cubiertas en detalle por Guyot et al. , no daremos ejemplos, sino que simplemente contrastaremos su precisión con la de las imágenes vectoriales en el análisis de errores teórico a continuación.

Imágenes vectoriales

Una figura o gráfico basado en vectores consiste en primitivas geométricas o elementos como puntos y líneas; se puede identificar por el hecho de que se puede ampliar indefinidamente sin pérdida de calidad. Dos extremos de una línea están representados por dos pares (x,y) y un punto por una línea de longitud cero. El ‘Post’ en PostScript, el lenguaje más común para producirlos, se refiere al principio de independencia del dispositivo: los elementos se representan en tiempo real a partir de las coordenadas almacenadas de los elementos, independientemente del hardware local en el que se use el software. Este principio de portabilidad subyace al formato de documento portátil (PDF), desarrollado por Adobe; los archivos PDF se basan en el lenguaje PostScript.

El contenido de un documento PDF normalmente se almacena como un archivo binario, pero tanto la aplicación Adobe Acrobat Pro como la aplicación de vista previa proporcionada en Mac OS pueden exportar un documento PDF (o la página del mismo que contiene el gráfico de interés) como un archivo PostScript, que contiene los comandos. Estos archivos tienden a ser grandes y contienen mucha información técnica, pero es fácil (aunque tedioso) identificar los comandos que producen los ejes, marcas de verificación y la secuencia de segmentos de línea o puntos que conforman las curvas K-M y N-A.

En PostScript, las ubicaciones de una página se miden en puntos de impresora (72 puntos por pulgada) desde la esquina superior izquierda de la página. Por lo tanto, un eje x de 2 pulgadas (144 puntos), que se extiende desde t=0 y t=5, y físicamente de 1 a 3 pulgadas desde el lado izquierdo de la página y ubicado 5 pulgadas (360 puntos) debajo de la parte superior de la página, se especificaría por el segmento de línea (72, 360) ⇔ (216, 360). Supongamos que los extremos del eje y alto de 1,5 pulgadas (108 puntos) corresponden a S=0 y S=1, respectivamente. Luego, a partir de estas coordenadas PostScript, podemos determinar que el segmento de línea (144, 300) ⇔ (146.88, 300) es una porción horizontal de la función step que toma el valor S = (360-300) / 108 = 0.555 en el intervalo t=(144-72)/(144/5)=2.5 a t=(146.88−72)/(144/5)=2.6 y que el segmento (146.88, 300) ⇔ (146.88, 303) es un salto vertical a t = 2,6, de longitud Δ S=3/108=0,028 de S=0,555 a S=0,583.

Sorprendentemente, algunas publicaciones incluyen una mezcla de formatos. De hecho , en la publicación utilizada como fuente de la Figura Uno de, los ejes de la figura original del New England Journal of Medicine (NEJM) se habían renderizado como vectores en posdata, pero las dos curvas se superponen como una imagen. El compuesto fue analizado como una imagen por Guyot et al. . Por el contrario, la otra figura en esa publicación NEJM se renderizó completamente en posdata, aunque con algunas rutas muy complejas para formar los segmentos de línea.

Precisión

¿Cuán precisos son los datos extraídos de imágenes rasterizadas y vectoriales? Uno puede evaluar esta pregunta en varios niveles, comenzando con la precisión de las mediciones Ŝ(o 1−Ŝ) en sí mismas. Considere una imagen de trama típica de 300 puntos por pulgada (dpi) en la que el eje S completo (0, 1) tiene una altura de 1,6 pulgadas o 480 píxeles. Esto da una resolución de Δ S≈0.002. (Una curva ‘ hacia abajo ‘que termina en S=0,9, pero en una gráfica que utiliza la escala completa (0,1), desperdicia una precisión considerable: tiene más sentido trazar la función’ hacia arriba’, 1−S, hasta 0,1, haciendo que los valores de 1−S sean precisos dentro de ±0,0005).

Considere en su lugar una imagen vectorial que contenga la misma curva, en la misma escala vertical de 1,6 pulgadas (=72×1,6 = 115,2 puntos). Debido a que las coordenadas dadas en el archivo PostScript exportado por Adobe Acrobat se registran con tres decimales, la resolución es Δ S=1/(115.2×1,000)≈0.00001, o 200 veces la de la imagen de trama.

Mientras que ambas resoluciones dan medidas adecuadamente precisas de Ŝ, y permiten determinar cuántos eventos están involucrados en cada salto, pueden no dar medidas tan precisas del número en riesgo en cada salto, ya que se mide como el recíproco de 1−t t j /t t j − 1 . Como una evaluación empírica de la precisión de las mediciones derivadas, la Figura 2 muestra los números estimados de una imagen rasterizada y una imagen vectorial, junto con – como una verificación de validez – los números reportados en riesgo al final de cada intervalo de tiempo. Coinciden muy bien con los que figuran en los artículos.

La precisión también se puede cuantificar mediante un análisis teórico de errores. Considere dos valores adyacentes en la misma curva de incidencia acumulada, donde el eje vertical va de 0% a 5%, reportados (después de un redondeo) como puntos y0 e y5, respectivamente, por encima de algún punto de referencia; supongamos que sin redondeo, serían puntos Y0 e Y5 por encima. Denota las ubicaciones verticales (redondeadas de manera similar) de los dos puntos adyacentes en el gráfico como y’ e y», con y»>y’, correspondiente a los valores no redondeados de Y’ e y». Luego, las estimaciones del número en riesgo son las siguientes:

n t j = 20 y 5 − y 0 − y ‘− y 0 y «− y ‘ .

En el Apéndice, proporcionamos la varianza de esta cantidad derivada, asumiendo que los errores (e s) contenidos en las cuatro y s son iguales e independientes entre sí. En la práctica, los puntos PostÍndice se redondean a tres decimales; por lo tanto, la ubicación verdadera Y asociada con una ubicación reportada de y=563.384 puntos se encuentra entre 563.3835 y 563.3845 puntos. Si los errores son uniformes en este rango de 0,001, tal que σ e ≈0,001 / 12 =0.0003 puntos, entonces el coeficiente de variación (CV) es



Deja una respuesta

Tu dirección de correo electrónico no será publicada.