recuperando os dados brutos por trás de uma curva de sobrevivência não paramétrica

princípios

para começar, vamos assumir que os valores da curva de Kaplan-Meier ou Nelson-Aalen podem ser medidos com precisão e precisão suficientes (vamos relaxar este requisito em secções posteriores). Em tais casos, os princípios fundamentais e algumas deduções – geral, permitem recuperar não apenas (i) o distinto “evento” para o tempo t que define cada um risco definido, mas também para cada risco definido (ii) o número em risco n e (iii) o número de eventos d. Então, por sucessivas subtrações, pode-se calcular (iv) o número de observações censuradas, entre sucessivas risco de conjuntos de c. A menos que o horário exato do censurado observações são indicadas no gráfico, os dados recuperados podem ser compactados para a sequência

n 0 , c 0 , t 1 , n 1 , d 1 , c 1 , t 2 , n 2 , d 2 , … .

Se a exata censura vezes são indicados no gráfico e, em seguida, em princípio, todo o conjunto de dados pode ser reconstruída; caso contrário, o melhor que se pode fazer é usar interpolação, juntamente com a descrição do processo de recrutamento período e datas de encerramento do estudo, para imputar os locais das observações censuradas, nos diferentes intervalos de tempo. A maioria dos autores os espaçaram uniformemente dentro desses intervalos.

para rever os princípios e ilustrar o raciocínio, começamos com um pequeno exemplo, usando um conjunto de dados ilustrativos amplamente utilizado. A figura 1a mostra a estimativa Kaplan-Meier da função de sobrevivência para doentes com leucemia mielóide aguda (LMA) no grupo “mantido”, disponível no pacote de sobrevivência em R. A questão na altura era se o curso padrão de quimioterapia deveria ser mantido para ciclos adicionais para estes doentes. Para começar, pedimos ao leitor que ignore as informações adicionais que mostramos em cada painel e que limite sua atenção à curva, com seus passos e marcas de censuração.

Figura 1
figura 1

de Kaplan-Meier sobrevivente função, mostrando as alturas de saltos, e as proporções de altura. (a) estimativa Kaplan-Meier da função de sobrevivência para doentes com LMA no grupo mantido, mostrando as alturas S (t j). b) a mesma curva em K-M que mostra os saltos J(t j). c) a mesma curva K-M que indica as razões das alturas S(t j) /s(tj−1). A curva mostrada em cada painel foi ajustada e desenhada usando o pacote de sobrevivência em R.

Deixe S(t j ) denota a probabilidade de sobrevivência, ou a “altura” da curva de sobrevivência, no tempo t j e definir o ‘salto’ J(t j ) como S(tj−1)−S(t j ). Nós usualmente saberíamos, mas suponha que nós nem mesmo sabemos n0, o número de sujeitos no tempo t0=0. Sem qualquer outra informação exceto os valores da função do passo e os tempos dos passos, quanto da informação bruta pode-se recuperar de tal gráfico, se os S são conhecidos com precisão suficiente? (Por precisão suficiente, queremos dizer que o valor verdadeiro pode ser deduzido fiavelmente para ser n j e não n j -1 ou n j +1).

uma rápida inspeção da figura 1a mostra que existem sete saltos e três marcas de censuração, então n0 é pelo menos 10. Mesmo sem censurar marcas, as diferenças no tamanho dos saltos indicam alguma censura – se não houvesse nenhuma, todos os saltos seriam de tamanho igual (1/n0), ou múltiplos disto, ou seja, m/n0 se m>1 eventos em um conjunto de risco. Como mostrado na Figura 1b, J(t3)>J(t2), enquanto que J(t5)>J(t4) e J(t7)>J(t6); além disso, desde a última observação é censurada, pode-se inferir que deve haver, pelo menos, quatro censurado valores no total.

uma maneira de entender Por Que (evento único) saltos localizados mais à direita só pode ser maior do que aqueles que os precedem é através do algoritmo de re-distribuição-à-direita de Efron : inicialmente, uma massa de probabilidade de 1/n0 é colocada em cada momento de observação. Procedendo da esquerda para a direita, como um tempo censurado é encontrado, sua massa é redistribuída em porções iguais a todas as observações à sua direita. Este procedimento de varrer as observações censuradas é repetido até que todas as massas associadas tenham sido redistribuídas.

Na Figura 1b, os dois primeiros saltos J(t1) e J(t2) são de igual tamanho de 0.09091, ou 1/11, o que sugere que pode ter sido, inicialmente, 11 pessoas em risco (é claro, sem precisar de mais informações, ele também poderia ter sido 22 ou 33, mas os valores da curva efetivamente a regra estes out). O fato de que o terceiro salto é maior estabelece que deve haver uma observação censurada em ou após t2 e antes de t3. Mas, uma vez que (ao contrário dos outros censurado observações que caem estritamente entre eventos vezes) não é indicado por uma marca de escala no gráfico, a censura deve, por convenção, têm ocorrido imediatamente após o evento(s) em t2, mas, devido à descontinuidade dos dados, foram registradas como ‘ t2+’. Assim, enquanto as marcas de censuração podem dar locais mais precisos das observações censuradas, os pacotes estatísticos não necessariamente exibem todos eles, e assim não se deve confiar na identificação de todos eles apenas a partir das marcas de carrapato.

a Seguir Efron algoritmo, J(t3) de tamanho 0.10227 pode ser visto como a soma da massa inicial de 1/11 (0.09091) e (1/8)th do mesmo tamanho da massa associada com o censurado ” t2+’ observação de que foi redistribuído entre os oito que estavam em risco apenas após t2, i.é., J(t3)=J(t2)+1/8×J(t2). No entanto, a aritmética e os múltiplos “legados” e configurações possíveis tornam-se complicados, se houver vários eventos ao mesmo tempo observado, ou se mais de uma observação em um intervalo for censurada. Assim, à medida que as expressões para tamanhos absolutos dos saltos começam a tornar – se complicadas, de que outra forma poderíamos determinar os números em risco – e os números de eventos-no momento de cada salto sucessivo?

achamos mais fácil primeiro assumir que cada d j =1, em seguida, derivar o correspondente N j, em seguida, usar quaisquer anomalias no padrão de sucessivos N j S para rever d j para um inteiro maior, e escalar o correspondente n j para baixo em conformidade. Uma maneira de ir de d j para N j é explorar a estrutura “produto de probabilidades de sobrevivência condicionais” do estimador K-M: inverter a sequência de produtos que são utilizados como Estimador e dividir O Ŝ t j Por Ŝ T j − 1 . O rácio resultante é 1-d (t j) /n(t j ), em que d(t j ) representa o número de eventos no momento t j E n (t j ) é o número em risco no momento t J. Se pudermos estabelecer o que é d (t j), então teremos a expressão simples para n j:

n t j = d t j 1-Ŝ t j / Ŝ t j-1, j=1,2,…
(1)

de Fato, como mostrado na Figura 1c, pode-se inferir usando esta expressão que os números em risco a {t1,…,t7} são {n1,…,n7}={11,10,8,7,5,4,2}.

Os números iniciais – que são geralmente descritos em publicações – e a sequência de ‘equipado’ ou ‘inferir’ números em risco, pode ser usada para estabelecer com certeza virtual o número de eventos em cada evento distinto do tempo – a d j s. Se há de fato é um evento único em cada evento distinto do tempo, então a inferir números em risco, além de (normalmente pequeno) de medição de erros de forma um monotonicamente decrescente seqüência. São imediatamente evidentes desvios sistemáticos da monotonicidade: se na verdade, havia dois eventos em um evento distinto do tempo, o ‘equipado’ número em risco, n j , será de 1/2 do que deveria ser, e vai ficar fora de forma distinta de sua singleton baseado vizinhos; se houve três eventos, o ‘equipado’ número de risco será de 1/3 de seus vizinhos, e assim por diante. Vamos ilustrá-lo mais tarde quando discutirmos o exemplo na Figura 2 (direita). Do {s1,…,s7} assim estabelecido, e o {n1,…,n7}, podemos, então, por subtração, deduzir que, no nosso exemplo {c1,…,c7}={0,1,0,1,0,1,1}.

Figura 2
a figura2

Cumulativa de eventos taxas e números estimados em risco. (Esquerda) taxas cumulativas de acontecimentos em doentes com fibrilhação auricular que receberam varfarina ou rivaroxabano. (Direita) a localização vertical de cada ponto representa o número estimado de risco no braço da varfarina no risco definido em questão (localização horizontal). Os números foram derivados pela aplicação da equação 1 às estimativas S(t j ) derivadas dos comandos PostScript usados para renderizar a imagem vetorial. Os diamantes representam números de risco nos dias 0, (120), 840, relatados na parte inferior da figura no artigo. É evidente que, mesmo que não tivessem sido fornecidos, poderiam ter sido estimados com muita precisão apenas a partir das sucessivas estimativas S(t j). A ligeira falta de monotonicidade na série (a) reflecte erros de arredondamento nas coordenadas PostScript. Cada n j na Série (B) é baseado na suposição (claramente falsa) de que o correspondente d j =1; nestes tempos de falha distintos, claramente, d j =2, de modo que cada n j é o dobro do mostrado. Da mesma forma, o n j s na série (C) são baseados em assumir d j =1, Quando, novamente claramente, d j =3, e o n j deve ser três vezes o mostrado.

Se o intervalo de tempo entre os t S adjacentes for relativamente curto, ou se os números em risco em pontos de tempo específicos (p.ex. anualmente ou mensalmente) são indicados no gráfico, então por interpolação adicional da sequência de números em risco, a quantidade total de tempo da pessoa para cada intervalo de tempo de interesse pode ser estabelecida com erro mínimo. As parcelas de sobrevivência têm normalmente uma largura:proporção de altura superior a 1. Assim, os erros relativos tenderão a ser menores no “tempo” do que na dimensão “pessoa” das entradas do denominador pessoa-tempo para as taxas de eventos calculadas.

a fórmula acima referida à curva de Kaplan-Meier. Se, em vez da curva de sobrevivência, o gráfico mostrar o estimador Nelson-Aalen da função da taxa de risco cumulativa , dado por H t j = ∑ t i ≤ t j d t i / n t i ,então a expressão para N(t j ) é

n t j = d t j Ĥ t j − Ĥ t j − 1, j=1,2, …
(2)

nem sempre é óbvio a partir do rótulo o eixo vertical se uma curva crescente de “Nelson-Aalen” se refere a esta sequência de H S, ou seja, perigos integrados, ou à incidência cumulativa, ou risco, ou seja, CI j =R j =1− exp. Se de fato é o último, i.e., o complemento de S, então a fórmula para n j torna − se

n t j = d t j log Ŝ t j-1/. t j.
(3)

até agora, assumimos que as coordenadas verticais e horizontais dos vértices podem ser medidas com precisão “suficiente”. Passamos agora ao que pode ser alcançado usando as curvas K-M E N-A reais que podem ser extraídas de imagens bitmap e gráficos vetoriais em publicações.

Pricalities

Just a decade or two ago, it was still common, but time-consuming, to use of the ‘pencil and ruler’ approach to ‘read off survival probabilities’ from a (possibly enlarged) hardcopy graph. Esta prática poderia envolver erros de medição substanciais, especialmente quando a impressão era pequena ou a resolução era pobre. Hoje, uma vez que a maioria dos gráficos podem ser acessados eletronicamente ou convertidos em tal formato, o trabalho intensivo de mão de obra pode ser reduzido, com maior precisão e precisão. Em nosso site http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery, coletamos uma série de gráficos encontrados em artigos publicados eletronicamente. Essas imagens são tipicamente de dois tipos, o que a documentação Adobe Acrobat se refere como ‘imagens rasterizadas ‘e’objetos vetoriais’.

imagens rasterizadas

uma imagem rasterizada, ou bitmap, consiste em pixels (os menores elementos de ecrã endereçáveis num dispositivo de visualização) dispostos numa grelha bidimensional. Cada pixel, representado por um ponto ou quadrado, tem suas próprias coordenadas e cor. Quando se amplia cada vez mais, a imagem torna-se mais cinzenta e os pontos individuais que compõem as linhas e símbolos no gráfico tornam-se mais evidentes.

numa imagem a preto e branco ou em tons de cinzento, o branco é tipicamente representado pelo valor 1, o preto por um 0, e o cinzento por um valor intermédio; imagens coloridas usam um esquema de codificação mais elaborado envolvendo vários canais, como RGB ou CMYK. Assim como na fotografia digital, quanto maior o número de pixels, mais fiel a representação dos valores originais. Para um exemplo do rastreio do cancro da próstata (um tópico a ser discutido mais adiante), ver figuras 2 e 3 no artigo de Andriole .

As imagens rasterizadas podem ser armazenadas em vários formatos de Arquivo; as mais comuns são.nivel,.Forum,.TIFF, and.gif. Eles podem ser gerados em um número de maneiras, tais como (i) a digitalização da cópia e armazená-la como uma imagem de varredura, (ii) (se ele estiver em uma página de um documento eletrônico) zoom sobre a área que contém o gráfico e tirar uma screenshot, ou (iii) (se ele já está incorporado em um arquivo PDF) usando o ‘exportar imagens’ funcionalidade no Adobe Acrobat.

os pontos desejados no grafo podem ser extraídos do arquivo de imagem de uma de duas maneiras. A maneira mais técnica é usar uma linguagem de programação como Basic, C++, ou SAS para ler os valores de cor em um array 2-D, identificar a partir das cores dos pontos as localizações de pixels de Marcos chave (como os eixos intersect, e as marcas verticais e horizontais mais distantes), e finalmente determinar quais sequências de localizações de pixels contêm os pontos que compõem as curvas de interesse. Considerando que o pacote ReadImages torna fácil de ler o array em R, A programação para processar o array ainda é um desafio considerável, particularmente para as porções onde as curvas se sobrepõem.

A maneira mais fácil é usar um gráfico de digitador, um programa de computador que (i) as importações e exibe a imagem selecionada na tela e (ii) permite que o usuário identifique horizontal e vertical marcos por meio do cursor e clique em tantos locais no gráfico conforme pretendido e, em seguida, converte e armazena o correspondente (x,y) valores. Um número de digitalizadores de grafos (como GraphClick, Engauge Digitizer e Plot Digitizer) estão disponíveis gratuitamente na web. Guyot et al. relate que o software DigitizeIt (http://www.digitizeit.de/) teve um bom desempenho. Porque as digitalizações de imagens rasterizadas foram cobertas em detalhes por Guyot et al. , não vamos dar exemplos, mas meramente contrastar sua precisão com as de imagens vetoriais na análise de erro teórica abaixo.

imagens vetoriais

uma figura ou grafo baseados em vetores consiste em primitivas geométricas ou elementos tais como pontos e linhas; pode ser identificado pelo fato de que pode ser aumentado indefinidamente sem perda de qualidade. Dois pontos finais de uma linha são representados por dois pares (x, y) e um ponto por uma linha de comprimento zero. O ‘Post’ em PostScript – a linguagem mais comum para produzi-los – refere-se ao princípio da independência de dispositivo: os elementos são renderizados em tempo real do armazenados as coordenadas dos elementos, independentemente do local de hardware no qual o software é usado. Este princípio de portabilidade está subjacente ao portable document format (PDF), desenvolvido pela Adobe; arquivos PDF são baseados na linguagem PostScript.

O conteúdo de um documento PDF são normalmente armazenados como um arquivo binário, mas o Adobe Acrobat Pro, e a aplicação de pré-Visualização fornecida no Mac OS, pode exportar um documento PDF (ou a página que contém o gráfico de juros), como um arquivo PostScript, que contém os comandos. Tais arquivos tendem a ser grandes e contêm muita informação técnica, mas é fácil (se tedioso) identificar os comandos que produzem os eixos, marcas de carrapato, e a sequência de segmentos de linha ou pontos que compõem as curvas K-M E N-A.

em PostScript, os locais em uma página são medidos em pontos de impressora (72 pontos por polegada) a partir do canto superior esquerdo da página. Assim, uma 2 polegadas (144 pontos) eixo x, estendendo-se a partir de t=0 e t=5, e fisicamente de 1 a 3 do lado esquerdo da página e localizado a 5 (360 pontos) abaixo do topo da página, deve ser especificada pelo segmento de linha (72, 360) ⇔ (216, 360). Suponha que as extremidades do eixo y elevado de 1,5-in (108 pontos) correspondem a S=0 E S=1, respectivamente. Então, a partir destas coordenadas PostScript, podemos determinar que o segmento de linha (144, 300) ⇔ (146.88, 300) é uma parte horizontal da função de passo, tendo o valor de S=(360-300)/108=0.555 no intervalo de t=(144-72)/(144/5)=2.5 para t=(146.88−72)/(144/5)=2.6 e que o segmento (146.88, 300) ⇔ (146.88, 303) é um salto vertical em t=2.6, de comprimento ∆ S=3/108=0.028 a partir de S=0.555 para S=0.583.surpreendentemente, algumas publicações incluem uma mistura de formatos. Na verdade , na publicação usada como a fonte da figura um dos, os eixos da figura original do New England Journal of Medicine (NEJM) foram renderizados como vetores em PostScript, mas as duas curvas são sobrepostas como uma imagem. O composto foi analisado como uma imagem por Guyot et al. . Em contraste, a outra figura na publicação NEJM foi renderizada inteiramente em PostScript, embora com alguns caminhos muito complexos para formar os segmentos de linha.

precisão

quão precisos são os dados extraídos de imagens rasterizadas e vetoriais? Pode−se avaliar esta questão em uma série de níveis, começando com a precisão das próprias medições Ŝ(Ou 1-Ŝ). Considere uma imagem rasterizada típica de 300 pontos por polegada (PPP) na qual o eixo S completo (0, 1) é de 1.6 em, ou 480 pixels, de altura. Isto dá uma resolução de Δ s≈0.002. (Uma curva “para baixo” que termina em S=0, 9, mas numa parcela que utiliza a escala completa (0,1), esbanja uma precisão considerável: faz mais sentido traçar a função “para cima”, 1−S, até 0, 1, tornando os valores de 1−s precisos a ±0, 0005).

considere em vez disso uma imagem vetorial contendo a mesma curva, na mesma escala vertical 1,6-in (=72×1.6=115.2 pontos). Dado que as coordenadas indicadas no ficheiro PostScript exportado pelo Adobe Acrobat são registadas com três casas decimais, a resolução É Δ S=1/(115.2×1,000)≈0.00001, ou 200 vezes mais do que a imagem rasterizada.embora ambas as resoluções dêem medidas precisas adequadas de Ŝ, e permitam determinar quantos eventos estão envolvidos em cada salto, elas podem não dar medidas precisas do número em risco em cada salto, uma vez que é medido como o recíproco de 1−Ŝ t j/. t j − 1. Como uma avaliação empírica da precisão das medições derivadas, a Figura 2 mostra os números estimados a partir de uma imagem rasterizada e de uma imagem vectorial, juntamente com – como uma verificação de validade – os números comunicados em risco no final de cada intervalo de tempo. Eles combinam muito bem com aqueles dados nos artigos.

a precisão também pode ser quantificada usando uma análise teórica de erro. Considere dois valores adjacentes na mesma curva de incidência cumulativa, onde o eixo vertical vai de 0% a 5%, relatados (após alguns arredondamentos) como sendo y0 e y5 pontos, respectivamente, acima de algum marco; suponha que sem arredondamento, eles seriam Y0 e Y5 pontos acima. Indica as localizações verticais (arredondadas de forma semelhante) dos dois pontos adjacentes do grafo como y’ e y”, com y”>y’, correspondendo a valores não arredondados de Y’ e Y”. Em seguida, as estimativas do número em risco são as seguintes:

n T j = 20 y 5-y 0 − y 0 y “- y ” .

no Apêndice, nós fornecemos a variância desta quantidade derivada, assumindo que os erros (e s) contidos nos quatro y s são iguais e independentes uns dos outros. Na prática, os pontos PostScript são arredondados para três casas decimais; assim, a verdadeira localização Y associada a uma localização relatada de y=563.384 pontos situa-se entre 563.3835 e 563.3845 pontos. Se os erros são uniformes sobre este intervalo de 0, 001 tal Que σ e ≈0, 001 / 12 =0.0003 pontos, em seguida, o coeficiente de variação (CV) é



Deixe uma resposta

O seu endereço de email não será publicado.