Gendannelse af rådataene bag en ikke-parametrisk overlevelseskurve

principper

til at begynde med antager vi, at Kurveværdierne Kaplan-Meier eller Nelson-Aalen kan måles med tilstrækkelig nøjagtighed og præcision (vi vil slappe af dette krav i senere sektioner). I sådanne tilfælde tillader de første principper – og nogle fradrag – generelt en at gendanne ikke kun (i) den særskilte ‘begivenhedstid’ t, der definerer hvert risikosæt, men også for hvert risikosæt (ii) antallet i risiko n og (iii) antallet af begivenheder d. derefter kan man ved successive subtraktioner beregne (iv) antallet af observationer censureret mellem successive risikosæt c. medmindre de nøjagtige tidspunkter for censurerede observationer er angivet på grafen, kan de gendannede data komprimeres til sekvensen

n 0, c 0 , T 1 , n 1 , d 1 , c 1 , T 2 , n 2 , D 2,….

hvis de nøjagtige censureringstider er angivet på grafen, kan i princippet hele datasættet rekonstrueres; ellers er det bedste, man kan gøre, at bruge interpolation sammen med beskrivelsen af rekrutteringsperioden og slutdatoer for undersøgelsen til at beregne placeringen af de censurerede observationer inden for de forskellige tidsintervaller. De fleste forfattere har fordelt dem ensartet inden for disse intervaller.

for at gennemgå principperne og illustrere ræsonnementet begynder vi med et lille eksempel ved hjælp af et meget anvendt illustrativt datasæt. Figur 1a viser Kaplan-Meier-estimatet af overlevelsesfunktionen for patienter med akut myelogen leukæmi (AML) i den ‘vedligeholdte’ gruppe, tilgængelig i overlevelsespakken i R. spørgsmålet på det tidspunkt var, om standardkursen for kemoterapi skulle opretholdes i yderligere cyklusser for disse patienter. Til at begynde med beder vi læseren om at ignorere de yderligere oplysninger, vi viser på hvert panel, og at begrænse deres opmærksomhed på kurven med dens trin og censureringsmærker.

Figur 1
figur1

Kaplan-Meier overlevende funktion, der viser højder, hopper og forhold mellem højder. (a) Kaplan-Meier estimat af overlevende funktion for patienter med AML i den vedligeholdte gruppe, der viser højderne S (t j). (B) samme k-m-kurve, der viser springene J (t j). (c) samme k-m kurve viser forholdet mellem højder S(t j )/s (tj−1). Kurven vist i hvert panel blev monteret og tegnet ved hjælp af overlevelsespakken i R.

Lad S(t j ) betegne overlevelsessandsynligheden eller ‘højden’ af overlevelseskurven på tidspunktet t j og definer ‘jump’ J(T j ) som S(tj−1)−s(t j ). Vi ville normalt vide det, men formoder, at vi ikke engang kender n0, antallet af emner på tidspunktet t0=0. Uden andre oplysninger undtagen trinfunktionsværdierne og trinets tidspunkter, hvor meget af den rå information kan man gendanne fra en sådan graf, hvis S ‘ erne er kendt med tilstrækkelig nøjagtighed? (Med tilstrækkelig nøjagtighed mener vi, at den sande værdi pålideligt kan udledes til at være n j og ikke n j -1 eller n j +1).

en hurtig inspektion af figur 1a viser, at der er syv spring og tre censurmærker, så n0 er mindst 10. Selv uden censurmærker indikerer forskellene i størrelsen på springene en vis censurering – hvis der ikke var nogen, ville alle spring være af samme Størrelse (1/n0) eller multipla af dette, dvs.m/n0 hvis m>1 begivenheder i et risikosæt. Som vist i figur 1b, j(t3)>J(t2), mens J(t5)>J(t4) og J(t7)>J(t6 at der skal være mindst fire censurerede værdier i alt.

en måde at forstå, hvorfor (single-event) Spring placeret længere mod højre kun kan være større end dem, der går forud for dem, er Via Efrons omfordeling til højre algoritme : oprindeligt placeres en sandsynlighedsmasse på 1 / n0 ved hver observationstid. Når man går fra venstre mod højre, når der opstår en censureret tid, omfordeles dens masse i lige store dele til alle observationer til højre. Denne procedure med at feje de censurerede observationer gentages, indtil alle deres tilknyttede masser er blevet omfordelt.

i figur 1B er de to første spring J (t1) og J(t2) af samme størrelse på 0,09091 eller 1/11, hvilket tyder på, at der oprindeligt kan have været 11 personer i fare (selvfølgelig uden at have yderligere oplysninger, kunne det også have været 22 eller 33, men efterfølgende værdier af kurven vil effektivt udelukke disse). Det faktum, at det tredje Spring er større, fastslår, at der skal være en censureret observation ved eller efter t2 og før t3. Men da det(i modsætning til de andre censurerede observationer, der falder strengt mellem begivenhedstider) ikke betegnes med et afkrydsningsfelt på grafen, skal censureringen efter konvention have fundet sted umiddelbart efter begivenheden / begivenhederne ved t2, men på grund af dataens diskrethed er blevet registreret som en ‘ t2+’. Selvom censurmærker kan give mere præcise placeringer af de censurerede observationer, viser statistiske pakker ikke nødvendigvis dem alle, og man bør derfor ikke stole på at identificere dem alle lige fra krydsmærkerne.

efter Efrons algoritme kan J(t3) af størrelse 0,10227 ses som summen af den oprindelige masse på 1/11 (0,09091) og (1/8)TH af samme størrelse masse forbundet med den censurerede ‘ t2+’ observation, der blev omfordelt blandt de otte, der var i fare lige efter t2, dvs.J(T3)=J(t2)+1/8 Kristian j(t2). Imidlertid bliver aritmetikken og de mange mulige ‘arv’ og konfigurationer komplicerede, hvis der er flere begivenheder på samme observerede tid, eller hvis mere end en observation i et interval censureres. Når udtrykkene for absolutte størrelser af springene begynder at blive komplicerede, hvordan kan vi ellers bestemme antallet i fare – og antallet af begivenheder – på tidspunktet for hvert efterfølgende Spring?

Vi fandt det nemmest at først antage, at hver d j =1 , derefter udlede den tilsvarende n j, brug derefter eventuelle afvigelser i mønsteret af successive N j S til at revidere d j til et større heltal og skalere den tilsvarende n j ned i overensstemmelse hermed. En måde at gå fra d j til n j er at udnytte k-m − estimatorens ‘produkt af betingede overlevelsessandsynligheder’ – struktur: vend sekvensen af produkter, der bruges som estimator, og divider Karr t j med Karr t j-1 . Det resulterende forhold er 1-d(t j )/n(t j ), hvor d(t j ) angiver antallet af begivenheder på tidspunktet t j og n (t j ) er antallet i fare på tidspunktet t j . Hvis vi kan fastslå, hvad d (t j) er, så får vi det enkle udtryk for n j:

n t j = d t j 1 − J T j / J T j-1 ,j=1,2,….
(1)

som vist i figur 1C kan vi faktisk udlede ved at bruge dette udtryk, at tallene i fare ved {t1,…, t7} er {n1,…, n7}={11,10,8,7,5,4,2}.

de oprindelige tal – som normalt rapporteres i publikationer – og sekvensen af ‘monterede’ eller ‘udledte’ numre, der er i fare, kan bruges til med virtuel sikkerhed at fastslå antallet af begivenheder på hvert særskilt begivenhedstidspunkt – d j s. Hvis der faktisk er en enkelt begivenhed på hvert særskilt begivenhedstidspunkt, vil de udledte tal i fare – bortset fra de (normalt små) målefejl – danne en monotont faldende sekvens. Systematiske afvigelser fra monotonicitet er umiddelbart tydelige: hvis der faktisk var to begivenheder på et særskilt begivenhedstidspunkt, vil det ‘monterede’ nummer i fare, n j , være 1/2 af, hvad det skal være, og vil skille sig tydeligt ud fra dets Singleton-baserede naboer; hvis der var tre begivenheder, vil det ‘monterede’ nummer i fare være 1/3 af dets naboer osv. Vi vil illustrere dette senere, når vi diskuterer eksemplet i figur 2 (højre). Fra {s1,…, s7} således etableret og {n1,…, n7} kan vi derefter ved subtraktion udlede det i vores eksempel {c1,…, c7}={0,1,0,1,0,1,1}.

figur 2
figur2

kumulative hændelsesrater og estimerede tal i fare. (Til venstre) kumulative hændelsesrater hos patienter med atrieflimren, der fik varfarin eller rivaroksaban. (Højre) den lodrette placering af hver prik repræsenterer det anslåede antal, der er i fare i den pågældende risiko (vandret placering). Tallene blev afledt ved at anvende ligning 1 til S(T j ) estimater afledt af PostScript-kommandoerne, der blev brugt til at gengive vektorbilledet. Diamanterne repræsenterer tal i fare på dag 0, (120), 840, rapporteret nederst i figuren i artiklen. Det er klart, at selv om de ikke var blevet leveret, kunne de have været meget nøjagtigt estimeret kun ud fra de successive S(t j ) estimater alene. Den lille mangel på monotonicitet i Serie (A) afspejler afrundingsfejl i PostScript-koordinaterne. Hver n j i Serie (b) er baseret på den (klart falske) antagelse om, at den tilsvarende d j =1; ved disse forskellige fejltider, klart, d j =2, så hver n j er dobbelt så vist. Ligeledes er n j S i Serie (c) baseret på at antage d j =1, Når igen klart, d j =3, og n j skal være tre gange det viste.

Hvis tidsafstanden mellem de tilstødende t s er relativt kort, eller hvis tallene i fare på bestemte tidspunkter (f.eks,. årligt eller månedligt) er angivet på grafen, så ved yderligere interpolation af sekvensen af tal i fare kan de samlede mængder persontid for hvert tidsinterval af interesse etableres med minimal fejl. Overlevelsesplotter har typisk en bredde:højde billedformat større end 1. Således vil de relative fejl have en tendens til at være mindre på ‘tiden’ end på ‘person’-dimensionen af person-tidsnævnerens input til de beregnede hændelseshastigheder.

ovenstående formel henviste til Kaplan-Meier-kurven. Hvis grafen i stedet for overlevelseskurven viser Nelson – Aalen-estimatoren for den kumulative faresatsfunktion, givet af H T j = krit t i krit t j d t i / n t i , så er udtrykket for n(t j)

n t j = d t j Krit t j − Krit t j − 1 ,j=1,2,….
(2)

det er ikke altid tydeligt fra etiketten den lodrette akse, om en stigende ‘Nelson-Aalen’− kurve henviser til denne sekvens af H S, dvs.integrerede farer, eller til den kumulative forekomst eller risiko, dvs. CI j =R j =1-eksp. Hvis det faktisk er sidstnævnte, dvs .komplementet af S, så bliver formlen for n j

n t j = d t j logkit t j − 1 / K j j.
(3)

indtil nu har vi antaget, at de lodrette og vandrette koordinater for hjørnerne kan måles med ’tilstrækkelig’ nøjagtighed. Vi vender nu til, hvad der kan opnås ved hjælp af de faktiske K-M-og N-A-kurver, der kan udvindes fra bitmapbilleder og vektorbaseret grafik i publikationer.

praktiske forhold

for bare et årti eller to siden var det stadig almindeligt, men tidskrævende, at bruge ‘blyant og lineal’-tilgangen til ‘aflæse overlevelsessandsynligheder’ fra en (muligvis forstørret) hardcopy-graf. Denne praksis kan involvere betydelig målefejl, især når udskriften var lille, eller opløsningen var dårlig. I dag, da de fleste grafer enten kan fås elektronisk eller konverteres til et sådant format, kan det arbejdskrævende arbejde reduceres med forbedret præcision og nøjagtighed. På vores hjemmeside http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery har vi samlet en række grafer, der findes i elektronisk offentliggjorte artikler. Disse billeder er typisk af to typer, hvad Adobe Acrobat-dokumentationen refererer til som ‘rasterbilleder’ og ‘vektorobjekter’.

rasterbilleder

et rasterbillede eller bitmap består af billedpunkter (de mindste adresserbare skærmelementer i en displayenhed) arrangeret i et todimensionelt gitter. Hvert punkt, repræsenteret af en prik eller firkant, har sine egne koordinater og farve. Når man kommer mere og mere ind, bliver billedet mere kornet, og de individuelle prikker, der udgør linjerne og symbolerne på grafen, bliver mere tydelige.

i et sort / hvidt eller gråtonebillede er hvid typisk repræsenteret af værdien 1, sort med en 0 og grå med en mellemværdi; Farvebilleder bruger et mere detaljeret kodningsskema, der involverer flere kanaler, såsom RGB eller CMYK. Ligesom i digital fotografering, jo større antal billedpunkter, jo mere trofast er repræsentationen af de oprindelige værdier. For et eksempel fra screening af prostatacancer (et emne, der skal diskuteres yderligere nedenfor), se figur to og tre i artiklen af Andriole .

rasterbilleder kan gemmes i en række filformater; de mest almindelige er.jpeg,.png,.tiff, og.gif. De kan genereres på en række måder, såsom (i) scanning af hardkopien og lagring af den som et rasterbillede, (ii) (hvis det er på en side i et elektronisk dokument), der kommer ind i det område, der indeholder grafen og tager et skærmbillede, eller (iii) (hvis det allerede er indlejret i en PDF-fil) ved hjælp af funktionen ‘Eksporter billeder’ i Adobe Acrobat.

de ønskede punkter på grafen kan udvindes fra billedfilen på en af to måder. Den mere tekniske måde er at bruge et programmeringssprog som Basic, C++ eller SAS til at læse farveværdierne i et 2D-array, identificere ud fra farverne på prikkerne billedpunktsplaceringerne for vigtige vartegn (såsom akserne krydser hinanden og de længst adskilte lodrette og vandrette markeringer) og endelig bestemme, hvilke sekvenser af billedpunktsplaceringer der indeholder de prikker, der udgør kurverne af interesse. Mens ReadImages-pakken gør det nemt at læse arrayet i R, er programmeringen til at behandle arrayet stadig en betydelig udfordring, især for de dele, hvor kurver overlapper hinanden.

den lettere måde er at bruge en graf digitalisering, et computerprogram, der (i) importerer og viser det valgte billede på skærmen og (ii) giver brugeren mulighed for at identificere vandrette og lodrette landemærker ved hjælp af markøren og klikke på så mange steder på grafen som ønsket,derefter konverterer og gemmer de tilsvarende (H, y) værdier. En række graf digitaliserere (såsom GraphClick, Engauge Digitalisator og Plot Digitalisator) er tilgængelige gratis på nettet. Guyot et al. rapporter, at Digitaliseringsprogrammet (http://www.digitizeit.de/) fungerede godt. Fordi digitalisering af rasterbilleder er blevet dækket detaljeret af Guyot et al. , vi vil ikke give eksempler, men blot kontrastere deres nøjagtighed med dem af vektorbilleder i den teoretiske fejlanalyse nedenfor.

vektorbilleder

en vektorbaseret figur eller graf består af geometriske primitiver eller elementer såsom punkter og linjer; det kan identificeres ved, at det kan forstørres på ubestemt tid uden tab af kvalitet. To endepunkter af en linje er repræsenteret af to (H,y) par og en prik med en linje med nul længde. ‘Post’ i PostScript – det mest almindelige sprog til fremstilling af dem – henviser til princippet om enhedens uafhængighed: elementerne gengives i realtid fra de lagrede koordinater for elementerne, uanset det lokale udstyr, som programmet bruges på. Dette portabilitetsprincip ligger til grund for portable document format (PDF), udviklet af Adobe; PDF-filer er baseret på PostScript-sproget.

Indholdet af et PDF-dokument gemmes typisk som en binær fil, men både Adobe Acrobat Pro-applikationen og forhåndsvisningsprogrammet, der findes i Mac OS, kan eksportere et PDF-dokument (eller den side af det, der indeholder grafen af interesse) som en PostScript-fil, der indeholder kommandoerne. Sådanne filer har tendens til at være store og indeholder meget teknisk information, men det er let (hvis kedeligt) at identificere de kommandoer, der producerer akser, krydsemærker og sekvensen af linjesegmenter eller prikker, der udgør K-M og N-A kurver.

i PostScript måles placeringer på en side i printerpunkter (72 point pr.tomme) fra sidens øverste venstre hjørne. Således vil en 2 tommer (144 point) h-akse, der strækker sig fra t=0 og t=5, og fysisk fra 1 til 3 in fra venstre side af siden og placeret 5 in (360 point) under toppen af siden blive specificeret af linjesegmentet (72, 360) ⇔ (216, 360). Antag, at enderne af den 1,5-in (108 point) høje y-akse svarer til henholdsvis S=0 og S=1. Derefter kan vi ud fra disse PostScript-koordinater bestemme, at linjesegmentet (144, 300) er (146).88, 300) er en vandret del af trinfunktionen, der tager værdien S=(360-300) / 108=0, 555 i intervallet t=(144-72)/(144/5)=2.5 til t=(146.88−72)/(144/5)=2.6 og at segmentet (146.88, 300) ⇔ (146.88, 303) er et lodret spring ved t=2,6, med længde liter s=3/108=0,028 fra S=0,555 til S=0,583.

overraskende indeholder nogle publikationer en blanding af formater. I den publikation , der blev brugt som kilde til figur en af, var akserne i originalen Ny England Journal of Medicine (NEJM) figur blevet gengivet som vektorer i PostScript, men de to kurver er overlejret som et billede. Kompositmaterialet blev analyseret som et billede af Guyot et al. . I modsætning hertil blev den anden figur i den NEJM-publikation gengivet helt i PostScript, omend med nogle meget komplekse stier til dannelse af linjesegmenterne.

Precision

hvor præcise er dataene ekstraheret fra raster-og vektorbilleder? Man kan vurdere dette spørgsmål på en række niveauer, der begynder med præcisionen af de selv målte målinger(eller 1−. Overvej et typisk 300 prikker pr.tomme (dpi) rasterbillede, hvor den fulde (0, 1) S-akse er 1,6 tommer eller 480 billedpunkter høj. Dette giver en opløsning på K. S. 0.002. (En’ nedadgående ‘ kurve, der slutter ved at sige S=0.9, men på et plot, der bruger den fulde (0,1) skala, spilder betydelig præcision: det giver mere mening at plotte funktionen ‘opad’, 1−S, op til 0.1, hvilket gør 1−s-værdierne nøjagtige til inden for kur 0.0005).

overvej i stedet et vektorbillede, der indeholder den samme kurve, på den samme 1,6-in (=72 til 1,6=115,2 point) lodret skala. Da de koordinater, der er angivet i PostScript-filen, der eksporteres af Adobe Acrobat, registreres med tre decimaler, er opløsningen=1/(115.2×1,000)≈0.00001, eller 200 gange det af rasterbilledet.

mens begge disse resolutioner giver tilstrækkeligt præcise målinger af Krost og tillader en at bestemme, hvor mange begivenheder der er involveret i hvert spring, kan de muligvis ikke give sådanne præcise målinger af antallet i fare ved hvert spring, da det måles som det gensidige af 1−Krist t j / Krist t j − 1 . Som en empirisk vurdering af præcisionen af de afledte målinger viser figur 2 de estimerede tal fra et rasterbillede og et vektorbillede sammen med – som en gyldighedskontrol – de rapporterede tal, der er i fare ved slutningen af hvert tidsinterval. De passer meget godt sammen med dem, der er angivet i artiklerne.

nøjagtigheden kan også kvantificeres ved hjælp af en teoretisk fejlanalyse. Overvej to tilstødende værdier på den samme kumulative forekomstkurve, hvor den lodrette akse går fra 0% til 5%, rapporteret (efter en vis afrunding) at være henholdsvis y0 og y5 point over et vartegn; Antag, at uden afrunding ville de være Y0 og Y5 point ovenfor. Angiv de lodrette placeringer (på samme måde afrundet) af de to tilstødende punkter på grafen som y’ og y”, med y”>y’, svarende til urundede værdier af Y’ og Y”. Derefter er estimaterne af antallet i fare som følger:

n t j = 20 y 5 − y 0 − y ‘− y 0 y “− y ‘ .

i tillægget giver vi variansen af denne afledte mængde under forudsætning af, at fejlene (e ‘erne) indeholdt i de fire y’ er er lige og uafhængige af hinanden. I praksis afrundes PostScript-punkterne til tre decimaler; således ligger den sande placering Y forbundet med en rapporteret placering på y=563.384 point mellem 563.3835 og 563.3845 point. Hvis fejl er ensartede i løbet af dette 0,001-interval, således at KRP e KRP 0,001 / 12 =0.0003 point, så er variationskoefficienten (CV)



Skriv et svar

Din e-mailadresse vil ikke blive publiceret.