återställa rådata bakom en icke-parametrisk överlevnadskurva
principer
till att börja med antar vi att Kaplan-Meier-eller Nelson-Aalen-kurvvärdena kan mätas med tillräcklig noggrannhet och precision (vi kommer att slappna av detta krav i senare avsnitt). I sådana fall tillåter de första principerna – och vissa avdrag – i allmänhet att man inte bara återställer (i) den distinkta ’händelsetiden’ t som definierar varje riskuppsättning utan också för varje riskuppsättning (ii) antalet i riskzonen n och (iii) antalet händelser d. Sedan kan man genom successiva subtraktioner beräkna (iv) antalet observationer som censureras mellan successiva riskuppsättningar c. Om inte de exakta tiderna för censurerade observationer anges i diagrammet kan de återställda data komprimeras till sekvensen
om de exakta censureringstiderna anges i diagrammet kan i princip hela datasetet rekonstrueras; annars är det bästa man kan göra att använda interpolering tillsammans med beskrivningen av rekryteringsperioden och slutdatum för studien för att beräkna platserna för de censurerade observationerna inom de olika tidsintervallen. De flesta författare har fördelat dem jämnt inom dessa intervall.
för att granska principerna och illustrera resonemanget börjar vi med ett litet exempel med hjälp av en allmänt använd illustrativ dataset. Figur 1a visar Kaplan-Meier-uppskattningen av överlevnadsfunktionen för patienter med akut myelogen leukemi (AML) i gruppen ’underhållen’, tillgänglig i överlevnadspaketet i R. frågan vid den tiden var om standardkursen för kemoterapi skulle bibehållas för ytterligare cykler för dessa patienter. Till att börja med ber vi läsaren att ignorera den ytterligare informationen vi visar på varje panel och att begränsa deras uppmärksamhet mot kurvan, med dess steg och censurmärken.
Låt S(tj ) beteckna överlevnadssannolikheten, eller ”höjden” på överlevnadskurvan, vid tiden t j och definiera ”hoppet” J(tj ) som S(tj−1)−S(tj ). Vi brukar veta det, men antar att vi inte ens vet n0, antalet ämnen vid tiden t0=0. Utan någon annan information förutom stegfunktionsvärdena och tiderna för stegen, hur mycket av den råa informationen kan man återhämta sig från en sådan graf, om S är kända med tillräcklig noggrannhet? (Med tillräcklig noggrannhet menar vi att det verkliga värdet på ett tillförlitligt sätt kan härledas till att vara n j och inte n j -1 eller n j +1).
en snabb inspektion av Figur 1a visar att det finns sju hopp och tre censurmärken, så n0 är minst 10. Även utan censureringsmärken indikerar skillnaderna i hoppens storlek en viss censurering – om det inte fanns någon skulle alla hopp vara lika stora (1/n0) eller multiplar av detta, dvs m/n0 om m>1 händelser i en riskuppsättning. Som visas i Figur 1b, J(t3)>J(t2), medan J(t5)>J(t4) och J(T7)>J(t6); dessutom, eftersom den senaste observationen är censurerad, kan vi dra slutsatsen att det måste finnas minst fyra censurerade värden totalt.
ett sätt att förstå varför (enstaka) hopp som ligger längre till höger bara kan vara större än de som föregår dem är via Efrons omfördelning till rätt algoritm : initialt placeras en sannolikhetsmassa på 1/n0 vid varje observationstid. Utgående från vänster till höger, som en censurerad tid påträffas, omfördelas dess massa i lika delar till alla observationer till höger. Denna procedur för att sopa ut de censurerade observationerna upprepas tills alla deras associerade massor har omfördelats.
i Figur 1b är de två första hoppen J(t1) och J (t2) lika stora som 0,09091 eller 1/11, vilket tyder på att det kan ha varit initialt 11 personer i riskzonen (naturligtvis, utan att ha ytterligare information, kunde det också ha varit 22 eller 33, men efterföljande värden på kurvan kommer effektivt att utesluta dessa). Det faktum att det tredje hoppet är större fastställer att det måste finnas en censurerad observation vid eller efter t2 och före t3. Men eftersom (till skillnad från de andra censurerade observationer som faller strikt mellan händelser gånger) det inte betecknas med en bock i grafen, censureringen måste, enligt konvention, har inträffat omedelbart efter händelsen(s) vid t2, men på grund av diskretiteten av data, har registrerats som en ’ t2+’. Således, medan censureringsmärken kan ge mer exakta platser för de censurerade observationerna, visar statistiska paket inte nödvändigtvis dem alla, och så bör man inte lita på att identifiera dem alla bara från kryssmarkeringarna.
Efter Efrons algoritm kan J (t3) av storlek 0.10227 ses som summan av den ursprungliga massan av 1/11 (0.09091)och (1/8) TH av samma storleksmassa associerad med den censurerade ’ T2+’ – observationen som omfördelades bland de åtta som var i riskzonen strax efter t2, dvs J(t3)=J(t2)+1/8 msk j(t2). Aritmetiska och multipla möjliga arv och konfigurationer blir emellertid komplicerade om det finns flera händelser vid samma observerade tid eller om mer än en observation i ett intervall censureras. Således, som uttryck för absoluta storlekar av hopp börjar bli komplicerat, hur annars kan vi bestämma siffrorna i riskzonen – och antalet händelser-vid tidpunkten för varje på varandra följande hopp?
Vi fann det lättast att först anta att varje d j =1 , sedan härleda motsvarande n j, använd sedan eventuella avvikelser i mönstret av successiva n j s för att revidera d j till ett större heltal och skala motsvarande n j ner i enlighet därmed. Ett sätt att gå från D j till n j är att utnyttja k-m-estimatorns’ produkt av villkorliga överlevnadssannolikheter ’ – struktur: omvänd sekvensen av produkter som används som estimator och dela upp tj för tj med tj − 1 för tj . Det resulterande förhållandet är 1-d(tj )/n(tj ), där d(tj ) anger antalet händelser vid tidpunkten tj och n (tj ) är antalet i riskzonen vid tidpunkten tj . Om vi kan fastställa vad d (tj ) är, får vi det enkla uttrycket för n j:
faktiskt, som visas i Figur 1C, kan vi dra slutsatsen att siffrorna i riskzonen vid {t1,…,t7} är {n1,…,n7}={11,10,8,7,5,4,2}.
de initiala siffrorna-som vanligtvis rapporteras i publikationer – och sekvensen av ’monterade’ eller ’härledda’ siffror i riskzonen, kan användas för att med virtuell säkerhet fastställa antalet händelser vid varje distinkt händelsetid – d j s. om det verkligen finns en enda händelse vid varje distinkt händelsetid, kommer de härledda siffrorna i riskzonen – förutom de (vanligtvis små) mätfelen – att bilda en monotont minskande sekvens. Systematiska avvikelser från monotonicitet är omedelbart uppenbara: om det faktiskt fanns två händelser vid en distinkt händelsetid, kommer det ’monterade’ numret i riskzonen, n j, att vara 1/2 av vad det borde vara, och kommer att sticka ut tydligt från sina singleton-baserade grannar; om det fanns tre händelser kommer det ’monterade’ numret i riskzonen att vara 1/3 av sina grannar, och så vidare. Vi kommer att illustrera detta senare när vi diskuterar exemplet i Figur 2 (höger). Från {s1,…, s7} så etablerad och {n1,…, n7} kan vi sedan genom subtraktion dra slutsatsen att i vårt exempel {c1,…, c7} = {0,1,0,1,0,1,1}.
om tidsavstånden mellan de intilliggande t s är relativt korta, eller om siffrorna i riskzonen vid specifika tidpunkter (t. ex . varje år eller månad) anges i diagrammet, sedan genom ytterligare interpolering av sekvensen av siffror i riskzonen, kan de totala mängderna av persontid för varje tidsintervall av intresse fastställas med minimalt fel. Överlevnadstomter har vanligtvis en bredd:höjdformat större än 1. Således tenderar de relativa felen att vara mindre på ’tid’ än på ’person’ -dimensionen av person-tid nämnaren ingångar till de beräknade händelsefrekvenserna.
ovanstående formel hänvisade till Kaplan-Meier-kurvan. Om i stället för överlevnadskurvan visar grafen Nelson-Aalen-uppskattaren av den kumulativa farohastighetsfunktionen, som ges av H tj = tj tj tj d t i / n t i, då är uttrycket för n(tj)
det är inte alltid uppenbart från etiketten den vertikala axeln om en ökande ’Nelson-Aalen’− kurva hänvisar till denna sekvens av H s, dvs integrerade faror, eller till den kumulativa incidensen eller risken, dvs CI j =R j =1-exp. Om det verkligen är det senare, dvs. komplementet av S, blir formeln för n j
fram till nu har vi antagit att de vertikala och horisontella koordinaterna för topparna kan mätas med ’tillräcklig’ noggrannhet. Vi vänder oss nu till vad som kan uppnås med hjälp av de faktiska k-m-och N-A-kurvorna som kan extraheras från bitmappsbilder och vektorbaserad grafik i publikationer.
Practicalities
För bara ett decennium eller två sedan var det fortfarande vanligt, men tidskrävande, att använda ’penna och linjal’-metoden för att ’läsa av överlevnadssannolikheter’ från en (eventuellt förstorad) papperskopia graf. Denna praxis kan innebära betydande mätfel, särskilt när utskriften var liten eller upplösningen var dålig. Idag, eftersom de flesta grafer antingen kan nås elektroniskt eller konverteras till ett sådant format, kan det arbetsintensiva arbetet minskas med förbättrad precision och noggrannhet. På vår hemsida http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery har vi samlat ihop ett antal grafer som finns i elektroniskt publicerade artiklar. Dessa bilder är vanligtvis av två typer, vad Adobe Acrobat-dokumentationen hänvisar till som ’rasterbilder’ och ’vektorobjekt’.
rasterbilder
en rasterbild, eller bitmapp, består av pixlar (de minsta adresserbara skärmelementen i en visningsenhet) ordnade i ett tvådimensionellt rutnät. Varje pixel, representerad av en punkt eller kvadrat, har sina egna koordinater och färg. När man zoomar in mer och mer blir bilden kornigare och de enskilda prickarna som utgör linjerna och symbolerna i diagrammet blir tydligare.
i en svartvit eller gråskalebild representeras vitt vanligtvis av värdet 1, svart med 0 och grått med ett mellanvärde; färgbilder använder ett mer detaljerat kodningsschema som involverar flera kanaler, till exempel RGB eller CMYK. Precis som i digital fotografering, ju större antal pixlar, desto mer trogen är representationen av de ursprungliga värdena. För ett exempel från screening av prostatacancer (ett ämne som ska diskuteras nedan), se figurerna två och tre i artikeln av Andriole .
rasterbilder kan lagras i ett antal filformat; de vanligaste är.jpeg,.png,.tiff, och.gif. De kan genereras på ett antal sätt, till exempel (i) skanna papperskopian och lagra den som en rasterbild, (ii) (om den finns på en sida i ett elektroniskt dokument) zooma in på området som innehåller grafen och ta en skärmdump, eller (iii) (om den redan är inbäddad i en PDF-fil) med funktionen Exportera bilder i Adobe Acrobat.
de önskade punkterna i diagrammet kan extraheras från bildfilen på ett av två sätt. Det mer tekniska sättet är att använda ett programmeringsspråk som Basic, C++ eller SAS för att läsa färgvärdena i en 2-D-array, identifiera från färgerna på prickarna pixelplatserna för viktiga landmärken (som axlarna skär varandra och de längsta isär vertikala och horisontella kryssmarkeringarna) och slutligen bestämma vilka sekvenser av pixelplatser som innehåller de punkter som utgör kurvorna av intresse. Medan readimages-paketet gör det enkelt att läsa arrayen i R, är programmeringen för att bearbeta arrayen fortfarande en stor utmaning, särskilt för de delar där kurvorna överlappar varandra.
det enklare sättet är att använda en graf digitaliserare, ett datorprogram som (i) importerar och visar den valda bilden på skärmen och (ii) tillåter användaren att identifiera horisontella och vertikala landmärken med hjälp av markören och klicka på så många platser i diagrammet som önskas,konverterar och lagrar sedan motsvarande (x, y) värden. Ett antal graf digitaliserare (som GraphClick, Engauge Digitizer och Plot Digitizer) finns gratis på webben. Guyot et al. rapportera att programvaran DigitizeIt (http://www.digitizeit.de/) fungerade bra. Eftersom digitalisering av rasterbilder har täckts i detalj av Guyot et al. , vi kommer inte att ge exempel utan bara kontrastera deras noggrannhet med vektorbildernas i den teoretiska felanalysen nedan.
vektorbilder
en vektorbaserad figur eller graf består av geometriska primitiver eller element som punkter och linjer; det kan identifieras av det faktum att det kan förstoras på obestämd tid utan kvalitetsförlust. Två slutpunkter för en linje representeras av två (x,y) Par och en punkt med en linje med noll längd. Posten i PostScript – det vanligaste språket för att producera dem – hänvisar till principen om enhetsoberoende: elementen återges i realtid från de lagrade koordinaterna för elementen, oavsett den lokala hårdvaran som programvaran används på. Denna portabilitetsprincip ligger till grund för portable document format (PDF), utvecklat av Adobe; PDF-filer är baserade på PostScript-språket.
innehållet i ett PDF-dokument lagras vanligtvis som en binär fil, men både Adobe Acrobat Pro-programmet och förhandsgranskningsprogrammet som tillhandahålls i Mac OS kan exportera ett PDF-dokument (eller den sida av det som innehåller grafen av intresse) som en PostScript-fil, som innehåller kommandona. Sådana filer tenderar att vara stora och innehåller mycket teknisk information, men det är lätt (om det är tråkigt) att identifiera de kommandon som producerar axlarna, kryssmarkeringarna och sekvensen av linjesegment eller prickar som utgör K-m och N-A-kurvorna.
i PostScript mäts platser på en sida i skrivarpunkter (72 poäng per tum) från sidans övre vänstra hörn. Således skulle en 2 tum (144 poäng) x-axel, som sträcker sig från t=0 och t=5, och fysiskt från 1 till 3 in från vänster sida av sidan och ligger 5 in (360 poäng) under toppen av sidan anges av linjesegmentet (72, 360) ⇔ (216, 360). Antag att ändarna på 1,5-in (108 poäng) höga y-axeln motsvarar S=0 respektive S=1. Sedan, från dessa PostScript-koordinater, kan vi bestämma att linjesegmentet (144, 300) GHz (146.88, 300) är en horisontell del av stegfunktionen som tar värdet S=(360-300)/108=0, 555 i intervallet t=(144-72)/(144/5)=2.5 till t=(146.88−72)/(144/5)=2.6 och att segmentet (146.88, 300) ⇔ (146.88, 303) är ett vertikalt hopp vid t = 2,6, av Längd msk s=3/108=0,028 från S=0,555 till S=0,583.
överraskande innehåller vissa publikationer en blandning av format. Faktum är att i publikationen som användes som källa till figur ett av axlarna i den ursprungliga New England Journal of Medicine (NEJM) figuren hade gjorts som vektorer i PostScript , men de två kurvorna läggs över som en bild. Kompositen analyserades som en bild av Guyot et al. . Däremot gjordes den andra siffran i den NEJM-publikationen helt i PostScript, om än med några mycket komplexa vägar för att bilda linjesegmenten.
Precision
hur exakt är data extraherade från raster-och vektorbilder? Man kan bedöma denna fråga på ett antal nivåer, med början med precisionen i själva mätningarna i enlighet med själva mätningarna(eller 1−i enlighet med detta). Tänk på en typisk 300 punkter per tum (dpi) rasterbild där hela (0, 1) S-axeln är 1,6 tum eller 480 pixlar hög. Detta ger en upplösning på 0,002 0,002. (En’ nedåt ’ kurva som slutar vid säga S = 0.9, men på en tomt som använder hela (0,1) skala, slösar avsevärd precision: det är mer meningsfullt att rita ’uppåt’ funktion, 1−S, upp så långt som 0.1, vilket gör 1−s-värden exakt till inom 0.0005).
Tänk istället på en vektorbild som innehåller samma kurva, på samma 1,6-tum (=72 kcal 1,6=115,2 poäng) vertikal skala. Eftersom koordinaterna som anges i PostScript-filen som exporteras av Adobe Acrobat registreras med tre decimaler, är upplösningen=1/(115.2×1,000)≈0.00001, eller 200 gånger den för rasterbilden.
även om båda dessa resolutioner ger tillräckligt exakta mått på exporten, och gör det möjligt för en att bestämma hur många händelser som är inblandade i varje hopp, kan de inte ge sådana exakta mått på antalet i riskzonen vid varje hopp, eftersom det mäts som det ömsesidiga av 1−megapixlar t j /hawaiier t j − 1 . Som en empirisk bedömning av precisionen hos de härledda mätningarna visar Figur 2 de uppskattade siffrorna från en rasterbild och en vektorbild, tillsammans med – som en validitetskontroll – de rapporterade siffrorna i riskzonen i slutet av varje tidsintervall. De matchar mycket bra med de som anges i artiklarna.
noggrannheten kan också kvantifieras med hjälp av en teoretisk felanalys. Tänk på två intilliggande värden på samma kumulativa incidenskurva, där den vertikala axeln går från 0% till 5%, rapporterad (efter viss avrundning) för att vara y0 respektive y5 poäng ovanför något landmärke; Antag att utan avrundning skulle de vara Y0 och Y5 poäng ovan. Ange de vertikala platserna (på samma sätt avrundade) för de två intilliggande punkterna i diagrammet som y’ och y”, med y”>y’, motsvarande orundade värden på Y’ och Y”. Därefter är uppskattningarna av antalet i riskzonen följande:
i bilagan tillhandahåller vi variansen för denna härledda kvantitet, förutsatt att felen (e s) i de fyra Y s är lika och oberoende av varandra. I praktiken avrundas PostScript-punkterna till tre decimaler; således ligger den sanna platsen Y associerad med en rapporterad plats för y=563.384 poäng mellan 563.3835 och 563.3845 poäng. Om felen är enhetliga över detta 0.001-intervall så att 0.001 E. 0.001/ 12 =0.0003 poäng, då variationskoefficienten (CV) är