recuperarea datelor brute din spatele unei curbe de supraviețuire non-parametrice
principii
pentru început, vom presupune că valorile curbei Kaplan-Meier sau Nelson-Aalen pot fi măsurate cu suficientă precizie și precizie (vom relaxa această cerință în secțiunile ulterioare). În astfel de cazuri, primele principii – și unele deduceri – permit, în general, recuperarea nu numai (i) a timpului ‘eveniment’ distinct t care definește fiecare set de riscuri, ci și pentru fiecare set de riscuri (ii) numărul la risc n și (iii) numărul de evenimente d. apoi , prin scăderi succesive , se poate calcula (iv) numărul de observații cenzurate între seturi de riscuri succesive c. cu excepția cazului în care orele exacte ale observațiilor cenzurate sunt indicate pe grafic , datele recuperate pot fi comprimate în secvența
Dacă pe grafic sunt indicate timpii exacți de cenzurare, atunci, în principiu, întregul set de date poate fi reconstruit; în caz contrar, cel mai bun lucru pe care îl puteți face este să utilizați interpolarea, împreună cu descrierea perioadei de recrutare și datele de închidere ale studiului, pentru a imputa locațiile observațiilor cenzurate în diferitele intervale de timp. Majoritatea autorilor le-au distanțat uniform în aceste intervale.
pentru a revizui principiile și a ilustra raționamentul, începem cu un mic exemplu, folosind un set de date ilustrativ utilizat pe scară largă. Figura 1a prezintă estimarea Kaplan-Meier a funcției supraviețuitoare pentru pacienții cu leucemie mieloidă acută (LMA) din grupul ‘menținut’, disponibilă în pachetul de supraviețuire în R. întrebarea la momentul respectiv a fost dacă cursul standard de chimioterapie trebuie menținut pentru cicluri suplimentare pentru acești pacienți. Pentru început, cerem cititorului să ignore informațiile suplimentare pe care le afișăm pe fiecare panou și să-și limiteze atenția asupra curbei, cu pașii și semnele de cenzură.
fie S(T j ) denotă probabilitatea de supraviețuire, sau „înălțimea” curbei de supraviețuire, la momentul T j și definește „saltul” J(t j ) ca S(tj−1)−s(t j ). De obicei, l-am ști, dar să presupunem că nici măcar nu știm n0, numărul de subiecți la momentul t0=0. Fără alte informații, cu excepția valorilor funcției step și a timpilor pașilor, cât din informațiile brute se poate recupera dintr-un astfel de grafic, dacă S-urile sunt cunoscute cu suficientă precizie? (Prin precizie suficientă, înțelegem că adevărata valoare poate fi dedusă în mod fiabil ca fiind n j și nu n j -1 sau n j +1).
o inspecție rapidă a figurii 1a arată că există șapte salturi și trei semne de cenzură, deci n0 este cel puțin 10. Chiar și fără semne de cenzurare, diferențele de dimensiune a săriturilor indică o cenzură – dacă nu ar exista, toate săriturile ar avea fie dimensiuni egale (1/n0), fie multipli ai acesteia, adică m/n0 dacă m>1 evenimente într-un set de risc. Așa cum se arată în figura 1b, J(t3)>J(t2), în timp ce J(t5)>J(t4), și J(t7)>J(t6); în plus, deoarece ultima observație este cenzurat, putem deduce că trebuie să existe cel puțin patru valori cenzurate în total.
o modalitate de a înțelege de ce salturile (cu un singur eveniment) situate mai departe spre dreapta pot fi doar mai mari decât cele care le preced este prin algoritmul de re-distribuție-la-dreapta al lui Efron : inițial, o masă de probabilitate de 1/n0 este plasată la fiecare timp de observare. Continuând de la stânga la dreapta, pe măsură ce se întâlnește un timp cenzurat, masa sa este redistribuită în porțiuni egale tuturor observațiilor din dreapta sa. Această procedură de măturare a observațiilor cenzurate se repetă până când toate masele lor asociate au fost redistribuite.
în figura 1b, primele două salturi J(t1) și J(t2) sunt de dimensiuni egale de 0,09091 sau 1/11, sugerând că ar fi putut fi inițial 11 persoane cu risc (desigur, fără a avea informații suplimentare, ar fi putut fi și 22 sau 33, dar valorile ulterioare ale curbei le vor exclude efectiv). Faptul că al treilea salt este mai mare stabilește că trebuie să existe o observație cenzurată la sau după t2 și înainte de t3. Dar, deoarece(spre deosebire de celelalte observații cenzurate care se încadrează strict între timpii evenimentelor) nu este notată printr-o bifă pe grafic, cenzurarea trebuie, prin convenție, să fi avut loc imediat după evenimentul (evenimentele) de la t2, dar datorită discreției datelor, au fost înregistrate ca ‘ T2+’. Astfel, în timp ce mărcile de cenzurare pot oferi locații mai precise ale observațiilor cenzurate, pachetele statistice nu le afișează neapărat pe toate și, prin urmare, nu ar trebui să ne bazăm pe identificarea tuturor acestora doar din bife.
urmând algoritmul lui Efron, J(t3) de mărimea 0,10227 poate fi văzută ca fiind suma masei inițiale de 1/11 (0,09091) și (1/8)th de aceeași masă de mărime asociată cu observația cenzurată ‘ t2+’ care a fost redistribuită între cei opt care erau expuși riscului imediat după t2, adică J(t3)=J(t2)+1/8 j(T2). Cu toate acestea, aritmetica și multiplele moșteniri și configurații posibile devin complicate, dacă există mai multe evenimente în același timp observat sau dacă mai multe observații într-un interval sunt cenzurate. Astfel, pe măsură ce expresiile mărimilor absolute ale săriturilor încep să devină complicate, cum altfel am putea determina numerele expuse riscului – și numărul evenimentelor – la momentul fiecărui salt succesiv?
am găsit cel mai ușor să presupunem mai întâi că fiecare d j =1, apoi să derivăm n j corespunzător , apoi să folosim orice anomalii în modelul succesiv n j s pentru a revizui d j la un număr întreg mai mare și să scalăm n j corespunzător în jos. O modalitate de a merge de la d j la n j este de a exploata structura ‘produsului probabilităților de supraviețuire condiționale’ a estimatorului K-M: inversați secvența de produse care sunt utilizate ca estimator și împărțiți t − j-ul la T-J-1 . Raportul rezultat este 1-d(t j )/n(t j ), unde d(t j ) denotă numărul de evenimente la momentul t j și n(t j ) este numărul cu risc la momentul t j . Dacă putem stabili ceea ce este d (t j), atunci obținem expresia simplă pentru n j:
într-adevăr, așa cum se arată în figura 1C, putem deduce folosind această expresie că numerele cu risc la {t1,…,t7} sunt {N1,…,n7}={11,10,8,7,5,4,2}.
numerele inițiale – care sunt de obicei raportate în publicații – și secvența numerelor ‘montate’ sau ‘deduse’ la risc, pot fi utilizate pentru a stabili cu certitudine virtuală numărul de evenimente la fiecare moment de eveniment distinct – d j S. Dacă există într – adevăr un singur eveniment la fiecare moment de eveniment distinct, atunci numerele deduse la risc – în afară de erorile de măsurare (de obicei mici) – vor forma o secvență monoton descrescătoare. Abaterile sistematice de la monotonie sunt imediat evidente: dacă au existat de fapt două evenimente la un moment distinct al evenimentului, numărul ‘montat’ la risc, n j , va fi 1/2 din ceea ce ar trebui să fie și va ieși în evidență distinct de vecinii săi din singleton; dacă au existat trei evenimente, Numărul ‘montat’ la risc va fi 1/3 din vecinii săi și așa mai departe. Vom ilustra acest lucru mai târziu când vom discuta exemplul din Figura 2 (dreapta). Din {S1,…, s7} astfel stabilit și {N1,…,n7}, putem deduce apoi prin scădere că în exemplul nostru {C1,…,c7}={0,1,0,1,0,1,1}.
dacă distanțele de timp dintre t-urile adiacente sunt relativ scurte sau dacă numerele expuse riscului la anumite momente de timp (de exemplu,. anual sau lunar) sunt indicate pe grafic, apoi prin interpolarea ulterioară a secvenței de numere expuse riscului, sumele totale de timp ale persoanei pentru fiecare interval de timp de interes pot fi stabilite cu o eroare minimă. Parcelele de supraviețuire au de obicei o lățime:raportul de aspect înălțime mai mare decât 1. Astfel, erorile relative vor tinde să fie mai mici pe ‘timp’ decât pe dimensiunea ‘persoană’ a intrărilor numitorului persoană-timp la ratele de eveniment calculate.
formula de mai sus se referea la curba Kaplan-Meier. Dacă în locul curbei de supraviețuire, graficul prezintă Estimatorul Nelson-Aalen al funcției ratei de pericol cumulative, dat de H t j = XT t i XT t j d t i / n t i, atunci expresia pentru n (t j) este
nu este întotdeauna evident din etichetă axa verticală dacă o curbă crescătoare ‘Nelson-Aalen’ se referă la această secvență de H S, adică pericole integrate, sau la incidența sau riscul cumulativ, adică CI j =R j =1− exp. Dacă într − adevăr este acesta din urmă, adică complementul lui S, atunci formula pentru n j devine
până în prezent, am presupus că coordonatele verticale și orizontale ale vârfurilor pot fi măsurate cu o precizie ‘suficientă’. Acum ne întoarcem la ceea ce se poate realiza folosind curbele reale K-M și N-A care pot fi extrase din imagini bitmap și grafică bazată pe vectori în publicații.
aspecte practice
cu doar un deceniu sau două în urmă, era încă obișnuită, dar consumatoare de timp, utilizarea abordării ‘creion și riglă’ pentru a ‘citi probabilitățile de supraviețuire’ dintr-un grafic (posibil mărit) pe hârtie. Această practică ar putea implica erori substanțiale de măsurare, mai ales atunci când imprimarea a fost mică sau rezoluția a fost slabă. Astăzi, deoarece majoritatea graficelor pot fi accesate electronic sau convertite într-un astfel de format, munca intensivă a forței de muncă poate fi redusă, cu precizie și precizie îmbunătățite. În site-ul nostru http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery, am colectat împreună o serie de grafice găsite în articolele publicate electronic. Aceste imagini sunt de obicei de două tipuri, ceea ce documentația Adobe Acrobat se referă la ‘imagini raster’ și ‘obiecte vectoriale’.
imagini Raster
o imagine raster, sau bitmap, constă din pixeli (cele mai mici elemente de ecran adresabile dintr-un dispozitiv de afișare) aranjate într-o grilă bidimensională. Fiecare pixel, reprezentat de un punct sau pătrat, are propriile coordonate și culori. Când cineva mărește din ce în ce mai mult, imaginea devine mai granulară, iar punctele individuale care alcătuiesc liniile și simbolurile de pe grafic devin mai evidente.
într-o imagine alb-negru sau în tonuri de gri, albul este de obicei reprezentat de valoarea 1, negrul de un 0 și griul de o valoare intermediară; imaginile color utilizează o schemă de codificare mai elaborată care implică mai multe canale, cum ar fi RGB sau CMYK. La fel ca în fotografia digitală, cu cât numărul de pixeli este mai mare, cu atât reprezentarea valorilor originale este mai fidelă. Pentru un exemplu din screeningul cancerului de prostată (un subiect care va fi discutat mai jos), a se vedea figurile doi și trei din articolul lui Andriole .
imaginile Raster pot fi stocate într-un număr de formate de fișiere; cele mai frecvente sunt.jpeg,.png,.tiff, și.gif. Acestea pot fi generate în mai multe moduri, cum ar fi (I) scanarea hârtiei și stocarea acesteia ca imagine raster, (ii) (dacă se află într-o pagină a unui document electronic) mărirea zonei care conține Graficul și realizarea unei capturi de ecran sau (iii) (dacă este deja încorporată într-un fișier PDF) utilizând funcția ‘export imagini’ din Adobe Acrobat.
punctele dorite de pe grafic pot fi extrase din fișierul imagine într-unul din cele două moduri. Modul mai tehnic este de a utiliza un limbaj de programare, cum ar fi Basic, C++ sau SAS, pentru a citi valorile culorilor într-o matrice 2-D, pentru a identifica din culorile punctelor locațiile pixelilor reperelor cheie (cum ar fi axele se intersectează și cele mai îndepărtate marcaje verticale și orizontale) și, în final, pentru a determina ce secvențe de locații de pixeli conțin punctele care alcătuiesc curbele de interes. În timp ce pachetul ReadImages facilitează citirea matricei în R, programarea pentru procesarea matricei este încă o provocare considerabilă, în special pentru porțiunile în care curbele se suprapun.
cea mai ușoară cale este de a utiliza un digitizor Grafic, un program de calculator care (i) importă și afișează imaginea selectată pe ecran și (ii) permite utilizatorului să identifice reperele orizontale și verticale prin intermediul cursorului și să facă clic pe cât mai multe locații de pe grafic dorite, apoi convertește și stochează valorile corespunzătoare (x,y). Un număr de digitizatoare grafice (cum ar fi GraphClick, Engauge Digitizer și Plot Digitizer) sunt disponibile gratuit pe web. Guyot și colab. raportați că software-ul DigitizeIt (http://www.digitizeit.de/) a funcționat bine. Deoarece digitizările imaginilor raster au fost acoperite în detaliu de Guyot și colab. , nu vom da exemple, ci doar vom contrasta acuratețea lor cu cele ale imaginilor vectoriale în analiza teoretică a erorilor de mai jos.
imagini vectoriale
o figură sau un grafic bazat pe vectori este format din primitive geometrice sau elemente precum puncte și linii; poate fi identificat prin faptul că poate fi mărit la nesfârșit fără pierderea calității. Două puncte finale ale unei linii sunt reprezentate de două perechi (x,y) și un punct de o linie de lungime zero. ‘Post’ în PostScript – cel mai comun limbaj pentru producerea lor – se referă la principiul independenței dispozitivului: elementele sunt redate în timp real din coordonatele stocate ale elementelor, indiferent de hardware-ul local pe care este utilizat software-ul. Acest principiu de portabilitate stă la baza format de document portabil (PDF), dezvoltat de Adobe; fișierele PDF se bazează pe limba PostScript.
conținutul unui document PDF este de obicei stocat ca fișier binar, dar atât aplicația Adobe Acrobat Pro, cât și aplicația de previzualizare furnizată în Mac OS pot exporta un document PDF (sau pagina acestuia care conține graficul de interes) ca fișier PostScript, care conține comenzile. Astfel de fișiere tind să fie mari și conțin multe informații tehnice, dar este ușor (dacă este obositor) să identificați comenzile care produc axele, marcajele și secvența segmentelor de linie sau a punctelor care alcătuiesc curbele K-m și N-A.
în PostScript, locațiile de pe o pagină sunt măsurate în puncte de imprimantă (72 de puncte pe inch) din colțul din stânga sus al paginii. Astfel, o axă x de 2 inci (144 puncte), care se extinde de la t=0 și t=5 și fizic de la 1 la 3 in din partea stângă a paginii și situată la 5 in (360 puncte) sub partea de sus a paginii ar fi specificată de segmentul de linie(72, 360) ⇔ (216, 360). Să presupunem că capetele axei y înalte de 1,5 in (108 puncte) corespund S=0 și, respectiv, s=1. Apoi, din aceste coordonate Post-Scriptum, putem determina că segmentul de linie (144, 300) (146).88, 300) este o porțiune orizontală a funcției pas luând valoarea S=(360-300) / 108=0,555 în intervalul t=(144-72)/(144/5)=2.5 pentru a t=(146.88−72)/(144/5)=2.6 și că segmentul (146.88, 300) ⇔ (146.88, 303) este un salt vertical la t=2,6, de lungime s=3/108=0,028 de la s=0,555 la S=0,583.în mod surprinzător, unele publicații includ un amestec de formate. Într-adevăr , în publicația utilizată ca sursă a figurii una dintre, axele din originalul New England Journal of Medicine (NEJM) figura a fost redată ca vectori în PostScript, dar cele două curbe sunt suprapuse ca imagine. Compozitul a fost analizat ca imagine de Guyot și colab. . În schimb, cealaltă figură din acea publicație NEJM a fost redată în întregime în PostScript, deși cu câteva căi foarte complexe pentru a forma segmentele de linie.
Precision
cât de precise sunt datele extrase din imaginile raster și vectoriale? Se poate evalua această întrebare la mai multe niveluri, începând cu precizia măsurătorilor de la 1 la 1 la sută. Luați în considerare o imagine raster tipică de 300 de puncte pe inch (dpi) în care AXA s completă (0, 1) are o înălțime de 1,6 in sau 480 pixeli. Aceasta oferă o rezoluție de 0,002 de la 0,002. (O curbă ‘ în jos ‘care se termină la S=0,9, dar pe un grafic care utilizează scara completă (0,1), risipește o precizie considerabilă: are mai mult sens să trasați funcția’ în sus’, 1−S, până la 0,1, făcând valorile 1−s exacte până la 0,0005).
luați în considerare în schimb o imagine vectorială care conține aceeași curbă, pe aceeași scală verticală de 1,6 in (=72 x,6=115,2 puncte). Deoarece coordonatele date în fișierul PostScript exportat de Adobe Acrobat sunt înregistrate cu trei zecimale, rezoluția este de ordinul zecimalelor s=1/(115.2×1,000)≈0.00001, sau de 200 de ori mai mare decât imaginea raster.
în timp ce ambele rezoluții oferă măsuri adecvate de precizie ale lui hectolitru și permit să se determine câte evenimente sunt implicate în fiecare salt, este posibil ca acestea să nu ofere astfel de măsuri precise ale numărului de risc la fiecare salt, deoarece este măsurat ca reciprocitate de 1−Xtxt t j / Xtxtt j − 1 . Ca o evaluare empirică a preciziei măsurătorilor derivate, Figura 2 prezintă numerele estimate dintr – o imagine raster și o imagine vectorială, împreună cu – ca verificare a validității-numerele raportate la risc la sfârșitul fiecărui interval de timp. Se potrivesc foarte bine cu cele prezentate în articole.
precizia poate fi, de asemenea, cuantificată folosind o analiză teoretică a erorilor. Luați în considerare două valori adiacente pe aceeași curbă de incidență cumulativă, unde axa verticală merge de la 0% la 5%, raportată (după unele rotunjiri) să fie y0 și y5 puncte, respectiv, deasupra unui reper; să presupunem că fără rotunjire, acestea ar fi y0 și Y5 puncte deasupra. Indicați locațiile verticale (rotunjite în mod similar) ale celor două puncte adiacente de pe grafic ca y’ și y”, cu y”>y’, corespunzând valorilor nerotunjite ale lui Y’ și Y”. Apoi, estimările numărului la risc sunt următoarele:
în anexă, oferim varianța acestei cantități derivate, presupunând că erorile (e S) conținute în cele patru y s sunt egale și independente una de cealaltă. În practică, punctele PostScript sunt rotunjite la trei zecimale; astfel, adevărata locație y asociată cu o locație raportată de y=563.384 puncte se află între 563.3835 și 563.3845 puncte. Dacă erorile sunt uniforme în acest interval de 0,001, astfel încât 0,001 e 0,001/ 12 =0.0003 puncte, atunci coeficientul de variație (CV) este