Gjenopprette rådata bak en ikke-parametrisk overlevelseskurve
Prinsipper
Til å begynne med vil vi anta At Kaplan-Meier-eller Nelson-Aalen-kurveverdiene kan måles med tilstrekkelig nøyaktighet og presisjon (vi vil slappe av dette kravet i senere avsnitt). I slike tilfeller tillater første prinsipper – og noen fradrag – generelt å gjenopprette ikke bare (i) den distinkte ‘hendelsestiden t som definerer hvert risikosett, men også for hvert risikosett (ii) tallet i risiko n og (iii) antall hendelser d. Deretter kan man ved suksessive subtraksjoner beregne (iv) antall observasjoner sensurert mellom suksessive risikosett c. Med mindre de nøyaktige tider med sensurerte observasjoner er angitt på grafen, kan de gjenopprettede dataene komprimeres til sekvensen
hvis de nøyaktige sensureringstidene er angitt på grafen, kan i prinsippet hele datasettet rekonstrueres; ellers er det beste man kan gjøre å bruke interpolering, sammen med beskrivelsen av rekrutteringsperioden og sluttdato for studien, for å beregne plasseringen av de sensurerte observasjonene innen de ulike tidsintervallene. De fleste forfattere har fordelt dem jevnt innenfor disse intervaller.
for å gjennomgå prinsippene og illustrere resonnementet, begynner vi med et lite eksempel, ved hjelp av et mye brukt illustrativt datasett. Figur 1a viser Kaplan-Meier-estimatet av overlevelsesfunksjonen for pasienter med akutt myelogen leukemi (AML) i ‘opprettholdt’ – gruppen, tilgjengelig i overlevelsespakken I R. spørsmålet på det tidspunktet var om standard løpet av kjemoterapi bør opprettholdes for ytterligere sykluser for disse pasientene. Til å begynne med ber vi leseren om å ignorere tilleggsinformasjonen vi viser på hvert panel og å begrense oppmerksomheten til kurven, med trinnene og sensurmerkene.
La S(tj ) betegne overlevelsessannsynligheten, eller «høyden» til overlevelseskurven, ved tid t j og definere «hopp» J (tj) som S(tj−1)−S (tj ). Vi vil vanligvis vite det, men antar at vi ikke engang vet n0, antall fag på tid t0=0. Uten annen informasjon unntatt trinnfunksjonsverdiene og trinnene, hvor mye av den rå informasjonen kan man gjenopprette fra en slik graf, hvis S-ene er kjent med tilstrekkelig nøyaktighet? (Med tilstrekkelig nøyaktighet mener vi at den sanne verdien pålitelig kan utledes til å være n j og ikke n j -1 eller n j +1).
en rask inspeksjon Av Figur 1a viser at det er syv hopp og tre sensurmerker, så n0 er minst 10. Selv uten sensurmerker indikerer forskjellene i størrelsen på hoppene noe sensurering – hvis det ikke var noen, ville alle hopp enten være like store (1/n0) eller multipler av dette, dvs.m/n0 hvis m>1 hendelser i et risikosett. Som vist i Figur 1b, j(t3)>J(t2), Mens J(t5)>j(t6); i tillegg, siden den siste observasjonen er sensurert, kan vi konkludere at det må være minst fire Sensurerte verdier totalt.En måte å forstå hvorfor (single-event) hopp som ligger lenger til høyre, bare kan være større enn de som går foran dem, er Via Efrons re-distribution-to-the-right algoritme : i utgangspunktet plasseres en sannsynlighetsmasse på 1/n0 ved hver observasjonstid. Fortsetter fra venstre til høyre, som en sensurert tid oppstår, blir massen omfordelt i like store deler til alle observasjoner til høyre. Denne prosedyren med å feie ut de sensurerte observasjonene gjentas inntil alle deres tilknyttede masser har blitt omfordelt.
I Figur 1b er de to første hoppene J(t1) Og J(t2) av samme størrelse på 0,09091, eller 1/11, noe som tyder på at det i utgangspunktet kan ha vært 11 personer i fare(selvfølgelig, uten å ha ytterligere informasjon, kunne det også ha vært 22 eller 33, men etterfølgende verdier av kurven vil effektivt utelukke disse). Det faktum at det tredje hoppet er større fastslår at det må være en sensurert observasjon ved eller etter t2 og før t3. Men siden (i motsetning til de andre sensurerte observasjonene som faller strengt mellom hendelsestider) det ikke er betegnet med et kryssmerke på grafen, må sensureringen ved konvensjon ha skjedd umiddelbart etter hendelsen (e) ved t2, men på grunn av diskretheten av dataene, blitt registrert som en ‘ t2+’. Således, mens sensurmerker kan gi mer presise steder av de sensurerte observasjonene, viser statistiske pakker ikke nødvendigvis alle dem, og man bør derfor ikke stole på å identifisere dem alle bare fra kryssmerkene.
Etter Efrons algoritme kan J(t3) av størrelse 0.10227 ses å være summen av den opprinnelige massen av 1/11 (0.09091) og (1/8) th av samme størrelse masse assosiert med den sensurerte ‘ t2+’ observasjonen som ble omfordelt blant de åtte som var i fare like etter t2, dvs. J (t3)=J (t2)+1/8×J (t2). Imidlertid blir aritmetikk og multiple mulige ‘legater’ og konfigurasjoner komplisert, hvis det er flere hendelser på samme observerte tid, eller hvis mer enn en observasjon i et intervall er sensurert. Således, når uttrykkene for absolutte størrelser av hoppene begynner å bli kompliserte, hvordan kan vi ellers bestemme tallene i fare – og antall hendelser – på tidspunktet for hvert påfølgende hopp?Vi fant det enklest å først anta at hver d j =1, deretter utlede den tilsvarende n j, deretter bruke eventuelle anomalier i mønsteret av påfølgende n j s for å revidere d j til et større heltall, og skalere den tilsvarende n j ned tilsvarende. En vei å gå fra d j til n j er å utnytte ‘produkt av betingede overlevelsessannsynligheter’ – strukturen til k-M estimatoren: reverser sekvensen av produkter som brukes som estimator og del Den Ŝ T j med Ŝ t j-1 . Det resulterende forholdet er 1-d (t j) / n(t j ), hvor d(t j ) angir antall hendelser ved tid t j og n (t j ) er tallet i risiko ved tid t j . Hvis vi kan fastslå hva d (t j) er, får vi det enkle uttrykket for n j:
Faktisk, som vist i Figur 1c, kan Vi utlede ved å bruke dette uttrykket at tallene i fare ved {t1,…, t7} er {n1,…, n7}={11,10,8,7,5,4,2}.
de opprinnelige tallene-som vanligvis rapporteres i publikasjoner-og sekvensen av ’tilpassede’ eller ‘utledede’ tall i fare, kan brukes til å fastslå med virtuell sikkerhet antall hendelser på hver distinkte hendelsestid-d j s. Hvis det faktisk er en enkelt hendelse på hver distinkte hendelsestid, vil de utledede tallene i fare – bortsett fra de (vanligvis små) målefeilene – danne en monotonisk avtagende sekvens. Systematiske avganger fra monotonicitet er umiddelbart tydelige: hvis det faktisk var to hendelser på et bestemt hendelsestidspunkt, vil det’ tilpassede ‘nummeret i fare , nj, være 1/2 av hva det skal være, og vil skille seg ut tydelig fra sine singleton-baserte naboer; hvis det var tre hendelser, vil det’ tilpassede ‘ nummeret i fare være 1/3 av naboene, og så videre. Vi vil illustrere dette senere når vi diskuterer eksemplet I Figur 2(høyre). Fra {s1,…, s7} således etablert, og {n1,…, n7}, kan vi da ved subtraksjon utlede det i vårt eksempel {c1,…, c7}={0,1,0,1,0,1,1}.
hvis tidsavstanden mellom de tilstøtende t-ene er relativt kort, eller hvis tallene er i fare ved bestemte tidspunkter (f.eks. årlig eller månedlig) er angitt på grafen, så ved ytterligere interpolering av sekvensen av tall i fare, kan de totale mengder persontid for hvert tidsintervall av interesse etableres med minimal feil. Overlevelse tomter har vanligvis en bredde:høyde størrelsesforhold større enn 1. Dermed vil de relative feilene ha en tendens til å være mindre på ‘ tid ‘enn på’ person ‘ dimensjonen av person – tid nevneren innganger til de beregnede hendelsesratene.
formelen ovenfor refererte Til Kaplan-Meier-kurven. Hvis i stedet for overlevelseskurven, viser grafen Nelson-Aalen estimatoren for den kumulative farefrekvensfunksjonen, gitt av h t j = ∑ t j d t i / n t i, så er uttrykket for n(t j)
det er ikke alltid tydelig fra etiketten den vertikale aksen om En økende ‘Nelson-Aalen’ kurve refererer til denne Sekvensen Av Hs, dvs. integrerte farer, eller til kumulativ forekomst, eller risiko, dvs. CI j =r j =1-exp. Hvis det faktisk er sistnevnte, dvs. komplementet Til S, blir formelen for n j
Inntil nå har vi antatt at de vertikale og horisontale koordinatene til toppunktene kan måles med tilstrekkelig nøyaktighet. Vi vender oss nå til hva som kan oppnås ved å bruke de faktiske K-M og N-a-kurver som kan hentes fra punktgrafikkbilder og vektorbasert grafikk i publikasjoner.
Praktiske
For bare et tiår eller to siden var det fortsatt vanlig, men tidkrevende, å bruke ‘blyant og linjal’-tilnærmingen til ‘avlesning av overlevelsessannsynligheter’ fra en (muligens forstørret) papirkopi. Denne praksisen kan innebære betydelig målefeil, spesielt når utskriften var liten eller oppløsningen var dårlig. I dag, siden de fleste grafer enten kan nås elektronisk eller konverteres til et slikt format, kan det arbeidsintensive arbeidet reduseres, med forbedret presisjon og nøyaktighet. På vår hjemmeside http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery har vi samlet en rekke grafer som finnes i elektronisk publiserte artikler. Disse bildene er vanligvis av to typer, Hva adobe Acrobat-dokumentasjonen refererer til som rasterbilder og vektorobjekter.
Rasterbilder
et rasterbilde, eller punktgrafikk, består av piksler (de minste adresserbare skjermelementene i en skjermenhet) arrangert i et todimensjonalt rutenett. Hver piksel, representert av en prikk eller firkant, har sine egne koordinater og farge. Når man zoomer inn mer og mer, blir bildet kornere og de enkelte prikkene som utgjør linjene og symbolene på grafen blir tydeligere.
i et svart-hvitt-eller gråtonebilde representeres hvitt vanligvis med verdien 1, svart med 0 og grått med en mellomverdi; fargebilder bruker et mer omfattende kodesystem som involverer flere kanaler, FOR EKSEMPEL RGB eller CMYK. Akkurat som i digital fotografering, jo større antall piksler, jo mer trofaste representasjonen av de opprinnelige verdiene. For et eksempel fra prostatakreft screening (et emne som skal diskuteres nærmere nedenfor), se Figur To Og Tre i artikkelen Av Andriole .
Rasterbilder kan lagres i en rekke filformater; de vanligste er.jpeg,.png,.tiff og.gif. De kan genereres på en rekke måter, for eksempel (i) skanne papirkopien og lagre den som et rasterbilde, (ii) (hvis det er på en side i et elektronisk dokument) zoome inn på området som inneholder grafen og ta et skjermbilde, eller (iii) (hvis DET allerede er innebygd I EN PDF-fil) ved hjelp av ‘eksporter bilder’ – funksjonen I Adobe Acrobat.
de ønskede punktene på grafen kan hentes fra bildefilen på en av to måter. Den mer tekniske måten er å bruke et programmeringsspråk som Basic, C++ eller SAS for å lese fargeverdiene i en 2-D-matrise, identifisere fra fargene på prikkene pikselplasseringene til viktige landemerker (for eksempel aksene krysser, og lengst fra hverandre vertikale og horisontale merker), og til slutt bestemme hvilke sekvenser av pikselplasseringer som inneholder prikkene som utgjør kurvene av interesse. Mens ReadImages-pakken gjør det enkelt å lese arrayet I R, er programmeringen for å behandle arrayet fortsatt en betydelig utfordring, spesielt for delene der kurver overlapper.den enklere måten er å bruke en graf digitaliseringsenhet, et dataprogram som (i) importerer og viser det valgte bildet på skjermen, og (ii) lar brukeren identifisere horisontale og vertikale landemerker ved hjelp av markøren og å klikke på så mange steder på grafen som ønsket,og konverterer og lagrer de tilsvarende (x, y) verdiene. En rekke graf digitizers (Som GraphClick, Engauge Digitizer og Plot Digitizer) er tilgjengelig gratis på nettet. Guyot et al. rapporter at programvaren DigitizeIt (http://www.digitizeit.de/) fungerte bra. Fordi digitalisering av rasterbilder har blitt dekket i detalj Av Guyot et al. , vi vil ikke gi eksempler, men bare kontrast deres nøyaktighet med de av vektorbilder i den teoretiske feilanalysen nedenfor.
Vektorbilder
en vektorbasert figur eller graf består av geometriske primitiver eller elementer som punkter og linjer; det kan identifiseres ved at det kan forstørres på ubestemt tid uten tap av kvalitet. To endepunkter av en linje er representert av to (x,y) par og en prikk med en linje med null lengde. ‘Post’ I PostScript – Det vanligste språket for å produsere Dem – refererer til prinsippet om enhetens uavhengighet: elementene gjengis i sanntid fra de lagrede koordinatene til elementene, uavhengig av den lokale maskinvaren som programvaren brukes på. Dette portabilitetsprinsippet ligger til grunn for portable document format (PDF), utviklet Av Adobe; PDF-filer er basert På PostScript-språket.innholdet i ET PDF-dokument lagres vanligvis som en binærfil, men Både Adobe Acrobat Pro-programmet og Forhåndsvisningsprogrammet som tilbys I Mac OS, kan eksportere ET PDF-dokument (eller siden av det som inneholder grafen av interesse) som En PostScript-fil, som inneholder kommandoene. Slike filer har en tendens til å være store og inneholder mye teknisk informasjon, men det er lett (hvis kjedelig) å identifisere kommandoene som produserer aksene, merkene og sekvensen av linjesegmenter eller prikker som utgjør K-M og N-a kurver.
I PostScript måles plasseringer på en side i skriverpunkter (72 punkter per tomme) øverst til venstre på siden. Dermed vil en 2-tommers (144-punkt) x-akse, som strekker seg fra t=0 og t=5, og fysisk fra 1 til 3 i fra venstre side av siden og plassert 5 i (360-poeng) under toppen av siden, spesifiseres av linjesegmentet (72, 360) ⇔ (216, 360). Anta at endene av 1,5-in (108 poeng) høy y-akse tilsvarer Henholdsvis s=0 og S=1. Deretter kan vi fra Disse PostScript-koordinatene bestemme at linjesegmentet (144, 300) ⇔ (146.88, 300) er en horisontal del av trinnfunksjonen som tar verdien S=(360-300) / 108=0,555 i intervallet t=(144-72)/(144/5)=2.5 til t=(146.88−72)/(144/5)=2.6 dette segmentet (146.88, 300) ⇔ (146.88, 303) er et vertikalt hopp på t=2.6, Av Lengde Δ S = 3/108=0.028 Fra S=0.555 Til S=0.583.
Overraskende inneholder noen publikasjoner en blanding av formater. Faktisk , i publikasjonen som ble brukt Som Kilde Til Figur En av, hadde aksene i den opprinnelige New England Journal Of Medicine (NEJM) figuren blitt gjengitt som vektorer I PostScript, men de to kurvene er lagt over som et bilde. Kompositten ble analysert som et bilde Av Guyot et al. . Derimot ble DEN andre figuren I DEN nejm-publikasjonen gjengitt helt I PostScript, om enn med noen svært komplekse baner for å danne linjesegmentene.
Presisjon
hvor nøyaktige er dataene hentet fra raster-og vektorbilder? Man kan vurdere dette spørsmålet på en rekke nivåer, som begynner med presisjonen til De Ŝ(eller 1−Ŝ) målingene selv. Tenk på et typisk rasterbilde på 300 punkter per tomme (dpi) der den fulle (0, 1) s-aksen er 1,6 tommer eller 480 piksler høy. Dette gir en oppløsning på Δ S≈0.002. (En’ nedover ‘kurve som ender på si S=0,9, men på et plott som bruker full (0,1) skala, sløser betydelig presisjon: det er mer fornuftig å plotte ‘oppover’ – funksjonen, 1-S, opp så langt som 0,1, noe som gjør 1-s verdiene nøyaktige til innenfor ±0.0005).
Vurder i stedet et vektorbilde som inneholder samme kurve, på samme 1.6-in (=72×1.6=115.2 poeng) vertikal skala. Fordi koordinatene gitt I PostScript-filen som eksporteres Av Adobe Acrobat, registreres til tre desimaler, er Oppløsningen Δ S=1/(115.2×1,000)≈0.00001, eller 200 ganger det av rasterbildet.
mens begge disse oppløsningene gir tilstrekkelig presise mål av Ŝ, og tillater en å bestemme hvor mange hendelser som er involvert i hvert hopp, kan de ikke gi slike presise mål av tallet som er utsatt for risiko ved hvert hopp, siden det måles som gjensidig av 1−Ŝ t j /Ŝ T j − 1 . Som en empirisk vurdering av presisjonen av de avledede målingene viser Figur 2 de estimerte tallene fra et rasterbilde og et vektorbilde, sammen med – som en gyldighetskontroll – de rapporterte tallene i fare ved slutten av hvert tidsintervall. De samsvarer veldig bra med de som er gitt i artiklene.
nøyaktigheten kan også kvantifiseres ved hjelp av en teoretisk feilanalyse. Vurder to tilstøtende verdier på samme kumulative forekomstkurve, hvor den vertikale aksen går fra 0% til 5%, rapportert (etter noen avrunding) å være henholdsvis y0 og y5 poeng over noe landemerke; anta at uten avrunding ville De Være Y0 og Y5 poeng over. Angi de vertikale plasseringene (tilsvarende avrundet) av de to tilstøtende punktene på grafen som y’ og y», med y»>y’, som svarer Til urundede verdier Av Y ‘Og Y». Deretter er estimatene for tallet i fare som følger:
I Vedlegget gir vi variansen av denne avledede mengden, forutsatt at feilene (e-ene) i de fire y-ene er like og uavhengige av hverandre. I praksis er PostScript-punktene avrundet til tre desimaler; dermed ligger den sanne plasseringen Y forbundet med en rapportert plassering av y=563.384 poeng mellom 563.3835 og 563.3845 poeng. Hvis feilene er ensartede i løpet av dette 0.001-området, så er det σ e ≈0.001 / 12 =0.0003 poeng, så er variasjonskoeffisienten (CV)