palauttamalla raakatiedot ei-parametrisen selviytymiskäyrän takaa

periaatteet

aluksi oletamme, että Kaplan-Meier-tai Nelson-Aalen-käyrän arvot voidaan mitata riittävällä tarkkuudella ja täsmällisyydellä (lievennämme tätä vaatimusta myöhemmissä jaksoissa). Tällaisissa tapauksissa ensimmäiset periaatteet – ja jotkin vähennykset – antavat yleensä mahdollisuuden palauttaa paitsi (i) kunkin riskijoukon määrittelevän erillisen ”tapahtuman” ajan t, myös kunkin riskijoukon osalta (ii) riskin n ja (iii) tapahtumien lukumäärän d. sitten voidaan peräkkäisillä vähennyksillä laskea (iv) peräkkäisten riskijoukkojen C välillä sensuroitujen havaintojen lukumäärä. ellei sensuroitujen havaintojen tarkkoja aikoja ole merkitty kaavioon, talteen otetut tiedot voidaan pakata jaksoon

N 0, c 0, t 1 , n 1 , d 1 , C 1 , T 2 , n 2 , d 2, …

Jos kaaviossa ilmoitetaan tarkat sensurointiaikat, voidaan periaatteessa koko aineisto rekonstruoida; muussa tapauksessa parasta, mitä voidaan tehdä, on käyttää interpolointia yhdessä rekrytointijakson ja tutkimuksen päättymisajankohtien kuvauksen kanssa laskemaan sensuroitujen havaintojen sijainnit eri aikaväleillä. Useimmat kirjoittajat ovat jakaneet ne tasaisesti näiden intervallien sisällä.

tarkastellaksemme periaatteita ja havainnollistaaksemme päättelyä aloitamme pienellä esimerkillä, käyttäen laajalti käytettyä havainnollistavaa aineistoa. Kuvassa 1a esitetään Kaplan-Meier-estimaatti akuuttia myelooista leukemiaa (AML) sairastavien potilaiden eloonjääneiden funktiosta ’ylläpidetyssä’ ryhmässä, joka on saatavilla elossaolopaketissa R. tuolloin pohdittiin, tulisiko näille potilaille jatkaa tavanomaista solunsalpaajahoitoa lisäjaksojen ajan. Aluksi pyydämme lukijaa sivuuttamaan lisätiedot, joita näytämme jokaisessa paneelissa, ja rajoittamaan huomionsa käyrään, sen vaiheisiin ja sensurointimerkkeihin.

Kuva 1
kuva1

Kaplan-Meier survivor-funktio, jossa näkyvät korkeudet, hypyt ja korkeussuhteet. (a) Kaplan-Meier-estimaatti eloonjääneiden funktiosta potilailla, joilla on AML ylläpitoryhmässä, osoittaen korkeudet S (t j). (B) sama K-M käyrä, jossa näkyvät hypyt J(t j). C) sama K-M-käyrä, joka osoittaa korkeuksien S(t j )/s(tj−1) suhteet. Kussakin paneelissa esitetty käyrä asennettiin ja piirrettiin käyttäen r: n eloonjäämispakettia.

Merkitköön S(t j ) elossaolotodennäköisyyttä eli elossaolokäyrän ”korkeutta” ajanhetkellä t j ja määrittäköön ”hypyn” J(T J ) muotoon s(tj−1)−s(t j ). Yleensä tietäisimme sen, mutta oletetaan, ettemme edes tiedä N0: tä, koehenkilöiden lukumäärää hetkellä t0=0. Ilman mitään muuta tietoa kuin askelfunktion arvot ja vaiheiden ajat, kuinka paljon raakatietoa voidaan palauttaa tällaisesta kuvaajasta, jos S: t tunnetaan riittävällä tarkkuudella? (Riittävällä tarkkuudella tarkoitamme, että todellinen arvo voidaan luotettavasti päätellä olevan n j eikä n j -1 tai n j +1).

kuvan 1a pikatarkastus osoittaa, että hyppyjä on seitsemän ja sensurointimerkkejä kolme, joten n0 on vähintään 10. Ilman sensurointimerkintöjäkin hyppyjen suuruuserot kertovat jonkinasteisesta sensuroinnista-jos niitä ei olisi, kaikki hypyt olisivat joko samankokoisia (1/n0) tai tämän kerrannaisia eli m/N0, jos m>1 tapahtumia riskijoukossa. Kuten kuvasta 1b ilmenee, J(t3)J(t2), kun taas J(t5)>J(t4) ja J(t7)>J(t6); lisäksi koska viimeinen havainto on sensuroitu, voidaan päätellä, että sensuroituja arvoja on oltava yhteensä vähintään neljä.

yksi tapa ymmärtää, miksi kauempana oikealla sijaitsevat (yhden tapahtuman) hypyt voivat olla vain suurempia kuin niitä edeltävät, on Efronin re-distribution-to-the-right-algoritmi : aluksi jokaiselle havaintoajalle asetetaan todennäköisyysmassa 1 / N0. Edetessään vasemmalta oikealle sensuroidun ajan kohdatessa sen massa jaetaan uudelleen yhtä suuriin osiin kuin kaikki sen oikealla puolella olevat havainnot. Tämä menettely, jossa sensuroidut havainnot pyyhitään pois, toistetaan, kunnes kaikki niihin liittyvät massat on jaettu uudelleen.

Kuvassa 1b kaksi ensimmäistä hyppyä J(t1) ja J(t2) ovat yhtä suuria kuin 0,09091 eli 1/11, mikä viittaa siihen, että riskiryhmässä on saattanut olla alun perin 11 henkilöä (ilman tarkempaa tietoa se olisi tietysti voinut olla myös 22 tai 33, mutta myöhemmät käyrän arvot käytännössä sulkevat nämä pois). Se, että kolmas hyppy on suurempi, osoittaa, että täytyy olla sensuroitu havainto T2: ssa tai sen jälkeen ja ennen t3: a. Mutta koska(toisin kuin muut sensuroidut havainnot, jotka sijoittuvat tiukasti tapahtumien väliin kertaa) sitä ei ole merkitty rastimerkillä kuvaajassa, sensuroinnin on sopimuksen mukaan tapahduttava välittömästi tapahtuman (tapahtumien) jälkeen T2: ssa, mutta tietojen diskretenssin vuoksi se on kirjattu ” t2+”: ksi. Näin ollen, vaikka sensurointimerkit voivat antaa tarkempia sijainteja sensuroiduille havainnoille, tilastolliset paketit eivät välttämättä näytä niitä kaikkia, joten ei pidä luottaa siihen, että kaikki tunnistettaisiin vain rastitusmerkeistä.

Efronin algoritmin mukaan J(t3), jonka koko on 0,10227, voidaan nähdä 1/11 (0,09091) ja (1/8)th samankokoisen massan summana, joka liittyy sensuroituun ”t2+” – havaintoon, joka jaettiin uudelleen kahdeksan riskiryhmään kuuluvan kesken heti t2: n jälkeen eli J(t3)=J(t2)+1/8×J(t2). Aritmeettinen ja useita mahdollisia ”legacies” ja kokoonpanot kuitenkin monimutkaistuvat, jos on useita tapahtumia samaan havaittuun aikaan, tai jos useampi kuin yksi havainto intervallissa sensuroidaan. Niinpä kun hyppyjen absoluuttisten kokojen ilmaisut alkavat monimutkaistua, miten muuten voisimme määrittää riskiluvut – ja tapahtumamäärät-jokaisen perättäisen hypyn aikaan?

löysimme helpoimman ensin olettaa, että kukin d j =1 , sitten saada vastaava n j, sitten käyttää mitään poikkeamia malli peräkkäisten n j s tarkistaa DJ on suurempi kokonaisluku, ja mittakaavassa vastaava n j alas vastaavasti. Yksi tapa siirtyä d j: stä n j: hen on hyödyntää K-M − estimaattorin ”ehdollisten selviytymistodennäköisyyksien tulo” – rakennetta: kääntää estimaattorina käytettävien tuotteiden järjestys ja jakaa Ŝ t j: llä Ŝ t j-1 . Tuloksena saatu suhde on 1-d(t j )/n(t j ), jossa d(t j ) merkitsee tapahtumien lukumäärää hetkellä t j ja n(t J ) on riskiluku hetkellä t J . Jos voimme määrittää, mitä d (t j) on, saamme yksinkertaisen lausekkeen n j: lle:

n t j = d t j 1 − Ŝ T J / Ŝ T j − 1 ,j=1,2,….
(1)

itse asiassa, kuten kuviosta 1c käy ilmi, voidaan tämän lausekkeen avulla päätellä, että {t1,…, t7}: n riskiluvut ovat {N1,…, n7}={11,10,8,7,5,4,2}.

alkulukujen – jotka yleensä ilmoitetaan julkaisuissa – ja ”sovitettujen” tai ”pääteltyjen” riskilukujen sarjan avulla voidaan käytännössä varmuudella määrittää tapahtumien lukumäärä kullakin erillisellä tapahtuma – ajalla – DJ: t. jos kullakin erillisellä tapahtuma – ajalla On todellakin yksi tapahtuma, riskiluvut muodostavat (yleensä pieniä) mittausvirheitä lukuun ottamatta monotonisesti laskevan sarjan. Systemaattiset poikkeamat monotonisuudesta näkyvät heti: jos on itse asiassa kaksi tapahtumaa erillisenä tapahtumahetkenä,’ asennettu ’numero riskillä , NJ, on 1/2 siitä, mitä sen pitäisi olla, ja erottuu selvästi sen singleton-pohjainen naapureita; jos on kolme tapahtumaa,’ asennettu ’ numero vaarassa on 1/3 sen naapureita, ja niin edelleen. Havainnollistamme tätä myöhemmin, kun käsittelemme kuvassa 2 olevaa esimerkkiä (oikealla). Näin muodostetuista {s1,…, s7} ja {N1,…,n7}, voimme sitten vähennyslaskulla päätellä, että esimerkissämme {C1,…, c7}={0,1,0,1,0,1,1}.

kuva 2
kuvio2

kumulatiiviset tapahtumamäärät ja arvioidut riskiluvut. (Vasemmalla) kumulatiiviset tapahtumien määrät eteisvärinäpotilailla, jotka saivat varfariinia tai rivaroksabaania. (Oikealla) kunkin pisteen pystysuuntainen sijainti kuvaa varfariinihaaran arvioitua riskilukua kyseisessä riskiryhmässä (horisontaalinen sijainti). Luvut saatiin soveltamalla yhtälöä 1 S (t j) – estimaatteihin, jotka on johdettu Vektorikuvan renderöintiin käytetyistä PostScript-käskyistä. Timantit edustavat päiviä 0, (120), 840, jotka on ilmoitettu artikkelissa olevan luvun alareunassa. On selvää, että vaikka niitä ei olisi toimitettu, ne olisi voitu hyvin tarkasti arvioida pelkästään peräkkäisten S(t j) – arvioiden perusteella. Vähäinen monotonisuuden puute sarjassa (a) heijastaa pyöristysvirheitä PostScript-koordinaatistoissa. Jokainen n j sarjassa (B) perustuu (selvästi väärä) oletus, että vastaava d j =1; näissä eri epäonnistuminen kertaa, selvästi, d J =2, joten jokainen n j on kaksi kertaa, että esitetty. Samoin, N J S sarjassa (c) perustuvat olettaen d j =1, kun taas selvästi, d j =3, ja n j pitäisi olla kolme kertaa, että esitetty.

Jos vierekkäisten t: iden väliset aikavälit ovat suhteellisen lyhyitä, tai jos riskiluvut tiettyinä ajankohtina (esim. vuosittainen tai kuukausittainen) on merkitty kaavioon, minkä jälkeen interpoloimalla edelleen riskiryhmien numerosarjaa voidaan määrittää henkilöajan kokonaismäärä kullekin kiinnostavalle ajanjaksolle mahdollisimman vähällä virheellä. Selviytymisaloilla on tyypillisesti leveys:korkeuden kuvasuhde suurempi kuin 1. Näin ollen suhteelliset virheet ovat yleensä pienempiä ”aika” -kuin henkilö-aika-nimittäjän syötteiden ”henkilö” – ulottuvuudessa laskettuihin tapahtumanopeuksiin.

yllä oleva kaava viittasi Kaplan-Meier-käyrään. Jos kuvaaja esittää eloonjäämiskäyrän sijasta Nelson-Aalen-estimaattorin kumulatiiviselle vaaranopeusfunktiolle , jonka on antanut h t j = ∑ t i ≤ t j d t i / n t i ,n(t j): n (t j) lauseke on

n T J = d T J Ĥ t j − Ĥ t j − 1, j=1,2,….
(2)

pystyakselin merkinnästä ei aina selviä, viittaako kasvava Nelson-Aalen− käyrä tähän H s: n sekvenssiin eli integroituihin vaaroihin vai kumulatiiviseen ilmaantuvuuteen tai riskiin eli Ci j =R j =1-exp. Jos se todellakin on jälkimmäinen eli S: n komplementti, niin n j: n kaava muuttuu

n t j = d t j log Ŝ T j − 1 / Ŝ t j .
(3)

tähän asti olemme olettaneet, että verteksien pysty-ja vaakasuuntaiset koordinaatit voidaan mitata ”riittävällä” tarkkuudella. Siirrymme nyt siihen, mitä voidaan saavuttaa käyttämällä varsinaisia K-M-ja N-A-käyriä, jotka voidaan poimia bittikarttakuvista ja vektoripohjaisista grafiikoista julkaisuissa.

käytännön asiat

vielä vuosikymmen tai kaksi sitten oli vielä tavallista, mutta aikaa vievää, käyttää ”kynä ja viivain” -lähestymistapaa (mahdollisesti suurennetusta) kovakopioisesta kuvaajasta ”lukea pois selviytymistodennäköisyydet”. Tähän käytäntöön saattoi liittyä merkittäviä mittausvirheitä, varsinkin kun painatus oli pieni tai resoluutio huono. Nykyään, koska useimmat graafit voidaan joko käyttää sähköisesti tai muuntaa tällaiseen muotoon, työvoimavaltaista työtä voidaan vähentää, paremmalla tarkkuudella ja tarkkuudella. Verkkosivuillemme http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery olemme koonneet yhteen joukon graafeja, jotka löytyvät sähköisesti julkaistuista artikkeleista. Nämä kuvat ovat tyypillisesti kahdenlaisia, joita Adobe Acrobat-dokumentaatiossa kutsutaan ”rasterikuviksi” ja ”vektoriobjekteiksi”.

rasterikuvat

rasterikuva eli bittikartta koostuu pikseleistä (pienimmistä osoitteellisista näyttöelementeistä näyttölaitteessa), jotka on järjestetty kaksiulotteiseen ruudukkoon. Jokaisella pikselillä, jota esittää piste tai neliö, on omat koordinaattinsa ja värinsä. Kun zoomaa yhä enemmän, kuva muuttuu rakeisemmaksi ja yksittäiset pisteet, jotka muodostavat kaavion viivoja ja symboleita, tulevat selvemmiksi.

mustavalkoisessa tai harmaasävykuvassa valkoista edustaa tyypillisesti arvo 1, mustaa arvo 0 ja harmaata väliarvo; värikuvissa käytetään monimutkaisempaa koodausjärjestelmää, jossa on useita kanavia, kuten RGB tai CMYK. Aivan kuten digitaalisessa valokuvauksessa, mitä suuremmat pikselimäärät, sitä uskollisempi on alkuperäisten arvojen edustus. Esimerkki eturauhassyövän seulonnasta (aihetta käsitellään tarkemmin jäljempänä), Katso Andriolen artikkelin kuvat kaksi ja kolme .

rasterikuvia voidaan tallentaa useisiin tiedostomuotoihin; yleisimpiä ovat.jpeg,.png,.tiff, ja.gif. Ne voidaan luoda useilla tavoilla, kuten (i) skannaamalla kiintolevy ja tallentamalla se rasterikuvana, (ii) (jos se on sähköisen asiakirjan sivulla) zoomaamalla kaavion sisältävää aluetta ja ottamalla kuvakaappaus, tai (iii) (jos se on jo upotettu PDF-tiedostoon) käyttämällä Adobe Acrobatin ”export images” – ominaisuutta.

graafin halutut pisteet voidaan purkaa kuvatiedostosta kahdella tavalla. Teknisempi tapa on käyttää ohjelmointikieltä, kuten Basic, C++ tai SAS, lukea väriarvot 2-D-ryhmään, tunnistaa pisteiden väreistä keskeisten maamerkkien pikselipaikat (kuten akselit leikkaavat toisensa ja kauimpana toisistaan vertikaalinen ja horisontaalinen rasti merkit) ja lopuksi määrittää, mitkä pikselipaikkojen sekvenssit sisältävät pisteitä, jotka muodostavat kiinnostavat käyrät. Kun taas readimages-paketin avulla on helppo lukea array osaksi R, ohjelmointi käsitellä array on edelleen huomattava haaste, erityisesti osat, joissa käyrät limittyvät.

helpompi tapa on käyttää graafidigitaattoria, tietokoneohjelmaa, joka (i) tuo ja näyttää valitun kuvan näytöllä ja (ii) antaa käyttäjälle mahdollisuuden tunnistaa horisontaaliset ja vertikaaliset maamerkit kursorin avulla ja klikata graafissa niin monta paikkaa kuin halutaan,muuntaa ja tallentaa vastaavat (x, y) arvot. Verkossa on saatavilla ilmaiseksi useita graafidigiloijia (kuten GraphClick, Engauge Digitizer ja Plot Digitizer). Guyot ym. report that the software DigitizeIt (http://www.digitizeit.de/) performed well. Koska digitointi rasterikuvia on käsitelty yksityiskohtaisesti Guyot et al. , emme anna esimerkkejä, mutta vain verrata niiden tarkkuus kuin vektorin kuvia teoreettisen virheanalyysin alla.

Vektorikuvat

vektoripohjainen kuva tai kaavio koostuu geometrisista alkuluvuista tai elementeistä, kuten pisteistä ja viivoista; se voidaan tunnistaa siitä, että sitä voidaan laajentaa loputtomiin laadun kärsimättä. Janan kaksi päätepistettä esitetään kahdella (x,y) parilla ja piste nollan pituisella suoralla. PostScriptin ”Post” – yleisin kieli niiden tuottamiseen-viittaa laitteen riippumattomuuden periaatteeseen: elementit renderöidään reaaliaikaisesti elementtien tallennetuista koordinaateista riippumatta siitä, millä paikallisella laitteistolla ohjelmistoa käytetään. Tämä siirrettävyysperiaate perustuu Adoben kehittämään portable document format (PDF) – muotoon; PDF-tiedostot perustuvat PostScript-kieleen.

PDF-dokumentin sisältö tallennetaan tyypillisesti binääritiedostona, mutta sekä Adobe Acrobat Pro-sovellus että Mac OS: n Esikatselusovellus voivat viedä PDF-dokumentin (tai sen sivun, joka sisältää kiinnostavan graafin) PostScript-tiedostona, joka sisältää komennot. Tällaiset tiedostot ovat yleensä suuria ja sisältävät paljon teknistä tietoa, mutta on helppoa (jos pitkäveteistä) tunnistaa komennot, jotka tuottavat akselit, rastitusmerkit ja K-M-ja N-A-käyrät muodostavien rivisegmenttien tai pisteiden järjestyksen.

Postscriptissä sivun sijainnit mitataan tulostinpisteinä (72 pistettä tuumalla) sivun vasemmasta yläkulmasta. Siten 2 tuuman (144 kohta) X-akseli, joka ulottuu T=0 ja t=5, ja fyysisesti 1-3 sisään vasemmalta puolelta sivun ja sijaitsee 5 in (360 pistettä) alapuolella sivun olisi määritelty line-segmentin (72, 360) ⇔ (216, 360). Oletetaan, että päät 1,5-in (108 pistettä) korkea y-akseli vastaavat S=0 ja S=1, vastaavasti. Sitten, näistä PostScript koordinaatit, voimme määrittää, että line segmentti (144, 300) ⇔ (146.88, 300) on askelfunktion horisontaalinen osa, jossa arvo S=(360-300)/108=0.555 väli t=(144-72)/(144/5)=2.5 – t=(146.88−72)/(144/5)=2.6 ja että segmentti (146.88, 300) ⇔ (146.88, 303) on korkeushyppy arvolla t=2,6, Pituus Δ S=3/108=0,028 välillä s=0,555-s=0,583.

yllättäen jotkin julkaisut sisältävät formaattien sekoituksen. Itse julkaisussa käytetään lähteenä Kuva yksi, akselit alkuperäisessä New England Journal of Medicine (NEJM) luku oli renderöity vektoreina PostScript, mutta kaksi käyrää ovat päällekkäin kuin kuva. Komposiitti analysoitiin kuva Guyot et al. . Sen sijaan, toinen luku, että NEJM julkaisu oli renderöity kokonaan PostScript, vaikkakin joitakin hyvin monimutkaisia polkuja muodostaa line segmenttien.

tarkkuus

Kuinka tarkkoja rasteri-ja vektorikuvista poimitut tiedot ovat? Tätä kysymystä voidaan arvioida useilla tasoilla alkaen itse Ŝ(tai 1−Ŝ) mittausten tarkkuudesta. Tarkastellaan tyypillinen 300 pistettä tuumalla (dpi) rasterikuva, jossa koko (0, 1) s-akseli on 1,6 in, tai 480 pikseliä, korkea. Tällöin saadaan Δ s≈0,002. (Alaspäin suuntautuva käyrä, joka päättyy pisteeseen say s=0,9, mutta käyrällä, joka käyttää koko asteikkoa (0,1), tuhlaa huomattavaa tarkkuutta: on järkevämpää piirtää funktio ”ylöspäin”, 1−S, jopa 0,1 asti, jolloin 1−s-arvot ovat ±0,0005: n tarkkuudella).

tarkastellaan sen sijaan vektorikuvaa, joka sisältää saman käyrän, samalla 1,6-in (=72×1,6=115,2 pistettä) pystysuoralla asteikolla. Koska Adobe Acrobatin viemässä PostScript-tiedostossa annetut koordinaatit tallennetaan kolmen desimaalin tarkkuudella, resoluutio on Δ S=1/(115.2×1,000)≈0.00001, tai 200-kertainen rasterikuvaan verrattuna.

vaikka molemmat päätöslauselmat antavat riittävän tarkat Ŝ−Mittarit ja antavat mahdollisuuden määrittää, kuinka monta tapahtumaa kussakin hypyssä on mukana, ne eivät välttämättä anna yhtä tarkkoja mittoja riskiluvusta kussakin hypyssä, koska se mitataan 1 − Ŝ T j / Ŝ t j-1: n käänteisarvona . Johdettujen mittausten tarkkuuden empiirisenä arviointina kuvassa 2 esitetään rasterikuvan ja vektorikuvan estimoidut luvut sekä-validiteettitarkastuksena-ilmoitetut riskiluvut kunkin jakson lopussa. Ne sopivat hyvin yhteen kirjoituksissa esitettyjen kanssa.

tarkkuus voidaan kvantifioida myös teoreettisen virheanalyysin avulla. Tarkastellaan kahta vierekkäistä arvoa samalla kumulatiivisella esiintyvyyskäyrällä, jossa pystyakseli menee 0%: sta 5%: iin ja ilmoitetaan (joidenkin pyöristysten jälkeen) olevan y0 ja y5 pistettä, vastaavasti jonkin maamerkin yläpuolella; oletetaan, että ilman pyöristystä ne olisivat y0 ja Y5 pistettä edellä. Merkitään kaavion kahden vierekkäisen pisteen pystysuorat sijainnit (samalla tavalla pyöristettyinä) muodossa y” ja y”, jossa y”>y”, mikä vastaa Y: n ja Y: n rajaamattomia arvoja. Tällöin riskiluvun estimaatit ovat seuraavat:

n T j = 20 y 5 − y 0 − y ’− Y 0 y ”− y”.

liitteessä esitetään tämän johdetun suureen varianssi olettaen, että neljän y: n sisältämät virheet (e: t) ovat yhtä suuret ja toisistaan riippumattomat. Käytännössä PostScript-pisteet pyöristetään kolmeen desimaaliin, joten ilmoitettuun sijaintiin Y liittyvä todellinen paikka Y=563.384 pistettä sijoittuu 563.3835-563.3845 pisteen välille. Jos virheet ovat tasalaatuisia tällä 0,001-alueella siten, että σ e ≈0,001 / 12 =0.0003 pistettä, niin variaatiokerroin (CV) on



Vastaa

Sähköpostiosoitettasi ei julkaista.