a nyers adatok helyreállítása nem parametrikus túlélési görbe mögött

alapelvek

először feltételezzük, hogy a Kaplan-Meier vagy Nelson-Aalen görbe értékei megfelelő pontossággal és pontossággal mérhetők (ezt a követelményt a későbbi szakaszokban enyhítjük). Ilyen esetekben az első alapelvek – és egyes levonások – általában lehetővé teszik, hogy ne csak (i) az egyes kockázati halmazokat meghatározó t ‘esemény’ időt, hanem az egyes kockázati halmazokat is helyreállítsák (ii) az n kockázatú számot és (iii) az események számát d. ezután egymást követő kivonásokkal kiszámítható (iv) az egymást követő kockázati halmazok között cenzúrázott megfigyelések száma c. hacsak a grafikonon nem jelennek meg a cenzúrázott megfigyelések pontos időpontjai, a visszanyert adatok a

n 0, c 0 , t 1 , n sorozatba tömöríthetők 1 , D 1 , C 1 , T 2 , N 2 , D 2,….

Ha a pontos cenzúrázási idők szerepelnek a grafikonon, akkor elvileg a teljes adatkészlet rekonstruálható; különben a legjobb, amit tehetünk, hogy interpolációt használunk, a felvételi időszak leírásával és a vizsgálat záró dátumaival együtt, hogy a cenzúrázott megfigyelések helyét a különböző időintervallumokban tulajdonítsuk. A legtöbb szerző egyenletesen elosztotta őket ezeken az intervallumokon belül.

az elvek áttekintéséhez és az érvelés szemléltetéséhez egy kis példával kezdjük, egy széles körben használt szemléltető adatkészlet felhasználásával. Az 1a. ábra a túlélő funkció Kaplan-Meier-becslését mutatja akut mielogén leukémiában (AML) szenvedő betegek esetében a ‘fenntartott’ csoportban, elérhető az R túlélési csomagjában. Először arra kérjük az olvasót, hogy hagyja figyelmen kívül az egyes paneleken megjelenített további információkat, és korlátozza figyelmét a görbére, annak lépéseivel és cenzúrázási jeleivel.

1.ábra
ábra 1

Kaplan-Meier túlélő funkció, amely a magasságok magasságát, ugrásait és arányait mutatja. (a) Kaplan-Meier a túlélő funkció becslése az AML-ben szenvedő betegek számára a fenntartott csoportban, az S (t j) magasságot mutatva. (b) ugyanaz a K-M görbe, amely a J(t j) ugrásokat mutatja. C) ugyanaz a K-M görbe, amely az S(t j) /S(tj−1) magasságok arányát mutatja. Az egyes paneleken látható görbét az R-ben található túlélési csomag segítségével szereltük fel és rajzoltuk meg.

jelölje S(t j ) a túlélési valószínűséget vagy a túlélési görbe “magasságát” t j időpontban, és határozza meg a J(T j ) ugrást S(tj−1)−S(t j) – ként. Általában tudnánk, de tegyük fel, hogy nem is tudjuk n0, az alanyok száma T0=0. A lépésfüggvény értékein és a lépések idején kívül minden más információ nélkül mennyi nyers információt lehet visszanyerni egy ilyen grafikonból, ha az S-K kellő pontossággal ismertek? (Megfelelő pontossággal azt értjük, hogy a valódi érték megbízhatóan levezethető n j és nem n j -1 vagy n j +1).

az 1a ábra gyors vizsgálata azt mutatja, hogy hét ugrás és három cenzúrázási jel van, tehát n0 legalább 10. Még cenzúrázási jelek nélkül is, az ugrások méretének különbségei némi cenzúrázást jeleznek-ha nincs ilyen, akkor az összes ugrás egyenlő méretű (1/n0), vagy ennek többszöröse, azaz m/n0, ha m>1 esemény egy kockázati készletben. Amint az 1b ábrán látható, J(t3)>J(t2), míg J(t5)>J(t4), és J(t7)>J(T6); továbbá, mivel az utolsó megfigyelés cenzúrázott, arra következtethetünk, hogy összesen legalább négy cenzúrázott értéknek kell lennie.

az egyik módja annak, hogy megértsük, hogy a jobb oldalon található (egyszeri esemény) ugrások miért csak nagyobbak lehetnek, mint az őket megelőző ugrások, az Efron jobb oldali eloszlása révén történik algoritmus : kezdetben minden megfigyelési időpontban 1/n0 valószínűségi tömeget helyeznek el. Balról jobbra haladva, mivel cenzúrázott idő tapasztalható, tömegét egyenlő részekben osztják szét a jobb oldali összes megfigyelésre. A cenzúrázott megfigyelések söpörésének ezt az eljárását addig ismételjük, amíg az összes kapcsolódó tömegüket újraelosztják.

az 1b ábrán az első két J(t1) és J(t2) ugrás egyenlő méretű 0,09091 vagy 1/11, ami arra utal, hogy kezdetben 11 személy volt veszélyben (természetesen további információk nélkül 22 vagy 33 is lehetett, de a görbe későbbi értékei ezeket gyakorlatilag kizárják). Az a tény, hogy a harmadik ugrás nagyobb, azt bizonyítja, hogy cenzúrázott megfigyelésnek kell lennie a t2-nél vagy után, valamint a t3 előtt. De mivel (ellentétben a többi cenzúrázott megfigyeléssel, amelyek szigorúan az események között esnek) nem jelölik kullancsjel a grafikonon, a cenzúrázásnak konvenció szerint közvetlenül a t2 eseménye(I) után kell történnie, de az adatok diszkrétsége miatt ‘ t2+’ – ként rögzítették. Így, míg a cenzúrázási jelek pontosabb helyet adhatnak a cenzúrázott megfigyeléseknek, a statisztikai csomagok nem feltétlenül jelenítik meg mindet, ezért nem szabad támaszkodni arra, hogy mindegyiket csak a kullancsjelekből azonosítsák.

Efron algoritmusát követve a 0,10227 méretű J(t3) az eredeti tömeg 1/11 (0,09091) és (1/8)azonos méretű tömegének összege, amely a cenzúrázott ‘ t2+’ megfigyeléshez kapcsolódik, amelyet újra elosztottak a nyolc között, akik közvetlenül a t2 után voltak veszélyben, azaz J(t3)=J(t2)+1/8 ++ J(t2). Azonban az aritmetika és a többszörös lehetséges ‘hagyatékok’ és konfigurációk bonyolulttá válnak, ha több esemény van ugyanabban a megfigyelt időben, vagy ha egy intervallumban egynél több megfigyelést cenzúráznak. Így, ahogy az ugrások abszolút méreteinek kifejezései bonyolulttá válnak, hogyan határozhatnánk meg másként a veszélyeztetett számokat – és az események számát – minden egyes ugrás idején?

azt találtuk, hogy a legkönnyebb először azt feltételezni, hogy minden d j =1, majd levezetni a megfelelő n j-t, majd az egymást követő N j-K mintázatának bármilyen anomáliáját használni a d j nagyobb egész számra történő átdolgozásához, és ennek megfelelően méretezni a megfelelő n j-t. A D j-ről n j − re való áttérés egyik módja a K-M becslő ‘feltételes túlélési valószínűségek szorzata’ struktúrájának kihasználása: fordítsa meg a becslésként használt termékek sorrendjét, és ossza el a T J-T A T J-1-gyel . A kapott arány 1-d(t j )/n(t j ), ahol d(t j ) A T J időpontban bekövetkező események számát jelöli, n (t j ) pedig a T j időpontban veszélyeztetett szám . Ha meg tudjuk állapítani, hogy mi a d(t j), akkor megkapjuk az egyszerű kifejezést n j:

n t j = d t j 1 − vállalkozók T j / vállalkozók T j − 1 ,j=1,2,….
(1)

valójában, amint az az 1C ábrán látható, ezzel a kifejezéssel arra következtethetünk, hogy a {t1,…, t7} veszélyeztetett számai {n1,…, n7}={11,10,8,7,5,4,2}.

a kezdeti számok – amelyeket általában a publikációkban jelentenek-és az’ illesztett ‘vagy’ kikövetkeztetett ‘ számok sorozata a kockázatnak kitett, felhasználható arra, hogy virtuális bizonyossággal megállapítsuk az események számát minden egyes különböző eseményidőben – a DJ s. ha valóban van egy esemény minden egyes különálló eseményidőben, akkor a kikövetkeztetett számok – a (általában kis) mérési hibáktól eltekintve – monoton csökkenő sorrendet alkotnak. A monotonitástól való szisztematikus eltérések azonnal nyilvánvalóak: ha valójában két esemény volt egy adott eseményidőben, akkor az’ illesztett ‘ szám a kockázatnak, n j, 1/2-a lesz annak, aminek lennie kell, és egyértelműen kiemelkedik a szingulett alapú szomszédaitól; ha három esemény volt, akkor a veszélyeztetett ‘illesztett’ szám a szomszédainak 1/3-a lesz, és így tovább. Ezt később szemléltetjük, amikor a 2.ábrán látható példát tárgyaljuk (jobbra). Az így megállapított {s1,…,s7} – ből és a {N1,…, n7} – ből kivonással arra következtethetünk,hogy példánkban {c1,…, c7}={0,1,0,1,0,1,1}.

2.ábra
ábra 2

kumulatív eseményarányok és becsült kockázati számok. (Balra) kumulatív események aránya pitvarfibrillációban szenvedő betegeknél, akik warfarint vagy rivaroxabánt kaptak. (Jobbra) az egyes pontok függőleges elhelyezkedése a warfarin-karban a szóban forgó kockázati készletben becsült veszélyeztetett számot jelenti (vízszintes hely). A számokat az 1. egyenlet alkalmazásával származtattuk az S (t j ) becslésekre, amelyek a vektorkép megjelenítéséhez használt PostScript parancsokból származnak. A gyémántok a 0., (120), 840. napon veszélyeztetett számokat jelentenek, amelyeket a cikk ábrájának alján jelentettek. Nyilvánvaló, hogy még ha nem is szolgáltatták volna őket, csak az egymást követő S(TJ ) becslések alapján nagyon pontosan meg lehetett volna becsülni őket. Az (a) sorozatban a monotonitás enyhe hiánya a kerekítési hibákat tükrözi a PostScript koordinátákban. A (b) sorozatban minden n j azon a (egyértelműen hamis) feltételezésen alapul, hogy a megfelelő d j =1; ezekben a különálló meghibásodási időkben egyértelműen d j =2, tehát minden n j kétszerese a bemutatottnak. Hasonlóképpen, a (c) sorozatban szereplő n j s azon alapul, hogy feltételezzük d j =1, amikor ismét egyértelműen d j =3, és az n j-nek háromszor kell lennie a bemutatottnak.

Ha a szomszédos t-k közötti időközök viszonylag rövidek, vagy ha a veszélyeztetett számok meghatározott időpontokban (pl. évente vagy havonta) jelennek meg a grafikonon, majd a veszélyeztetett számok sorozatának további interpolációjával minimális hibával megállapítható az egyes érdeklődési időintervallumok teljes személyi ideje. A túlélési telkek általában szélesek:magasság képarány nagyobb, mint 1. Így a relatív hibák általában kisebbek lesznek az ‘idő’, mint a személy-idő nevező bemeneteinek ‘személy’ dimenziójában a számított eseményarányokhoz.

a fenti képlet a Kaplan-Meier görbére vonatkozott. Ha a túlélési görbe helyett a grafikon a kumulatív veszélyességi ráta függvény Nelson-Aalen becslőjét mutatja , amelyet H t j = ++ t i ++ t j d t i / n t I ad meg ,akkor az N(t j ) kifejezése

n t j = d t j ++ t j − ++ t j − 1, j=1,2,….
(2)

a függőleges tengely címkéjéből nem mindig egyértelmű, hogy a növekvő ‘Nelson-Aalen’ görbe a H s ezen sorrendjére, azaz az integrált veszélyekre, vagy a kumulatív incidenciára vagy kockázatra utal− e, azaz CI j =R j =1-exp. Ha valóban ez utóbbi, azaz az S komplementere, akkor az N j képlete

n t j = d t j log ++ t j − 1 / ++ T j lesz .
(3)

eddig azt feltételeztük, hogy a csúcsok függőleges és vízszintes koordinátái megfelelő pontossággal mérhetők. Most rátérünk arra, hogy mit lehet elérni a K-M és N-A görbék használatával, amelyeket bittérképes képekből és vektor alapú grafikákból lehet kinyerni a kiadványokban.

Praktikalitások

alig egy-két évtizeddel ezelőtt még gyakori, de időigényes volt a ‘ceruza és vonalzó’ megközelítés használata a túlélési valószínűségek leolvasására egy (esetleg kibővített) nyomtatott grafikonból. Ez a gyakorlat jelentős mérési hibával járhat, különösen akkor, ha a nyomtatás kicsi vagy a felbontás gyenge volt. Ma, mivel a legtöbb grafikon elektronikusan elérhető vagy átalakítható ilyen formátumba, a munkaigényes munka csökkenthető, jobb pontossággal és pontossággal. Weboldalunkon http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery összegyűjtöttük az elektronikusan közzétett cikkekben található grafikonokat. Ezek a képek jellemzően két típusból állnak, amelyeket az Adobe Acrobat dokumentációja raszteres képeknek és vektorobjektumoknak nevez.

raszteres képek

A raszteres kép vagy bitkép pixelekből áll (a megjelenítő eszköz legkisebb címezhető képernyőelemei), amelyek kétdimenziós rácsban vannak elrendezve. Minden pixelnek, amelyet egy pont vagy négyzet képvisel, saját koordinátái és színe van. Amikor egyre többet nagyítunk, a kép szemcsésebbé válik, és a grafikonon lévő vonalakat és szimbólumokat alkotó egyes pontok nyilvánvalóbbá válnak.

fekete-fehér vagy szürkeárnyalatos képen a fehéret általában az 1 érték, a feketét 0, a szürkét pedig egy köztes érték képviseli; a színes képek bonyolultabb kódolási sémát használnak, amely több csatornát tartalmaz, például RGB vagy CMYK. Csakúgy, mint a digitális fényképezésnél, minél nagyobb a képpontok száma, annál hűségesebb az eredeti értékek ábrázolása. Egy példa a prosztatarák szűréséről (egy téma, amelyet az alábbiakban tárgyalunk), Lásd az Andriole cikk második és harmadik ábráját .

a raszteres képek számos fájlformátumban tárolhatók; a leggyakoribbak.jpeg,.png,.tiff, és.gif. Számos módon hozhatók létre, például (i) a nyomtatott példány beolvasása és raszteres képként történő tárolása, (ii) (ha az elektronikus dokumentum egyik oldalán található) a grafikont tartalmazó terület nagyítása és Képernyőkép készítése, vagy (iii) (ha már be van ágyazva egy PDF fájlba) az Adobe Acrobat ‘képek exportálása’ funkciójának használatával.

a grafikon kívánt pontjai kétféle módon nyerhetők ki a képfájlból. A technikaibb módszer egy olyan programozási nyelv használata, mint a Basic, A C++ vagy a SAS, hogy a színértékeket 2-D tömbbe olvassa, a pontok színeiből azonosítsa a kulcsfontosságú tereptárgyak pixelhelyeit (például a tengelyek keresztezik egymást, és a legtávolabbi függőleges és vízszintes kullancsjeleket), és végül meghatározza, hogy a pixelhelyek mely szekvenciái tartalmazzák az érdekes görbéket alkotó pontokat. Míg a ReadImages csomag megkönnyíti a tömb R-be olvasását, a tömb feldolgozásának programozása továbbra is jelentős kihívás, különösen azoknál a részeknél, ahol a görbék átfedik egymást.

a könnyebb módszer egy gráf digitalizáló használata, egy számítógépes program, amely (i) importálja és megjeleníti a kiválasztott képet a képernyőn,és (ii) lehetővé teszi a felhasználó számára, hogy a kurzor segítségével azonosítsa a vízszintes és függőleges tereptárgyakat, és kattintson a kívánt helyre a grafikonon, majd konvertálja és tárolja a megfelelő (x, y) értékeket. Számos graph digitalizáló (például Graph click, Engauge digitalizáló és Plot digitalizáló) ingyenesen elérhető az interneten. Guyot et al. jelentse, hogy a digitizeit szoftver (http://www.digitizeit.de/) jól teljesített. Mivel a raszteres képek digitalizálását Guyot et al. , nem adunk példákat, hanem pusztán szembeállítjuk azok pontosságát a vektoros képek pontosságával az alábbi elméleti hibaelemzésben.

vektoros képek

a vektor alapú ábra vagy grafikon geometriai primitívekből vagy elemekből, például pontokból és vonalakból áll; azonosítható azzal a ténnyel, hogy a minőség romlása nélkül korlátlan ideig bővíthető. Egy vonal két végpontját két (x,y) pár, egy pontot pedig nulla hosszúságú vonal képviseli. A PostScript – ben található’ Post ‘ – a gyártásuk leggyakoribb nyelve-az eszközfüggetlenség elvére utal: az elemeket valós időben renderelik az elemek tárolt koordinátáitól, függetlenül attól, hogy milyen helyi hardveren használják a szoftvert. Ez a hordozhatósági elv az Adobe által kifejlesztett portable document format (PDF) alapját képezi; a PDF fájlok a PostScript nyelven alapulnak.

A PDF dokumentum tartalmát általában bináris fájlként tárolják, de mind az Adobe Acrobat Pro alkalmazás, mind a Mac OS-ben biztosított előnézeti alkalmazás képes exportálni egy PDF dokumentumot (vagy annak az oldalát, amely az érdekes grafikont tartalmazza) PostScript fájlként, amely tartalmazza a parancsokat. Az ilyen fájlok általában nagyok és sok technikai információt tartalmaznak, de könnyű (ha unalmas) azonosítani azokat a parancsokat, amelyek a tengelyeket, a kullancsjeleket, valamint a K-M és N-A görbéket alkotó vonalszegmensek vagy pontok sorrendjét eredményezik.

a PostScript-ben az oldal helyeit nyomtatópontokban (72 pont / hüvelyk) mérik az oldal bal felső sarkától. Így egy 2 hüvelykes (144 pont) x tengely, amely T=0-tól és t=5-től, fizikailag pedig 1-től 3-ig terjed az oldal bal oldalán, és 5 hüvelyk (360 pont) található az oldal teteje alatt, a vonalszakasz határozza meg(72, 360) ⇔ (216, 360). Tegyük fel, hogy az 1,5 hüvelykes (108 pont) magas y tengely végei s=0, illetve S=1-nek felelnek meg. Ezután ezekből a PostScript koordinátákból megállapíthatjuk, hogy a vonalszakasz (144 300) (146).88, 300) a lépésfüggvény vízszintes része, amely az S=(360-300)/108=0, 555 értéket veszi fel a T intervallumban=(144-72)/(144/5)=2.5 hogy t=(146.88−72)/(144/5)=2.6 és hogy a szegmens (146.88, 300) ⇔ (146.88, 303) egy függőleges ugrás a T=2,6, Hosszúságúakcl = 3/108=0,028 tól től S=0,555 nak nek S = 0,583.

meglepő módon egyes kiadványok formátumok keverékét tartalmazzák. Valójában az első ábra forrásaként használt kiadványban az eredeti New England Journal of Medicine (NEJM) ábra tengelyeit vektorokként renderelték PostScript, de a két görbe képként van egymásra helyezve. A kompozitot képként elemezte Guyot et al. . Ezzel szemben a NEJM kiadvány másik alakját teljes egészében PostScript-ben tették közzé, bár néhány nagyon összetett útvonallal a vonalszegmensek kialakításához.

Precision

mennyire pontosak az adatok a raszteres és vektoros képekből? Ezt a kérdést több szinten is fel lehet mérni, kezdve maguk a ++ (vagy 1−) mérések pontosságával. Vegyünk egy tipikus 300 pont / hüvelyk (dpi) raszteres képet, amelyben a teljes (0, 1) S tengely 1,6 hüvelyk vagy 480 pixel magas. Ez ad egy állásfoglalást a (Z) 0.002. (Egy ‘lefelé’ görbe, amely mondjuk S=0,9-re végződik, de egy olyan grafikonon, amely a teljes (0,1) skálát használja, jelentős pontosságot pazarol el: sokkal értelmesebb a ‘felfelé’ függvényt ábrázolni, 1−S, egészen 0,1−ig, így az 1-s értékek pontosak a 0,0005-es számú 0,0-ig).

Vegyünk inkább egy vektoros képet, amely ugyanazt a görbét tartalmazza, ugyanazon az 1,6 hüvelykes (=72 ++ 1,6=115,2 pont) függőleges skálán. Mivel az Adobe Acrobat által exportált PostScript fájlban megadott koordinátákat három tizedesjegyre rögzítik, a felbontás=1/(115.2×1,000)≈0.00001, vagy a raszteres kép 200-szorosa.

bár mindkét állásfoglalás megfelelően pontos mértéket ad meg A ++ – ról, és lehetővé teszi annak meghatározását, hogy hány esemény vesz részt az egyes ugrásokban, előfordulhat, hogy nem adnak ilyen pontos mértéket az egyes ugrásoknál veszélyeztetett számról, mivel az 1−Kb t j /Kb T j − 1 reciprokaként mérik . A származtatott mérések pontosságának empirikus értékeléseként a 2. ábra egy raszterképből és egy vektorképből származó becsült számokat, valamint – érvényességi ellenőrzésként – az egyes időintervallumok végén jelentett veszélyeztetett számokat mutatja. Nagyon jól illeszkednek a cikkekben megadottakhoz.

a pontosság elméleti hibaelemzéssel is számszerűsíthető. Vegyünk két szomszédos értéket ugyanazon kumulatív incidenciagörbén, ahol a függőleges tengely 0% – ról 5% – ra megy, és (némi kerekítés után) y0, illetve y5 pontnak számítanak valamilyen mérföldkő felett; tegyük fel, hogy kerekítés nélkül Y0 és Y5 pontok lennének fent. Jelölje meg a gráf két szomszédos pontjának függőleges (hasonlóan lekerekített) helyét y’ és y” – ként, y”>y’ – vel, amely megfelel az Y’ és Y”kerekítetlen értékeinek. Ezután a veszélyeztetett szám becslése a következő:

n t j = 20 y 5 − y 0 − y ‘− Y 0 y “− y ‘ .

a függelékben megadjuk ennek a származtatott mennyiségnek a varianciáját, feltételezve, hogy a négy y S-ban található hibák egyenlőek és függetlenek egymástól. A gyakorlatban a PostScript pontokat három tizedesjegyre kerekítik; így az Y=563,384 pont jelentett helyéhez társított valódi hely 563,3835 és 563,3845 pont között van. Ha a hibák egységesek ezen a 0,001-es tartományon belül, úgy, hogy a 0,001/ 12 =0.0003 pont, akkor a variációs együttható (CV)



Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.