Zotavuje raw data za non-parametrické křivky přežití

Principů

Chcete-li začít s, budeme předpokládat, že Kaplan-Meier nebo Nelson-Aalen křivka hodnoty mohou být měřeny s dostatečnou přesností a přesnost (budeme relaxovat tento požadavek v pozdějších kapitolách). V takových případech, první principy – a některé srážky – obecně umožňují obnovit nejen (i) odlišné „událost“ čase t, která definuje jednotlivá rizika set, ale také pro každé riziko stanovit (ii) počet ohrožených n a (iii) počet akcí d. Pak, po sobě jdoucích odčítání, lze vypočítat (iv) počet pozorování cenzorovaných mezi po sobě jdoucími riziko sady c. Pokud přesné časy z cenzurovaných pozorování jsou uvedeny na grafu, obnovená data mohou být komprimovány do sekvence

n 0 , c 0 , t 1 , n 1 , d 1 , c 1 , t 2 , n 2 , d 2 , … .

Pokud přesně cenzurovat časy jsou uvedené v grafu, pak v zásadě platí, že celý soubor dat může být rekonstruována; v opačném případě, to nejlepší, co člověk může udělat, je pomocí interpolace, spolu s popisem nábor období a lhůty studie připisují umístění cenzorovaných pozorování v různých časových intervalech. Většina autorů je v těchto intervalech rovnoměrně rozložila.

abychom přezkoumali principy a ilustrovali zdůvodnění, začneme malým příkladem pomocí široce používaného ilustrativního datového souboru. Obrázek 1a ukazuje Kaplan-Meier odhad survivor funkce u pacientů s akutní myeloidní leukémií (AML) v udržované skupiny, k dispozici v balíčku přežití v R. otázka v té době byla, zda standardní chemoterapii by měla být zachována pro další cykly pro tyto pacienty. Začít s, žádáme čtenáře, aby ignorovat další informace ukážeme na každý panel a omezit svou pozornost na křivky, s jeho kroky a cenzurovat značky.

Číslo 1
1

Kaplan-Meier survivor funkce, ukazuje výšek, skoky, a poměry výšek. (a) Kaplan-Meierův odhad funkce přežití u pacientů s AML v udržované skupině, ukazující výšky S (t j). (b) stejná křivka K-M ukazující skoky J (t j). c) stejná křivka K-M ukazující poměry výšek S (t j) /s (tj-1). Křivka znázorněná na každém panelu byla namontována a nakreslena pomocí balíčku přežití v r.

Nechť S(t j ) udává pravděpodobnost přežití, nebo ‚výška‘ z křivky přežití v čase t j a definovat ‚skok‘ J(t j ) jako S(tj−1)−Y(t j ). Obvykle bychom to věděli, ale předpokládejme, že ani nevíme n0, počet subjektů v čase t0=0. Bez dalších informací kromě hodnot funkce kroku a časů kroků, kolik surových informací lze z takového grafu obnovit, pokud jsou známa S dostatečnou přesností? (Dostatečnou přesností máme na mysli, že skutečnou hodnotu lze spolehlivě odvodit jako n j a ne n j -1 nebo n j +1).

rychlá kontrola Obrázek 1a ukazuje, že existuje sedm skoků a tři cenzurovat značky, takže n0 je alespoň 10. I bez cenzury znaky, rozdíly ve velikosti skoky uvést některé cenzuru – pokud tam byly žádné, všechny skoky by být buď stejné velikosti (1/n0), nebo násobky, tj. m/n0, pokud m>1 události v nebezpečí nachází. Jak je znázorněno na Obrázku 1b, J(t3)>J(t2), zatímco J(t5)>J(t4) a J(t7)>J(t6); kromě toho od posledního pozorování je cenzurován, můžeme usuzovat, že tam musí být alespoň čtyři cenzurováno hodnoty celkem.

Jeden způsob, jak pochopit, proč (single-event) skoky nachází dále na právo může jen být větší, než ty, které předcházejí jim je přes Efron je re-distribuce-na-na-správný algoritmus : zpočátku, pravděpodobnost, hmotnost 1/n0 je umístěn v každém čase pozorování. Postupuje zleva doprava, jak se vyskytuje cenzurovaný čas, jeho hmotnost je redistribuována ve stejných částech ke všem pozorováním napravo. Tento postup zametání cenzurovaných pozorování se opakuje, dokud nebudou přerozděleny všechny jejich přidružené masy.

Na Obrázku 1b, první dva skoky J(t1) a J(t2) mají stejnou velikost 0.09091, nebo 1/11, což naznačuje, že tam může být zpočátku 11 osob v riziku (samozřejmě, bez nutnosti další informace, mohlo by to také bylo 22 nebo 33, ale následné hodnoty křivky bude účinně pravidlo, tyto ven). Skutečnost, že třetí skok je větší, dokazuje, že musí existovat cenzurované pozorování na nebo po t2 a před t3. Ale od té doby (na rozdíl od jiných cenzorovaných pozorování, které spadají výlučně mezi událostmi krát) není označen zatržítkem na grafu, cenzura musí být, podle konvence, ke kterým došlo bezprostředně po události(y) na t2, ale vzhledem k diskrétnosti údajů, byly zaznamenány jako ‚ t2+‘. A tak, zatímco cenzurovat značky může dát přesnější umístění cenzorovaných pozorování, statistických balíků, nemusí nutně zobrazovat všechny z nich, a tak se nelze spoléhat na identifikaci všech z nich jen ze značky.

Následující Efron je algoritmus, J(t3) velikost 0.10227 může být vnímán jako součet původní hmotnost 1/11 (0.09091) a (1/8)th stejné velikosti hmoty spojené s cenzurované ‚ t2+‘, pozorování, že byl šířen mezi osmi, kteří byli v ohrožení jen po t2, tj. J(t3)=J(t2)+1/8×J(t2). Nicméně, aritmetické a více možných ‚dědictví‘ a konfigurace se stala složitější, pokud existuje více akcí na stejný pozorované čas, nebo je-li více než jedno pozorování v intervalu je cenzurován. Tak, jako výrazy pro absolutní velikosti skoky začít, aby se stala složitější, jak jinak bychom mohli určit čísla na rizika a počty akcí – v každém po sobě jdoucích skok?

zjistili Jsme, že nejjednodušší první předpokládat, že každý d j =1, pak odvodit odpovídající n j , pak použijte nějaké anomálie ve struktuře po sobě jdoucích n j s k revizi d j na větší číslo, a stupnice odpovídající n j se stanoví podle toho. Jeden způsob, jak jít od d j n j je využít „produktu“, podmíněné pravděpodobnosti přežití strukturu K-M odhadu: obráceném pořadí výrobků, které jsou použity jako odhad a rozdělit Ŝ t j o Ŝ t j − 1 . Výsledný poměr je 1-d(t j) / n (t j), kde d (t j) označuje počet událostí v čase t j A n (t j) je číslo ohrožené v čase t j. Pokud můžeme zjistit, co je d(t j), dostaneme jednoduchý výraz pro n j:

n t j = d t j 1 − Ŝ t j / Ŝ t j − 1 ,j=1,2,….
(1)

ve skutečnosti, jak je znázorněno na Obrázku 1c, můžeme odvodit pomocí tohoto výrazu, že čísla na riziko v {t1,…,t7} {n1,…,n7}={11,10,8,7,5,4,2}.

původní čísla – které jsou obvykle hlášeny v publikacích – a posloupnost ‚dány‘ nebo ‚odvodit‘ čísla v ohrožení, mohou být použity ke stanovení, s jistotou počet událostí v každém jednotlivém případě dobu – d j s. Pokud tam opravdu je jediná událost v každém jednotlivém případě dobu, pak dovodit čísla na riziko bude – na rozdíl od (obvykle malé) chyby měření – tvoří monotónně klesající posloupnost. Systematické odchylky od monotónnosti jsou okamžitě zřejmé: pokud tam byly ve skutečnosti dvě události na odlišné události, čas, ‚dány‘ číslo na rizika, n j , bude 1/2 toho, co by mělo být, a bude stát zřetelně z jeho singleton-založené sousedy; kdyby tam byly tři události, ‚dány‘ číslo na rizika bude 1/3 z jeho sousedů, a tak dále. Ilustrujeme to později, když diskutujeme o příkladu na obrázku 2 (vpravo). Z {s1,…,s7} takto stanoveny, a {n1,…,n7}, pak můžeme odečtením odvodit, že v našem příkladu {c1,…,c7}={0,1,0,1,0,1,1}.

Obrázek 2
obrázek 2

Kumulativní událostí sazby a odhadované čísla v ohrožení. (Vlevo) kumulativní výskyt příhod u pacientů s fibrilací síní, kteří dostávali warfarin nebo rivaroxaban. (Vpravo) svislá poloha každé tečky představuje odhadovaný počet ohrožených v rameni warfarinu v daném riziku (horizontální umístění). Čísla byla odvozena použitím rovnice 1 na odhady s (t j ) odvozené z příkazů PostScript použitých k vykreslení vektorového obrazu. Diamanty představují čísla ohrožená ve dnech 0, (120), 840, uvedená ve spodní části obrázku v článku. Je zřejmé,že i kdyby nebyly poskytnuty, mohly být velmi přesně odhadnuty pouze z následných odhadů S(t j). Mírný nedostatek monotónnosti v řadě (a) odráží chyby zaokrouhlování v postscriptových souřadnicích. Každý n j v sérii (b) je založen na (zjevně nepravdivé) předpokladu, že odpovídající d j =1; v těchto odlišných selhání krát, jasně, d, j =2, takže každý n j je dvakrát uvedeno. Stejně tak n j s v řadě (c) jsou založeny na předpokladu d j =1, když opět jasně d j =3 a n j by měl být trojnásobek toho, co je uvedeno.

Pokud časové rozestupy mezi sousedními t y jsou relativně krátké, nebo-li čísla v ohrožení v konkrétních časových bodech (např. g. roční nebo měsíční) jsou uvedeny na grafu, pak další interpolací posloupnosti rizikových čísel lze stanovit celkové množství času osoby pro každý časový interval zájmu s minimální chybou. Grafy přežití mají obvykle šířku:poměr stran výšky větší než 1. Tím pádem, relativní chyby budou mít tendenci být menší v „čase“ než v dimenzi „osoby“ vstupů jmenovatele osoba-čas do vypočtených rychlostí událostí.

výše uvedený vzorec odkazoval na Kaplan-Meierovu křivku. Pokud místo přežití, křivka, graf ukazuje Nelson-Aalen odhad kumulativní míra rizika funkci, vzhledem k tomu H t j = ∑ t i ≤ t j d t i / n t , pak výraz n(t j ) je

n t j = d t j Ĥ t j − t Ĥ j − 1 ,j=1,2,….
(2)

To není vždy zřejmé z označení svislé osy, zda zvyšující se Nelson-Aalen‘ křivka odkazuje na tuto posloupnost H y, tj. integrované nebezpečí, nebo kumulativní incidence, nebo rizika, tj., CI j =R j =1− exp. Pokud je to skutečně druhý, tj. doplněk S, pak se vzorec pro n j stává

n t j = d t j log Ŝ t j-1 / Ŝ t j.
(3)

až dosud jsme předpokládali, že vertikální a horizontální souřadnice vrcholů lze měřit s „dostatečnou“ přesností. Nyní se zaměříme na to, čeho lze dosáhnout pomocí skutečných křivek K-M A N-A, které lze extrahovat z bitmapových obrázků a vektorové grafiky v publikacích.

Praktické

Jen o desetiletí nebo dva lety, to bylo ještě běžné, ale časově náročné, k používání tužku a pravítko přístup, ‚přečtěte pravděpodobnosti přežití‘ z (případně rozšířeného) tištěné grafu. Tato praxe by mohla zahrnovat podstatnou chybu měření, zejména pokud byl tisk malý nebo rozlišení špatné. Dnes, protože většina grafů může být přístupná elektronicky nebo převedena do takového formátu, může být práce náročná na práci snížena se zlepšenou přesností a přesností. Na našich webových stránkách http://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery jsme shromáždili řadu grafů nalezených v elektronicky publikovaných článcích. Tyto obrázky jsou obvykle dvou typů, které dokumentace Adobe Acrobat označuje jako „rastrové obrázky“ a „vektorové objekty“.

rastrové obrázky

rastrový obrázek nebo bitmapa se skládá z pixelů (nejmenších adresovatelných prvků obrazovky v zobrazovacím zařízení) uspořádaných do dvourozměrné mřížky. Každý pixel, reprezentovaný tečkou nebo čtvercem, má své vlastní souřadnice a barvu. Když se jeden přiblíží více a více, obrázek bude zrnitější a jednotlivých bodů, které tvoří řádky a symboly na grafu stávají více evidentní.

v černobílém nebo ve stupních šedi je bílá obvykle reprezentována hodnotou 1, černá 0 a šedá střední hodnotou; barevné obrázky používají propracovanější schéma kódování zahrnující více kanálů, například RGB nebo CMYK. Stejně jako v digitální fotografii, čím větší je počet pixelů, tím věrnější je reprezentace původních hodnot. Příklad z screeningu rakoviny prostaty (téma, které bude dále diskutováno níže), viz obrázky dva a tři v článku Andriole .

rastrové obrázky mohou být uloženy v řadě formátů souborů; nejběžnější jsou.JPEG,.GIF,.tiff, a.GIF. Mohou být generovány v několika způsoby, například (i) skenování tištěné a uložení jako rastrový obraz, (ii) (pokud je ve stránce elektronického dokumentu) přiblížení na oblast obsahující graf a vzít screenshot, nebo (iii) (pokud je již vložený v souboru PDF) pomocí ‚exportovat obrázky‘ funkce v aplikaci Adobe Acrobat.

požadované body v grafu lze extrahovat z obrazového souboru jedním ze dvou způsobů. Více technických způsob, jak je použít programovací jazyk, jako je Basic, C++, nebo SAS číst barevné hodnoty do 2-D pole, určit, od barvy tečky pixelů místech klíčových orientačních bodů (např. osy protínají, a nejdále od sebe, vertikální a horizontální značkami), a konečně určit, které sekvence pixel místech obsahovat tečky, které tvoří křivky zájem. Zatímco balíček ReadImages usnadňuje čtení pole do R, Programování pro zpracování pole je stále značnou výzvou, zejména pro části, kde se křivky překrývají.

jednodušší způsob, jak je použít graf digitizér, počítačový program, který (i) dovoz a zobrazí vybraný obrázek na obrazovce a (ii) umožňuje uživateli určit horizontální a vertikální orientační body pomocí kurzoru a klikněte na co nejvíce místech na grafu, jak je to žádoucí, pak se převede a uloží odpovídající (x,y) hodnoty. Na webu je zdarma k dispozici řada digitalizátorů grafů (například GraphClick, Engauge Digitizer a Plot Digitizer). Guyot a kol. zpráva, že software Digitalizeit (http://www.digitizeit.de/) fungoval dobře. Protože digitalizace rastrových obrázků byla podrobně pokryta Guyotem a kol. nebudeme uvádět příklady, ale pouze porovnáme jejich přesnost s přesností vektorových obrazů v teoretické analýze chyb níže.

vektorové obrázky

vektorový obrázek nebo graf se skládá z geometrických primitiv nebo prvků, jako jsou body a čáry; lze jej identifikovat tím, že lze neomezeně zvětšovat bez ztráty kvality. Dva koncové body čáry jsou reprezentovány dvěma páry (x,y) a tečkou čárou nulové délky. Ten „Příspěvek“, v PostScript – nejběžnější jazyk pro jejich výrobu – odkazuje na princip nezávislosti zařízení: prvky jsou vykreslovány v reálném čase z uložených souřadnic prvků, bez ohledu na místní hardware, na kterém je software používaný. Tento princip přenositelnosti je základem formátu portable document format (PDF), vyvinutý společností Adobe; soubory PDF jsou založeny na Postscriptovém jazyce.

obsah dokumentu PDF jsou obvykle uloženy jako binární soubor, ale i Adobe Acrobat Pro aplikace, a zobrazit Náhled aplikace poskytované v systému Mac OS, můžete exportovat dokument PDF (nebo na stránce, která obsahuje graf zájmu) jako Postscriptový soubor, který obsahuje příkazy. Tyto soubory mají tendenci být velké a obsahují mnoho technických informací, ale to je snadné (pokud je to únavné) určit příkazy, které produkují osy, značky, a posloupnost úseček nebo tečky, které tvoří K-M a N-křivky.

v PostScriptu jsou místa na stránce měřena v bodech tiskárny (72 bodů na palec) z levého horního rohu stránky. Tak, 2 palce (144 bodů) x-osy, probíhající od t=0 a t=5, a to fyzicky od 1 do 3 od levé straně stránky a nachází se 5 v (360 bodů) pod horní části stránky, by měly být stanoveny podle úsečky (72, 360) ⇔ (216, 360). Předpokládejme, že konce 1, 5 palce (108 bodů) vysoké osy y odpovídají S=0 a S=1. Z těchto postscriptových souřadnic pak můžeme určit, že úsečka (144, 300) ⇔ (146.88, 300) je vodorovná část schodu funkce, přičemž hodnota S=(360-300)/108=0.555 v intervalu t=(144-72)/(144/5)=2.5 t=(146.88−72)/(144/5)=2.6 a že segment (146.88, 300) ⇔ (146.88, 303) je vertikální skok v t=2.6, délky Δ S=3/108=0.028 z S=0.555 k S=0.583.

některé publikace překvapivě obsahují kombinaci formátů. Opravdu, v publikaci použity jako zdroj Obrázku Jedna z osy v původní New England Journal of Medicine (NEJM) obrázek byl vykreslen jako vektory ve formátu PostScript, ale dvě křivky se překrývají jako obrázek. Kompozit byl analyzován jako obraz Guyot et al. . Naproti tomu druhá postava v této publikaci NEJM byla vykreslena výhradně v PostScriptu, i když s některými velmi složitými cestami k vytvoření úsečkových segmentů.

přesnost

jak přesná jsou data extrahovaná z rastrových a vektorových obrázků? Tuto otázku lze posoudit na několika úrovních, počínaje přesností samotných měření Ŝ (nebo 1-Ŝ). Zvažte typický rastrový obrázek 300 bodů na palec (dpi), ve kterém je plná (0, 1) osa s vysoká 1,6 palce nebo 480 pixelů. To dává rozlišení Δ S≈0,002. (Křivka „dolů“, která končí řekněme S=0,9, ale na grafu, který používá celou stupnici (0,1), promarňuje značnou přesnost: dává větší smysl vykreslit funkci „nahoru“, 1-S, až 0,1, takže hodnoty 1-S jsou přesné v rozmezí ±0,0005).

Zvažte místo toho vektorový obrázek obsahující stejné křivky, na stejné 1.6-v (=72×1.6=115.2 bodů) vertikální měřítko. Protože souřadnice uvedeny v PostScript soubor exportovaný pomocí Adobe Acrobat jsou zaznamenávány na tři desetinná místa, rozlišení je Δ S=1/(115.2×1,000)≈0.00001, nebo 200 krát, že z rastrového obrázku.

Zatímco oba tyto rozlišení, aby přiměřeně přesné opatření, Ŝ, a umožňují jednoho zjistit, kolik akcí se účastní každý skok, nemusí dát tak přesně opatření číslo v nebezpečí v každém skoku, protože to se měří jako reciproční 1−Ŝ t j /Ŝ t j − 1 . Jako empirické posouzení přesnosti získaných měření, viz Obrázek 2 ukazuje odhadovaný počet z rastrový obrázek a vektorový obrázek, spolu s – kontrolu platnosti – uvedená čísla v ohrožení na konci každého časového intervalu. Velmi dobře se shodují s těmi, které jsou uvedeny v článcích.

přesnost lze také kvantifikovat pomocí teoretické analýzy chyb. Zvážit dvě sousední hodnoty na stejné kumulativní incidence křivku, kde na svislé ose od 0% do 5%, hlášeny (po zaokrouhlení) pro y0 a y5 bodů, respektive, nad nějaký orientační bod; předpokládejme, že bez zaokrouhlení, které by Y0 a Y5 bodů výše. Označení vertikální umístění (podobně zaoblené) ze dvou sousedních bodů na grafu jako y‘ a y“, y“>y‘, odpovídající nezaokrouhlených hodnot Y‘ a Y“. Poté jsou odhady rizikového čísla následující:

n t j = 20 y 5-y 0-y − – y 0 y − – y ‚ .

v příloze uvádíme rozptyl této odvozené veličiny za předpokladu, že chyby (e) obsažené ve čtyřech y jsou stejné a nezávislé na sobě. V praxi, PostScript bodů jsou zaokrouhleny na tři desetinná místa; to znamená, že skutečné umístění Y spojené s hlášené umístění y=563.384 bodů leží mezi 563.3835 a 563.3845 bodů. Pokud jsou chyby v tomto rozsahu 0,001 jednotné tak, že σ e ≈0,001 / 12 =0.0003 bodů, pak variační koeficient (CV) je



Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.