Odzyskiwanie surowych danych za nieparametryczną krzywą przeżycia

Zasady

na początek Zakładamy, że wartości krzywej Kaplana-Meiera lub Nelsona-Aalena można mierzyć z wystarczającą dokładnością i precyzją (zmniejszymy to wymaganie w późniejszych sekcjach). W takich przypadkach pierwsze zasady – i niektóre odliczenia – zazwyczaj pozwalają odzyskać nie tylko (i) odrębny czas „zdarzenia” T, który definiuje każdy zestaw ryzyka, ale także dla każdego zestawu ryzyka (ii) liczbę zagrożoną n I (iii) liczbę zdarzeń d. następnie, poprzez kolejne odejmowania, można obliczyć (iv) liczbę obserwacji ocenzurowanych między kolejnymi zestawami ryzyka c. O ile dokładne czasy ocenzurowanych obserwacji nie są wskazane na wykresie , odzyskane dane można skompresować do sekwencji

n 0 , c 0 , T 1 , N 1 , d 1 , C 1 , T 2 , N 2, D 2, …

Jeśli dokładne czasy cenzurowania są wskazane na wykresie, to zasadniczo cały zbiór danych można zrekonstruować; w przeciwnym razie najlepiej jest użyć interpolacji, wraz z opisem okresu rekrutacji i dat zamknięcia badania, aby przypisać lokalizacje ocenzurowanych obserwacji w różnych przedziałach czasowych. Większość autorów rozmieściła je równomiernie w tych odstępach.

aby przejrzeć zasady i zilustrować rozumowanie, zaczynamy od małego przykładu, wykorzystując powszechnie używany ilustracyjny zestaw danych. Na fig. 1A przedstawiono oszacowanie Kaplana-Meiera funkcji przeżytej u pacjentów z ostrą białaczką szpikową (AML) w grupie „utrzymanej”, dostępne w pakiecie dotyczącym przeżycia w R. pytanie w tym czasie brzmiało, czy standardowy cykl chemioterapii powinien być utrzymywany przez dodatkowe cykle dla tych pacjentów. Na początek prosimy czytelnika, aby zignorował dodatkowe informacje, które pokazujemy na każdym panelu i ograniczył swoją uwagę do krzywej, z jej krokami i znakami cenzurującymi.

Rysunek 1
figure1

funkcja Kaplana-Meiera, pokazująca wysokość, skoki i proporcje wysokości. (a) oszacowanie przez Kaplana-Meiera funkcji ocalałej u pacjentów z AML w grupie utrzymywanej, pokazujące wysokość S (t j). (b) ta sama krzywa K-M pokazująca skoki J(t j). c) ta sama krzywa K-M pokazująca stosunek wysokości S(t j )/s (tj-1). Krzywa pokazana w każdym panelu została dopasowana i narysowana za pomocą pakietu przetrwania w R.

niech S(T j ) oznacza prawdopodobieństwo przeżycia lub „wysokość” krzywej przeżycia w czasie t j i zdefiniuj „skok” J(T j ) jako s(tj−1)−S(t j ). Zwykle byśmy to znali, ale załóżmy, że nawet nie znamy n0, liczby podmiotów w czasie t0=0. Bez żadnych innych informacji, z wyjątkiem wartości funkcji krokowej i czasów kroków, ile nieprzetworzonych informacji można odzyskać z takiego wykresu, jeśli S są znane z wystarczającą dokładnością? (Przez wystarczającą dokładność rozumiemy, że prawdziwą wartość można wiarygodnie wydedukować jako n j, a nie n j -1 lub n j +1).

szybka kontrola rysunku 1a pokazuje, że jest siedem skoków i trzy znaki cenzurujące, więc n0 to co najmniej 10. Nawet bez ocenzurowania różnice w wielkości skoków wskazują na pewne cenzurowanie-gdyby nie było, wszystkie skoki byłyby albo równej wielkości (1 / n0), albo wielokrotności tego, np. m/N0, jeśli M>1 zdarzenia w zbiorze ryzyka. Jak pokazano na rysunku 1b, J(t3)>J(t2), podczas gdy J(t5)>J(t4) I J(T7)>J(t6); Ponadto, ponieważ ostatnia obserwacja jest ocenzurowana, możemy wnioskować, że muszą istnieć co najmniej cztery ocenzurowane wartości w sumie.

jednym ze sposobów, aby zrozumieć, dlaczego (pojedyncze zdarzenia) skoki znajdujące się dalej w prawo mogą być tylko większe niż te, które je poprzedzają, jest algorytm re-distribution-to-the-right Efrona : początkowo masa prawdopodobieństwa 1/n0 jest umieszczana przy każdej obserwacji. Przechodząc od lewej do prawej strony, w czasie cenzurowanym, jego masa jest rozdzielana w równych porcjach na wszystkie obserwacje po prawej stronie. Ta procedura zamiatania ocenzurowanych obserwacji jest powtarzana, aż wszystkie związane z nimi masy zostaną rozdzielone.

na rysunku 1b pierwsze dwa skoki J(t1) I J(t2) mają jednakową wielkość 0,09091 lub 1/11, co sugeruje, że mogło być początkowo 11 osób zagrożonych (oczywiście, bez dodatkowych informacji, mogło to być również 22 lub 33, ale kolejne wartości krzywej skutecznie je wykluczą). Fakt, że trzeci skok jest większy, dowodzi, że musi być ocenzurowana obserwacja w lub po t2 i przed t3. Ponieważ jednak(w przeciwieństwie do innych ocenzurowanych obserwacji, które mieszczą się ściśle między czasami zdarzeń) nie jest on oznaczony znakiem kleszcza na wykresie, cenzurowanie musi, zgodnie z konwencją, nastąpić natychmiast po zdarzeniu (zdarzeniach) w t2, ale ze względu na dyskrecję danych, zostało zarejestrowane jako ” t2+”. Tak więc, podczas gdy znaki cenzorskie mogą podawać dokładniejsze lokalizacje ocenzurowanych obserwacji, Pakiety statystyczne niekoniecznie wyświetlają je wszystkie, a więc nie należy polegać na identyfikowaniu ich wszystkich tylko na podstawie znaczników.

zgodnie z algorytmem Efrona, J(T3) o wielkości 0,10227 może być postrzegana jako suma pierwotnej masy 1/11 (0,09091) i (1/8)tej samej wielkości masy związanej z ocenzurowaną obserwacją ’ T2+’, która została rozdzielona pomiędzy ośmiu zagrożonych zaraz po t2, tj. J(t3)=J(t2)+1/8×J(t2). Jednak arytmetyka i wielokrotność możliwych „zapisów” i konfiguracji stają się skomplikowane, jeśli istnieje wiele zdarzeń w tym samym obserwowanym czasie lub jeśli więcej niż jedna obserwacja w przedziale jest ocenzurowana. W związku z tym, gdy wyrażenia wielkości bezwzględnych skoków zaczynają się komplikować, jak inaczej można określić liczby zagrożone – i liczby zdarzeń – w czasie każdego kolejnego skoku?

najłatwiej było najpierw założyć, że każde d j =1, następnie wyprowadzić odpowiednie n j, a następnie użyć anomalii we wzorze kolejnych n j s, aby skorygować D J do większej liczby całkowitej i odpowiednio przeskalować odpowiednie n j w dół. Jednym ze sposobów przejścia z d j do N j jest wykorzystanie struktury „iloczynu warunkowego prawdopodobieństwa przeżycia” estymatora K-M: odwrócenie sekwencji produktów, które są używane jako Estymator i podzielenie Ŝ T J przez Ŝ T J − 1 . Otrzymany stosunek wynosi 1-d (t j) /n(T j ), gdzie d(t j ) oznacza liczbę zdarzeń w czasie t j, A N(t j ) jest liczbą zagrożoną w czasie t J . Jeśli możemy ustalić, czym jest d(T j), to otrzymujemy wyrażenie proste dla n j :

n t j = d T J 1 − Ŝ T J / Ŝ T J − 1, j=1,2,….
(1)

rzeczywiście, jak pokazano na rysunku 1c, za pomocą tego wyrażenia możemy wywnioskować, że zagrożone liczby W {t1,…, t7} wynoszą {n1,…, n7}={11,10,8,7,5,4,2}.

początkowe liczby – które są zwykle podawane w publikacjach – i Sekwencja „dopasowanych” lub „wnioskowanych” liczb zagrożonych, mogą być wykorzystane do ustalenia z wirtualną pewnością liczby zdarzeń w każdym odrębnym czasie zdarzenia – D j s. Jeśli rzeczywiście jest jedno zdarzenie w każdym odrębnym czasie zdarzenia, to liczby wnioskowane zagrożone będą – oprócz (zwykle małych) błędów pomiarowych – tworzyć monotonicznie malejącą sekwencję. Systematyczne odejścia od monotoniczności są natychmiast widoczne: jeśli w rzeczywistości były dwa zdarzenia w różnym czasie, „dopasowana” liczba zagrożona, n j, będzie 1/2 tego, co powinno być, i będzie wyróżniać się wyraźnie od swoich sąsiadów opartych na singletonie; jeśli były trzy zdarzenia, „dopasowana” liczba zagrożona będzie 1/3 sąsiadów, i tak dalej. Zilustrujemy to później, omawiając przykład na rysunku 2 (po prawej). Z tak ustalonej {s1,…,s7} i {n1,…, n7} możemy następnie przez odejmowanie wywnioskować, że w naszym przykładzie {C1,…, c7}={0,1,0,1,0,1,1}.

Rysunek 2
rys. 2

skumulowane współczynniki zdarzeń i szacunkowe liczby zagrożone. (Po lewej) skumulowana częstość występowania zdarzeń u pacjentów z migotaniem przedsionków, którzy otrzymywali warfarynę lub rywaroksaban. (Po prawej) pionowe położenie każdej kropki oznacza szacunkową liczbę zagrożonych w ramieniu warfaryny w określonym ryzyku (położenie poziome). Liczby zostały wyprowadzone przez zastosowanie równania 1 do szacunków S (t j) pochodzących z poleceń PostScript używanych do renderowania obrazu wektorowego. Diamenty reprezentują liczby zagrożone w dniach 0, (120), 840, podane na dole cyfry w artykule. Oczywiście, nawet jeśli nie zostały one dostarczone, mogły być bardzo dokładnie oszacowane tylko na podstawie samych kolejnych szacunków S(t j). Niewielki brak monotoniczności szeregów (a) odzwierciedla błędy zaokrąglania w współrzędnych postscriptowych. Każde N j W Serii (B) opiera się na (wyraźnie fałszywym) założeniu, że odpowiadające D j =1; w tych różnych czasach awarii, wyraźnie, D j =2, więc każde N j jest dwa razy pokazane. Podobnie, N j S w szeregu (c) są oparte na założeniu d j =1, Kiedy, ponownie wyraźnie, D j = 3, A n J powinno być trzy razy pokazane.

Jeśli odstępy czasowe między sąsiednimi t s są stosunkowo krótkie lub jeśli liczby zagrożone w określonych punktach czasowych (np. roczne lub miesięczne) są wskazane na wykresie, a następnie przez dalszą interpolację sekwencji liczb zagrożonych można ustalić całkowitą ilość czasu osoby dla każdego interesującego interwału czasowego z minimalnym błędem. Działki przetrwania mają zazwyczaj szerokość:proporcje wysokości większe niż 1. W związku z tym błędy względne będą zwykle mniejsze w „czasie” niż w „osobie” wymiaru mianownika osobowo-czasowego danych wejściowych do obliczonych współczynników zdarzeń.

powyższy wzór odnosił się do krzywej Kaplana-Meiera. Jeśli zamiast krzywej przetrwania wykres pokazuje Estymator Nelsona-Aalena kumulacyjnej funkcji współczynnika ryzyka, podany przez H t j = ∑ T i ≤ t j d T i / n T i ,to wyrażenie dla n(t j ) wynosi

n t j = d T j Ĥ t j − Ĥ t j − 1, j=1,2,….
(2)

nie zawsze jest oczywiste z etykiety osi pionowej, czy rosnąca krzywa „Nelsona-Aalena” odnosi się do tej sekwencji h s, tj. zintegrowanych zagrożeń, lub do skumulowanej częstości występowania lub ryzyka, tj. CI J =R j =1− exp. Jeśli rzeczywiście jest to drugie, tzn. dopełnienie s, to wzór na n J staje się

n t j = d T J Log Ŝ T J − 1 / Ŝ T J .
(3)

do tej pory zakładaliśmy, że współrzędne pionowe i poziome wierzchołków można mierzyć z „wystarczającą” dokładnością. Przejdźmy teraz do tego, co można osiągnąć za pomocą rzeczywistych krzywych K-M I N-A, które można wyodrębnić z obrazów bitmapowych i grafiki wektorowej w publikacjach.

praktyczne

jeszcze dekadę lub dwie lata temu powszechne, ale czasochłonne, było stosowanie podejścia „ołówkiem i linijką” do „odczytywania prawdopodobieństwa przeżycia” z (prawdopodobnie powiększonego) wykresu w formie papierowej. Praktyka ta może wiązać się ze znacznym błędem pomiarowym, zwłaszcza gdy druk był mały lub rozdzielczość była słaba. Obecnie, ponieważ większość Wykresów może być dostępna elektronicznie lub konwertowana na taki format, pracochłonna praca może zostać zmniejszona, z większą precyzją i dokładnością. Na naszej stronie internetowejhttp://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery zebraliśmy razem szereg wykresów znalezionych w artykułach publikowanych elektronicznie. Obrazy te są zazwyczaj dwóch typów, co dokumentacja Adobe Acrobat określa jako „obrazy rastrowe” i „obiekty wektorowe”.

obrazy rastrowe

obraz rastrowy lub bitmapa składa się z pikseli (najmniejszych adresowalnych elementów ekranu w urządzeniu wyświetlającym) ułożonych w dwuwymiarową siatkę. Każdy piksel, reprezentowany przez kropkę lub kwadrat, ma swoje współrzędne i kolor. Gdy powiększa się obraz coraz bardziej, obraz staje się bardziej ziarnisty, a poszczególne kropki składające się na linie i symbole na wykresie stają się bardziej widoczne.

w obrazie czarno-białym lub w skali szarości biały jest zwykle reprezentowany przez wartość 1, Czarny przez 0, a Szary przez wartość pośrednią; kolorowe obrazy wykorzystują bardziej rozbudowany schemat kodowania obejmujący wiele kanałów, takich jak RGB lub CMYK. Podobnie jak w fotografii cyfrowej, im większa liczba pikseli, tym wierniejsze odwzorowanie oryginalnych wartości. Przykład z badań przesiewowych w kierunku raka prostaty (temat do omówienia poniżej) można znaleźć na rysunkach 2 i 3 w artykule andriole ’ a.

obrazy rastrowe mogą być przechowywane w wielu formatach plików; najczęściej są.jpeg,png,tiff, i.gif. Mogą być generowane na wiele sposobów, takich jak (i) skanowanie kopii papierowej i przechowywanie jej jako obrazu rastrowego, (ii) (jeśli znajduje się na stronie dokumentu elektronicznego) powiększanie obszaru zawierającego wykres i Robienie zrzutu ekranu lub (iii) (jeśli jest już osadzony w pliku PDF) za pomocą funkcji „Eksportuj obrazy” w programie Adobe Acrobat.

żądane punkty na wykresie można wyodrębnić z pliku obrazu na jeden z dwóch sposobów. Bardziej technicznym sposobem jest użycie języka programowania, takiego jak Basic, C++ lub SAS, aby odczytać wartości kolorów w tablicy 2-D, zidentyfikować na podstawie kolorów kropek lokalizacje pikseli kluczowych punktów orientacyjnych (takich jak przecinające się osie i najdalej od siebie pionowe i poziome znaczniki), a na koniec określić, które sekwencje lokalizacji pikseli zawierają kropki, które tworzą interesujące krzywe. Podczas gdy pakiet ReadImages ułatwia odczyt tablicy do R, Programowanie w celu przetworzenia tablicy jest nadal sporym wyzwaniem, szczególnie w przypadku części, w których krzywe nakładają się na siebie.

łatwiej jest użyć digitizera wykresów, programu komputerowego, który (i) importuje i wyświetla wybrany obraz na ekranie oraz (ii) pozwala użytkownikowi zidentyfikować poziome i pionowe punkty orientacyjne za pomocą kursora i kliknąć dowolną liczbę lokalizacji na wykresie,a następnie konwertuje i przechowuje odpowiednie wartości (x, y). Wiele digitizerów grafów (takich jak GraphClick, Engauge Digitizer i Plot Digitizer) jest dostępnych za darmo w Internecie. Guyot i in. zgłoś, że program DigitizeIt (http://www.digitizeit.de/) działał dobrze. Ponieważ digitalizacja obrazów rastrowych została szczegółowo omówiona przez Guyot et al. , nie podamy przykładów, a jedynie zestawimy ich dokładność z dokładnością obrazów wektorowych w poniższej teoretycznej analizie błędów.

obrazy wektorowe

figura lub wykres wektorowy składa się z prymitywów geometrycznych lub elementów takich jak punkty i linie; można go zidentyfikować dzięki temu, że można go powiększać w nieskończoność bez utraty jakości. Dwa punkty końcowe linii są reprezentowane przez dwie pary (x, y), a kropka przez linię o zerowej długości. „Post” w języku PostScript – najpopularniejszym języku do ich tworzenia-odnosi się do zasady niezależności urządzenia: elementy są renderowane w czasie rzeczywistym z zapisanych współrzędnych elementów, niezależnie od lokalnego sprzętu, na którym używane jest oprogramowanie. Ta zasada przenośności leży u podstaw portable document format (PDF), opracowanego przez firmę Adobe; pliki PDF są oparte na języku PostScript.

zawartość dokumentu PDF jest zazwyczaj przechowywana jako plik binarny, ale zarówno aplikacja Adobe Acrobat Pro, jak i Aplikacja podglądu dostępna w systemie Mac OS, mogą wyeksportować dokument PDF (lub jego stronę zawierającą interesujący wykres) jako plik PostScript, który zawiera polecenia. Takie pliki są zazwyczaj duże i zawierają wiele informacji technicznych, ale łatwo (jeśli żmudnie) jest zidentyfikować polecenia, które tworzą osie, znaczniki i sekwencję segmentów linii lub kropek tworzących krzywe K-M I N-A.

w języku PostScript lokalizacje na stronie są mierzone w punktach drukarki (72 punkty na cal) w lewym górnym rogu strony. W ten sposób 2-calowa (144-punktowa) oś x, rozciągająca się od T=0 i T=5, a fizycznie od 1 do 3 cali z lewej strony i znajdująca się 5 cali (360 punktów) poniżej góry strony, byłaby określona przez segment linii (72, 360) ⇔ (216, 360). Załóżmy, że końce osi y o wysokości 1,5 cala (108 punktów) odpowiadają odpowiednio S=0 I S=1. Następnie, na podstawie tych współrzędnych postscriptowych, możemy określić, że odcinek linii (144, 300) ⇔ (146.88, 300) jest poziomą częścią funkcji krokowej o wartości s=(360-300) / 108=0,555 w przedziale t=(144-72)/(144/5)=2.5 do t=(146.88−72)/(144/5)=2.6 i że segment (146.88, 300) ⇔ (146.88, 303) jest skokiem pionowym Przy t=2,6, o długości Δ s = 3/108 = 0,028 od S = 0,555 do s=0,583.

zaskakująco, niektóre publikacje zawierają mieszankę formatów. Rzeczywiście , w publikacji używanej jako źródło rysunku pierwszego, osie w oryginalnym New England Journal of Medicine (NEJM) zostały renderowane jako wektory w postscriptum, ale dwie krzywe są nakładane jako obraz. Kompozyt został przeanalizowany Jako obraz przez Guyota i wsp. . Natomiast druga postać w publikacji NEJM była renderowana w całości w Postscripcie, choć z kilkoma bardzo złożonymi ścieżkami tworzącymi segmenty linii.

precyzja

jak precyzyjne są dane pozyskiwane z obrazów rastrowych i wektorowych? Pytanie to można ocenić na wielu poziomach, zaczynając od dokładności pomiarów Ŝ (lub 1-Ŝ). Rozważ typowy obraz rastrowy o rozdzielczości 300 punktów na cal (dpi), w którym pełna (0, 1) oś S ma wysokość 1,6 cala lub 480 pikseli. Daje to rozdzielczość Δ s≈0,002. (Krzywa „w dół”, która kończy się powiedzmy S = 0,9, ale na wykresie, który wykorzystuje pełną (0,1) skalę, marnuje znaczną precyzję: bardziej sensowne jest rysowanie funkcji „w górę”, 1−S, aż do 0,1, dzięki czemu wartości 1−S są dokładne z dokładnością do ±0,0005).

rozważmy zamiast tego obraz wektorowy zawierający tę samą krzywą, w tej samej skali pionowej 1,6 cala (=72×1,6=115,2 punktów). Ponieważ współrzędne podane w pliku PostScript eksportowanym przez Adobe Acrobat są zapisywane do trzech miejsc po przecinku, rozdzielczość wynosi Δ S=1/(115.2×1,000)≈0.00001, lub 200 razy więcej niż obraz rastrowy.

podczas gdy obie te uchwały dają odpowiednio precyzyjne miary Ŝ i pozwalają określić, ile zdarzeń jest zaangażowanych w każdy skok, mogą nie podawać tak dokładnych miar liczby zagrożonej przy każdym skoku, ponieważ jest ona mierzona jako odwrotność 1−Ŝ t j / Ŝ T J − 1 . Jako empiryczna ocena precyzji uzyskanych pomiarów, Rysunek 2 pokazuje szacunkowe liczby z obrazu rastrowego i obrazu wektorowego, wraz z – jako sprawdzeniem ważności – zgłoszonymi zagrożonymi liczbami na końcu każdego przedziału czasowego. Bardzo dobrze pasują do tych podanych w artykułach.

dokładność można również określić ilościowo za pomocą teoretycznej analizy błędów. Rozważmy dwie sąsiadujące wartości na tej samej krzywej skumulowanej częstości występowania, gdzie oś pionowa wynosi od 0% do 5%, zgłoszone (po pewnym zaokrągleniu) jako odpowiednio punkty y0 i y5 powyżej pewnego punktu orientacyjnego; Załóżmy, że bez zaokrąglenia byłyby one punktami y0 i Y5 powyżej. Oznacz pionowe lokalizacje (podobnie zaokrąglone) dwóch sąsiednich punktów na wykresie jako y’ i y”, Z y”>y’, odpowiadające niezaokrąglonym wartościom Y’ I Y”. Następnie szacunki liczby zagrożonej są następujące:

n t j = 20 y 5 − y 0 − y '− y 0 y „− y”.

w dodatku podajemy wariancję tej ilości pochodnej, zakładając, że błędy (e) zawarte w czterech Y s są równe i niezależne od siebie. W praktyce punkty postscriptowe są zaokrąglane do trzech miejsc po przecinku; zatem prawdziwa lokalizacja Y związana z podaną lokalizacją y = 563,384 punktów mieści się między 563,3835 a 563,3845 punktów. Jeśli błędy są jednolite w tym zakresie 0,001, to σ e ≈0,001/ 12 =0.0003 punktów, wówczas współczynnik zmienności (CV) wynosi



Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.