Rysunek 2
skumulowane współczynniki zdarzeń i szacunkowe liczby zagrożone. (Po lewej) skumulowana częstość występowania zdarzeń u pacjentów z migotaniem przedsionków, którzy otrzymywali warfarynę lub rywaroksaban. (Po prawej) pionowe położenie każdej kropki oznacza szacunkową liczbę zagrożonych w ramieniu warfaryny w określonym ryzyku (położenie poziome). Liczby zostały wyprowadzone przez zastosowanie równania 1 do szacunków S (t j) pochodzących z poleceń PostScript używanych do renderowania obrazu wektorowego. Diamenty reprezentują liczby zagrożone w dniach 0, (120), 840, podane na dole cyfry w artykule. Oczywiście, nawet jeśli nie zostały one dostarczone, mogły być bardzo dokładnie oszacowane tylko na podstawie samych kolejnych szacunków S(t j). Niewielki brak monotoniczności szeregów (a) odzwierciedla błędy zaokrąglania w współrzędnych postscriptowych. Każde N j W Serii (B) opiera się na (wyraźnie fałszywym) założeniu, że odpowiadające D j =1; w tych różnych czasach awarii, wyraźnie, D j =2, więc każde N j jest dwa razy pokazane. Podobnie, N j S w szeregu (c) są oparte na założeniu d j =1, Kiedy, ponownie wyraźnie, D j = 3, A n J powinno być trzy razy pokazane.
Jeśli odstępy czasowe między sąsiednimi t s są stosunkowo krótkie lub jeśli liczby zagrożone w określonych punktach czasowych (np. roczne lub miesięczne) są wskazane na wykresie, a następnie przez dalszą interpolację sekwencji liczb zagrożonych można ustalić całkowitą ilość czasu osoby dla każdego interesującego interwału czasowego z minimalnym błędem. Działki przetrwania mają zazwyczaj szerokość:proporcje wysokości większe niż 1. W związku z tym błędy względne będą zwykle mniejsze w „czasie” niż w „osobie” wymiaru mianownika osobowo-czasowego danych wejściowych do obliczonych współczynników zdarzeń.
powyższy wzór odnosił się do krzywej Kaplana-Meiera. Jeśli zamiast krzywej przetrwania wykres pokazuje Estymator Nelsona-Aalena kumulacyjnej funkcji współczynnika ryzyka, podany przez H t j = ∑ T i ≤ t j d T i / n T i ,to wyrażenie dla n(t j ) wynosi
n t j = d T j Ĥ t j − Ĥ t j − 1, j=1,2,….
(2)
nie zawsze jest oczywiste z etykiety osi pionowej, czy rosnąca krzywa „Nelsona-Aalena” odnosi się do tej sekwencji h s, tj. zintegrowanych zagrożeń, lub do skumulowanej częstości występowania lub ryzyka, tj. CI J =R j =1− exp. Jeśli rzeczywiście jest to drugie, tzn. dopełnienie s, to wzór na n J staje się
n t j = d T J Log Ŝ T J − 1 / Ŝ T J .
(3)
do tej pory zakładaliśmy, że współrzędne pionowe i poziome wierzchołków można mierzyć z „wystarczającą” dokładnością. Przejdźmy teraz do tego, co można osiągnąć za pomocą rzeczywistych krzywych K-M I N-A, które można wyodrębnić z obrazów bitmapowych i grafiki wektorowej w publikacjach.
praktyczne
jeszcze dekadę lub dwie lata temu powszechne, ale czasochłonne, było stosowanie podejścia „ołówkiem i linijką” do „odczytywania prawdopodobieństwa przeżycia” z (prawdopodobnie powiększonego) wykresu w formie papierowej. Praktyka ta może wiązać się ze znacznym błędem pomiarowym, zwłaszcza gdy druk był mały lub rozdzielczość była słaba. Obecnie, ponieważ większość Wykresów może być dostępna elektronicznie lub konwertowana na taki format, pracochłonna praca może zostać zmniejszona, z większą precyzją i dokładnością. Na naszej stronie internetowejhttp://www.med.mcgill.ca/epidemiology/hanley/software/DataRecovery zebraliśmy razem szereg wykresów znalezionych w artykułach publikowanych elektronicznie. Obrazy te są zazwyczaj dwóch typów, co dokumentacja Adobe Acrobat określa jako „obrazy rastrowe” i „obiekty wektorowe”.
obrazy rastrowe
obraz rastrowy lub bitmapa składa się z pikseli (najmniejszych adresowalnych elementów ekranu w urządzeniu wyświetlającym) ułożonych w dwuwymiarową siatkę. Każdy piksel, reprezentowany przez kropkę lub kwadrat, ma swoje współrzędne i kolor. Gdy powiększa się obraz coraz bardziej, obraz staje się bardziej ziarnisty, a poszczególne kropki składające się na linie i symbole na wykresie stają się bardziej widoczne.
w obrazie czarno-białym lub w skali szarości biały jest zwykle reprezentowany przez wartość 1, Czarny przez 0, a Szary przez wartość pośrednią; kolorowe obrazy wykorzystują bardziej rozbudowany schemat kodowania obejmujący wiele kanałów, takich jak RGB lub CMYK. Podobnie jak w fotografii cyfrowej, im większa liczba pikseli, tym wierniejsze odwzorowanie oryginalnych wartości. Przykład z badań przesiewowych w kierunku raka prostaty (temat do omówienia poniżej) można znaleźć na rysunkach 2 i 3 w artykule andriole ’ a.
obrazy rastrowe mogą być przechowywane w wielu formatach plików; najczęściej są.jpeg,png,tiff, i.gif. Mogą być generowane na wiele sposobów, takich jak (i) skanowanie kopii papierowej i przechowywanie jej jako obrazu rastrowego, (ii) (jeśli znajduje się na stronie dokumentu elektronicznego) powiększanie obszaru zawierającego wykres i Robienie zrzutu ekranu lub (iii) (jeśli jest już osadzony w pliku PDF) za pomocą funkcji „Eksportuj obrazy” w programie Adobe Acrobat.
żądane punkty na wykresie można wyodrębnić z pliku obrazu na jeden z dwóch sposobów. Bardziej technicznym sposobem jest użycie języka programowania, takiego jak Basic, C++ lub SAS, aby odczytać wartości kolorów w tablicy 2-D, zidentyfikować na podstawie kolorów kropek lokalizacje pikseli kluczowych punktów orientacyjnych (takich jak przecinające się osie i najdalej od siebie pionowe i poziome znaczniki), a na koniec określić, które sekwencje lokalizacji pikseli zawierają kropki, które tworzą interesujące krzywe. Podczas gdy pakiet ReadImages ułatwia odczyt tablicy do R, Programowanie w celu przetworzenia tablicy jest nadal sporym wyzwaniem, szczególnie w przypadku części, w których krzywe nakładają się na siebie.
łatwiej jest użyć digitizera wykresów, programu komputerowego, który (i) importuje i wyświetla wybrany obraz na ekranie oraz (ii) pozwala użytkownikowi zidentyfikować poziome i pionowe punkty orientacyjne za pomocą kursora i kliknąć dowolną liczbę lokalizacji na wykresie,a następnie konwertuje i przechowuje odpowiednie wartości (x, y). Wiele digitizerów grafów (takich jak GraphClick, Engauge Digitizer i Plot Digitizer) jest dostępnych za darmo w Internecie. Guyot i in. zgłoś, że program DigitizeIt (http://www.digitizeit.de/) działał dobrze. Ponieważ digitalizacja obrazów rastrowych została szczegółowo omówiona przez Guyot et al. , nie podamy przykładów, a jedynie zestawimy ich dokładność z dokładnością obrazów wektorowych w poniższej teoretycznej analizie błędów.
obrazy wektorowe
figura lub wykres wektorowy składa się z prymitywów geometrycznych lub elementów takich jak punkty i linie; można go zidentyfikować dzięki temu, że można go powiększać w nieskończoność bez utraty jakości. Dwa punkty końcowe linii są reprezentowane przez dwie pary (x, y), a kropka przez linię o zerowej długości. „Post” w języku PostScript – najpopularniejszym języku do ich tworzenia-odnosi się do zasady niezależności urządzenia: elementy są renderowane w czasie rzeczywistym z zapisanych współrzędnych elementów, niezależnie od lokalnego sprzętu, na którym używane jest oprogramowanie. Ta zasada przenośności leży u podstaw portable document format (PDF), opracowanego przez firmę Adobe; pliki PDF są oparte na języku PostScript.
zawartość dokumentu PDF jest zazwyczaj przechowywana jako plik binarny, ale zarówno aplikacja Adobe Acrobat Pro, jak i Aplikacja podglądu dostępna w systemie Mac OS, mogą wyeksportować dokument PDF (lub jego stronę zawierającą interesujący wykres) jako plik PostScript, który zawiera polecenia. Takie pliki są zazwyczaj duże i zawierają wiele informacji technicznych, ale łatwo (jeśli żmudnie) jest zidentyfikować polecenia, które tworzą osie, znaczniki i sekwencję segmentów linii lub kropek tworzących krzywe K-M I N-A.
w języku PostScript lokalizacje na stronie są mierzone w punktach drukarki (72 punkty na cal) w lewym górnym rogu strony. W ten sposób 2-calowa (144-punktowa) oś x, rozciągająca się od T=0 i T=5, a fizycznie od 1 do 3 cali z lewej strony i znajdująca się 5 cali (360 punktów) poniżej góry strony, byłaby określona przez segment linii (72, 360) ⇔ (216, 360). Załóżmy, że końce osi y o wysokości 1,5 cala (108 punktów) odpowiadają odpowiednio S=0 I S=1. Następnie, na podstawie tych współrzędnych postscriptowych, możemy określić, że odcinek linii (144, 300) ⇔ (146.88, 300) jest poziomą częścią funkcji krokowej o wartości s=(360-300) / 108=0,555 w przedziale t=(144-72)/(144/5)=2.5 do t=(146.88−72)/(144/5)=2.6 i że segment (146.88, 300) ⇔ (146.88, 303) jest skokiem pionowym Przy t=2,6, o długości Δ s = 3/108 = 0,028 od S = 0,555 do s=0,583.
zaskakująco, niektóre publikacje zawierają mieszankę formatów. Rzeczywiście , w publikacji używanej jako źródło rysunku pierwszego, osie w oryginalnym New England Journal of Medicine (NEJM) zostały renderowane jako wektory w postscriptum, ale dwie krzywe są nakładane jako obraz. Kompozyt został przeanalizowany Jako obraz przez Guyota i wsp. . Natomiast druga postać w publikacji NEJM była renderowana w całości w Postscripcie, choć z kilkoma bardzo złożonymi ścieżkami tworzącymi segmenty linii.
precyzja
jak precyzyjne są dane pozyskiwane z obrazów rastrowych i wektorowych? Pytanie to można ocenić na wielu poziomach, zaczynając od dokładności pomiarów Ŝ (lub 1-Ŝ). Rozważ typowy obraz rastrowy o rozdzielczości 300 punktów na cal (dpi), w którym pełna (0, 1) oś S ma wysokość 1,6 cala lub 480 pikseli. Daje to rozdzielczość Δ s≈0,002. (Krzywa „w dół”, która kończy się powiedzmy S = 0,9, ale na wykresie, który wykorzystuje pełną (0,1) skalę, marnuje znaczną precyzję: bardziej sensowne jest rysowanie funkcji „w górę”, 1−S, aż do 0,1, dzięki czemu wartości 1−S są dokładne z dokładnością do ±0,0005).
rozważmy zamiast tego obraz wektorowy zawierający tę samą krzywą, w tej samej skali pionowej 1,6 cala (=72×1,6=115,2 punktów). Ponieważ współrzędne podane w pliku PostScript eksportowanym przez Adobe Acrobat są zapisywane do trzech miejsc po przecinku, rozdzielczość wynosi Δ S=1/(115.2×1,000)≈0.00001, lub 200 razy więcej niż obraz rastrowy.
podczas gdy obie te uchwały dają odpowiednio precyzyjne miary Ŝ i pozwalają określić, ile zdarzeń jest zaangażowanych w każdy skok, mogą nie podawać tak dokładnych miar liczby zagrożonej przy każdym skoku, ponieważ jest ona mierzona jako odwrotność 1−Ŝ t j / Ŝ T J − 1 . Jako empiryczna ocena precyzji uzyskanych pomiarów, Rysunek 2 pokazuje szacunkowe liczby z obrazu rastrowego i obrazu wektorowego, wraz z – jako sprawdzeniem ważności – zgłoszonymi zagrożonymi liczbami na końcu każdego przedziału czasowego. Bardzo dobrze pasują do tych podanych w artykułach.
dokładność można również określić ilościowo za pomocą teoretycznej analizy błędów. Rozważmy dwie sąsiadujące wartości na tej samej krzywej skumulowanej częstości występowania, gdzie oś pionowa wynosi od 0% do 5%, zgłoszone (po pewnym zaokrągleniu) jako odpowiednio punkty y0 i y5 powyżej pewnego punktu orientacyjnego; Załóżmy, że bez zaokrąglenia byłyby one punktami y0 i Y5 powyżej. Oznacz pionowe lokalizacje (podobnie zaokrąglone) dwóch sąsiednich punktów na wykresie jako y’ i y”, Z y”>y’, odpowiadające niezaokrąglonym wartościom Y’ I Y”. Następnie szacunki liczby zagrożonej są następujące:
n t j = 20 y 5 − y 0 − y '− y 0 y „− y”.
w dodatku podajemy wariancję tej ilości pochodnej, zakładając, że błędy (e) zawarte w czterech Y s są równe i niezależne od siebie. W praktyce punkty postscriptowe są zaokrąglane do trzech miejsc po przecinku; zatem prawdziwa lokalizacja Y związana z podaną lokalizacją y = 563,384 punktów mieści się między 563,3835 a 563,3845 punktów. Jeśli błędy są jednolite w tym zakresie 0,001, to σ e ≈0,001/ 12 =0.0003 punktów, wówczas współczynnik zmienności (CV) wynosi