ノンパラメトリック生存曲線の背後にある生データの回復

原則

まず、Kaplan-MeierまたはNelson-Aalen曲線の値は十分な精度と精度で測定できると仮定します(後のセクションでこの要件を緩和します)。 このような場合、第一原理といくつかの控除は、一般に、(i)各リスクセットを定義する別個の”イベント”時間tだけでなく、各リスクセットについても、(ii)リ1、d1、c1、t2、n2、d2、…。

正確な打ち切り時間がグラフ上に示されている場合、原則としてデータセット全体を再構築することができます。 ほとんどの著者はこれらの間隔の内でそれらを均一に間隔をあけました。

原則を見直し、推論を説明するために、広く使用されている例示的なデータセットを使用して、小さな例から始めます。 図1aは、Rの生存パッケージで利用可能な”維持された”グループにおける急性骨髄性白血病(AML)患者の生存機能のカプラン-マイヤー推定値を示しています。 まず、各パネルに表示されている追加情報を無視し、そのステップと検閲マークを使用して曲線に注意を制限するよう読者に依頼します。

図1
図1

高さ、ジャンプ、および高さの比率を示すKaplan-Meier survivor関数。 (a)維持された群におけるAMLを有する患者の生存者機能のKaplan−Meier推定値は、高さS(t j)を示す。 (b)ジャンプJ(t j)を示す同じK-M曲線。 (c)高さS(t j)/S(t j−1)の比を示す同じK−M曲線。 各パネルに示されている曲線は、rの生存パッケージを使用して嵌められ、描かれた。

s(tj)は、時間tjにおける生存確率、または生存曲線の「高さ」を示し、「ジャンプ」J(tj)をS(tj−1)-S(tj)として定義します。 私たちは通常それを知っていますが、時間t0=0での被験者の数であるn0さえ知らないとします。 ステップ関数の値とステップの時間以外の情報がなければ、Sが十分な精度で知られていれば、そのようなグラフからどのくらいの生の情報を回復 (十分な精度によって、真の値が確実にnjであり、nj-1またはnj+1ではないと推定できることを意味します)。

図1aの簡単な検査は、7つのジャンプと3つの打ち切りマークがあることを示しているため、n0は少なくとも10です。 打ち切りマークがない場合でも、ジャンプのサイズの違いは、いくつかの打ち切りを示しています-何もない場合、すべてのジャンプは等しいサイズ(1/n0)、またはこれの倍数、すなわちm>1の場合、m/n0になりますリスクセット内のイベント。 図1bに示すように、J(t3)>J(t2)、while J(t5)>J(t4)、およびJ(t7)>J(t6);さらに、最後の観測は打ち切り合計で4つの打ち切り値。

さらに右に位置する(単一イベント)ジャンプが、その前のジャンプよりも大きくなる理由を理解する1つの方法は、エフロンの右への再分布アルゴ 左から右に進むと、検閲された時間に遭遇すると、その質量はその右側のすべての観測値と等しい部分に再分配されます。 検閲された観測を一掃するこの手順は、それらの関連するすべての質量が再分配されるまで繰り返されます。

図1bでは、最初の二つのジャンプJ(t1)とJ(t2)は0.09091、すなわち1/11の等しいサイズであり、最初は11人の危険にさらされていた可能性があることを示唆している(もちろん、さらなる情報を持たずに、22または33であった可能性もあるが、その後の曲線の値は効果的にこれらを除外する)。 第三のジャンプが大きいという事実は、t2の後またはt3の前に検閲された観測がなければならないことを確立します。 しかし、(厳密に事象時間の間にある他の打ち切り観測とは異なり)グラフ上の目盛りで示されていないので、打ち切りは慣例により、t2での事象の直後に発生したものでなければならないが、データの離散性のために、”t2+”として記録されている。 したがって、検閲マークは検閲された観測値のより正確な位置を与えるかもしれませんが、統計パッケージは必ずしもそれらのすべてを表示するとは

エフロンのアルゴリズムに従うと、サイズ0.10227のJ(t3)は、t2の直後に危険にさらされていた八人の間で再分配された打ち切り’t2+’観測に関連した同じサイズの質量の1/11(0.09091)と(1/8)番目の元の質量の合計であると見ることができる、すなわち、J(t3)=J(t2)+1/8×j(t2)。 しかし、同じ観測時間に複数のイベントがある場合、または間隔内の複数の観測が打ち切りされた場合、算術演算と複数の可能な”レガシー”と構成は複雑に したがって、ジャンプの絶対サイズの表現が複雑になり始めるにつれて、連続する各ジャンプの時点で危険な数とイベントの数をどのように決定す

最初に各d j=1と仮定し、対応するn jを導出し、次に連続するn j sのパターンの異常を使用してd jをより大きな整数に修正し、対応するn jを D jからn jに移動する1つの方法は、K-M推定器の”条件付き生存確率の積”構造を利用することです。推定器として使用される積のシーケンスを逆にし、Ŝ t jをŜ t j−1で除算します。 ここで、d(t j)は時刻t jでのイベントの数を表し、n(t j)は時刻t jでのリスクのある数です。 D(t j)が何であるかを確立できれば、n jの単純な式が得られます。

n t j=d t j1−≤t j/≤t j−1,j=1,2,…。実際、図1cに示すように、この式を使用して、{t1、…、t7}で危険にさらされている数値は{n1、…、n7}={11,10,8,7,5,4,2}であると推測できます。

最初の数字(通常は出版物で報告されています)と危険にさらされている”適合”または”推論”された数字のシーケンスは、それぞれの別個のイベント時 単調性からの体系的な逸脱はすぐに明らかです: 実際には異なるイベント時間に二つのイベントがあった場合、リスクのある’フィット’数n jは、それがあるべきものの1/2になり、そのシングルトンベースのネイバーとははっきりと目立つようになります。三つのイベントがあった場合、リスクのある’フィット’数はそのネイバーの1/3になります。 図2(右)の例を説明するときに、これを後で説明します。 このようにして確立された{s1、…、s7}と{n1、…、n7}から、減算によって、この例では{c1、…、c7}={0,1,0,1,0,1,1}を推論することができます。

図2
図2

累積イベント率とリスクの推定数。 (左)ワルファリンまたはリバロキサバンを投与された心房細動患者の累積イベント率。 (右)各ドットの垂直位置は、問題のリスクセット(水平位置)におけるワルファリン腕のリスクの推定数を表しています。 数値は、ベクトル画像のレンダリングに使用されるPostScriptコマンドから導出されたS(t j)推定値に式1を適用することによって導出されました。 ダイヤモンドは、記事の図の下部に報告されている0日目、(120)、840で危険にさらされている数字を表しています。 明らかに、たとえそれらが提供されていなかったとしても、それらは連続するS(tj)推定だけから非常に正確に推定されていた可能性があります。 シリーズ(a)の単調性のわずかな欠如は、PostScript座標の丸め誤差を反映しています。 直列(b)の各njは、対応するdj=1という(明らかに誤った)仮定に基づいており、これらの異なる故障時間では、明らかにdj=2なので、各njは示されている2倍 同様に、直列(c)のnj sは、dj=1と仮定することに基づいており、再び明らかに、dj=3であり、njは示されている3倍でなければならない。

隣接するtの間の時間間隔が比較的短い場合、または特定の時点で危険にさらされている数字(例えば、。 グラフに表示され、その後、リスクのある数字のシーケンスをさらに補間することにより、関心のある各時間間隔の人の時間の総量を最小限の誤差で確 通常、生存プロットには幅があります:高さのアスペクト比が1より大きい。 したがって、相対誤差は、計算された事象率への人時間分母入力の「人」次元よりも「時間」上で小さくなる傾向がある。

上記の式はKaplan-Meier曲線を参照しています。 生存曲線の代わりに、グラフがH t j=≤t i≤t j d t i/n t iによって与えられる累積ハザード率関数のネルソン-アーレン推定量を示す場合、n(t j)の式は

n t j=d t j≤t j−≤t j−1,j=1,2,…である。
(2)

増加する”Nelson-Aalen”曲線が、この一連のH s、すなわち統合されたハザード、または累積発生率、またはリスク、すなわちCI j=R j=1−expを指すかどうかは、垂直軸 実際に後者、すなわちSの補数である場合、n jの式は

n t j=d t j log≤t j−1/≤t jとなる。これまで、頂点の垂直座標と水平座標は「十分な」精度で測定できると仮定してきました。 ここでは、出版物のビットマップイメージやベクターベースのグラフィックスから抽出できる実際のK-MとN-A曲線を使用して達成できることに目を

実用性

ちょうど十年か二前、それはまだ一般的でしたが、時間がかかり、”鉛筆と定規”アプローチを使用して(おそらく拡大された)ハードコピーグラフか この方法では、特に印刷が小さい場合や解像度が悪い場合には、かなりの測定誤差が生じる可能性があります。 今日では、ほとんどのグラフは電子的にアクセスしたり、そのような形式に変換したりすることができるため、労働集約的な作業を削減し、精度と精度を向上させることができます。 当社のウェブサイトhttp://www.med.mcgill.ca/epidemiology/hanley/software/DataRecoveryでは、電子的に公開された記事にあるいくつかのグラフをまとめて収集しました。 これらの画像は、通常、Adobe Acrobatのドキュメントでは”ラスター画像”と”ベクターオブジェクト”と呼ばれる二つのタイプのものです。

ラスターイメージ

ラスターイメージ、またはビットマップは、二次元グリッドに配置されたピクセル(表示デバイス内のアドレス指定可能な最小の画 ドットまたは正方形で表される各ピクセルには、独自の座標と色があります。 ますます拡大すると、画像はより粒状になり、グラフ上の線と記号を構成する個々の点がより明確になります。

白黒またはグレースケールイメージでは、通常、白は値1で表され、黒は0で表され、グレーは中間値で表されます; カラー画像は、RGBやCMYKなどの複数のチャンネルを含むより精巧な符号化方式を使用します。 デジタル写真のように、ピクセル数が大きいほど、元の値の表現がより忠実になります。 前立腺がんスクリーニングの例(以下でさらに議論されるトピック)については、Andrioleによる記事の図2と3を参照してください。

ラスター画像は、多くのファイル形式で保存できます。jpeg、.png,.tiff、および。ギフ… これらは、(i)ハードコピーをスキャンしてラスタイメージとして保存する、(ii)グラフを含む領域をズームインしてスクリーンショットを撮る、(iii)Adobe Acrobatの”画像のエクスポート”機能を使用するなど、さまざまな方法で生成することができます。

グラフ上の目的の点は、二つの方法のいずれかで画像ファイルから抽出することができます。 より技術的な方法は、Basic、C++、SASなどのプログラミング言語を使用して色の値を2次元配列に読み込み、ドットの色から主要なランドマークのピクセル位置(軸が交差し、垂直と水平の目盛りが最も離れているなど)を識別し、最後にどのピクセル位置のシーケンスに関心のある曲線を構成するドットが含まれているかを決定することです。 ReadImagesパッケージを使用すると、配列をRに読みやすくなりますが、配列を処理するプログラミングは、特に曲線が重なっている部分ではかなりの課題です。

簡単な方法は、グラフデジタイザ、(i)インポートし、画面上に選択した画像を表示し、(ii)ユーザーがカーソルを介して水平および垂直のランドマークを識別し、所望 多くのグラフデジタイザ(GraphClick、Engaugeデジタイザ、Plotデジタイザなど)は、web上で無料で利用できます。 Guyot et al. ソフトウェアDigitizeIt(http://www.digitizeit.de/)が正常に動作したことを報告します。 ラスター画像のデジタル化はGuyotらによって詳細にカバーされているためです。 ここでは、例を挙げるのではなく、単にその精度を以下の理論誤差解析におけるベクトル画像の精度と対比させるだけである。

ベクトル画像

ベクトルベースの図形またはグラフは、幾何学的なプリミティブまたは点や線などの要素で構成されています。 線の2つの端点は、2つの(x、y)ペアで表され、ドットは長さがゼロの線で表されます。 PostScriptの”Post”は、ソフトウェアが使用されているローカルハードウェアに関係なく、要素の格納された座標からリアルタイムで要素がレンダリングされます。 この移植性の原則は、Adobeによって開発されたportable document format(PDF)の根底にあります。

PDFドキュメントの内容は、通常、バイナリファイルとして保存されますが、Adobe Acrobat ProアプリケーションとMac OSで提供されるプレビューアプリケーションの このようなファイルは大きく、多くの技術情報を含む傾向がありますが、軸、目盛り、K-MおよびN-A曲線を構成する線分または点のシーケンスを生成するコ

PostScriptでは、ページ上の位置は、ページの左上隅からプリンタポイント(72ポイント/インチ)で測定されます。 したがって、2インチ(144ポイント)のx軸は、t=0およびt=5から延び、物理的にはページの左側から1から3inに延び、ページの上部の下に5in(360ポイント)に位置(72, 360) ⇔ (216, 360). 1.5インチ(108ポイント)の高さのy軸の端が、それぞれS=0およびS=1に対応するとします。 そして、これらのPostScript座標から、線分(144,300)≈(146.88,300)は、区間tにおける値S=(360-300)/108=0.555をとるステップ関数の水平部分である。=(144-72)/(144/5)=2.5 tに=(146.88−72)/(144/5)=2.6 そして、セグメントは(146.88, 300) ⇔ (146.88, 303) は、s=0.555からS=0.583までの長さΔ S=3/108=0.028のt=2.6における垂直ジャンプである。

驚くべきことに、いくつかの出版物にはフォーマットが混在しています。 実際、図の1つのソースとして使用されている出版物では、元のNew England Journal of Medicine(NEJM)図の軸はPostScriptでベクトルとしてレンダリングされていましたが、2つの曲線は画像として重畳されています。 この複合体は、Guyotらによって画像として分析された。 . 対照的に、そのNEJM出版物の他の図は、線分を形成するためのいくつかの非常に複雑なパスではあるが、完全にPostScriptでレンダリングされました。

精度

ラスター画像とベクター画像から抽出されたデータの精度はどれくらいですか? この質問は、Σ(または1−Σ)測定自体の精度から始めて、いくつかのレベルで評価することができます。 フル(0,1)のS軸の高さが1.6インチ、つまり480ピクセルの一般的な300ドット/インチ(dpi)ラスターイメージを考えてみましょう。 これにより、Δ S≤0.002の分解能が得られます。 (S=0.9で終わる’下向き’曲線ですが、完全な(0,1)スケールを使用するプロットでは、かなりの精度を浪費します:’上向き’関数1−Sを0.1までプロットし、1−Sの値を±0.0005以内に正確にする方が理にかなっています)。

代わりに、同じ1.6インチ(=72×1.6=115.2ポイント)の垂直スケールで、同じ曲線を含むベクトル画像を考えてみましょう。 Adobe AcrobatによってエクスポートされたPostScriptファイルで指定された座標は小数点以下三桁に記録されるため、解像度はΔ Sです=1/(115.2×1,000)≈0.00001, またはラスターイメージの200倍。

これらの解像度の両方がΣの適切な正確な尺度を与え、各ジャンプに関与するイベントの数を決定することができますが、1−Σ t j/Σ t j−1の逆数として測定されるため、各ジャンプで危険にさらされている数のような正確な尺度を与えることはできません。 導出された測定値の精度の経験的評価として、図2は、ラスター画像とベクトル画像からの推定数と、妥当性チェックとして、各時間間隔の終わりに危険にさらされている報告された数を示しています。 彼らは記事で与えられたものと非常によく一致します。精度は、理論誤差解析を使用して定量化することもできます。

同じ累積入射曲線上の二つの隣接する値を考えてみましょう,垂直軸が0%から5%になります,報告されました(いくつかの丸め後)y0とy5点,それぞれ, グラフ上の2つの隣接する点の垂直位置(同様に丸められた)をy’とy”とし、y”>y’、y’とY”の非丸め値に対応します。 次に、危険にさらされている数の推定値は次のとおりです。

n t j=20y5−y0−y’−y0y”−y’。

付録では、四つのyに含まれる誤差(e s)が等しく、互いに独立していると仮定して、この導出された量の分散を提供します。 したがって、y=563.384ポイントの報告された位置に関連付けられた真の位置Yは、563.3835から563.3845ポイントの間にあります。 誤差がこの0.001の範囲で一様で、σ e≤0.001/12=0となる場合。0003ポイント、その後変動係数(CV)は



コメントを残す

メールアドレスが公開されることはありません。