無作為化比較臨床試験における方法論的および統計的トピック

講義

無作為化比較臨床試験における方法論的および統計的トピック

Claudia Caminha Escosteguy

Rio de Janeiro,RJ-Brazil

研究方法の中で、無作為化比較臨床試験は20世紀の主要な科学的進歩の一つを構成している。 無作為化比較臨床試験は、疫学における研究方法の参考基準として使用される実験的研究の一種であり、利用可能な科学的証拠の最良の源であり、介入の有効性を決定するための最良の源であると考えられている。

無作為化比較臨床試験は、介入(予防的または治療的)の効果および価値をヒトにおける対照と比較する前向き研究である。 このタイプの研究では、研究者は、ランダム化の技術を通じて分析される介入の要因を偶然に分配するので、実験群および対照群は、研究されている変数以外の変数による干渉を減少または排除するために、偶然分布プロセスによって形成される。 研究されている介入は、薬物、技術または手順1,2であり得る。 「有効性」という用語は、対照臨床試験のような理想的で制御された条件下での介入の結果を指す。 “有効性”という用語は、平均的な臨床環境で実施された介入の結果を指し、これには毎日の世界を特徴付ける実施の不完全さが含まれる2。 Feinstein3によると、無作為化による処理の分布の考え方は、1923年にFisherによって提案され、農業研究に適用されました。 1926年に、この考えは結核の処置の金の混合物の価値をテストしたAmbersonおよび同僚によって臨床調査のためにはじめて使用されました。 これはまた、患者が投与された治療を知らされていなかったことを意味し、報告された最初の盲目の研究でした。 対照は蒸留水の注射を受けたが、”プラセボ”という用語は、1938年3月にインフルエンザウイルスワクチンに関するDiehlの研究で初めて使用された。

一般的な方法では、”臨床試験”という用語は、患者を含む計画された実験の任意の形態に適用され、与えられた病状を有する将来の患者に最も適 一部の著者はまた、すべての参加者が介入を受ける研究を記述するために、「非対照臨床試験」という用語を使用する。 実際には、これはグループへの介入の効果の記述的な研究に過ぎません。 著者の大多数は、このタイプの研究を臨床試験とは考えておらず、それを非制御実験と呼んでいます。 より純粋な著者は、無作為化比較試験のためだけに”臨床試験”という用語を留保し、無作為化されていない比較試験のためのその使用を受け入れない2。

薬物を用いた臨床試験は、多くの場合、実験1の四つの主要な段階に分類されます:

フェーズI–これらは、主に安全性に関連し、有効性に関連しない、人の臨床薬理学と毒性の試験であり、通常は健康なボランティアで実施されます。 主な目的は、重篤な副作用を引き起こすことなく投与することができる薬物の許容用量を決定することである。 この情報は、ボランティアが所定のスケジュールに従って薬物の増加用量を受ける分数用量を用いた実験から頻繁に得られる。 フェーズIはまた、薬物代謝および生物学的利用能に関する研究を含む。 健康なボランティアの調査の後で、患者との最初の試験はまた段階I.の部分を構成します通常、段階iの調査は20から80人の個人および患者を要求す

フェーズII–これらは、治療の効果の臨床調査の最初の試験であり、薬物の有効性と安全性の小さな調査を含み、各患者を慎重に監視しています。 時には、第II相試験は、選択された薬物が第III相に合格することができるように、いくつかの不活性または過度に毒性のものの間で効果の真の可能性

フェーズIII–治療の大規模な評価。 薬剤が適度に有効であると証明した後患者の十分に大きい数を含んでいる制御された臨床試験で同じ病状のために利用できる標準的な処置と大 一部の著者にとって、「臨床試験」という用語は、これらの第III相試験の同義語であり、これは新しい治療法の臨床調査の最も厳格な形態を構成する。

フェーズIV–市販後のサーベイランスフェーズ。 研究プログラムの商業的承認の後、副作用の大規模かつ長期的なモニタリングおよび罹患率および死亡率に関する追加の研究に関して考慮すべき 時には、”第IV相試験”という用語は、臨床試験自体の研究と混同されるべきではない、医学公衆に向けられた新薬の促進の練習を記述するために使用され

臨床試験に先立って、代謝、有効性、さらに潜在的な毒性に関する動物における新薬の合成および研究を含む、前臨床研究の以前の同様に重要なプ 実際には、この前臨床段階は、薬物に関する研究における推定コストの大部分を占めています。 現在、臨床試験の大部分は新薬の評価に関連しており、主に製薬業界によって資金提供されています。 実験室で合成された新薬の宇宙では、10 000のうち1つだけが臨床試験の段階に達し、そのうち20%だけが最終的に市販されていると推定されています。 薬物に関連する完全な研究プログラムは7年から10年続き、そのうちのほぼ半分は数百万ドルを含む臨床試験で使用され、製薬業界が果たす役割を強調しています1。

無作為化比較臨床試験は、以下の主な特徴を有する1-5:a)それらは実験的研究であり、したがって、倫理の重要な問題を伴う; b)プロスペクティブアーキテクチャ:彼らはコホート研究のアーキテクチャを持っています,彼らはプロスペクティブであることを意味します,調査官は、同様の特性を持つグループを形成するためにランダム配分(ランダム化)の技術を使用しています,グループの個人は、コントロールとして残りながら、他のグループのものは、特定のタイプの治療を受けるように;c)コントロール:従来の治療を受ける類似した患者のグループと新しい治療を受けている患者のグループの経験を比較する必要があります. 実際の価値のある従来の治療がない場合は、非治療患者の対照群を使用することができる。 処置されたグループおよび対照グループの個人を配るための最も適切な技術は偶然によって割振ることを可能にする無作為化である;d)無作為化:調査およ さらに、混乱バイアスの可能性を低減します。 ランダム化の美しさは、サンプルサイズが十分に大きければ、研究群と対照群の間で同様の方法で既知および未知の結果決定因子の分布を可能にす

ランダム化のいくつかの技術があります1,2:単純なランダム化–それは最も頻繁に使用される技術です。 たとえば、ランダムに選択された数値のテーブルを使用して、奇数が治療群に割り当てられ、偶数が対照群に割り当てられます; ブロックのランダム化-それは、研究における個々の割り当てのプロセスが終了するまで、問題の治療がブロックごとに分配される一定の数の個人を 予想される終了前に試験が中断された場合でも、試験群と対照群に同数の参加者を提供するという利点があります。 これは、ランダムに選択された数のテーブルの助けを借りて実行される単純なランダム化は、無作為化される参加者の数が多い場合にのみ、グループ間の同; 最小化によるランダム化–最初は、単純なランダム化が使用されますが、いくつかの個人の割り当ての後、グループの特性が分析され、いくつかの新しい参加者が募集されるにつれて計算が再実行されます。 これらの新しい参加者は、検出された違いを減らすか、すでに達成されたバランスを維持するために、グループのいずれかに割り当てられます。 これは新しい技術であり、コンピュータ技術は、いくつかの変数を同時に追跡することを可能にするので、グループ間で最小の差が得られる。

既に説明されている主な特徴に加えて、ランダム化比較臨床試験を実施する際には、以下の方法論的な質問を考慮する必要があります。

サンプルサイズ–試験は、関連する各治療に対する応答の合理的に正確な推定を得るのに十分な数の患者を募集する必要があります。 サンプルサイズに関して実用的かつ倫理的な考慮事項があるにもかかわらず、標準的な統計的アプローチは、研究の力の推定を指します。 サンプルサイズ1,2に関しては、五つの重要な質問があります:1)裁判の主な目的は何ですか? -例えば、アセチルサリチル酸が梗塞後死の予防に何らかの価値があるかどうかを検証することは、梗塞を予防するか、死亡および再梗塞を予防するかどうかを検証することとは異なる;2)主なアウトカム測定は何ですか? -例えば、心血管の原因による死とは異なる治療の最初の月以内の任意の原因による死;3)治療の違いを検出することができるようにデータがどのよう -最も簡単な形態はパーセントの比較、例えば、扱われたおよび偽薬のグループの死のパーセントである;カイ二乗テストは使用され、5%の有意水準は処置の -例えば、治療の最初の月に対照群の患者で10%の死亡率が推定される;5)検出されることが重要であると考えられる治療の最小差は何であり、どの程度の -関心のあるイベントの中程度の減少(例えば、20-25%)は、何千人もの患者の無作為化を必要とする可能性があることを強調することが重要である7。

サンプルサイズを計算するには、治療と研究のパワーの違いを検出するために必要な有意性のアルファレベル、すなわち、治療間の差が実際に存在 アルファエラーまたはタイプIエラーは、実際には存在しない差を検出する確率です。、偽陽性の結果の確率;アルファは通常0.05として規定されます。 ベータ誤差またはタイプII誤差は、実際に存在する場合に差を検出しない確率です。 研究のパワーは1-ベータであり、通常は0.90と規定されています。

サンプルの必要なサイズが大きすぎる場合、試験は明らかに組織と監視の特別な措置を必要とする多施設試験を構成するいくつかのセンターで

試験組織と計画-正確に定義することが基本的に重要です: 1)明確に定義された包含および除外基準を通じて、どの患者が研究の対象となるか;2)どの治療が評価されているか;3)どのアウトカムまたはエンドポイン

試験プロセスのモニタリング–プロトコルの遵守、副作用、データ処理、および治療間の比較の一時的な分析を監視する必要があります。 考えられるプロトコル違反および逸脱は、治療への非遵守、参加者の脱落、不完全な評価、および無作為化後の研究群と対照群との間の交差など、慎重に分析されるべきである。 この最後の偏差は、例えば、対照のために無作為化された患者の57%が硝酸塩を受けた研究GISSI-3の硝酸塩対対照群で発生し、両群間の可能性のある差を検出するための研究の力を低下させた8。

分析の種類-分析は、2つの主要な形式1,2を使用して実行できます: 1)実際に各グループの治療を完了した人の間;2)治療の意図に応じて、グループを形成するために無作為化されたすべての人が含まれ、治療を完了したか この後者は、ランダムなグループの維持を保証し、その不完全さで現実の世界での治療を評価するので、好ましいものであった。 しかし、治療を完了していない人に何が起こったのか、グループ間の交差があったかどうかを知る必要があります。 それが非常に大きい場合、これはバイアスを表すことができるので、これらの事実の次元も知られている必要があります。

サブグループ分析–臨床試験の基本的な結果は、治療を受けている主要なグループのそれぞれにおける関心のある主な結果の記述です。 患者の特定のサブグループの結果を分析することは魅力的に見えるかもしれませんが、この分析に固有の大きなリスクがあります。 最初のものは、参照された分析が最初のサンプルの一部ではなかった場合、患者の不十分な数である。 第二は、治療への割り当て後に考慮された特性に従って選択されたサブグループは、最初に無作為化されたグループから選択されたにもかかわらず、 第三に、多数のサブグループが検討されると、それらのうちのいくつかが偽の統計的に有意な差を示す可能性が高くなります。 偽の関連のこの可能性の古典的な例は、アセチルサリチル酸が明らかな損傷9,10があった天秤座とジェミニを除くすべての兆候に有益であったことを示唆し、ISIS-2研究における黄道帯の兆候の効果の分析であった。

潜在的なバイアス–バイアスの潜在的な原因は、グループの選択プロセス、治療への割り当て、提案された形での介入の達成、および結果の評価である。 ランダム化は、最初の2つのステップを制御します。

参加者のフォローアップと非遵守の混乱は、主に研究群と対照群の間で異なる分布をしている場合、バイアスを導入する可能性があり、常に言及す

評価のバイアス(情報、観察、測定とも呼ばれる)は、研究されているいくつかのグループから関心のあるイベントに関するデータが得られる方法の体系的 それらは二重盲検の技術がplacebosと使用されるとき最小になる; しかし、この技術を使用しても、観察者や観察されたものから、これらの後者が属するグループを隠すことは必ずしも可能ではありません。

もう一つの興味深いバイアスは、試験出版に関連しており、その開発に関連していません。 要因計画–この計画では、いくつかの要因の効果が1回の試行で検証されます。

要因計画-この計画では、複数の要因の効果が1回の試行で検証されま 例えば、薬物AおよびBの研究では、階乗計画は4つの治療群を評価する: 一つは薬物Aを使用し、もう一つは薬物Bを使用し、もう一つは薬物AおよびBを使用し、そして薬物のいずれも含まない対照群である。 一例は、急性心筋梗塞(AMI)を有する疑いのある患者におけるアセチルサリチル酸、ストレプトキナーゼ、両方、およびそれらのいずれの効果も評価されたISIS-2 9

クロスオーバータイプの試験-通常、試験は患者間で比較を行い、各患者は一つのタイプの治療のみを受ける。 場合によっては、同じ患者において連続的な比較を行うことが推奨されることがあり、すなわち、研究の各患者は複数の治療を受けることになる。 従来の並列グループの主な問題は、患者が疾患の初期段階および治療に対する応答に関して多くのことを変化させるという事実である。 効果1,2の差の大きさを信頼できる方法で推定するためには、各グループの多数の患者がしばしば必要である。

すべての患者が同じ治療を受け、その状態が治療開始前およびその後の多くの段階で評価され、実際には非対照研究1,2である”前後”研究のクロスオーバーデザインを間違えるべきではない。

クロスオーバータイプ試験の例は、在宅血栓溶解11の安全性と有効性に関するグレートグループの研究です:

ブラインドアセスメント-まばたきとも呼ばれます:この技術の正当性は、試験に関与するすべての個人が患者がどの治療を受けているかを知っているときに発生するバイアスの可能性にあります。 盲目の状態に関しては、患者、治療を適用する専門家のグループ、および評価者1の三つの参加者が考慮されるべきである。

サンザシ効果は、彼らが受けている介入の特定の性質にもかかわらず、特別な関心と注意の対象であるため、個人が行動を変える傾向を指します。 この効果を制御する方法は盲目になることおよび偽薬の使用によってあります4。

新しい治療を受けることについての患者の知識は、それらに有益な心理的効果をもたらすことができ、対照的に、従来の治療を受けるか、または治療を全く受けないという彼らの知識は、好ましくない効果を有することができる。 その影響は病気の種類や治療の性質に依存することは明らかですが、この可能性は非精神障害であっても過小評価すべきではありません。

治療を適用する人々のグループに関しては、用量の変更、患者の検査の特殊性、試験治療の継続、および追加治療の必要性に関連する決定は、通常、いくつか これらの決定は、患者がどの試験群に属するかの知識に応じて影響を受ける可能性があります。 新しい処置についての興奮はまた患者に移り、処置への患者の付着を、例えば高める彼または彼女の態度の変更を引き起こすことができます。

結果を評価する研究者に関しては、各患者の治療を認識している場合、彼らが優れていると考える治療に対してより良好な反応を登録するなど、潜在的なリスクがある。 試行グループを知らないことは、測定バイアスを回避するのに役立ち、最終的な関心イベントが可能な限り最も客観的な形で定義されている場合にも最小化されます。 測定バイアスは、治療に対する応答の評価が臨床的判断を必要とする場合に発生する可能性がある。 AMIのような明らかに明確に定義されたイベントでさえ、境界線の場合には臨床的判断が何度も必要とされます。 このような場合、治療状態が分かっていれば、評価者から最終診断をAMIに有利に、またはそれに反対する傾向がある可能性があります。

“二重盲検”という用語は、患者も彼らの援助と評価の責任者も受け取られている治療を知らない試験を指します。 実際には、これらのケースでは、参加者の三種類は、治療条件に関して盲目である;しかし、治療薬で動作する同じ臨床医は、多くの場合、患者を評価するものであるように、用語”二重盲検”が適切である(それはトリプルブラインドとして試験を参照することは一般的ではありません;通常、二重盲検という用語が使用されています)。

プラセボの使用–プラセボは、評価される治療と同様の外観、形態および投与の物質であるが、有効原理はない。 プラセボを用いて対照群を導入する主な理由は、試験の研究群および対照群における患者の態度を統一することである。 プラセボ効果は、それの明確な結果であるにもかかわらず、特定の作用機序とは関係がない医学的介入に対する応答である4。 考慮すべき基本原則は、確立された有効性の代替標準治療がある場合、患者を倫理的にプラセボを受けるように割り当てることができないというこ

倫理的な質問–60年代にサリドマイドによって誘発された先天性異常の大惨事は、新しい治療法の導入に関連する倫理的側面を考慮した医療およ 1926年以来、米国では、新薬がマーケティングのために承認される前に有効性試験を行うことが法律によって義務付けられています2。 臨床試験の倫理的議論のための基本的な国際文書は、1964年のヘルシンキ宣言であり、1975年に東京で改訂された2。 国家の関連文書の中には、医療倫理コード12と国立衛生委員会からの人間を含む研究規則13があります。 調査が完全に正当化されている場合でも、いくつかの質問は考慮に値する: 主なポイントの一つは、従来の治療との関係で優位性の明確な証拠がある新しい治療からの対照群の剥奪である。 患者への有効な治療の非投与は、治療の有効性に関して疑問がある場合にのみ倫理的に許容され、計算によって通知され、調査されている質問に答えるのに十分な小さなサンプルサイズが使用されるべきである。 その実施中に、問題の治療の有益性の決定的な証拠があるか、または問題の治療の有益性がない場合、研究は直ちに中断されるべきである。 患者のインフォームドコンセントは常に存在する必要があります。

これまでに議論されてきたすべての質問は、試験の内部妥当性に関連しています。 無作為化試験の普及と薬物の治療効果を実証するための標準としての使用は、新しい治療薬が臨床診療に導入される前に、質の高い科学的エビデンスが利用可能であることを引き起こした。 しかし、議論されるべきもう一つの基本的な側面は、試験結果の一般化の可能性である。 研究の外部的妥当性は、研究された標的集団を超えて、研究された試料の結果を他の試料に一般化する可能性を意味する。 それはまた費用:利点の比率、危険、下部組織、等の考察に加えて忍耐強いおよび民族文化的な変化、重大度の要因を、含みます。 これらの考慮事項は、研究の内部妥当性が確立された後にのみ正当化される。

1. Pocock SJ. 臨床試験。 実用的なアプローチ。 ブリスベン:ジョン*ワイリー&息子、1989。

2. ペレイラMG. テオリア-エ-プラティカ(Teoria e Prática)とも呼ばれる。 1995年、東京都知事選挙に立候補し当選。

3. ファインスタインAR. 臨床疫学。 臨床研究のアーキテクチャ。 1985年、WBサンダースに移籍。

4. フレッチャー RH、フレッチャー SW、ワグナー EH。 ———– 1989年、”アルテス-メディカス”(”Porto Alegre:Artes Médicas,1989″)。

5. サケットDL、ヘインズRB、ガイアットGH、タグウェル。 臨床疫学:臨床医学のための基礎科学。 2nd ed. ボストン:リトルブラウン、1991。

6. エビデンスベースの医学ワーキンググループ。 治療または予防についての記事を使用する方法、1998。

7. Yusuf S、Wittes J、Friedman L.心臓病における無作為化臨床試験の結果の概要。 JAMA1988;260:2088-93.

8. GISSI-3-急性心筋梗塞後の6週間の死亡率および心室機能に対するリシノプリルおよび経皮グリセリルトリニトレートの単独および一緒の効果。 Lancet1 9 9 4;3 4 3:1 1 1 5−2 2 1.

9. ISIS-2共同グループ–静脈内ストレプトキナーゼ、経口アスピリン、両方またはどちらも疑われる急性心筋梗塞の17187例の間で無作為化試験。 ランセット1988;I: 349-60.

10. Yusuf S、Wittes J、Probstfield J、Tyroler H.無作為化臨床試験における患者のサブグループにおける治療効果の分析と解釈。 JAMA1991;266:93-8.

11. グレートグループ-一般開業医によるdomiciliary血栓溶解の実現可能性、安全性、および有効性:グランピアン地域早期アニストレプラーゼ試験。 Br Med J1 9 9 2;3 0 5:5 4 8−5 3.

12. Conselho Regional de Medicina do Estado do Rio de Janeiro–Código de Ética Médica. 1988年、メディチーナ州議会議員に選出された。

13. Conselho Nacional de Sañde-Normas de Pesquisa Envolvendo Seres Humanos. 牛肉だ 196/96 1996年、””Ministério da Saúde””(ブラジリア-ミニステリオ-ダ-サウデ)を発表した。



コメントを残す

メールアドレスが公開されることはありません。