Validation of APACHE II, APACHE III and SAPS II scores in-hospital and one year mortality prediction in the mixed intensive care unit in Poland: a cohort study
本単施設研究では、ポーランドの10床のICUにおいて、死亡率予測におけるAPACHE II、APACHE III、SAPS IIを検証することを目的とした。 その結果、統計学的な観点からはすべてのスコアが死亡率予測に有効であったが、臨床的な観点からは12か月予後予測に関する能力は限定的であることがわかった
院内ICU死亡率は35.6%と国際データより比較的高いが、Silesia地方で観測される値(43.7%)よりは低いことがわかった。 近年議論されているように、ポーランドのICUにおける死亡率が他のヨーロッパ諸国と比較して高いのは、むしろポーランドにおける患者集団、ICU入室の適応、ICUベッドの利用可能性、終末期医療の組織などの違いに起因するものである。 また、無益な治療に関するガイドラインや公式のICU入室基準に対して、一部の開業医が懐疑的な態度をとっていることも原因である ……。 ポーランドのICUに入室した患者は他国と比較して死亡リスクが高いことが多いが、Silesian Registry of Intensive Care Unitsで観察されたICU死亡率はAPACHE IIスコアで予測される死亡率よりも低かった .
我々の研究では、APACHE II、APACHE III、SAPS IIスコア、およびICU死亡率予測は次の通りであった。 それぞれ19点(IQR12-24)(=死亡率25.8%;IQR12.1-46),67点(IQR36.5-88)(死亡率18.5%;IQR3.8-41.8),44点(IQR27-56)(死亡率34.8%;IQR7.9-59.8)であった. APACHE IIとSAPS IIの観察死亡率と予想死亡率の比は1.0に近く,同程度であった. APACHE IIIでは,その比率は驚くほど高く,1.38に達していた. 通常、このスコアは死亡率を過大評価するものである。 この現象の原因は複雑であり、我々の病棟の患者集団(術後症例を最優先とする混合入院)とこれらの予後予測モデルが開発された対象集団との間に大きな違いがあることに起因していると思われる。 内科系患者は外科系患者よりも死亡率が高いことが確認され、これはこの問題に関する先行研究と一致している。
ソースデータの質の低さ、欠落した生理学的変数の数や種類は死亡率の予測に影響するため、収集したデータの信頼性は重要である。 オリジナルのAPACHE II研究では、13%の症例で変数が欠落していた 。 私たちのデータシリーズでは,3つの研究のすべてのスコアで,合計14%の変数が欠落しており,これはデータの解釈において考慮されるべきものである. データ収集の過程には高いバイアスのリスクが伴う. APACHE II スコアの場合,データ誤りの主な原因は,最高値と最低値の選択の不一致と,鎮静状態での GCS スコア決定の問題であることが観察された. 予後スケールの性能評価には,主にキャリブレーションと識別の2つの客観的基準が用いられる。 弁別とは、患者を生存者と非生存者に分類する予後スコアの能力を指し、ROC曲線(すなわち、AUCおよび95%CI)により測定される。 較正とは、推定された死亡確率が観察された死亡率とどれだけ相関しているかを意味し、臨床試験やICU間のケアの比較において非常に重要であり、グラフで表示されたり、適合度モデルを用いて評価されたりする。 本研究における判別性は良好であった。調査した3つのスコアは、いずれもほぼ0.8のAUCで院内死亡を予測し、両者の間に統計的有意差はなかった。 退院後の死亡率予測に関しても、スコアの診断精度はAUCの観点からは許容範囲であったが(すなわち、> 0.7)、むしろ臨床的妥当性の境界線上にあった(AUCは、完全に正確なテストを示す1.0よりも0.5に近かった)。 しかし,AUCそのものは,これを反映していないので,臨床的な解釈可能性に欠けることに注意することが肝要である. AUCはスコアのすべての閾値(カットオフ)に対する性能を測定するので、臨床的に関連するものと臨床的に非論理的なものの両方が含まれるからである。 したがって,AUCの臨床的解釈は依然として難しい。
我々の観察は,短期予後予測におけるスコアの高い精度を証明した先行研究と一致している。 すべてのスコアのAUCは同等であったが,APACHE IIIの観察死亡率1.38に対し,APACHE IIとSAPS IIは1.12と0.96であり,臨床的観点からはより優れたパフォーマンスを示したようである。 英国南部の成人ICU患者16,646人を対象に同じ予後予測モデルを検証したBeckらの研究では、3つの尺度とも同様に良好な識別性が報告されたものの、キャリブレーションは不完全であった … Gilaniらの研究では、ICU患者においてAPACHE IIスコアは、SAPS IIやAPACHE IIIよりも信頼性が高かった。 また、KhwannimitらによるSAPS IIとAPACHE IIを比較した研究でも同様の結果が得られている。 タイ人ICU患者では後者の方が良好であったが、この場合も両スコアのキャリブレーションが不十分であった。 一方、Sungurtekinらは、有機リン酸中毒のICU患者において、APACHE IIよりもSAPS IIの方が予後を正確に予測できると報告した。 また、Godinjakらの研究では、APACHE IIとSAPS IIの診断精度の高さが比較可能であることが示された。 しかし、Hosmer-Lemeshow検定の適用が最近批判されているため、適合度の効果を可視化するために検量線を作成した。 サンプルサイズは小さいがイベント(すなわち死亡)の発生率が高いことは、コホート全体に対する我々の研究の長所であるが、死亡率予測について患者のサブグループで行った計算は、むしろ力不足であった。 一方では、この欠点は、この前向き解析をより多くの患者群に拡大することを促すものである。 一方,重症患者の集団は時間とともに変化するため,診断精度パラメータは動的に変化する可能性があることを忘れてはならない. スコアの性能の違いは、症例構成、基準、医療の構造や組織、さらにはライフスタイルや集団間の遺伝的な違いに起因している可能性がある ……。 そのため、このテーマについてこれまでに多くの研究が行われてきたが、異なる国、あるいは地域の異なるICUから独立したサンプルを用いて、時間間隔を繰り返しながら、これらの予後モデルを検証する必要がある
我々は外科患者と内科患者の間でAUCの値に多少の違いを認めたが、一般に外科患者は内科ICU患者よりも生存予後が良いことはこれまでの調査で確認されている。 この事実の説明は非常に簡単で、これらの患者では、ICU入室の理由のほとんどが、長期間にわたる大規模な外科手術の実施による不安定な状態であり、手術前の全身状態の悪さや併存疾患によるものはそれほど多くないからである。 Angusらの研究では、APACHE IIスコアは肝移植を受けた患者の1年死亡率も予測した(AUC0.671)。 一方、Leeらの研究では、入院時に算出されるスコアと退院後の死亡率には関連がないと報告されている。 長期的な死亡率の予測における診断精度の低さは、さまざまな理由によるものである可能性がある。 スコアは入院後24時間の間に、最も悪い結果を用いて算出される。 ICU滞在中に行われた治療、最終的な合併症、フォローアップケアやリハビリテーションの質は、患者の転帰に影響を与え、スコアリングシステムが提供する結果を変えてしまう可能性がある。 Leeらは、退院時のAPACHE IIスコアがICU後の死亡率と再入院の良い予測因子であることを発見した。 したがって、ICU退院時の患者の長期予測を推定するために算出されるスコアに注目することは、より合理的であると考えられる。 現在利用可能なツールは、当初はこのような用途のために設計されたものではないので、長期予測を推定するスコアを作成するためにさらなる研究を行う必要がある。 ICU再入室やQOLの低下,退院後の死亡率上昇を防ぐためには,ICU退院後もリスクのある患者を適切にスクリーニングし,正確に特定することが重要であることを念頭に置く必要がある
本研究にはいくつかの限界がある。 検証に関するものは前述したとおりである。 しかし、単一施設での研究であるため、異質な集団や比較的小さなサンプルサイズによるバイアスが存在する可能性があることも覚えておく必要がある。 また、データの選択過程やGlasgow Coma Scaleの算出方法による交絡の影響により、最終的なスコアの結果が影響を受ける可能性がある。 本研究でのフォローアップ期間は、ICU 入室日から 12 ヶ月に限定した。 最後に、我々はSOFAスコアを解析に含めなかった。 しかし、この特殊なスコアリングシステムは主に敗血症患者の予後予測のために作成されたため、混合ICU環境ではAPACHEやSAPSよりも包括的ではないと思われる
。