Validierung von APACHE II-, APACHE III- und SAPS II-Scores bei der Vorhersage der In-Hospital- und Ein-Jahres-Mortalität auf einer gemischten Intensivstation in Polen: eine Kohortenstudie
Diese Studie, die an einem einzigen Zentrum durchgeführt wurde, hatte zum Ziel, APACHE II, APACHE III und SAPS II bei der Sterblichkeitsvorhersage auf einer 10-Betten-Intensivstation in Polen zu validieren. Wir stellten fest, dass alle Scores zwar aus statistischer Sicht für die Vorhersage der Sterblichkeit akzeptabel waren, ihre Fähigkeit zur 12-Monats-Prognose sich jedoch aus klinischer Sicht als begrenzt erwies.
Wir stellten fest, dass die Sterblichkeitsrate auf der Intensivstation im Krankenhaus 35,6 % betrug, was im Vergleich zu internationalen Daten relativ hoch war, jedoch unter dem in der Region Schlesien beobachteten Wert (43,7 %) lag. Die in den letzten Jahren diskutierte höhere Sterblichkeitsrate auf polnischen Intensivstationen im Vergleich zu anderen europäischen Ländern ist eher auf Unterschiede in der Patientenpopulation, bei den Indikationen für die Aufnahme in die Intensivstation, bei der Verfügbarkeit von Intensivbetten und bei der Organisation der Betreuung am Lebensende in Polen zurückzuführen. Dies ist auch auf die skeptische Haltung mancher Ärzte gegenüber den Leitlinien zur sinnlosen Therapie und den offiziellen Kriterien für die Aufnahme in die Intensivstation zurückzuführen. Obwohl Patienten, die in polnische Intensivstationen aufgenommen werden, im Vergleich zu anderen Ländern häufiger ein höheres Sterberisiko aufweisen, war die im schlesischen Register der Intensivstationen beobachtete Sterblichkeit auf der Intensivstation niedriger als die durch den APACHE-II-Score vorhergesagte Sterblichkeit.
In unserer Studie waren die APACHE-II-, APACHE-III- und SAPS-II-Scores sowie die vorhergesagte Sterblichkeit auf der Intensivstation wie folgt: 19 (IQR 12-24) Punkte (d.h. Sterblichkeitsrate von 25,8%; IQR 12,1-46); 67 Punkte (IQR 36,5-88) (Sterblichkeitsrate von 18,5%; IQR 3,8-41,8); bzw. 44 Punkte (IQR 27-56) (Sterblichkeitsrate von 34,8%; IQR 7,9-59,8). APACHE II und SAPS II wiesen ein vergleichbares Verhältnis von beobachteter zu erwarteter Sterblichkeit auf, das nahe bei 1,0 lag. Bei APACHE III war das Verhältnis überraschend hoch und erreichte 1,38. Normalerweise wird die Sterblichkeit durch die Scores überschätzt. Die Ursache für dieses Phänomen scheint komplex zu sein und könnte auf erhebliche Unterschiede zwischen der Patientenpopulation in unserer Abteilung (gemischte Aufnahmen, einschließlich postoperativer Fälle als erste Priorität) und den Zielpopulationen, für die diese Prognosemodelle entwickelt wurden, zurückzuführen sein. Es wurde bestätigt, dass medizinische Patienten eine höhere Sterblichkeit aufweisen als chirurgische Patienten, was mit früheren Untersuchungen zu diesem Thema übereinstimmt.
Die Zuverlässigkeit der erhobenen Daten ist wichtig, da eine schlechte Qualität der Quelldaten sowie die Anzahl und Art der fehlenden physiologischen Variablen die Sterblichkeitsprognosen beeinflussen können. In der ursprünglichen APACHE-II-Studie fehlten in 13 % der Fälle Variablen. In unserer Datenreihe fehlten in allen drei Studien insgesamt 14 % der Variablen, was bei der Interpretation der Daten berücksichtigt werden sollte. Der Prozess der Datenerhebung ist mit einem hohen Risiko der Verzerrung behaftet. Im Falle der APACHE-II-Scores wurde festgestellt, dass die Hauptursachen für Datenfehler in der inkonsistenten Wahl zwischen dem höchsten und dem niedrigsten Wert sowie in Problemen bei der Bestimmung des GCS-Scores bei sedierten Patienten liegen. Wir haben bei sedierten Patienten den GCS-Wert vor der Sedierung verwendet, wenn er verfügbar war, und die Daten wurden immer von zwei Mitgliedern des Studienteams unabhängig voneinander überprüft.
Zwei objektive Hauptkriterien werden für die Leistungsbewertung prognostischer Skalen verwendet: Kalibrierung und Diskriminierung. Die Diskriminierung bezieht sich auf die Fähigkeit eines prognostischen Scores, Patienten als Überlebende oder Nicht-Überlebende zu klassifizieren, und wird durch ROC-Kurven (d. h. AUC und 95%CI) gemessen. Die Kalibrierung bezieht sich darauf, wie eng die geschätzten Sterbewahrscheinlichkeiten mit der beobachteten Sterblichkeit korrelieren. Sie ist von großer Bedeutung für klinische Studien oder den Vergleich der Versorgung auf verschiedenen Intensivstationen und wird grafisch dargestellt oder anhand von Goodness-to-Fit-Modellen bewertet. Die Diskrimination in unserer Studie war akzeptabel: Alle drei untersuchten Scores sagten die Krankenhausmortalität mit einer AUC von fast 0,8 voraus, wobei es keine statistisch signifikanten Unterschiede zwischen ihnen gab. Was die Vorhersage der Sterblichkeit nach der Entlassung betrifft, so war die diagnostische Genauigkeit der Scores in Bezug auf die AUCs ebenfalls akzeptabel (d. h. > 0,7), aber eher von grenzwertiger klinischer Relevanz (die AUC lag näher bei 0,5 als bei 1,0, was auf einen perfekt genauen Test hindeutet). Es ist jedoch wichtig, darauf hinzuweisen, dass die AUC selbst nicht klinisch interpretierbar ist, da sie dies nicht widerspiegelt. Da eine AUC die Leistung über alle Schwellenwerte (Cut-offs) für die Scores misst, schließt sie sowohl die klinisch relevanten als auch die klinisch unlogischen ein. Daher bleibt die klinische Interpretation von AUCs schwierig.
Unsere Beobachtungen stimmen mit früheren Studien überein, die die hohe Genauigkeit der Scores bei der Kurzzeitprognose belegen. Obwohl alle Scores vergleichbare AUCs aufwiesen, schienen APACHE II und SAPS II aus klinischer Sicht besser abzuschneiden, da die beobachtete Sterblichkeitsrate im Verhältnis zur erwarteten Sterblichkeit 1,12 und 0,96 betrug, verglichen mit 1,38 für APACHE III. In einer Studie von Beck et al., die dieselben Prognosemodelle bei 16 646 erwachsenen Intensivpatienten im Süden des Vereinigten Königreichs validierten, wurde zwar für alle drei Skalen eine ähnlich gute Diskriminierung festgestellt, die Kalibrierung war jedoch unvollkommen. In einer Studie von Gilani et al. erwies sich der APACHE II-Score bei Intensivpatienten als zuverlässiger als SAPS II und APACHE III. Zu ähnlichen Ergebnissen kommt eine Studie von Khwannimit et al., die SAPS II und APACHE II verglichen. Obwohl das letztere Modell bei thailändischen Intensivpatienten besser abschnitt, war auch in diesem Fall die Kalibrierung der beiden Scores schlecht. Im Gegensatz dazu berichteten Sungurtekin et al. über eine bessere prognostische Genauigkeit von SAPS II als von APACHE II bei mit Organophosphaten vergifteten Intensivpatienten. In einer weiteren Studie von Godinjak et al. wurde die vergleichbar hohe diagnostische Genauigkeit von APACHE II und SAPS II nachgewiesen.
Die Kalibrierung unserer Scores war in Bezug auf die Chi-Quadrat- und „p“-Werte gut. Da jedoch die Anwendung des Hosmer-Lemeshow-Tests kürzlich kritisiert wurde, haben wir die Kalibrierungskurven gezeichnet, um den Effekt der Anpassungsgüte zu visualisieren. Während der geringe Stichprobenumfang, aber die hohe Rate an Ereignissen (d. h. Todesfällen) eine Stärke unserer Studie für die gesamte Kohorte darstellt, waren die in Untergruppen von Patienten durchgeführten Berechnungen für die vorhergesagte Sterblichkeit eher unterdurchschnittlich. Einerseits ermutigt uns dieser Nachteil dazu, diese prospektive Analyse auf eine größere Patientengruppe auszuweiten. Andererseits ist zu bedenken, dass sich die Population kritisch kranker Patienten im Laufe der Zeit verändert und sich daher die Parameter der diagnostischen Genauigkeit dynamisch verändern können. Unterschiede in der Leistung der Scores können auf Variationen im Case-Mix, in den Standards, in der Struktur und Organisation der medizinischen Versorgung sowie auf Lebensstile und genetische Unterschiede zwischen den Populationen zurückzuführen sein. Daher besteht trotz zahlreicher Studien, die bisher zu diesem Thema durchgeführt wurden, immer noch die Notwendigkeit, diese Prognosemodelle anhand von Daten unabhängiger Stichproben aus verschiedenen Intensivstationen in verschiedenen Ländern oder sogar Regionen in wiederholten Zeitabständen zu validieren.
Obwohl wir einige Unterschiede in den Werten der AUCs zwischen chirurgischen und medizinischen Patienten fanden, wurde durch frühere Untersuchungen bestätigt, dass chirurgische Patienten im Allgemeinen eine bessere Überlebensprognose haben als medizinische Intensivpatienten . Die Erklärung für diese Tatsache ist recht einfach: Bei diesen Patienten ist der Grund für die Einweisung in die Intensivstation meist ihr instabiler Zustand, der aus dem langwierigen, umfangreichen chirurgischen Eingriff resultiert, und nicht so sehr ihr schlechter Allgemeinzustand vor der Operation oder ihre Komorbiditäten.
Während alle drei untersuchten Scores die 12-Monats-Mortalität nach der Entlassung statistisch signifikant vorhersagten, war ihre diagnostische Genauigkeit viel geringer (AUC von ~ 0,7). In einer Studie von Angus et al. war der APACHE II-Score bei Patienten, die sich einer Lebertransplantation unterzogen, ebenfalls prädiktiv für die 1-Jahres-Mortalität (AUC von 0,671). Im Gegensatz dazu wurde in einer Studie von Lee et al. kein Zusammenhang zwischen den bei der Aufnahme berechneten Scores und der Sterblichkeit nach der Entlassung festgestellt. Die geringere diagnostische Genauigkeit bei der Vorhersage der Langzeitmortalität könnte auf verschiedene Gründe zurückzuführen sein. Die Scores werden in den ersten 24 Stunden nach der Aufnahme berechnet, wobei die schlechtesten Ergebnisse verwendet werden. Die während des Aufenthalts auf der Intensivstation durchgeführte Behandlung, eventuelle Komplikationen und die Qualität der Nachsorge und Rehabilitation beeinflussen das Ergebnis des Patienten und können die von den Scoring-Systemen gelieferten Ergebnisse verändern. Lee et al. fanden heraus, dass der APACHE-II-Score bei der Entlassung ein guter Prädiktor für die Sterblichkeit und Wiederaufnahme nach der Intensivstation ist. Daher wäre es sinnvoller, sich auf die berechneten Scores zu konzentrieren, um die Langzeitprognose der Patienten bei ihrer Entlassung aus der Intensivstation zu schätzen. Da die derzeit verfügbaren Instrumente ursprünglich nicht für eine solche Anwendung konzipiert wurden, sollten weitere Studien durchgeführt werden, um Scores zur Schätzung der Langzeitprognose zu erstellen. In diesem Zusammenhang sollte man bedenken, dass ein angemessenes Screening und die genaue Identifizierung von Patienten, die nach ihrer erfolgreichen Entlassung aus der Intensivstation gefährdet bleiben, von großer Bedeutung sein können, um Wiedereinweisungen in die Intensivstation, eine weitere Verschlechterung der Lebensqualität und eine höhere Sterblichkeit nach der Entlassung zu vermeiden.
Die vorliegende Studie hat einige Einschränkungen. Diejenigen, die sich auf die Validierung beziehen, wurden oben beschrieben. Man sollte jedoch auch bedenken, dass es sich um eine Single-Center-Studie handelt, die aufgrund der heterogenen Population und der relativ kleinen Stichprobengröße eine Verzerrung aufweisen kann. Die Endergebnisse in den Scores können durch den verwirrenden Effekt des Datenauswahlprozesses und der Berechnung der Ergebnisse der Glasgow Coma Scale beeinflusst werden. Der Nachbeobachtungszeitraum in unserer Studie war auf 12 Monate nach dem Datum der Aufnahme in die Intensivstation begrenzt. Schließlich haben wir den SOFA-Score nicht in unsere Analyse einbezogen. Da dieses spezielle Scoring-System jedoch in erster Linie für die Prognose septischer Patienten entwickelt wurde, scheint es auf der gemischten Intensivstation weniger umfassend zu sein als APACHE oder SAPS.