Validatie van APACHE II, APACHE III en SAPS II scores in in-hospital en one year mortality prediction in a mixed intensive care unit in Polen: een cohortstudie
Deze single-center studie had tot doel APACHE II, APACHE III en SAPS II te valideren in de mortaliteitsvoorspelling in een 10-bed ICU in Polen. Wij ontdekten dat, hoewel alle scores vanuit statistisch oogpunt acceptabel waren in het voorspellen van sterfte, hun vermogen met betrekking tot prognose over 12 maanden vanuit klinisch oogpunt beperkt bleek te zijn.
Wij stelden vast dat het sterftecijfer op de IC in het ziekenhuis 35,6% bedroeg, wat relatief hoog was in vergelijking met internationale gegevens, maar lager dan de waarde die in de regio Silezië werd waargenomen (43,7%). De hogere sterfte in Poolse IC’s in vergelijking met andere Europese landen , die de laatste jaren ter discussie stond, is eerder te wijten aan verschillen in patiëntenpopulaties, indicaties voor IC-opname, de beschikbaarheid van IC-bedden en de organisatie van de zorg aan het einde van het leven in Polen. Dit is ook te wijten aan de sceptische houding van sommige beroepsbeoefenaars ten aanzien van richtlijnen voor futiele therapie en officiële IC-opnamecriteria . Hoewel patiënten die zijn opgenomen in Poolse IC’s vaker een hoger risico lopen om te overlijden in vergelijking met andere landen, was de IC-sterfte die werd waargenomen in het Silezische register van Intensive Care-afdelingen lager dan voorspeld door de APACHE II-score .
In onze studie waren de APACHE II-, APACHE III- en SAPS II-scores en de voorspelde IC-sterfte als volgt: 19 (IQR 12-24) punten (d.w.z. sterftecijfer van 25,8%; IQR 12,1-46); 67 punten (IQR 36,5-88) (sterftecijfer van 18,5%; IQR 3,8-41,8); en 44 punten (IQR 27-56) (sterftecijfer van 34,8%; IQR 7,9-59,8), respectievelijk. APACHE II en SAPS II hadden vergelijkbare waargenomen/verwachte mortaliteitsratio’s, dicht bij 1,0. Voor APACHE III was de ratio verrassend hoog en bereikte 1,38. Gewoonlijk overschatten de scores de mortaliteit. De oorzaak van dit fenomeen blijkt complex te zijn en kan het gevolg zijn van aanzienlijke verschillen tussen de patiëntenpopulatie in onze eenheid (gemengde opnames, met postoperatieve gevallen als eerste prioriteit) en de doelpopulaties waarvoor deze prognostische modellen werden ontwikkeld. Medische patiënten bleken een hogere mortaliteit te hebben dan chirurgische patiënten, wat in overeenstemming is met eerder onderzoek over dit onderwerp.
De betrouwbaarheid van de verzamelde gegevens is belangrijk omdat een slechte kwaliteit van de brongegevens, evenals het aantal en het type ontbrekende fysiologische variabelen, de mortaliteitsvoorspellingen kunnen beïnvloeden. In de oorspronkelijke APACHE II-studie ontbraken variabelen in 13% van de gevallen. In onze gegevensreeks ontbraken in totaal 14% van de variabelen in de scores van de drie studies, waarmee bij de interpretatie van de gegevens rekening moet worden gehouden. Het proces van gegevensverzameling is belast met een hoog risico op bias. In het geval van de APACHE II-scores werd vastgesteld dat de belangrijkste oorzaken van gegevensfouten inconsistente keuzes tussen de hoogste en laagste waarden zijn en problemen met de bepaling van de GCS-score bij gesedeerde patiënten. We gebruikten de pre-sedatie GCS bij gesedeerde patiënten indien beschikbaar, gegevens werden altijd geverifieerd door twee leden van het studieteam onafhankelijk.
Twee belangrijke objectieve criteria worden gebruikt voor prognostische schalen prestatie-evaluatie: namelijk, kalibratie en discriminatie. Discriminatie verwijst naar het vermogen van een prognostische score om patiënten als overlevenden of niet-overlevenden te classificeren en wordt gemeten aan de hand van ROC-curven (d.w.z. AUC en 95%CI). Kalibratie verwijst naar hoe nauw de geschatte sterftekansen correleren met de waargenomen sterfte, is van groot belang voor klinische trials of vergelijking van zorg tussen IC’s, en wordt grafisch weergegeven of beoordeeld aan de hand van goodness-to-fit modellen. Discriminatie in onze studie was aanvaardbaar: alle drie onderzochte scores voorspelden de sterfte in het ziekenhuis met een AUC van bijna 0,8, zonder statistisch significante verschillen tussen hen. Wat de voorspelling van mortaliteit na ontslag betreft, was de diagnostische nauwkeurigheid van de scores ook aanvaardbaar in termen van AUC’s (d.w.z. > 0,7), maar eerder van grensverleggende klinische relevantie (de AUC lag dichter bij 0,5 dan bij 1,0, wat wijst op een perfect nauwkeurige test). Het is echter van vitaal belang op te merken dat de AUC zelf geen klinische interpreteerbaarheid heeft, aangezien deze dit niet weergeeft. Omdat een AUC de prestatie over alle drempelwaarden (cut-offs) voor de scores meet, omvat hij zowel de klinisch relevante als de klinisch onlogische. Daarom blijft de klinische interpretatie van AUC’s moeilijk.
Onze observaties zijn consistent met eerdere studies die de hoge nauwkeurigheid van de scores bij prognosticatie op korte termijn aantoonden. Hoewel alle scores vergelijkbare AUC’s hadden, leken APACHE II en SAPS II uit klinisch oogpunt beter te presteren, aangezien hun waargenomen/verwachte sterftecijfers 1,12 en 0,96 bedroegen, vergeleken met 1,38 voor APACHE III. In een studie van Beck e.a., die dezelfde prognostische modellen valideerden bij 16.646 volwassen ICU-patiënten in het zuiden van het VK, werd weliswaar een even goede discriminatie gerapporteerd voor alle drie de schalen, maar de kalibratie was onvolmaakt . De APACHE II score was betrouwbaarder dan SAPS II en APACHE III bij ICU-patiënten in een studie van Gilani e.a. . Vergelijkbare bevindingen komen uit een studie van Khwannimit et al. die SAPS II en APACHE II vergeleken. Hoewel het laatstgenoemde model beter presteerde bij Thaise ICU-patiënten, was ook in dit geval de kalibratie van beide scores slecht. Daarentegen rapporteerden Sungurtekin et al. een betere prognostische nauwkeurigheid voor SAPS II dan voor APACHE II bij IC-patiënten met organofosfaatvergiftiging. Een andere studie van Godinjak et al. toonde de vergelijkbaar hoge diagnostische nauwkeurigheid van APACHE II en SAPS II aan.
De kalibratie van onze scores was goed in termen van chi-kwadraat en ‘p’-waarden. Aangezien de toepassing van de Hosmer-Lemeshow test echter onlangs werd bekritiseerd, hebben wij de kalibratiecurven getekend om het effect van goodness-of-fit te visualiseren. Hoewel de kleine steekproefomvang maar het hoge aantal voorvallen (d.w.z. sterfgevallen) een sterk punt is van onze studie voor het gehele cohort, waren de berekeningen die werden uitgevoerd in subgroepen van patiënten voor voorspelde mortaliteit eerder underpowered. Enerzijds spoort dit nadeel ons aan deze prospectieve analyse uit te breiden tot een grotere groep patiënten. Anderzijds mag niet uit het oog worden verloren dat de populatie van kritisch zieke patiënten in de loop van de tijd verandert en dat de parameters voor diagnostische nauwkeurigheid bijgevolg dynamisch kunnen veranderen. Verschillen in de prestaties van de scores kunnen het gevolg zijn van variatie in de case-mix, de normen, de structuur en organisatie van de medische zorg, alsook de levensstijl en genetische verschillen tussen populaties . Daarom is er, ondanks de vele studies die tot nu toe over dit onderwerp zijn uitgevoerd, nog steeds behoefte aan validatie van deze prognostische modellen met behulp van gegevens van onafhankelijke steekproeven van verschillende ICU’s in verschillende landen, of zelfs regio’s, met herhaalde tijdsintervallen.
Hoewel wij enkele verschillen vonden in de waarden van AUC’s tussen chirurgische en medische patiënten, is het bevestigd door eerdere onderzoeken dat chirurgische patiënten over het algemeen een betere overlevingsprognose hebben dan medische ICU-patiënten . De verklaring hiervoor is vrij eenvoudig: bij deze patiënten is de reden voor opname op de IC meestal hun instabiele toestand als gevolg van de uitgevoerde langdurige uitgebreide chirurgische ingreep, en niet zozeer hun slechte algemene conditie voorafgaand aan de operatie of hun comorbiditeiten.
Hoewel alle drie de onderzochte scores een 12-maanden mortaliteit na ontslag op een statistisch significante manier voorspelden, was hun diagnostische nauwkeurigheid veel lager (AUC van ~ 0,7). In een studie van Angus et al. was de APACHE II score ook voorspellend voor de 1-jaars mortaliteit (AUC van 0,671) bij patiënten die een levertransplantatie ondergingen. Daarentegen werd in een studie van Lee et al. geen verband gemeld tussen de bij opname berekende scores en de mortaliteit na ontslag. De lagere diagnostische nauwkeurigheid bij het voorspellen van sterfte op lange termijn kan verschillende oorzaken hebben. De scores worden berekend tijdens de eerste 24 uur na opname, waarbij de slechtste resultaten worden gebruikt. De behandeling tijdens het verblijf op de IC, eventuele complicaties en de kwaliteit van de nazorg en revalidatie zijn van invloed op de uitkomst van de patiënt en kunnen de resultaten van de scoresystemen beïnvloeden. Lee et al. ontdekten dat de APACHE II-score bij ontslag een goede voorspeller was van sterfte en heropname na de ICU. Daarom zou het redelijker zijn zich te concentreren op de scores die worden berekend om de langetermijnvoorspelling van de patiënten bij hun ontslag van de ICU in te schatten. Omdat de thans beschikbare instrumenten in eerste instantie niet voor een dergelijke toepassing zijn ontworpen, moeten verdere studies worden verricht om scores te creëren die de langetermijnvoorspelling schatten. In deze context mag niet uit het oog worden verloren dat een goede screening en een nauwkeurige identificatie van patiënten die risico blijven lopen na hun succesvolle ontslag van de IC van groot belang kunnen zijn om heropnames op de IC, verdere verslechtering van de levenskwaliteit en een hogere mortaliteit na ontslag te voorkomen.
De huidige studie heeft enkele beperkingen. Die met betrekking tot de validatie zijn hierboven beschreven. Men mag echter niet uit het oog verliezen dat, aangezien het om een één-center studie gaat, er een bias kan zijn met betrekking tot de heterogene populatie en de relatief kleine steekproefgrootte. De uiteindelijke resultaten in de scores kunnen beïnvloed worden door het verstorende effect van het selectieproces van de gegevens en de berekening van de resultaten van de Glasgow Coma Scale. De follow-up periode in onze studie was beperkt tot 12 maanden na de datum van IC-opname. Ten slotte hebben wij de SOFA-score niet in onze analyse opgenomen. Aangezien dit scoresysteem in de eerste plaats werd gecreëerd voor prognose bij septische patiënten, lijkt het minder uitgebreid in de gemengde ICU-setting dan APACHE of SAPS.