Validation of APACHE II, APACHE III and SAPS II scores in-hospital and one year mortality prediction in a mixed intensive care unit in Poland: a cohort study
To jednoośrodkowe badanie miało na celu walidację skal APACHE II, APACHE III i SAPS II w przewidywaniu śmiertelności w 10-łóżkowym oddziale intensywnej terapii w Polsce. Stwierdziliśmy, że chociaż wszystkie skale były akceptowalne w przewidywaniu śmiertelności z punktu widzenia statystycznego, ich zdolność do prognozowania 12-miesięcznego okazała się ograniczona z klinicznego punktu widzenia.
Stwierdziliśmy, że śmiertelność wewnątrzszpitalna na OIT wynosiła 35,6%, co było stosunkowo wysoką wartością w porównaniu z danymi międzynarodowymi, ale niższą niż wartość obserwowana w regionie śląskim (43,7%). Dyskutowana w ostatnich latach wyższa śmiertelność w polskich OIT w porównaniu z innymi krajami europejskimi wynika raczej z różnic w populacjach chorych, wskazaniach do przyjęcia na OIT, dostępności łóżek na OIT oraz organizacji opieki u schyłku życia w Polsce. Wynika to również ze sceptycznego podejścia części lekarzy do wytycznych dotyczących terapii daremnej i oficjalnych kryteriów przyjęcia na OIT. Mimo że pacjenci przyjmowani na polskie OIT są częściej obciążeni wyższym ryzykiem zgonu w porównaniu z innymi krajami, śmiertelność na OIT obserwowana w Śląskim Rejestrze Oddziałów Intensywnej Terapii była niższa niż przewidywana na podstawie punktacji APACHE II .
W naszym badaniu punktacja APACHE II, APACHE III i SAPS II oraz przewidywana śmiertelność na OIT były następujące: 19 (IQR 12-24) punktów (tj. Śmiertelność 25,8%; IQR 12,1-46); 67 punktów (IQR 36,5-88) (śmiertelność 18,5%; IQR 3,8-41,8); i 44 punkty (IQR 27-56) (śmiertelność 34,8%; IQR 7,9-59,8), odpowiednio. APACHE II i SAPS II miały porównywalny stosunek śmiertelności obserwowanej do oczekiwanej, bliski 1,0. W przypadku APACHE III stosunek ten był zaskakująco wysoki i wynosił 1,38. Zwykle wyniki te zawyżają śmiertelność. Przyczyna tego zjawiska wydaje się być złożona i może wynikać z istotnych różnic między populacją chorych w naszym oddziale (przyjęcia mieszane, w tym w pierwszej kolejności przypadki pooperacyjne) a populacjami docelowymi, dla których opracowano te modele prognostyczne. Potwierdzono, że pacjenci medyczni mieli wyższą śmiertelność niż pacjenci chirurgiczni, co jest zgodne z wcześniejszymi badaniami na ten temat .
Wiarygodność zebranych danych jest ważna, ponieważ niska jakość danych źródłowych, a także liczba i rodzaj brakujących zmiennych fizjologicznych, może wpływać na przewidywania dotyczące śmiertelności. W oryginalnym badaniu APACHE II, zmiennych brakowało w 13% przypadków . W naszej serii danych we wszystkich trzech badaniach brakowało w sumie 14% zmiennych, co powinno być brane pod uwagę przy interpretacji danych. Proces zbierania danych jest obarczony dużym ryzykiem błędu systematycznego. W przypadku punktacji APACHE II zaobserwowano, że głównymi przyczynami błędów w danych są niespójny wybór pomiędzy najwyższą i najniższą wartością oraz problemy z określeniem punktacji GCS u pacjentów poddanych sedacji. Używaliśmy GCS przed sedacją u pacjentów poddanych sedacji, jeśli było to możliwe, dane były zawsze weryfikowane przez dwóch członków zespołu badawczego niezależnie.
Dwa główne obiektywne kryteria są używane do oceny wydajności skal prognostycznych: mianowicie, kalibracja i dyskryminacja. Dyskryminacja odnosi się do zdolności wyniku prognostycznego do klasyfikowania pacjentów jako tych, którzy przeżyli lub nie przeżyli i jest mierzona za pomocą krzywych ROC (tj. AUC i 95%CI). Kalibracja odnosi się do tego, jak blisko szacowane prawdopodobieństwa śmiertelności korelują z obserwowaną śmiertelnością, ma duże znaczenie dla badań klinicznych lub porównania opieki między oddziałami intensywnej terapii i jest przedstawiana graficznie lub oceniana za pomocą modeli goodness-to-fit. Dyskryminacja w naszym badaniu była akceptowalna: wszystkie trzy badane skale przewidywały śmiertelność wewnątrzszpitalną z AUC wynoszącym prawie 0,8, bez istotnych statystycznie różnic między nimi. Jeśli chodzi o przewidywanie śmiertelności po wypisie, dokładność diagnostyczna punktacji była również akceptowalna pod względem AUC (tj. > 0,7), ale miała raczej graniczne znaczenie kliniczne (AUC było bliższe 0,5 niż 1,0, co wskazuje na idealnie dokładny test). Należy jednak zauważyć, że sama wartość AUC nie ma znaczenia klinicznego, ponieważ nie odzwierciedla tego faktu. Ponieważ AUC mierzy wydajność przy wszystkich progach (punktach odcięcia) dla punktacji, obejmuje zarówno te klinicznie istotne, jak i klinicznie nielogiczne. Dlatego kliniczna interpretacja AUC pozostaje trudna .
Nasze obserwacje są zgodne z poprzednimi badaniami dowodzącymi wysokiej dokładności punktacji w krótkoterminowym prognozowaniu . Chociaż wszystkie skale miały porównywalne AUC, APACHE II i SAPS II wydawały się działać lepiej z klinicznego punktu widzenia, ponieważ ich współczynniki śmiertelności obserwowanej do oczekiwanej wynosiły 1,12 i 0,96 w porównaniu z 1,38 dla APACHE III. W badaniu Becka i wsp., którzy zwalidowali te same modele prognostyczne u 16 646 dorosłych pacjentów oddziałów intensywnej terapii w południowej Wielkiej Brytanii, mimo że odnotowano podobnie dobrą dyskryminację dla wszystkich trzech skal, kalibracja była niedoskonała. Wynik APACHE II był bardziej wiarygodny niż SAPS II i APACHE III u pacjentów oddziałów intensywnej terapii w badaniu Gilani i wsp. Podobne wnioski płyną z badania Khwannimit et al., którzy porównali SAPS II i APACHE II. Chociaż ten drugi model okazał się lepszy u pacjentów OIT w Tajlandii, to również w tym przypadku kalibracja obu skal była słaba. Z kolei Sungurtekin i wsp. wykazali lepszą dokładność prognostyczną dla SAPS II niż APACHE II u pacjentów OIT zatrutych fosforanami organicznymi. Inne badanie przeprowadzone przez Godinjak i wsp. wykazało porównywalnie wysoką dokładność diagnostyczną APACHE II i SAPS II .
Kalibracja naszych skal była dobra pod względem wartości chi kwadrat i 'p’. Ponieważ jednak zastosowanie testu Hosmera-Lemeshowa zostało ostatnio skrytykowane, narysowaliśmy krzywe kalibracji, aby zwizualizować efekt dobroci dopasowania. Podczas gdy mała liczebność próby, ale wysoki odsetek zdarzeń (tj. zgonów) jest mocną stroną naszego badania dla całej kohorty, obliczenia przeprowadzone w podgrupach pacjentów dla przewidywanej śmiertelności były raczej niedostatecznie wzmocnione. Z jednej strony ta wada skłania nas do rozszerzenia tej prospektywnej analizy na większą grupę chorych. Z drugiej strony należy pamiętać, że populacja osób krytycznie chorych zmienia się w czasie i dlatego parametry trafności diagnostycznej mogą ulegać dynamicznym zmianom. Różnice w wynikach punktacji mogą wynikać z odmienności w doborze przypadków, standardów, struktury i organizacji opieki medycznej, a także stylu życia i różnic genetycznych między populacjami. Dlatego też, pomimo licznych badań przeprowadzonych do tej pory na ten temat, nadal istnieje potrzeba walidacji tych modeli prognostycznych przy użyciu danych pochodzących z niezależnych prób z różnych oddziałów intensywnej terapii w różnych krajach, a nawet regionach, w powtarzających się odstępach czasu.
Chociaż znaleźliśmy pewne różnice w wartościach AUC pomiędzy pacjentami chirurgicznymi i medycznymi, zostało to potwierdzone przez wcześniejsze badania, że pacjenci chirurgiczni generalnie mają lepsze rokowanie dotyczące przeżycia niż pacjenci medyczni oddziałów intensywnej terapii. Wyjaśnienie tego faktu jest dość proste: u tych chorych powodem przyjęcia na OIT jest przede wszystkim niestabilny stan wynikający z przeprowadzonego długotrwałego, rozległego zabiegu chirurgicznego, a nie tyle zły stan ogólny przed zabiegiem czy choroby współistniejące.
Chociaż wszystkie trzy badane punktacje przewidywały 12-miesięczną śmiertelność po wypisie w sposób istotny statystycznie, ich dokładność diagnostyczna była znacznie niższa (AUC ~ 0,7). W badaniu Angus i wsp. punktacja APACHE II była również predyktorem jednorocznej śmiertelności (AUC 0,671) u pacjentów poddanych transplantacji wątroby. Z kolei w badaniu Lee i wsp. nie wykazano zależności między punktacją obliczoną przy przyjęciu a śmiertelnością po wypisie. Mniejsza dokładność diagnostyczna w przewidywaniu długoterminowej śmiertelności może wynikać z różnych przyczyn. Punktację oblicza się w ciągu pierwszych 24 h po przyjęciu, wykorzystując najgorsze wyniki. Leczenie wdrożone podczas pobytu na oddziale intensywnej terapii, ewentualne powikłania oraz jakość dalszej opieki i rehabilitacji wpływają na wynik leczenia pacjenta i mogą zmienić wyniki uzyskane za pomocą systemów punktowych. Lee i wsp. stwierdzili, że wynik APACHE II przy wypisie był dobrym predyktorem śmiertelności i readmisji po OIT. Dlatego bardziej uzasadnione byłoby skupienie się na punktacji obliczonej w celu oszacowania długoterminowego rokowania dla pacjentów przy wypisie z OIT. Ponieważ obecnie dostępne narzędzia nie zostały pierwotnie zaprojektowane do takiego zastosowania, należy przeprowadzić dalsze badania w celu stworzenia punktacji szacującej długoterminową predykcję. W tym kontekście należy pamiętać, że właściwy screening i dokładna identyfikacja pacjentów, którzy pozostaną w grupie ryzyka po udanym wypisie z OIT, może mieć duże znaczenie dla uniknięcia ponownych przyjęć na OIT, dalszego pogorszenia jakości życia i wyższej śmiertelności po wypisie.
Prezentowane badanie ma pewne ograniczenia. Te związane z walidacją zostały opisane powyżej. Należy jednak pamiętać, że jako badanie przeprowadzone w jednym ośrodku, może być obarczone błędem wynikającym z heterogennej populacji i stosunkowo małej liczebności próby. Na ostateczne wyniki punktacji może mieć wpływ efekt konfundacji związany z procesem selekcji danych i obliczaniem wyników w skali Glasgow Coma. Okres obserwacji w naszym badaniu był ograniczony do 12 miesięcy od daty przyjęcia na oddział intensywnej terapii. Wreszcie, w naszej analizie nie uwzględniliśmy wyniku w skali SOFA. Ponieważ jednak ten szczególny system punktacji został stworzony głównie do prognozowania u pacjentów septycznych, wydaje się on mniej wszechstronny w warunkach mieszanego oddziału intensywnej terapii niż APACHE lub SAPS
.