Validazione dei punteggi APACHE II, APACHE III e SAPS II nella previsione di mortalità in ospedale e ad un anno in un’unità di terapia intensiva mista in Polonia: uno studio di coorte
Questo studio monocentrico aveva lo scopo di convalidare APACHE II, APACHE III e SAPS II nella previsione di mortalità in un’unità di terapia intensiva con 10 letti in Polonia. Abbiamo scoperto che anche se tutti i punteggi erano accettabili nel predire la mortalità dal punto di vista statistico, la loro capacità per quanto riguarda la prognosi a 12 mesi si è rivelata limitata dal punto di vista clinico.
Abbiamo scoperto che il tasso di mortalità in ospedale in TI era del 35,6%, che era relativamente alto rispetto ai dati internazionali, ma inferiore al valore osservato nella regione della Slesia (43,7%) . La mortalità più alta nelle ICU polacche rispetto ad altri paesi europei, che è stata oggetto di dibattito negli ultimi anni, è piuttosto dovuta alle differenze nelle popolazioni di pazienti, nelle indicazioni per il ricovero in ICU, nella disponibilità di letti ICU e nell’organizzazione dell’assistenza di fine vita in Polonia. Ciò è dovuto anche all’atteggiamento scettico di alcuni professionisti riguardo alle linee guida sulla terapia futile e ai criteri ufficiali di ammissione in terapia intensiva. Anche se i pazienti ricoverati nelle unità di terapia intensiva polacche sono più spesso a più alto rischio di morte rispetto ad altri paesi, la mortalità in terapia intensiva osservata nel Registro Silesiano delle Unità di Terapia Intensiva era inferiore a quella prevista dal punteggio APACHE II .
Nel nostro studio, i punteggi APACHE II, APACHE III e SAPS II, e la mortalità prevista in terapia intensiva erano i seguenti: 19 (IQR 12-24) punti (cioè un tasso di mortalità del 25,8%; IQR 12,1-46); 67 punti (IQR 36,5-88) (tasso di mortalità del 18,5%; IQR 3,8-41,8); e 44 punti (IQR 27-56) (tasso di mortalità del 34,8%; IQR 7,9-59,8), rispettivamente. APACHE II e SAPS II avevano rapporti di mortalità osservati-attesi comparabili, vicini a 1,0. Per APACHE III, il rapporto era sorprendentemente alto e raggiungeva 1,38. Di solito, i punteggi sovrastimano la mortalità. La causa di questo fenomeno sembra essere complessa, e può derivare da differenze sostanziali tra la popolazione di pazienti nella nostra unità (ricoveri misti, compresi i casi post-operatori come prima priorità) e le popolazioni target per cui questi modelli prognostici sono stati sviluppati. I pazienti medici hanno confermato di avere una mortalità più alta rispetto ai pazienti chirurgici, il che è in linea con le ricerche precedenti su questo tema.
L’affidabilità dei dati raccolti è importante perché la scarsa qualità dei dati alla fonte, così come il numero e il tipo di variabili fisiologiche mancanti, possono influenzare le previsioni di mortalità. Nello studio originale APACHE II, le variabili mancavano nel 13% dei casi. Nella nostra serie di dati, un totale del 14% delle variabili mancava nei punteggi di tutti e tre gli studi, il che dovrebbe essere preso in considerazione nell’interpretazione dei dati. Il processo di raccolta dei dati è gravato da un alto rischio di bias. Nel caso dei punteggi APACHE II, è stato osservato che le principali cause di errori nei dati sono scelte incoerenti tra i valori più alti e più bassi e problemi con la determinazione del punteggio GCS nei pazienti sedati. Abbiamo usato la GCS pre-sedazione nei pazienti sedati se disponibile, i dati sono stati sempre verificati da due membri del team di studio in modo indipendente.
Sono utilizzati due principali criteri oggettivi per la valutazione delle prestazioni delle scale prognostiche: la calibrazione e la discriminazione. La discriminazione si riferisce alla capacità di un punteggio prognostico di classificare i pazienti come sopravvissuti o non sopravvissuti e viene misurata dalle curve ROC (cioè AUC e 95%CI). La calibrazione si riferisce a quanto strettamente le probabilità stimate di mortalità correlano con la mortalità osservata, è di grande importanza per gli studi clinici o il confronto delle cure tra le ICU, ed è rappresentata graficamente o valutata utilizzando modelli goodness-to-fit. La discriminazione nel nostro studio è stata accettabile: tutti e tre i punteggi studiati hanno predetto la mortalità in ospedale con un AUC di quasi 0,8, senza differenze statisticamente significative tra loro. In termini di previsione di mortalità post-dimissione, l’accuratezza diagnostica dei punteggi era anche accettabile in termini di AUC (cioè > 0,7) ma era piuttosto di rilevanza clinica borderline (l’AUC era più vicina a 0,5 che a 1,0, che indica un test perfettamente accurato). Tuttavia, è fondamentale notare che l’AUC in sé manca di interpretabilità clinica in quanto non riflette questo. Poiché l’AUC misura la performance su tutte le soglie (cut-off) dei punteggi, include sia quelle clinicamente rilevanti che quelle clinicamente illogiche. Pertanto, l’interpretazione clinica delle AUC rimane difficile.
Le nostre osservazioni sono coerenti con gli studi precedenti che dimostrano l’alta precisione dei punteggi nella prognosi a breve termine. Sebbene tutti i punteggi avessero AUC comparabili, APACHE II e SAPS II sembravano avere prestazioni migliori da un punto di vista clinico, poiché i loro tassi di mortalità osservati-attesi erano 1,12 e 0,96 rispetto a 1,38 per APACHE III. In uno studio di Beck et al., che hanno convalidato gli stessi modelli prognostici in 16.646 pazienti adulti in ICU nel sud del Regno Unito, sebbene sia stata riportata una discriminazione altrettanto buona per tutte e tre le scale, la calibrazione era imperfetta. Il punteggio APACHE II era più affidabile di SAPS II e APACHE III nei pazienti in terapia intensiva in uno studio di Gilani et al. Risultati simili provengono da uno studio di Khwannimit et al. che ha confrontato SAPS II e APACHE II. Anche se quest’ultimo modello si è comportato meglio nei pazienti tailandesi in terapia intensiva, anche in questo caso la calibrazione di entrambi i punteggi era scarsa. Al contrario, Sungurtekin et al. hanno riportato una migliore accuratezza prognostica per il SAPS II rispetto all’APACHE II nei pazienti in terapia intensiva avvelenati da organofosfati. Un altro studio di Godinjak et al. ha dimostrato l’alta accuratezza diagnostica comparabile di APACHE II e SAPS II.
La calibrazione dei nostri punteggi era buona in termini di valori chi-quadrato e ‘p’. Tuttavia, poiché l’applicazione del test di Hosmer-Lemeshow è stata recentemente criticata, abbiamo disegnato le curve di calibrazione per visualizzare l’effetto della bontà dell’adattamento. Mentre la piccola dimensione del campione ma l’alto tasso di eventi (cioè i decessi) è un punto di forza del nostro studio per l’intera coorte, i calcoli effettuati in sottogruppi di pazienti per la mortalità prevista erano piuttosto sottopotenziati. Da un lato, questo inconveniente ci incoraggia a estendere questa analisi prospettica a un gruppo più ampio di pazienti. D’altra parte, bisogna ricordare che la popolazione di soggetti malati critici cambia nel tempo e, quindi, i parametri di accuratezza diagnostica possono cambiare dinamicamente. Le differenze nelle prestazioni dei punteggi possono derivare dalla variazione del case mix, degli standard, della struttura e dell’organizzazione delle cure mediche, così come degli stili di vita e delle differenze genetiche tra le popolazioni. Pertanto, nonostante i numerosi studi condotti finora su questo argomento, c’è ancora bisogno di convalidare questi modelli prognostici utilizzando dati da campioni indipendenti da diverse unità di terapia intensiva in diversi paesi, o addirittura regioni, a intervalli di tempo ripetuti.
Anche se abbiamo trovato alcune differenze nei valori di AUC tra pazienti chirurgici e medici, è stato confermato da indagini precedenti che i pazienti chirurgici hanno generalmente una prognosi di sopravvivenza migliore rispetto ai pazienti medici in terapia intensiva. La spiegazione di questo fatto è abbastanza semplice: in questi pazienti la ragione del ricovero in terapia intensiva è principalmente la loro condizione instabile derivante dalla lunga procedura chirurgica eseguita, e non tanto dalle loro cattive condizioni generali prima dell’intervento o dalle loro comorbidità.
Mentre tutti e tre i punteggi studiati prevedevano una mortalità a 12 mesi dalla dimissione in modo statisticamente significativo, la loro accuratezza diagnostica era molto più bassa (AUC di ~ 0,7). In uno studio di Angus et al. , il punteggio APACHE II era anche predittivo di mortalità a 1 anno (AUC di 0,671) in pazienti sottoposti a trapianto di fegato. Al contrario, uno studio di Lee et al. non ha riportato alcuna relazione tra i punteggi calcolati all’ammissione e la mortalità post-dimissione. La minore accuratezza diagnostica nel predire la mortalità a lungo termine potrebbe essere dovuta a varie ragioni. I punteggi sono calcolati durante le prime 24 ore dopo l’ammissione, utilizzando i risultati peggiori. Il trattamento attuato durante la permanenza in terapia intensiva, eventuali complicazioni e la qualità delle cure di follow-up e della riabilitazione, influenzano l’esito del paziente e possono modificare i risultati forniti dai sistemi di punteggio. Lee et al. hanno scoperto che il punteggio APACHE II alla dimissione era un buon predittore di mortalità e riammissione post-ICU. Pertanto, sarebbe più ragionevole concentrarsi sui punteggi calcolati per stimare la previsione a lungo termine dei pazienti alla loro dimissione dall’ICU. Poiché gli strumenti attualmente disponibili non sono stati inizialmente progettati per una tale applicazione, dovrebbero essere condotti ulteriori studi per creare punteggi che stimino la previsione a lungo termine. In questo contesto, si dovrebbe tenere a mente che uno screening adeguato e l’identificazione accurata dei pazienti che rimarranno a rischio dopo la loro dimissione dall’ICU può essere di grande importanza per evitare riammissioni in ICU, un ulteriore deterioramento della qualità della vita e una maggiore mortalità dopo la dimissione.
Il presente studio ha alcuni limiti. Quelli relativi alla convalida sono stati descritti sopra. Tuttavia, bisogna ricordare anche che, essendo uno studio monocentrico, ci possono essere delle distorsioni per quanto riguarda la popolazione eterogenea e la dimensione relativamente piccola del campione. I risultati finali dei punteggi possono essere influenzati dall’effetto confondente del processo di selezione dei dati e del calcolo dei risultati della Glasgow Coma Scale. Il periodo di follow-up nel nostro studio era limitato a 12 mesi dopo la data di ammissione in terapia intensiva. Infine, non abbiamo incluso il punteggio SOFA nella nostra analisi. Tuttavia, poiché questo particolare sistema di punteggio è stato creato principalmente per la prognosi tra i pazienti settici, sembra meno completo nel contesto misto dell’ICU rispetto all’APACHE o al SAPS.