Validação dos escores APACHE II, APACHE III e SAPS II na previsão de mortalidade intra-hospitalar e de um ano em uma unidade de terapia intensiva mista na Polônia: um estudo de coorte
Este estudo de um único centro teve como objetivo validar os escores APACHE II, APACHE III e SAPS II na previsão de mortalidade em uma UTI com 10 leitos na Polônia. Descobrimos que embora todos os escores fossem aceitáveis na predição de mortalidade do ponto de vista estatístico, sua capacidade de prognóstico de 12 meses provou ser limitada do ponto de vista clínico.
Descobrimos que a taxa de mortalidade na UTI hospitalar foi de 35,6%, que foi relativamente alta em comparação com os dados internacionais, mas inferior ao valor observado na região da Silésia (43,7%) . A maior mortalidade em UTI polonesa em comparação com outros países europeus, que tem sido debatida nos últimos anos, deve-se mais a diferenças na população de pacientes, indicações para admissão em UTI, disponibilidade de leitos em UTI e organização de cuidados no final da vida na Polônia. Isto também se deve à atitude céptica de alguns profissionais em relação a orientações sobre terapia fútil e critérios oficiais de admissão em UTI. Embora os pacientes admitidos em UTIs polonesas apresentem maior risco de morte em comparação com outros países, a mortalidade na UTI observada no Registro Silesiano de Unidades de Terapia Intensiva foi menor do que a prevista pelo escore APACHE II .
Em nosso estudo, os escores APACHE II, APACHE III e SAPS II, e a mortalidade prevista na UTI foram os seguintes: 19 (IQR 12-24) pontos (i.e. taxa de mortalidade de 25,8%; IQR 12,1-46); 67 pontos (IQR 36,5-88) (taxa de mortalidade de 18,5%; IQR 3,8-41,8); e 44 pontos (IQR 27-56) (taxa de mortalidade de 34,8%; IQR 7,9-59,8), respectivamente. APACHE II e SAPS II apresentaram rácios de mortalidade observada/esperada comparáveis, próximos a 1,0. Para o APACHE III, a razão foi surpreendentemente alta e atingiu 1,38. Normalmente, os escores superestimam a mortalidade. A causa deste fenômeno parece ser complexa e pode resultar de diferenças substanciais entre a população de pacientes em nossa unidade (admissões mistas, incluindo casos pós-operatórios como primeira prioridade) e as populações-alvo para as quais esses modelos prognósticos foram desenvolvidos. Os pacientes médicos foram confirmados como tendo maior mortalidade do que os pacientes cirúrgicos, o que está de acordo com pesquisas anteriores sobre este assunto .
A confiabilidade dos dados coletados é importante, pois a má qualidade dos dados da fonte, bem como o número e o tipo de variáveis fisiológicas ausentes, podem influenciar as previsões de mortalidade. No estudo APACHE II original, as variáveis estavam faltando em 13% dos casos . Em nossas séries de dados, um total de 14% das variáveis estavam faltando nos escores dos três estudos, o que deve ser levado em conta na interpretação dos dados. O processo de coleta de dados é sobrecarregado com um alto risco de viés. No caso do APACHE II, observou-se que as principais causas dos erros de dados são escolhas inconsistentes entre os valores mais altos e mais baixos e problemas na determinação dos escores da GCS em pacientes sedados . Utilizamos a pré-sedação GCS em pacientes sedados, se disponível, os dados foram sempre verificados por dois membros da equipe do estudo independentemente.
Dois critérios objetivos principais são utilizados para a avaliação do desempenho das escalas prognósticas: a saber, calibração e discriminação. A discriminação refere-se à capacidade de uma pontuação prognóstica de classificar pacientes como sobreviventes ou não sobreviventes e é medida pelas curvas ROC (ou seja, AUC e IC95%). A calibração refere-se à proximidade entre as probabilidades estimadas de mortalidade e a mortalidade observada, é de grande importância para estudos clínicos ou comparação de cuidados entre UTIs, e é representada graficamente ou avaliada pelo uso de modelos goodness-to-fit. A discriminação em nosso estudo foi aceitável: todos os três escores investigados previram mortalidade hospitalar com uma AUC de quase 0,8, sem diferenças estatisticamente significativas entre eles. Em termos de predição de mortalidade pós-alta, a precisão diagnóstica dos escores também foi aceitável em termos de CUA (ou seja, > 0,7), mas foi mais de relevância clínica limítrofe (a CUA estava mais próxima de 0,5 do que de 1,0, o que indica um teste perfeitamente preciso). Entretanto, é vital notar que a própria CUA carece de interpretabilidade clínica, pois não reflete isso. Como uma CUA mede o desempenho em todos os limiares (cut-offs) para os escores, ela inclui tanto aqueles clinicamente relevantes quanto aqueles clinicamente ilógicos. Portanto, a interpretação clínica dos AUCs permanece difícil .
Nossas observações são consistentes com estudos anteriores que comprovam a alta precisão dos escores em prognóstico de curto prazo . Embora todos os escores tivessem AUCs comparáveis, APACHE II e SAPS II pareciam ter melhor desempenho do ponto de vista clínico, pois suas taxas de mortalidade observada/esperada foram de 1,12 e 0,96 comparadas com 1,38 para APACHE III. Em um estudo de Beck et al., que validaram os mesmos modelos prognósticos em 16.646 pacientes adultos internados em UTI no sul do Reino Unido, embora tenha sido relatada uma discriminação semelhante para as três escalas, a calibração foi imperfeita. O escore APACHE II foi mais confiável que SAPS II e APACHE III em pacientes internados em UTI, em um estudo de Gilani et al. Resultados semelhantes foram encontrados em um estudo de Khwannimit et al. que comparou o SAPS II e o APACHE II. Embora este último modelo tenha tido melhor desempenho em pacientes internados em UTI tailandeses, neste caso também a calibração de ambos os escores foi pobre. Em contraste, Sungurtekin et al. relataram melhor precisão prognóstica para o SAPS II do que o APACHE II em pacientes internados em UTI com fosfato orgânico. Outro estudo de Godinjak et al. demonstrou a alta acurácia diagnóstica comparável do APACHE II e SAPS II .
Calibração dos nossos escores foi boa em termos de valores de qui-quadrado e ‘p’. Entretanto, como a aplicação do teste Hosmer-Lemeshow foi criticada recentemente, nós desenhamos as curvas de calibração para visualizar o efeito do goodness-of-fit. Enquanto o tamanho pequeno da amostra, mas a alta taxa de eventos (ou seja, mortes) é um ponto forte do nosso estudo para toda a coorte, os cálculos realizados em subgrupos de pacientes para a mortalidade prevista foram bastante subestimados. Por um lado, este inconveniente encoraja-nos a estender esta análise prospectiva a um grupo maior de pacientes. Por outro lado, é preciso lembrar que a população de pacientes críticos muda com o tempo e, portanto, os parâmetros de precisão diagnóstica podem mudar de forma dinâmica. As diferenças no desempenho dos escores podem resultar de variações na mistura de casos, padrões, estrutura e organização dos cuidados médicos, assim como estilos de vida e diferenças genéticas entre as populações. Portanto, apesar dos inúmeros estudos realizados até agora sobre este assunto, ainda há necessidade de validar estes modelos prognósticos utilizando dados de amostras independentes de diferentes UTIs em diferentes países, ou mesmo regiões, em intervalos de tempo repetidos.
Embora tenhamos encontrado algumas diferenças nos valores dos AUCs entre pacientes cirúrgicos e médicos, foi confirmado por investigações anteriores que pacientes cirúrgicos geralmente têm um melhor prognóstico de sobrevivência do que pacientes de UTIs médicas . A explicação deste fato é bastante simples: nestes pacientes a razão para a admissão na UTI é principalmente sua condição instável resultante do procedimento cirúrgico extensivo e prolongado, e não tanto de seu mau estado geral antes da cirurgia ou de suas comorbidades.
Embora todos os três escores investigados prevejam uma mortalidade pós alta de 12 meses de forma estatisticamente significativa, sua precisão diagnóstica foi muito menor (AUC de ~ 0,7). Em estudo de Angus et al. , o escore APACHE II também foi preditivo de mortalidade em 1 ano (AUC de 0,671) em pacientes submetidos a transplantes hepáticos. Em contrapartida, um estudo de Lee et al. não relatou relação entre os escores calculados na admissão e a mortalidade após a alta hospitalar. A menor precisão diagnóstica na predição da mortalidade a longo prazo pode ser devida a vários motivos. Os escores são calculados durante as primeiras 24 h após a admissão, utilizando os piores resultados. O tratamento implementado durante a internação na UTI, eventuais complicações e a qualidade dos cuidados de acompanhamento e reabilitação, influenciam o resultado do paciente e podem alterar os resultados fornecidos pelos sistemas de pontuação. Lee et al. constataram que o escore APACHE II de alta foi um bom preditor de mortalidade e readmissão pós UTI. Portanto, seria mais razoável focar nos escores calculados para estimar a previsão de longo prazo dos pacientes na alta da UTI. Como as ferramentas atualmente disponíveis não foram inicialmente projetadas para tal aplicação, novos estudos devem ser conduzidos para criar escores que estimem a previsão a longo prazo. Neste contexto, deve-se ter em mente que o rastreamento adequado e a identificação precisa dos pacientes que permanecerão em risco após sua alta com sucesso da UTI podem ser de grande importância para evitar reinternações na UTI, maior deterioração da qualidade de vida e maior mortalidade pós alta.
O presente estudo tem algumas limitações. As relacionadas à validação já foram descritas acima. No entanto, deve-se lembrar também que, como estudo unicêntrico, pode haver viés em relação à população heterogênea e ao tamanho relativamente pequeno da amostra. Os resultados finais nos escores podem ser afetados pelo efeito confundente do processo de seleção dos dados e do cálculo dos resultados da Escala de Coma de Glasgow. O período de acompanhamento em nosso estudo foi limitado a 12 meses após a data de admissão na UTI. Finalmente, não incluímos o escore SOFA em nossa análise. Entretanto, como este sistema de pontuação particular foi criado principalmente para prognóstico entre pacientes sépticos, ele parece menos abrangente na UTI mista do que APACHE ou SAPS .