Validación de las puntuaciones APACHE II, APACHE III y SAPS II en la predicción de la mortalidad intrahospitalaria y a un año en una unidad mixta de cuidados intensivos en Polonia: un estudio de cohorte
Este estudio unicéntrico tenía como objetivo validar APACHE II, APACHE III y SAPS II en la predicción de la mortalidad en una UCI de 10 camas en Polonia. Descubrimos que, aunque todas las puntuaciones eran aceptables para predecir la mortalidad desde el punto de vista estadístico, su capacidad para pronosticar a los 12 meses resultó ser limitada desde el punto de vista clínico.
Encontramos que la tasa de mortalidad en la UCI intrahospitalaria era del 35,6%, que era relativamente alta en comparación con los datos internacionales, pero inferior al valor observado en la región de Silesia (43,7%) . La mayor mortalidad en las UCI polacas en comparación con otros países europeos , que ha sido objeto de debate en los últimos años, se debe más bien a las diferencias en la población de pacientes, las indicaciones para el ingreso en la UCI, la disponibilidad de camas en la UCI y la organización de los cuidados al final de la vida en Polonia. También se debe a la actitud escéptica de algunos profesionales respecto a las directrices sobre terapia fútil y a los criterios oficiales de ingreso en la UCI . Aunque los pacientes ingresados en las UCI polacas tienen con más frecuencia un mayor riesgo de muerte en comparación con otros países, la mortalidad en la UCI observada en el Registro de Unidades de Cuidados Intensivos de Silesia fue inferior a la predicha por la puntuación APACHE II.
En nuestro estudio, las puntuaciones APACHE II, APACHE III y SAPS II, y la mortalidad predicha en la UCI fueron las siguientes: 19 (IQR 12-24) puntos (es decir, tasa de mortalidad del 25,8%; IQR 12,1-46); 67 puntos (IQR 36,5-88) (tasa de mortalidad del 18,5%; IQR 3,8-41,8); y 44 puntos (IQR 27-56) (tasa de mortalidad del 34,8%; IQR 7,9-59,8), respectivamente. APACHE II y SAPS II tuvieron ratios de mortalidad observados/esperados comparables, cercanos a 1,0. En el caso de APACHE III, la relación fue sorprendentemente alta y alcanzó 1,38. Normalmente, las puntuaciones sobrestiman la mortalidad. La causa de este fenómeno parece ser compleja, y puede ser el resultado de diferencias sustanciales entre la población de pacientes de nuestra unidad (ingresos mixtos, incluidos los casos postoperatorios como primera prioridad) y las poblaciones objetivo para las que se desarrollaron estos modelos de pronóstico. Se confirmó que los pacientes médicos tenían una mayor mortalidad que los quirúrgicos, lo que coincide con investigaciones anteriores sobre esta cuestión.
La fiabilidad de los datos recogidos es importante porque la mala calidad de los datos de origen, así como el número y el tipo de variables fisiológicas que faltan, pueden influir en las predicciones de mortalidad. En el estudio APACHE II original, faltaban variables en el 13% de los casos . En nuestra serie de datos, faltaba un total del 14% de variables en las puntuaciones de los tres estudios, lo que debe tenerse en cuenta en la interpretación de los datos. El proceso de recogida de datos está cargado de un alto riesgo de sesgo. En el caso de las puntuaciones de APACHE II, se observó que las principales causas de errores en los datos son la elección inconsistente entre los valores más altos y los más bajos y los problemas con la determinación de la puntuación GCS en pacientes sedados . Se utilizó la GCS previa a la sedación en los pacientes sedados si estaba disponible, los datos siempre fueron verificados por dos miembros del equipo de estudio de forma independiente.
Para la evaluación del rendimiento de las escalas pronósticas se utilizan dos criterios objetivos principales: la calibración y la discriminación. La discriminación se refiere a la capacidad de una puntuación pronóstica para clasificar a los pacientes como supervivientes o no supervivientes y se mide mediante curvas ROC (es decir, AUC e IC del 95%). La calibración se refiere al grado de correlación de las probabilidades de mortalidad estimadas con la mortalidad observada, es de gran importancia para los ensayos clínicos o la comparación de la atención entre UCI, y se representa gráficamente o se evalúa utilizando modelos de bondad de ajuste. La discriminación en nuestro estudio fue aceptable: las tres puntuaciones investigadas predijeron la mortalidad intrahospitalaria con un AUC de casi 0,8, sin diferencias estadísticamente significativas entre ellas. En cuanto a la predicción de la mortalidad tras el alta, la precisión diagnóstica de las puntuaciones también fue aceptable en términos de AUC (es decir, > 0,7), pero fue más bien de relevancia clínica limítrofe (el AUC estuvo más cerca de 0,5 que de 1,0, lo que indica una prueba perfectamente precisa). Sin embargo, es vital señalar que el AUC en sí mismo carece de interpretabilidad clínica, ya que no lo refleja. Dado que un AUC mide el rendimiento sobre todos los umbrales (puntos de corte) de las puntuaciones, incluye tanto los clínicamente relevantes como los clínicamente ilógicos. Por lo tanto, la interpretación clínica de las AUC sigue siendo difícil.
Nuestras observaciones son coherentes con estudios anteriores que demuestran la gran precisión de las puntuaciones en el pronóstico a corto plazo. Aunque todas las puntuaciones tenían AUC comparables, APACHE II y SAPS II parecían funcionar mejor desde el punto de vista clínico, ya que sus tasas de mortalidad observada-esperada eran de 1,12 y 0,96 en comparación con el 1,38 de APACHE III. En un estudio de Beck et al., que validaron los mismos modelos de pronóstico en 16.646 pacientes adultos de la UCI en el sur del Reino Unido, aunque se informó de una discriminación igualmente buena para las tres escalas, la calibración fue imperfecta . La puntuación APACHE II fue más fiable que SAPS II y APACHE III en pacientes de la UCI en un estudio de Gilani et al. Un estudio de Khwannimit et al., que comparó el SAPS II y el APACHE II, arrojó resultados similares. Aunque este último modelo obtuvo mejores resultados en los pacientes tailandeses de la UCI, en este caso también la calibración de ambas puntuaciones fue deficiente. Por el contrario, Sungurtekin et al. informaron de una mayor precisión pronóstica del SAPS II que del APACHE II en pacientes de la UCI intoxicados con organofosforados. Otro estudio realizado por Godinjak et al. demostró la alta precisión diagnóstica comparable de APACHE II y SAPS II.
La calibración de nuestras puntuaciones fue buena en términos de valores de chi-cuadrado y «p». Sin embargo, como la aplicación de la prueba de Hosmer-Lemeshow ha sido criticada recientemente, dibujamos las curvas de calibración para visualizar el efecto de la bondad de ajuste. Aunque el pequeño tamaño de la muestra pero la elevada tasa de eventos (es decir, de muertes) es un punto fuerte de nuestro estudio para el conjunto de la cohorte, los cálculos realizados en subgrupos de pacientes para predecir la mortalidad tuvieron una potencia bastante baja. Por un lado, este inconveniente nos anima a ampliar este análisis prospectivo a un grupo mayor de pacientes. Por otro lado, hay que recordar que la población de enfermos críticos cambia con el tiempo y, por lo tanto, los parámetros de precisión diagnóstica pueden cambiar dinámicamente . Las diferencias en el rendimiento de las puntuaciones pueden deberse a la variación de la casuística, los estándares, la estructura y la organización de la atención médica, así como a los estilos de vida y las diferencias genéticas entre poblaciones . Por lo tanto, a pesar de los numerosos estudios realizados hasta ahora sobre este tema, sigue siendo necesario validar estos modelos de pronóstico utilizando datos de muestras independientes de diferentes UCI en distintos países, o incluso regiones, a intervalos de tiempo repetidos.
Aunque encontramos algunas diferencias en los valores de las AUC entre los pacientes quirúrgicos y los médicos, se ha confirmado en investigaciones anteriores que los pacientes quirúrgicos tienen generalmente un mejor pronóstico de supervivencia que los pacientes de UCI médica . La explicación de este hecho es bastante sencilla: en estos pacientes el motivo del ingreso en la UCI es sobre todo su estado inestable resultante de la extensa intervención quirúrgica realizada, y no tanto su mal estado general previo a la cirugía o sus comorbilidades.
Aunque las tres puntuaciones investigadas predijeron de forma estadísticamente significativa la mortalidad a los 12 meses tras el alta, su precisión diagnóstica fue mucho menor (AUC de ~ 0,7). En un estudio de Angus et al, la puntuación APACHE II también predijo la mortalidad a 1 año (AUC de 0,671) en pacientes sometidos a trasplantes de hígado. En cambio, en un estudio de Lee et al. no se observó ninguna relación entre las puntuaciones calculadas al ingreso y la mortalidad tras el alta. La menor precisión diagnóstica en la predicción de la mortalidad a largo plazo podría deberse a varias razones. Las puntuaciones se calculan durante las primeras 24 h tras el ingreso, utilizando los peores resultados. El tratamiento aplicado durante la estancia en la UCI, las eventuales complicaciones y la calidad de los cuidados de seguimiento y rehabilitación, influyen en el resultado del paciente y pueden modificar los resultados proporcionados por los sistemas de puntuación. Lee et al. descubrieron que la puntuación APACHE II al alta era un buen predictor de la mortalidad y el reingreso en la UCI. Por lo tanto, sería más razonable centrarse en las puntuaciones calculadas para estimar la predicción a largo plazo de los pacientes al ser dados de alta de la UCI. Dado que las herramientas disponibles en la actualidad no han sido diseñadas inicialmente para tal aplicación, deberían realizarse más estudios para crear puntuaciones que estimen la predicción a largo plazo. En este contexto, hay que tener en cuenta que un cribado adecuado y una identificación precisa de los pacientes que permanecerán en situación de riesgo tras su alta satisfactoria de la UCI pueden ser de gran importancia para evitar los reingresos en la UCI, un mayor deterioro de la calidad de vida y una mayor mortalidad tras el alta.
El presente estudio tiene algunas limitaciones. Las relacionadas con la validación se han descrito anteriormente. Sin embargo, hay que recordar también que, al tratarse de un estudio unicéntrico, puede haber un sesgo en relación con la heterogeneidad de la población y el tamaño relativamente pequeño de la muestra. Los resultados finales en las puntuaciones pueden verse afectados por el efecto de confusión del proceso de selección de datos y el cálculo de los resultados de la Escala de Coma de Glasgow. El período de seguimiento en nuestro estudio se limitó a 12 meses después de la fecha de ingreso en la UCI. Por último, no incluimos la puntuación SOFA en nuestro análisis. Sin embargo, como este sistema de puntuación en particular se creó principalmente para el pronóstico entre los pacientes sépticos, parece menos completo en el entorno de la UCI mixta que APACHE o SAPS.