miércoles 11 diciembre, 2024

IA puede ayudar a descartar patologías anormales en radiografía de tórax

Dr. Louis Lind Plesner
Dr. Louis Lind Plesner

OAK BROOK, Ill. — Una herramienta comercial de inteligencia artificial (IA) utilizada fuera de etiqueta fue eficaz para excluir patología y tuvo tasas iguales o menores de errores críticos en radiografías de tórax que los radiólogos, según un estudio publicado en Radiology.

Figura 1. El diagrama de flujo muestra el proceso de inclusión. Una radiografía de tórax notable se definió como aquella que presentaba uno o más hallazgos anormales. Una radiografía de tórax completamente normal se definió como aquella que no presentaba hallazgos anormales. Una radiografía de tórax normal sin hallazgos notables se definió como aquella normal pero con uno o más hallazgos sin hallazgos notables. IA = inteligencia artificial, AP = anteroposterior, DICOM = Imágenes digitales y comunicaciones en medicina, ED = departamento de emergencias, PA = posteroanterior
Figura 1. El diagrama de flujo muestra el proceso de inclusión. Una radiografía de tórax notable se definió como aquella que presentaba uno o más hallazgos anormales. Una radiografía de tórax completamente normal se definió como aquella que no presentaba hallazgos anormales. Una radiografía de tórax normal sin hallazgos notables se definió como aquella normal pero con uno o más hallazgos sin hallazgos notables. IA = inteligencia artificial, AP = anteroposterior, DICOM = Imágenes digitales y comunicaciones en medicina, ED = departamento de emergencias, PA = posteroanterior

Los recientes avances en el campo de la inteligencia artificial han despertado un creciente interés en el diagnóstico asistido por ordenador, motivado en parte por la creciente carga de trabajo que afrontan los departamentos de radiología, la escasez mundial de radiólogos y el potencial de agotamiento en este campo. Las consultas de radiología tienen un gran volumen de radiografías de tórax sin hallazgos clínicamente significativos, y la inteligencia artificial podría mejorar el flujo de trabajo al proporcionar un informe automático.

Figura 2. Rendimiento diagnóstico de la herramienta de inteligencia artificial (IA) para la clasificación de radiografías de tórax notables y no notables. (A) La curva de la característica operativa del receptor muestra el rendimiento de los radiólogos agrupados que redactan los informes de radiología clínica (punto rojo). (B) La curva de la característica operativa del receptor invertida muestra solo el área de alta sensibilidad. La curva se ha invertido para ilustrar cómo aumenta la especificidad con el aumento de las tasas de falsos negativos. La línea discontinua roja indica la tasa de falsos negativos encontrada en los informes de radiología; la línea discontinua amarilla indica el umbral de IA que produce un número igual de radiografías de tórax críticas omitidas (1,1%); y las líneas discontinuas azules (de abajo a arriba) indican los umbrales de sensibilidad de IA del 99,9%, 99,0% y 98,0%, respectivamente.
Figura 2. Rendimiento diagnóstico de la herramienta de inteligencia artificial (IA) para la clasificación de radiografías de tórax notables y no notables. (A) La curva de la característica operativa del receptor muestra el rendimiento de los radiólogos agrupados que redactan los informes de radiología clínica (punto rojo). (B) La curva de la característica operativa del receptor invertida muestra solo el área de alta sensibilidad. La curva se ha invertido para ilustrar cómo aumenta la especificidad con el aumento de las tasas de falsos negativos. La línea discontinua roja indica la tasa de falsos negativos encontrada en los informes de radiología; la línea discontinua amarilla indica el umbral de IA que produce un número igual de radiografías de tórax críticas omitidas (1,1%); y las líneas discontinuas azules (de abajo a arriba) indican los umbrales de sensibilidad de IA del 99,9%, 99,0% y 98,0%, respectivamente.

En Dinamarca, investigadores se propusieron calcular la proporción de radiografías de tórax sin complicaciones en las que la IA podía excluir correctamente la patología sin aumentar los errores de diagnóstico. El estudio incluyó informes de radiología y datos de 1.961 pacientes (edad media, 72 años; 993 mujeres), con una radiografía de tórax por paciente, obtenidos en cuatro hospitales daneses. 

Figura 3. Cuatro ejemplos de radiografías de tórax notables con hallazgos críticos no detectados. La herramienta de inteligencia artificial (IA) fue posprocesada por el proveedor de IA escalando cada una de las 85 predicciones individuales notables a un valor normalizado y utilizando el nivel de caso más alto de las puntuaciones escaladas como la puntuación de probabilidad general de 0 a 1 para "notable" (es decir, la probabilidad de hallazgos anormales o notables por la IA). (A) La radiografía de tórax en una paciente de 49 años muestra una fractura de costilla aguda ligeramente visible (flecha) que la IA no detectó en todos los umbrales y que tampoco detectó el informe radiológico. (B) La radiografía de tórax en una paciente de 30 años muestra ganglios linfáticos hiliares agrandados (flechas) que no detectó el informe radiológico pero no la IA en ningún umbral. (C) La radiografía de tórax de una paciente de 67 años muestra un tumor que imita una placa pleural (flecha) que se informó en el informe radiológico (donde la paciente fue derivada para una TC) y que la IA no detectó en el umbral del 98,0 %, pero no en los umbrales del 99,0 % y el 99,9 %. (D) La radiografía de tórax de un paciente masculino de 64 años muestra un catéter venoso central que posiblemente ingresa en la vena ácigos (flechas), que se clasificó como normal en el informe radiológico. La IA no detectó el hallazgo crítico en el umbral del 98,0 %, pero no en los umbrales del 99,0 % y el 99,9 %.
Figura 3. Cuatro ejemplos de radiografías de tórax notables con hallazgos críticos no detectados. La herramienta de inteligencia artificial (IA) fue posprocesada por el proveedor de IA escalando cada una de las 85 predicciones individuales notables a un valor normalizado y utilizando el nivel de caso más alto de las puntuaciones escaladas como la puntuación de probabilidad general de 0 a 1 para “notable” (es decir, la probabilidad de hallazgos anormales o notables por la IA). (A) La radiografía de tórax en una paciente de 49 años muestra una fractura de costilla aguda ligeramente visible (flecha) que la IA no detectó en todos los umbrales y que tampoco detectó el informe radiológico. (B) La radiografía de tórax en una paciente de 30 años muestra ganglios linfáticos hiliares agrandados (flechas) que no detectó el informe radiológico pero no la IA en ningún umbral. (C) La radiografía de tórax de una paciente de 67 años muestra un tumor que imita una placa pleural (flecha) que se informó en el informe radiológico (donde la paciente fue derivada para una TC) y que la IA no detectó en el umbral del 98,0 %, pero no en los umbrales del 99,0 % y el 99,9 %. (D) La radiografía de tórax de un paciente masculino de 64 años muestra un catéter venoso central que posiblemente ingresa en la vena ácigos (flechas), que se clasificó como normal en el informe radiológico. La IA no detectó el hallazgo crítico en el umbral del 98,0 %, pero no en los umbrales del 99,0 % y el 99,9 %.

“Nuestro grupo y otros han demostrado anteriormente que las herramientas de IA son capaces de excluir patologías en radiografías de tórax con gran confianza y, por lo tanto, proporcionar un informe normal autónomo sin la intervención de un humano”, afirmó el autor principal, el doctor Louis Lind Plesner, del Departamento de Radiología del Hospital Herlev y Gentofte de Copenhague, Dinamarca. “Estos algoritmos de IA pasan por alto muy pocas radiografías de tórax anormales. Sin embargo, antes de nuestro estudio actual, no sabíamos cuál era el umbral adecuado para estos modelos”.

Figura 4. El gráfico de barras apiladas muestra la consecuencia clínica estimada de los errores por parte de la herramienta de inteligencia artificial (IA) en un umbral de sensibilidad fijo y los informes de radiología. Hubo 158 radiografías de tórax en las que el informe de radiología clasificó una radiografía de tórax notable como normal, lo que corresponde a una sensibilidad del 87,2 %. Al fijar el umbral de la IA a esta sensibilidad, la IA produjo la misma cantidad de errores y, por lo tanto, simuló el punto de operación del radiólogo lo más fielmente posible. La consecuencia clínica fue etiquetada por un radiólogo torácico (MBA) que tenía acceso completo al historial de radiografías anteriores, pero no sabía qué lector (es decir, IA o informe) había pasado por alto el hallazgo. Las radiografías de tórax no realizadas se clasificaron en tres grupos según las siguientes definiciones: (a) clínicamente insignificantes (“incluiría el hallazgo en el informe pero no esperaría que se tomara ninguna medida clínica al respecto”), (b) clínicamente significativas (“incluiría el hallazgo en el informe y esperaría que se tomara una medida clínica al respecto”) y (c) críticas (“llamaría inmediatamente al médico remitente y/o verificaría el expediente del paciente para ver si el médico ya había notado el hallazgo y había tomado medidas al respecto, o indicaría explícitamente en el informe que se justifican imágenes de seguimiento”). Los valores de p se obtuvieron utilizando la prueba de McNemar, con corrección de continuidad para cada grupo individualmente.
Figura 4. El gráfico de barras apiladas muestra la consecuencia clínica estimada de los errores por parte de la herramienta de inteligencia artificial (IA) en un umbral de sensibilidad fijo y los informes de radiología. Hubo 158 radiografías de tórax en las que el informe de radiología clasificó una radiografía de tórax notable como normal, lo que corresponde a una sensibilidad del 87,2 %. Al fijar el umbral de la IA a esta sensibilidad, la IA produjo la misma cantidad de errores y, por lo tanto, simuló el punto de operación del radiólogo lo más fielmente posible. La consecuencia clínica fue etiquetada por un radiólogo torácico (MBA) que tenía acceso completo al historial de radiografías anteriores, pero no sabía qué lector (es decir, IA o informe) había pasado por alto el hallazgo. Las radiografías de tórax no realizadas se clasificaron en tres grupos según las siguientes definiciones: (a) clínicamente insignificantes (“incluiría el hallazgo en el informe pero no esperaría que se tomara ninguna medida clínica al respecto”), (b) clínicamente significativas (“incluiría el hallazgo en el informe y esperaría que se tomara una medida clínica al respecto”) y (c) críticas (“llamaría inmediatamente al médico remitente y/o verificaría el expediente del paciente para ver si el médico ya había notado el hallazgo y había tomado medidas al respecto, o indicaría explícitamente en el informe que se justifican imágenes de seguimiento”). Los valores de p se obtuvieron utilizando la prueba de McNemar, con corrección de continuidad para cada grupo individualmente.

El equipo de investigación quería saber si la calidad de los errores cometidos por la IA y los radiólogos era diferente y si los errores de la IA, en promedio, son objetivamente peores que los errores humanos.

Figura 5. Los gráficos de barras muestran la cantidad de todos los hallazgos radiográficos de tórax presentes en radiografías de tórax notables (CXR) etiquetadas como no notables por la herramienta de inteligencia artificial (IA) o los informes de radiología y clasificadas como críticas (arriba) o clínicamente significativas (abajo). La IA se fijó a una sensibilidad similar (87,2 %) a la de los informes de radiología. Algunos hallazgos no fueron detectados tanto por la IA como por el informe, y estos se incluyeron en las columnas de la IA y del informe. Los hallazgos fueron etiquetados por consenso por dos radiólogos, con un tercer radiólogo para la adjudicación, como el estándar de referencia.
Figura 5. Los gráficos de barras muestran la cantidad de todos los hallazgos radiográficos de tórax presentes en radiografías de tórax notables (CXR) etiquetadas como no notables por la herramienta de inteligencia artificial (IA) o los informes de radiología y clasificadas como críticas (arriba) o clínicamente significativas (abajo). La IA se fijó a una sensibilidad similar (87,2 %) a la de los informes de radiología. Algunos hallazgos no fueron detectados tanto por la IA como por el informe, y estos se incluyeron en las columnas de la IA y del informe. Los hallazgos fueron etiquetados por consenso por dos radiólogos, con un tercer radiólogo para la adjudicación, como el estándar de referencia.

La herramienta de IA se adaptó para generar una probabilidad de “sorprendencia” de una radiografía de tórax, que se utilizó para calcular la especificidad (una medida de la capacidad de una prueba médica para identificar correctamente a personas que no tienen una enfermedad) en diferentes sensibilidades de IA.

Dos radiólogos torácicos, que desconocían los resultados de la IA, etiquetaron las radiografías de tórax como “notable” o “no destacable” en función de hallazgos no destacables predefinidos. Las radiografías de tórax con hallazgos no detectados por la IA o el informe radiológico fueron calificadas por un radiólogo torácico (que desconocía si el error fue cometido por la IA o el radiólogo) como críticas, clínicamente significativas o clínicamente insignificantes.

El estándar de referencia etiquetó 1231 de 1961 radiografías de tórax (62,8 %) como notables y 730 de 1961 (37,2 %) como no destacables. La herramienta de IA excluyó correctamente la patología en el 24,5 % al 52,7 % de las radiografías de tórax no destacables con una sensibilidad mayor o igual al 98 %, con tasas más bajas de errores críticos que las encontradas en los informes de radiología asociados con las imágenes.

El Dr. Plesner señala que los errores cometidos por la IA fueron, en promedio, clínicamente más graves para el paciente que los errores cometidos por los radiólogos.

“Es probable que esto se deba a que los radiólogos interpretan los hallazgos en función del escenario clínico, algo que la IA no hace”, afirmó. “Por lo tanto, cuando se pretende que la IA proporcione un informe normal automatizado, tiene que ser más sensible que el radiólogo para evitar reducir el nivel de atención durante la implementación. Este hallazgo también es interesante en general en esta era de capacidades de IA que abarcan múltiples entornos de alto riesgo, no solo limitados a la atención médica”.

Según el Dr. Plesner, la IA podría informar de forma autónoma más de la mitad de todas las radiografías de tórax normales. “En nuestra población de estudio basada en el hospital, esto significó que más del 20% de todas las radiografías de tórax podrían haberse informado de forma potencialmente autónoma utilizando esta metodología, manteniendo al mismo tiempo una tasa más baja de errores clínicamente relevantes que el estándar actual”, dijo.

El Dr. Plesner señaló que es necesaria una implementación prospectiva del modelo utilizando uno de los umbrales sugeridos en el estudio antes de poder recomendar una implementación generalizada.

Inscripcion

Artículos relacionados

Los beneficios ocultos de la Teleradiología

La escasez de médicos radiólogos, el crecimiento de la demanda de pruebas diagnósticas basadas en imágenes y la huella post COVID-19, son algunos de...

Sesiones plenarias en la RSNA destacan la conexión entre humanos y la IA

La RSNA ha anunciado las sesiones plenarias para su 110 Asamblea Científica y Reunión Anual, bajo el tema "Construyendo Conexiones Inteligentes", programada del 1...

Volpara Health supera los 300 artículos peer review

WELLINGTON, Nueva Zelanda – Volpara Health, líder global en soluciones de salud mamaria basadas en inteligencia artificial (IA), ha alcanzado los 300 artículos científicos...

Le estamos devolviendo el protagonismo a la ecografía mamaria

Descubre cómo Koios, está devolviendo protagonismo a la ecografía mamaria utilizando inteligencia artificial de vanguardia. Aprende cómo esta tecnología complementa la labor de los...

Seguinos

2,319FansLike
0FollowersFollow
1,324FollowersFollow

MÁS LEIDOS