jueves 14 noviembre, 2024

ChatGPT aprueba el examen de radiología

La última versión de ChatGPT fue sometida a un examen de radiología, revelando tanto su potencial como sus limitaciones en términos de confiabilidad, según dos nuevos estudios de investigación publicados en Radiology.

El autor principal del estudio, Dr. Rajesh Bhayana, radiólogo abdominal y líder tecnológico en University Medical Imaging Toronto, Toronto General Hospital en Toronto, Canadá, afirmó que el uso de modelos de lenguaje extenso como ChatGPT está en aumento y seguirá creciendo. Sin embargo, estos modelos presentan limitaciones actuales que los hacen poco confiables.

Figura 1. Respuesta de ChatGPT a una pregunta sobre dislocaciones del carpo, evaluando principalmente el pensamiento de orden inferior (recuerdo de conocimientos, comprensión básica). ChatGPT eligió la respuesta correcta (opción B). Sin embargo, su explicación incluía inexactitudes: las luxaciones perilunares son las más comunes y son dos o tres veces más comunes que las luxaciones semilunares, no el 50% de los casos; la luxación anterior del hueso grande se observa con la luxación perilunar, pero característicamente la luxación es posterior; las lesiones de arco menor son disrupciones ligamentosas puras sin fractura.
Figura 1. Respuesta de ChatGPT a una pregunta sobre dislocaciones del carpo, evaluando principalmente el pensamiento de orden inferior (recuerdo de conocimientos, comprensión básica). ChatGPT eligió la respuesta correcta (opción B). Sin embargo, su explicación incluía inexactitudes: las luxaciones perilunares son las más comunes y son dos o tres veces más comunes que las luxaciones semilunares, no el 50% de los casos; la luxación anterior del hueso grande se observa con la luxación perilunar, pero característicamente la luxación es posterior; las lesiones de arco menor son disrupciones ligamentosas puras sin fractura.

ChatGPT utiliza un modelo de aprendizaje profundo para generar respuestas similares a las humanas basadas en un aviso. Aunque puede reconocer patrones y relaciones entre palabras en sus vastos datos de entrenamiento, no cuenta con una fuente de verdad en dichos datos, lo que puede resultar en respuestas objetivamente incorrectas.

El Dr. Bhayana señaló que los chatbots similares a ChatGPT están siendo incorporados en motores de búsqueda populares como Google y Bing, utilizados tanto por médicos como por pacientes para buscar información médica.

Figura 2. Respuesta de ChatGPT a una pregunta de pensamiento de orden superior que involucra el cálculo del lavado absoluto en un nódulo suprarrenal. La respuesta de ChatGPT incluía una fórmula de lavado absoluto inexacta. El cálculo y la respuesta posteriores (opción A) fueron incorrectos. La fórmula correcta para el lavado absoluto es la siguiente: (atenuación de la fase venosa portal - atenuación de la fase retardada)/(atenuación de la fase venosa portal - atenuación no mejorada) x 100. Cuando se incluyen los valores correctos de la pregunta, el cálculo es el siguiente: ( 88 – 45)/(88 – 27) x 100. El lavado absoluto en el nódulo descrito es del 70% (la respuesta correcta es D).
Figura 2. Respuesta de ChatGPT a una pregunta de pensamiento de orden superior que involucra el cálculo del lavado absoluto en un nódulo suprarrenal. La respuesta de ChatGPT incluía una fórmula de lavado absoluto inexacta. El cálculo y la respuesta posteriores (opción A) fueron incorrectos. La fórmula correcta para el lavado absoluto es la siguiente: (atenuación de la fase venosa portal – atenuación de la fase retardada)/(atenuación de la fase venosa portal – atenuación no mejorada) x 100. Cuando se incluyen los valores correctos de la pregunta, el cálculo es el siguiente: ( 88 – 45)/(88 – 27) x 100. El lavado absoluto en el nódulo descrito es del 70% (la respuesta correcta es D).

Para evaluar el rendimiento de ChatGPT en preguntas de un examen de radiología y explorar sus fortalezas y limitaciones, el Dr. Bhayana y sus colegas realizaron pruebas con ChatGPT basado en GPT-3.5, que es la versión más utilizada actualmente. Utilizaron 150 preguntas de opción múltiple diseñadas para simular el estilo, contenido y dificultad de los exámenes del Canadian Royal College y la American Board of Radiology.

Las preguntas se agruparon por tipo y se evaluó el desempeño general de ChatGPT, así como la confianza en el lenguaje de las respuestas.

Los resultados mostraron que ChatGPT basado en GPT-3.5 respondió correctamente el 69% de las preguntas (104 de 150), cerca del umbral de aprobación del 70% utilizado por el Royal College en Canadá. El modelo tuvo un desempeño relativamente bueno en preguntas que requerían pensamiento de orden inferior (84%, 51 de 61), pero presentó dificultades con preguntas que requerían pensamiento de orden superior (60%, 53 de 89). Específicamente, tuvo problemas con preguntas de orden superior relacionadas con la descripción de hallazgos de imágenes (61%, 28 de 46), cálculo y clasificación (25%, 2 de 8) y aplicación de conceptos (30%, 3 de 10). Esto no fue sorprendente, dado que el modelo no recibió entrenamiento específico en radiología.

En un estudio de seguimiento, se evaluó el desempeño de GPT-4, lanzado en Marzo de 2023 en una versión limitada para usuarios pagos. GPT-4 respondió correctamente el 81% (121 de 150) de las mismas preguntas, superando a GPT-3.5 y superando el umbral de aprobación del 70%. En particular, GPT-4 mostró un mejor desempeño en preguntas de pensamiento de orden superior (81%), especialmente en aquellas relacionadas con la descripción de hallazgos de imágenes (85%) y la aplicación de conceptos (90%).

Figura 3. Respuesta de ChatGPT a una pregunta de clasificación relacionada con el Sistema de datos e informes de imágenes de la tiroides (TI-RADS). El modelo seleccionó la respuesta incorrecta (opción B, TI-RADS 3). Dado que la lesión es sólida (2 puntos), hipoecoica (2 puntos) y tiene macrocalcificaciones (1 punto), corresponde a una lesión TI-RADS 4 (la respuesta correcta es la opción C).
Figura 3. Respuesta de ChatGPT a una pregunta de clasificación relacionada con el Sistema de datos e informes de imágenes de la tiroides (TI-RADS). El modelo seleccionó la respuesta incorrecta (opción B, TI-RADS 3). Dado que la lesión es sólida (2 puntos), hipoecoica (2 puntos) y tiene macrocalcificaciones (1 punto), corresponde a una lesión TI-RADS 4 (la respuesta correcta es la opción C).

Estos hallazgos sugieren que las mejoras en las capacidades de razonamiento de GPT-4 se traducen en un mejor rendimiento en un contexto de radiología. También indican una mejor comprensión contextual de la terminología específica de la radiología, incluyendo las descripciones de imágenes, lo cual es fundamental para futuras aplicaciones en este campo.

Sin embargo, GPT-4 no mostró mejoras en las preguntas de pensamiento de orden inferior (80% frente a 84%) y respondió incorrectamente a 12 preguntas que GPT-3.5 respondió correctamente, lo que plantea dudas sobre su confiabilidad para recopilar información.

Figura 4. Respuesta de ChatGPT a una pregunta que presenta predominantemente una descripción de los hallazgos de imágenes. La pregunta describe la apariencia clásica de un útero tabicado. ChatGPT seleccionó la respuesta correcta (opción D). Las explicaciones son en gran medida precisas, pero su descripción del útero bicorne es inexacta. Específicamente, indica que el útero bicorne tiene un “contorno externo del fondo conservado sin muescas”. El útero bicorne se diferencia mejor del útero septado mediante la identificación de una hendidura externa del fondo uterino de más de 1 cm.
Figura 4. Respuesta de ChatGPT a una pregunta que presenta predominantemente una descripción de los hallazgos de imágenes. La pregunta describe la apariencia clásica de un útero tabicado. ChatGPT seleccionó la respuesta correcta (opción D). Las explicaciones son en gran medida precisas, pero su descripción del útero bicorne es inexacta. Específicamente, indica que el útero bicorne tiene un “contorno externo del fondo conservado sin muescas”. El útero bicorne se diferencia mejor del útero septado mediante la identificación de una hendidura externa del fondo uterino de más de 1 cm.

El Dr. Bhayana destacó la tendencia de ChatGPT a producir respuestas inexactas, conocidas como alucinaciones, y señaló que esto es menos frecuente en GPT-4.

Ambos estudios también revelaron que ChatGPT utiliza un lenguaje seguro de manera constante, incluso cuando sus respuestas son incorrectas. Esto representa un peligro, especialmente para aquellos que no pueden reconocer las respuestas incorrectas seguras como inexactas.

En conclusión, el Dr. Bhayana enfatizó que ChatGPT es mejor utilizado para generar ideas, ayudar en la redacción médica y resumir datos. Si se utiliza para obtener información rápida, siempre se debe verificar la veracidad de las respuestas.

Inscripcion

Artículos relacionados

Fellowship 2024: Inteligencia Artificial en Imágenes Diagnósticas

El Hospital Británico de Buenos Aires lanza un programa innovador de formación continua es un Fellowship o Beca de perfeccionamiento en inteligencia artificial aplicada...

ChatGPT Vision muestra deficiencias interpretación de imágenes

OAK BROOK, Ill. — Investigadores que evaluaron el rendimiento de ChatGPT-4 Vision descubrieron que el modelo tuvo un buen desempeño en las preguntas de...

Instituciones de Salud Inteligentes

Instituciones de Salud Inteligentes / Informatizadas Durante la última década, las instituciones de salud han experimentado una transformación profunda impulsada por el desarrollo tecnológico y...

El Radiólogo Invisible: El rol Oculto en la Medicina Moderna

Introducción En el mundo de la medicina moderna, los radiólogos juegan un papel crucial en el diagnóstico y tratamiento de enfermedades. Sin embargo, a menudo...

Seguinos

2,319FansLike
0FollowersFollow
1,324FollowersFollow

MÁS LEIDOS