domingo 10 noviembre, 2024

ChatGPT Vision muestra deficiencias interpretación de imágenes

OAK BROOK, Ill. — Investigadores que evaluaron el rendimiento de ChatGPT-4 Vision descubrieron que el modelo tuvo un buen desempeño en las preguntas de exámenes de
radiología basadas en texto, pero tuvo dificultades para responder con precisión las preguntas relacionadas con imágenes. Los resultados del estudio se publicaron hoy en la
revista Radiology.

Chat GPT-4 Vision es la primera versión del gran modelo de lenguaje que puede interpretar tanto texto como imágenes.

“ChatGPT-4 ha demostrado ser prometedor para ayudar a los radiólogos en tareas como simplificar los informes radiológicos de cara al paciente e identificar el protocolo adecuado para los exámenes de diagnóstico por imágenes”, afirmó el Dr. Chad Klochko, radiólogo musculoesquelético e investigador de inteligencia artificial (IA) en Henry Ford Health en Detroit, Michigan. “Con capacidades de procesamiento de imágenes, GPT-4 Vision permite nuevas aplicaciones potenciales en radiología”.

Para el estudio, el equipo de investigación del Dr. Klochko utilizó preguntas retiradas de los exámenes de formación en radiología diagnóstica del Colegio Americano de Radiología, una serie de pruebas que se utilizan para evaluar el progreso de los residentes de radiología. Después de excluir las preguntas duplicadas, los investigadores utilizaron 377 preguntas en 13 dominios, incluidas 195 preguntas que solo contenían texto y 182 que contenían una imagen.

GPT-4 Vision respondió correctamente 246 de las 377 preguntas, logrando una puntuación general del 65,3 %. El modelo respondió correctamente el 81,5 % (159) de las 195
consultas de solo texto y el 47,8 % (87) de las 182 preguntas con imágenes.
“La precisión del 81,5 % en las preguntas basadas únicamente en texto refleja el rendimiento del modelo anterior”, afirmó.

“Esta consistencia en las preguntas basadas en texto puede sugerir que el modelo tiene un grado de comprensión textual en radiología”.
La radiología genitourinaria fue la única subespecialidad en la que GPT-4 Vision tuvo un mejor desempeño en las preguntas con imágenes (67 %, o 10 de 15) que en las preguntas con solo texto (57 %, o 4 de 7). El modelo tuvo un mejor desempeño en las preguntas con solo texto en todas las demás subespecialidades.

El modelo tuvo el mejor desempeño en las preguntas basadas en imágenes en las subespecialidades de tórax y genitourinarias, respondiendo correctamente el 69% y el 67% de las preguntas que contenían imágenes, respectivamente. El modelo tuvo el peor desempeño en las preguntas que contenían imágenes en el dominio de la medicina nuclear,
respondiendo correctamente solo 2 de 10 preguntas.

El estudio también evaluó el impacto de varias indicaciones en el desempeño de GPT-4 Vision.
Original: Estás tomando un examen de radiología. Se subirán imágenes de las preguntas. Elige la respuesta correcta para cada pregunta.
Básico: Elija la mejor respuesta en la siguiente pregunta del examen de la junta de radiología jubilada.
Instrucciones breves: Esta es una pregunta de examen de la junta de radiología jubilada para evaluar sus conocimientos médicos. Elija la mejor letra de respuesta y no proporcione ningún razonamiento para su respuesta.
Instrucciones detalladas: Usted es un radiólogo de diagnóstico certificado que se presenta a un examen. Evalúe cada pregunta con atención y, si la pregunta también contiene una imagen, evalúe la imagen con atención para poder responder la pregunta. Su respuesta debe incluir una única opción de respuesta. Si no proporciona una opción de respuesta, se considerará incorrecta.
Cadena de pensamiento: estás haciendo un examen de la junta para jubilados con fines de investigación. Dada la imagen proporcionada, piensa paso a paso en la pregunta planteada.
Aunque el modelo respondió correctamente 183 de 265 preguntas con una indicación básica, se negó a responder 120 preguntas, la mayoría de las cuales contenían una imagen.
“El fenómeno de negarse a responder preguntas era algo que no habíamos visto en nuestra exploración inicial del modelo”, dijo el Dr. Klochko.
La instrucción breve arrojó la precisión más baja (62,6%).

En las preguntas basadas en texto, la instrucción basada en cadenas de pensamiento tuvo un mejor desempeño que la instrucción larga en un 6,1 %, la instrucción básica en un 6,8
% y el estilo de instrucción original en un 8,9 %. No hubo evidencia que sugiriera diferencias de desempeño entre dos indicaciones en las preguntas basadas en imágenes.
“Nuestro estudio mostró evidencia de respuestas alucinatorias al interpretar los hallazgos de las imágenes”, dijo el Dr. Klochko. “Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados en interpretaciones incorrectas de las imágenes, lo que podría tener implicaciones clínicas importantes”.
El Dr. Klochko dijo que los hallazgos de su estudio subrayan la necesidad de métodos de evaluación más especializados y rigurosos para evaluar el desempeño de modelos de
lenguaje grandes en tareas de radiología.
“Dados los desafíos actuales para interpretar con precisión las imágenes radiológicas clave y la tendencia a las respuestas alucinatorias, la aplicabilidad de GPT-4 Vision en campos de información crítica como la radiología es limitada en su estado actual”, dijo.

Inscripcion

Artículos relacionados

Fellowship 2024: Inteligencia Artificial en Imágenes Diagnósticas

El Hospital Británico de Buenos Aires lanza un programa innovador de formación continua es un Fellowship o Beca de perfeccionamiento en inteligencia artificial aplicada...

Instituciones de Salud Inteligentes

Instituciones de Salud Inteligentes / Informatizadas Durante la última década, las instituciones de salud han experimentado una transformación profunda impulsada por el desarrollo tecnológico y...

El Radiólogo Invisible: El rol Oculto en la Medicina Moderna

Introducción En el mundo de la medicina moderna, los radiólogos juegan un papel crucial en el diagnóstico y tratamiento de enfermedades. Sin embargo, a menudo...

IA puede ayudar a descartar patologías anormales en radiografía de tórax

OAK BROOK, Ill. — Una herramienta comercial de inteligencia artificial (IA) utilizada fuera de etiqueta fue eficaz para excluir patología y tuvo tasas iguales...

Seguinos

2,319FansLike
0FollowersFollow
1,324FollowersFollow

MÁS LEIDOS