GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025

Gtp-5 supera a medicos

GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025: la inteligencia artificial (IA), superando a médicos humanos en el examen de licencia médica de EE. UU. (USMLE).

Según un estudio reciente, GPT-5 no solo alcanzó puntuaciones superiores al umbral de aprobación, sino que demostró capacidades de razonamiento multimodal que eclipsan a sus predecesores y a expertos pre-licenciados.

Este avance, publicado en medRxiv y arXiv, posiciona a GPT-5 como un razonador generalista multimodal, capaz de integrar texto, datos estructurados e imágenes médicas sin ajuste fino exhaustivo.

En el primer párrafo, ya se destaca que GPT-5 medical exam performance 2025 mejora en +29.26% el razonamiento y +26.18% la comprensión sobre GPT-4o en MedXpertQA MM, superando a humanos en +24.23% y +29.40%, respectivamente.

El estudio, titulado «Capabilities of GPT-5 on Multimodal Medical Reasoning», evalúa sistemáticamente el rendimiento de GPT-5 en tareas de preguntas y respuestas (Q&A) basadas en texto y visuales. Utilizando un protocolo unificado de «cadena de pensamiento» de «cero disparos», compara GPT-5, GPT-5-mini, GPT-5nano y GPT-4o (versión 2024-11-20) en benchmarks como MedQA, MedXpertQA (texto y multimodal), subconjuntos médicos de MMLU, exámenes USMLE y VQA-RAD.

Los resultados muestran que GPT-5 logra precisión de vanguardia, con un promedio de 95.22% en USMLE Steps 1–3, +2.88% sobre GPT-4o, excediendo umbrales de aprobación humanos por amplio margen.


El Protocolo de Evaluación y Benchmarks


El enfoque «cero disparos» significa que GPT-5 razonó sin ejemplos previos, simulando escenarios reales de toma de decisiones médicas. En MedQA, un benchmark de preguntas del USMLE, GPT-5 alcanzó 95.8% de precisión, superando a GPT-4o y expertos.

En MedXpertQA MM, que incluye imágenes, el modelo mejoró razonamiento y comprensión, destacando su multimodalidad para analizar rayos X, MRI y narrativas clínicas.


Comparado con GPT-4o, GPT-5 ofrece ganancias sustanciales en comprensión multimodal, como en VQA-RAD para radiología. Estudios previos con GPT-3.5 y GPT-4 mostraron puntuaciones cerca del umbral de aprobación (e.g., GPT-4 en ~70-80% USMLE), pero GPT-5 eleva el estándar a 95%, superando a humanos pre-licenciados.


Implicaciones para la Medicina


En un mundo donde los médicos enfrentan sobrecarga, esta IA podría asistir en diagnósticos, reduciendo errores. Por ejemplo, en USMLE Step 1 (ciencias básicas), GPT-5 obtuvo 96%, Step 2 CK (conocimiento clínico) 95%, y Step 3 (gestión paciente) 94.5%, superando a residentes.


Sin embargo, críticos argumentan que la IA carece de empatía y contexto real, limitándola a soporte, no reemplazo. El estudio enfatiza que GPT-5 excels in multimodal reasoning, integrando imágenes y texto para decisiones complejas, pero necesita validación clínica.


Comparación con Modelos Anteriores


GPT-4o, lanzado en 2024, mostró avances en image-based assessments, con puntuaciones numéricamente superiores a GPT-3.5, pero GPT-5 lo supera en 2.9% en USMLE, destacando en razonamiento sin entrenamiento específico. Variantes como GPT-5-mini son más eficientes para dispositivos móviles, pero GPT-5 principal domina benchmarks.


Futuro de la IA en Medicina


En 2025, GPT-5 podría integrar en apps de telemedicina o EHR systems, reduciendo tiempos de diagnóstico. Estudios como este de medRxiv y arXiv https://www.medrxiv.org/content/10.1101/2025.08.20.25333981v1 sugieren que la IA multimodal revolucionará la educación médica, permitiendo simulaciones realistas.


No obstante, regulaciones como el AI Act de la UE exigen transparencia, y organizaciones como AMA enfatizan validación ética. GPT-5 podría reducir desigualdades en acceso a cuidado médico, pero requiere colaboración humano-IA.


Casos Prácticos y Limitaciones


En VQA-RAD, GPT-5 respondió preguntas visuales sobre radiografías con 92% precisión, superando a GPT-4o. Limitaciones incluyen alucinaciones en casos raros y necesidad de datos diversos. Futuros estudios podrían incluir pruebas en entornos reales, como hospitales.


Conclusión


GPT-5 no solo supera a médicos, sino que redefine la IA en salud. Con puntuaciones récord en USMLE, invita a repensar la educación y práctica médica.

El futuro es colaborativo, donde la IA amplifica el conocimiento humano.

Definiciones


LLM (Large Language Model): Modelo de IA que procesa texto a gran escala para razonamiento.


Razonamiento Multimodal: Integración de texto, imágenes y datos para decisiones complejas.


USMLE: Examen de licencia médica de EE. UU. para evaluar competencias clínicas.


MedQA: Benchmark de preguntas médicas del USMLE.


VQA-RAD: Evaluación de preguntas visuales en radiología.

Etiquetado:

Deja un comentario

Descubre más desde

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo