GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025: la inteligencia artificial (IA), superando a médicos humanos en el examen de licencia médica de EE. UU. (USMLE).
Según un estudio reciente, GPT-5 no solo alcanzó puntuaciones superiores al umbral de aprobación, sino que demostró capacidades de razonamiento multimodal que eclipsan a sus predecesores y a expertos pre-licenciados.
Este avance, publicado en medRxiv y arXiv, posiciona a GPT-5 como un razonador generalista multimodal, capaz de integrar texto, datos estructurados e imágenes médicas sin ajuste fino exhaustivo.
En el primer párrafo, ya se destaca que GPT-5 medical exam performance 2025 mejora en +29.26% el razonamiento y +26.18% la comprensión sobre GPT-4o en MedXpertQA MM, superando a humanos en +24.23% y +29.40%, respectivamente.
El estudio, titulado «Capabilities of GPT-5 on Multimodal Medical Reasoning», evalúa sistemáticamente el rendimiento de GPT-5 en tareas de preguntas y respuestas (Q&A) basadas en texto y visuales. Utilizando un protocolo unificado de «cadena de pensamiento» de «cero disparos», compara GPT-5, GPT-5-mini, GPT-5nano y GPT-4o (versión 2024-11-20) en benchmarks como MedQA, MedXpertQA (texto y multimodal), subconjuntos médicos de MMLU, exámenes USMLE y VQA-RAD.
Los resultados muestran que GPT-5 logra precisión de vanguardia, con un promedio de 95.22% en USMLE Steps 1–3, +2.88% sobre GPT-4o, excediendo umbrales de aprobación humanos por amplio margen.
El Protocolo de Evaluación y Benchmarks
El enfoque «cero disparos» significa que GPT-5 razonó sin ejemplos previos, simulando escenarios reales de toma de decisiones médicas. En MedQA, un benchmark de preguntas del USMLE, GPT-5 alcanzó 95.8% de precisión, superando a GPT-4o y expertos.
En MedXpertQA MM, que incluye imágenes, el modelo mejoró razonamiento y comprensión, destacando su multimodalidad para analizar rayos X, MRI y narrativas clínicas.
Comparado con GPT-4o, GPT-5 ofrece ganancias sustanciales en comprensión multimodal, como en VQA-RAD para radiología. Estudios previos con GPT-3.5 y GPT-4 mostraron puntuaciones cerca del umbral de aprobación (e.g., GPT-4 en ~70-80% USMLE), pero GPT-5 eleva el estándar a 95%, superando a humanos pre-licenciados.
Implicaciones para la Medicina
En un mundo donde los médicos enfrentan sobrecarga, esta IA podría asistir en diagnósticos, reduciendo errores. Por ejemplo, en USMLE Step 1 (ciencias básicas), GPT-5 obtuvo 96%, Step 2 CK (conocimiento clínico) 95%, y Step 3 (gestión paciente) 94.5%, superando a residentes.
Sin embargo, críticos argumentan que la IA carece de empatía y contexto real, limitándola a soporte, no reemplazo. El estudio enfatiza que GPT-5 excels in multimodal reasoning, integrando imágenes y texto para decisiones complejas, pero necesita validación clínica.
Comparación con Modelos Anteriores
GPT-4o, lanzado en 2024, mostró avances en image-based assessments, con puntuaciones numéricamente superiores a GPT-3.5, pero GPT-5 lo supera en 2.9% en USMLE, destacando en razonamiento sin entrenamiento específico. Variantes como GPT-5-mini son más eficientes para dispositivos móviles, pero GPT-5 principal domina benchmarks.
Futuro de la IA en Medicina
En 2025, GPT-5 podría integrar en apps de telemedicina o EHR systems, reduciendo tiempos de diagnóstico. Estudios como este de medRxiv y arXiv https://www.medrxiv.org/content/10.1101/2025.08.20.25333981v1 sugieren que la IA multimodal revolucionará la educación médica, permitiendo simulaciones realistas.
No obstante, regulaciones como el AI Act de la UE exigen transparencia, y organizaciones como AMA enfatizan validación ética. GPT-5 podría reducir desigualdades en acceso a cuidado médico, pero requiere colaboración humano-IA.
Casos Prácticos y Limitaciones
En VQA-RAD, GPT-5 respondió preguntas visuales sobre radiografías con 92% precisión, superando a GPT-4o. Limitaciones incluyen alucinaciones en casos raros y necesidad de datos diversos. Futuros estudios podrían incluir pruebas en entornos reales, como hospitales.
Conclusión
GPT-5 no solo supera a médicos, sino que redefine la IA en salud. Con puntuaciones récord en USMLE, invita a repensar la educación y práctica médica.
El futuro es colaborativo, donde la IA amplifica el conocimiento humano.
Definiciones
LLM (Large Language Model): Modelo de IA que procesa texto a gran escala para razonamiento.
Razonamiento Multimodal: Integración de texto, imágenes y datos para decisiones complejas.
USMLE: Examen de licencia médica de EE. UU. para evaluar competencias clínicas.
MedQA: Benchmark de preguntas médicas del USMLE.
VQA-RAD: Evaluación de preguntas visuales en radiología.






