GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025

2025-12-28

GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025: la inteligencia artificial (IA), superando a médicos humanos en el examen de licencia médica de EE. UU. (USMLE).

Según un estudio reciente, GPT-5 no solo alcanzó puntuaciones superiores al umbral de aprobación, sino que demostró capacidades de razonamiento multimodal que eclipsan a sus predecesores y a expertos pre-licenciados.

Este avance, publicado en medRxiv y arXiv, posiciona a GPT-5 como un razonador generalista multimodal, capaz de integrar texto, datos estructurados e imágenes médicas sin ajuste fino exhaustivo.

En el primer párrafo, ya se destaca que GPT-5 medical exam performance 2025 mejora en +29.26% el razonamiento y +26.18% la comprensión sobre GPT-4o en MedXpertQA MM, superando a humanos en +24.23% y +29.40%, respectivamente.

El estudio, titulado «Capabilities of GPT-5 on Multimodal Medical Reasoning», evalúa sistemáticamente el rendimiento de GPT-5 en tareas de preguntas y respuestas (Q&A) basadas en texto y visuales. Utilizando un protocolo unificado de «cadena de pensamiento» de «cero disparos», compara GPT-5, GPT-5-mini, GPT-5nano y GPT-4o (versión 2024-11-20) en benchmarks como MedQA, MedXpertQA (texto y multimodal), subconjuntos médicos de MMLU, exámenes USMLE y VQA-RAD.

Los resultados muestran que GPT-5 logra precisión de vanguardia, con un promedio de 95.22% en USMLE Steps 1–3, +2.88% sobre GPT-4o, excediendo umbrales de aprobación humanos por amplio margen.

El Protocolo de Evaluación y Benchmarks

El enfoque «cero disparos» significa que GPT-5 razonó sin ejemplos previos, simulando escenarios reales de toma de decisiones médicas. En MedQA, un benchmark de preguntas del USMLE, GPT-5 alcanzó 95.8% de precisión, superando a GPT-4o y expertos.

En MedXpertQA MM, que incluye imágenes, el modelo mejoró razonamiento y comprensión, destacando su multimodalidad para analizar rayos X, MRI y narrativas clínicas.

Comparado con GPT-4o, GPT-5 ofrece ganancias sustanciales en comprensión multimodal, como en VQA-RAD para radiología. Estudios previos con GPT-3.5 y GPT-4 mostraron puntuaciones cerca del umbral de aprobación (e.g., GPT-4 en ~70-80% USMLE), pero GPT-5 eleva el estándar a 95%, superando a humanos pre-licenciados.

Implicaciones para la Medicina

En un mundo donde los médicos enfrentan sobrecarga, esta IA podría asistir en diagnósticos, reduciendo errores. Por ejemplo, en USMLE Step 1 (ciencias básicas), GPT-5 obtuvo 96%, Step 2 CK (conocimiento clínico) 95%, y Step 3 (gestión paciente) 94.5%, superando a residentes.

Sin embargo, críticos argumentan que la IA carece de empatía y contexto real, limitándola a soporte, no reemplazo. El estudio enfatiza que GPT-5 excels in multimodal reasoning, integrando imágenes y texto para decisiones complejas, pero necesita validación clínica.

Comparación con Modelos Anteriores

GPT-4o, lanzado en 2024, mostró avances en image-based assessments, con puntuaciones numéricamente superiores a GPT-3.5, pero GPT-5 lo supera en 2.9% en USMLE, destacando en razonamiento sin entrenamiento específico. Variantes como GPT-5-mini son más eficientes para dispositivos móviles, pero GPT-5 principal domina benchmarks.

Futuro de la IA en Medicina

En 2025, GPT-5 podría integrar en apps de telemedicina o EHR systems, reduciendo tiempos de diagnóstico. Estudios como este de medRxiv y arXiv https://www.medrxiv.org/content/10.1101/2025.08.20.25333981v1 sugieren que la IA multimodal revolucionará la educación médica, permitiendo simulaciones realistas.

No obstante, regulaciones como el AI Act de la UE exigen transparencia, y organizaciones como AMA enfatizan validación ética. GPT-5 podría reducir desigualdades en acceso a cuidado médico, pero requiere colaboración humano-IA.

Casos Prácticos y Limitaciones

En VQA-RAD, GPT-5 respondió preguntas visuales sobre radiografías con 92% precisión, superando a GPT-4o. Limitaciones incluyen alucinaciones en casos raros y necesidad de datos diversos. Futuros estudios podrían incluir pruebas en entornos reales, como hospitales.

Conclusión

GPT-5 no solo supera a médicos, sino que redefine la IA en salud. Con puntuaciones récord en USMLE, invita a repensar la educación y práctica médica.

El futuro es colaborativo, donde la IA amplifica el conocimiento humano.

Definiciones

LLM (Large Language Model): Modelo de IA que procesa texto a gran escala para razonamiento.

Razonamiento Multimodal: Integración de texto, imágenes y datos para decisiones complejas.

USMLE: Examen de licencia médica de EE. UU. para evaluar competencias clínicas.

MedQA: Benchmark de preguntas médicas del USMLE.

VQA-RAD: Evaluación de preguntas visuales en radiología.

Relacionado

Etiquetado:GPT-5 supera médicos GPT-5 USMLE IA medical exam 2025 IA razonamiento multimodal OpenAI GPT-5 USMLE IA performance

GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025

Me gusta esto:

Relacionado

La inteligencia artificial descubre nuevas líneas en Nazca: 303 geoglifos ocultos revelados en Perú

Los 28 mejores prompts para usar Nano Banana de Google

Deja un comentarioCancelar respuesta

GPT-5 Supera a Humanos en Examen de Medicina USMLE 2025

Comparte esto:

Me gusta esto:

Relacionado

La inteligencia artificial descubre nuevas líneas en Nazca: 303 geoglifos ocultos revelados en Perú

Los 28 mejores prompts para usar Nano Banana de Google

Related Posts

Descubre 10 usos secretos del navegador con IA ChatGPT Atlas de O ...

IA en España: lo que Sam Altman advierte y cómo proteger tu traba ...

Ex Empleado de Yahoo Mata a su Madre Vinculado a ChatGPT

Deja un comentarioCancelar respuesta

Descubre más desde