ChatGPT superó el promedio de los estudiantes peruanos de medicina en la prueba ENAM
ChatGPT superó el promedio de los estudiantes peruanos de medicina en la prueba ENAM
/ Bing Image Creator

El Examen Nacional de Medicina (ENAM) es una prueba dirigida a los estudiantes de medicina que cursan el último año de su formación. Con ella se busca evaluar que los alumnos tengan los suficientes conocimientos en ciencias básicas, ciencias clínicas y en salud pública. Además, es un requisito obligatorio para que los postulantes puedan obtener su residentado. Se trata, por lo tanto, de un examen de vital importancia en la carrera de todo médico y exige una ardua preparación. Pero ¿sabías que la puede pasar la prueba con una calificación incluso mayor que la de los humanos?

Un equipo de investigadores se propuso evaluar el rendimiento de varias inteligencias artificiales generativas, incluyendo el popular chatbot ChatGPT desarrollado por OpenAI, en la resolución del ENAM, una prueba que ya se realizado en otros países. A principios de este año, ChatGPT logró

MIRA: Introducir datos personales en ChatGPT implica “perder control sobre ellos”, advierten expertos

Los resultados se en el ‘Journal of Medical Internet Research (JMIR)’. Al igual que sucedió en otras naciones, los resultados demostraron que estas IA no solo aprobaron la prueba, sino que en muchos casos superaron las expectativas con calificaciones destacadas.

Aunque los resultados específicos del ENAM no son de dominio público,. La investigación reveló que ChatGPT 4 logró aprobar con una precisión del 86%.

“ChatGPT supera los 17. Y sacar más 16 en el ENAM es un logro”, comenta a El Comercio Javier Flores Cohaila, docente investigador en educación médica de la Universidad Científica del Sur y autor principal del artículo.

Flores comenta que su interés por medir el desempeño de ChatGPT y otras IA generativas nació al querer replicar test hechos en otros países. “Vimos que [la IA] se estaba usando para dar el examen de licenciamiento de Estados Unidos, que es el USMLE STEP 1 y STEP 2, por lo que dijimos ‘¿por qué no hacerlo en Perú?’”.

No obstante, medir el desempeño de las IA no fue el único objetivo, también se buscó conocer “cuál es la mejor forma de integrarlas en el flujo de trabajo del médico”.

ChatGPT es el 'chatbot' impulsado con IA desarrollado por OpenAI.
ChatGPT es el 'chatbot' impulsado con IA desarrollado por OpenAI.

¿Cómo se hizo el estudio?

El estudio se basó en los datos del ENAM 2022, que constaba de 180 preguntas de opción múltiple. Se emplearon diversas indicaciones y se evaluó la precisión de las respuestas. La actuación de ChatGPT se comparó con la de una muestra de 1.025 examinados. Además, se analizaron diversos factores, como el tipo de pregunta, el conocimiento específico de Perú, la discriminación, la dificultad y la calidad de las preguntas y el tema, para determinar su impacto en las respuestas incorrectas.

MIRA: ¿Por qué Bill Gates cree que la IA permitirá tener una semana laboral de tres días?

Las preguntas que recibieron respuestas incorrectas fueron sometidas, posteriormente, a un proceso de tres pasos que incluyó diferentes indicaciones para explorar cómo la adición de roles y contexto podría afectar la precisión de ChatGPT.

Comparación de los promedios de las respuestas acertadas por GPT4 (156), BingAI (148), GPT3 (OpenAI), Bard (120) y Claude (118) con la del histórico de estudiantes peruanos (99). Un dato interesante es que BingAI fallaba menos en las preguntas que requerían conocimiento peruano, ya que tenía acceso a Internet.
Comparación de los promedios de las respuestas acertadas por GPT4 (156), BingAI (148), GPT3 (OpenAI), Bard (120) y Claude (118) con la del histórico de estudiantes peruanos (99). Un dato interesante es que BingAI fallaba menos en las preguntas que requerían conocimiento peruano, ya que tenía acceso a Internet.

Además del chatbot desarrollado por OpenAI –se usaron las versiones GPT 3.5 y GPT 4–, se evaluaron otras inteligencias artificiales como Google Bard, Bing AI y Cloude.

La investigación da como resultado que “ChatGPT 4, GPT 3.5 y BingAI superan con creces a los médicos peruanos en el Examen Nacional de Medicina; sin embargo, ser médico no es solo pasar un examen, ser médico implica tener una serie de competencias que nos permiten interactuar en un ambiente sumamente complejo.

En efecto, el estudio no tiene la intensión de demostrar alguna superioridad de la inteligencia artificial sobre el personal de salud humano, por el contrario, abraza la idea de que estas tecnologías podría utilizarse para ayudar en la educación médica y, potencialmente, en la toma de decisiones clínicas.

“Son una ayuda inmensa para los médicos, especialmente en situaciones en las que no tienen experiencia en todas las áreas, ya que el conocimiento médico es vasto. La disponibilidad de información por parte de estos chatbots puede ser utilizada como un recurso adicional para respaldar y complementar el expertise humano”.

El investigador respalda la noción de que la evaluación es una parte intrínseca del aprendizaje, sugiriendo que puede ser una extensión natural del mismo. Plantea la idea de que los estudiantes, al aprender a evaluar, pueden también crear preguntas y autoevaluarse. En este contexto, destaca el valor educativo de las respuestas generadas por inteligencias artificiales como GPT-4 y Bard, al proporcionar conocimientos fundamentales para los estudiantes de medicina.

En el estudio, tres docentes evaluaron positivamente las respuestas de estas inteligencias artificiales y expresaron su disposición a incorporar este enfoque en sus clases, llevando al autor a considerar el uso de estas guías como una ventaja más que un riesgo.

El potencial de la IA generativa en la medicina

La IA generativa tiene mucho que aportar a la educación médica y en la toma de decisiones clínicas.
La IA generativa tiene mucho que aportar a la educación médica y en la toma de decisiones clínicas.

Por otro lado, Álvaro Taype Rondán, investigador de la Universidad San Ignacio de Loyola y coautor del estudio, ve la inteligencia artificial como una puerta llena de posibilidades. Destaca también que ChatGPT ofrece respuestas bastante fiables a preguntas específicas del ámbito de la salud, lo que abre la posibilidad de su aplicación tanto en la educación médica como en el apoyo a profesionales de la salud.

“En el área de educación médica puede ayudarnos desde lo más simple, que es intentar diseñar exámenes o métodos de evaluación, hasta opciones más complejas, como ir identificando en qué nivel se encuentra algún estudiante, y qué es lo que más le hace falta, en cuanto a competencias, para poder adquirirlo lo mínimo que se espera”.

Pero ChatGPT no solo puede aprovecharse en el campo de la educación, también puede ser una herramienta para los profesionales en el ejercicio de su profesión.

“Ha habido algunos estudios, pequeños aún, pero que nos han hecho reflexionar, ya que han intentado comparar la clase de comunicación que da ChaGPT a los pacientes en comparación con la de los profesionales de la salud. Se ha observado que la IA puede tener ciertas ventajas para resolver dudas de la población. Esto abre la posibilidad de que ChatGPT pueda, no sustituir, pero sí ser un apoyo para el médico, para cuando tenga que responder dudas de los pacientes o incluso tener otra opinión sobre los diagnósticos y los tratamientos que se están dando”, menciona a este Diario Taype.

Algunos han hallado que la IA en ocasiones puede brindar respuestas a interrogantes de pacientes más significativas en calidad y empatía que la de los médicos humanos. En ese sentido estas herramientas tecnológicas podrían brindar un tipo de asistencia que, en vez de ser contraproducente, alivianaría la carga del médico.

Todo parece indicar que en un futuro no tan lejano la inteligencia artificial empezaría a tomar un rol más activo en el ambiente médico, esperemos que siempre sea en beneficio de la salud de la población. Taype si bien reconoce el potencial de la IA, es consciente de que en nuestro país previamente hay grandes retos que superar.

“Hay muchos problemas. Desde resistencia de los mismos profesionales hasta una precariedad laboral en algunos lugares, lo que no deja este espacio, este respiro para innovaciones. Entonces, por lo menos desde el sector público, las mejoras que sí las hay poco a pocono se dan tan rápidamente”, reflexiona el investigador de la ISIL.

Contenido sugerido

Contenido GEC