¿Confiar en la IA para diagnosticar tu salud?
Leonardo Villa Rodriguez C.E.O Consultores Tecnológicos
La inteligencia artificial se ha convertido en una herramienta que muchas personas consultan para casi todo, incluso para temas de salud. Sin embargo, un estudio reciente de la Universidad de Oxford advierte que usar herramientas como ChatGPT para evaluar síntomas médicos puede ser más riesgoso de lo que parece.
La investigación fue publicada en la revista científica Nature Medicine y analizó qué tan efectivas son estas plataformas cuando las personas las utilizan para describir síntomas y buscar orientación médica.
La conclusión es clara: la inteligencia artificial todavía no puede reemplazar la evaluación de un profesional de la salud, especialmente cuando se trata de detectar casos urgentes.
¿Qué analizó exactamente el estudio?
El trabajo fue dirigido por el Oxford Internet Institute junto con el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, en colaboración con MLCommons y otras instituciones.
Los investigadores querían entender tres cosas principales:
- Quiénes usan estas herramientas.
- Cómo interactúan con ellas.
- Qué tan acertadas son frente a métodos tradicionales.
Uno de los hallazgos más importantes fue que existe una gran diferencia entre el rendimiento de los modelos de lenguaje en exámenes técnicos de conocimiento médico y su desempeño cuando interactúan con personas reales que describen síntomas personales.
Es decir, pueden obtener puntajes altos en pruebas estandarizadas, pero eso no significa que funcionen igual de bien en situaciones reales.
Cómo se realizó el experimento
El estudio incluyó un ensayo aleatorio en línea con casi 1.300 participantes, todos médicos. A cada uno se le presentaron distintos escenarios clínicos, como por ejemplo:
- Un joven con fuerte dolor de cabeza después de una salida nocturna.
- Una madre primeriza con sensación persistente de falta de aire y agotamiento.
A los participantes se les pidió:
- Identificar posibles afecciones de salud.
- Proponer una medida de acción adecuada.
Un grupo utilizó una herramienta de inteligencia artificial para tomar decisiones. El otro grupo recurrió a métodos tradicionales, como búsquedas en internet o su propio criterio profesional.
Cuando compararon los resultados, los investigadores encontraron que quienes usaron modelos de lenguaje no tomaron mejores decisiones que quienes utilizaron métodos tradicionales. Incluso en algunos casos, la IA no logró detectar situaciones que requerían atención urgente.
Principales riesgos detectados
Según el informe, entre los riesgos más preocupantes están:
- Diagnósticos incorrectos.
- Falta de reconocimiento de casos graves o urgentes.
- Recomendaciones mezcladas (algunas correctas y otras equivocadas).
- Dificultad del usuario para explicar adecuadamente sus síntomas.
En otras palabras, el problema no solo está en la tecnología, sino también en la interacción. Muchas personas no saben qué información dar ni cómo describir correctamente lo que sienten, y eso puede afectar la calidad de la respuesta.
La advertencia de los expertos
La Dra. Rebecca Payne, médica de cabecera y una de las responsables del estudio, fue clara al afirmar que, a pesar de todo el entusiasmo que existe alrededor de la inteligencia artificial, está todavía no está lista para asumir el rol de un médico.
Advirtió que consultar síntomas con un modelo de lenguaje puede ser peligroso si la persona confía plenamente en la respuesta y no busca ayuda profesional cuando realmente la necesita.
Por su parte, Andrew Bean, autor principal del estudio, explicó que diseñar pruebas más realistas para estos sistemas es fundamental para entender sus verdaderas capacidades.
Señaló que interactuar con personas reales es mucho más complejo que responder exámenes técnicos.
El profesor Adam Mahdi también destacó que no se puede evaluar la seguridad de estos sistemas únicamente con pruebas estandarizadas. Según él, al igual que ocurre con los medicamentos, los sistemas de inteligencia artificial deberían someterse a pruebas rigurosas en entornos reales antes de adoptarse de manera masiva, especialmente en áreas de alto riesgo como la salud.
¿Qué concluye la investigación?
El estudio concluye que los mecanismos actuales para evaluar inteligencia artificial no reflejan la complejidad de la vida real.
Las pruebas técnicas pueden mostrar buenos resultados, pero eso no garantiza que el sistema funcione correctamente cuando una persona describe síntomas reales, con matices, emociones y detalles incompletos.
Por eso, los investigadores proponen que estos sistemas sean evaluados en contextos reales antes de su implementación generalizada, de forma similar a los ensayos clínicos que se realizan con nuevos medicamentos.
Conclusión final
La inteligencia artificial puede ser una herramienta útil para obtener información general, pero cuando se trata de salud, todavía no reemplaza el criterio clínico ni la experiencia de un profesional.
Este estudio deja claro que, aunque la tecnología avance rápidamente, confiar exclusivamente en ella para tomar decisiones médicas puede implicar riesgos importantes, especialmente si no se detectan a tiempo situaciones que requieren atención urgente.