Preguntar a la IA puede ser un riesgo para la salud
Responden con seguridad incluso cuando fallan. Y eso abre una pregunta clave: ¿cómo interpretan los usuarios esas respuestas y cuánto confÃan en ellas cuando se trata de salud?
Con los mismos sÃntomas, dos pacientes hacen consultas similares en ChatGPT. Un dolor de cabeza muy intenso aparece de forma repentina, probablemente la peor cefalea que han experimentado. Acompañado de náuseas y vómitos, pierden la conciencia por unos minutos. La rigidez en el cuello se manifiesta, junto con un malestar cervical. Después de un momento, es más difÃcil enfocar lo que está alrededor y la visión se torna nublada [1, 2].
En el primer caso, la sugerencia del chatbot es simple: recostarse a oscuras en una habitación. Sin embargo, el segundo advierte que debe dirigirse a urgencias. Dos consejos completamente opuestos pero, solo uno de ellos, el indicado. Se trata de las manifestaciones más comunes de una hemorragia subaracnoidea, una emergencia médica que requiere de atención inmediata. Sin tratamiento oportuno, el daño cerebral puede ser irreversible o, incluso, fatal [1, 2].
Esta escena ilustra uno de los hallazgos de un estudio publicado en Nature Medicine, que reunió a casi 1.300 participantes y analizó diez escenarios médicos para evaluar si los modelos de inteligencia artificial (IA) son capaces de identificar condiciones subyacentes y orientar adecuadamente a los pacientes. Algo que cobra relevancia considerando que el número de personas que recurren a ella en busca de información de salud no deja de crecer. Solo en Estados Unidos, uno de cada seis adultos realiza al menos una consulta de este tipo al mes [1].
Una confianza engañosa
Si bien los modelos son capaces de superar a profesionales médicos en exámenes de licenciatura —con una precisión superior al 95%— y de identificar correctamente condiciones a partir de escenarios escritos, al interactuar con personas reales su desempeño se desploma: solo en el 35% de los casos llegan al diagnóstico correcto [3]. Este fenómeno sugiere que el problema podrÃa estar relacionado con la interacción entre los usuarios y los algoritmos.
Otra investigación reciente publicada en BMJ puso a prueba cinco populares herramientas de IA —Gemini, DeepSeek, Meta AI, ChatGPT y Grok— con diez preguntas abiertas y cerradas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo. ¿El resultado? Casi la mitad de las respuestas fueron catalogadas como problemáticas. Entre ellas, un 30% se consideraron algo problemáticas y un 19,6% altamente problemáticas. Aunque la evidencia es preocupante, la certeza de los chatbots se mantuvo constante en cada conversación [4].
Cuando estos inventan información, se les denomina alucinaciones. En un estudio con 300 casos clÃnicos diseñados para detectarlas, la tasa promedio superó el 65%, con algunos modelos alcanzando el 83%. No solo fabrican detalles —referencias inexistentes, sÃndromes inventados y dosis incorrectas— sino que los presentan con la misma seguridad con que entregan datos reales [5].
De las 250 consultas formuladas en el estudio del BMJ, solo dos recibieron una negativa. Esta disposición a responder siempre —aunque sea mal— y la dificultad para admitir desconocimiento alimentan una falsa sensación de seguridad en quienes usan estas herramientas para autodiagnosticarse. El problema no es solo llegar al diagnóstico correcto. Es la desinformación, el riesgo que se subestima y el tratamiento que se retrasa [3, 4, 6].
Naturaleza de doble filo
La IA tiene el potencial de democratizar la atención en salud, revolucionar los procesos diagnósticos y apoyar el trabajo clÃnico diario. Pero su expansión ha ido más rápido que la evidencia sobre la precisión y validez del contenido que genera. A los errores e inexactitudes documentados se suma la tendencia a elogiar al usuario y priorizar respuestas que refuercen sus creencias por encima de la verdad. Por ello, su incorporación a la medicina requiere supervisión rigurosa [1, 4].
Es aquà donde los expertos clÃnicos juegan un rol clave. Su participación en el desarrollo de estos modelos es lo que podrÃa garantizar que funcionen como complemento al juicio médico y no como sustituto, con la seguridad del paciente y la fiabilidad de la información cientÃfica como prioridad [6]. A su vez, es fundamental promover el diseño de sistemas más adversos al riesgo, que ante la duda recomienden la consulta médica o la asistencia a los servicios de urgencia [1].
Avanzar en esa dirección podrÃa mejorar la fiabilidad de estos sistemas, reforzar la confianza pública y frenar la complacencia. Sobre todo en los ámbitos donde la desinformación ya es un problema y una respuesta incorrecta no es solo un error, sino un riesgo para la salud pública [4].
BibliografÃa:
[1] Bean, A. et al. (2026). Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine.
[2] Mayo Clinic. Subarachnoid hemorrhage. Recuperado de: https://www.mayoclinic.org/diseases-conditions/subarachnoid-hemorrhage/symptoms-causes/syc-20361009
[3] Salisbury, H. (2026). Helen Salisbury: AI medical chatbots—more hype than help. BMJ.
[4] Tiller, N. et al. (2026). Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. BJM Open.
[5] Omar, M. et al. (2025). Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support. Communications Medicine.
[6] Koga, S. (2024). The double-edged nature of ChatGPT in self-diagnosis. Springer Nature.
Por Dominique Vieillescazes Morán